(2019年9月5日)互联网上充斥着数以亿计的图片,帮助娱乐和向世界提供无数不同主题的信息。然而,有视觉障碍的人或网速慢的人无法访问这些视觉信息,因为网速慢导致无法加载图像。
图片标题,由网站作者使用Alt-text HTML手动添加,是一种使内容更容易访问的方法,这样图像的自然语言描述可以使用文本到语音系统。然而,现有的人工编辑的Alt-text HTML字段仅为很小一部分web图像添加。虽然自动图像字幕可以帮助解决这个问题,但准确的图像字幕是一项具有挑战性的任务,需要提高计算机视觉和自然语言处理的技术水平。
今天谷歌推出了概念标题,这是一个新的数据集,由大约330万幅图像/标题对组成,这些图像/标题对是通过从数十亿个网页中自动提取和过滤图像标题注释创建的。在ACL 2018上发表的一篇论文中介绍了概念标题,它代表了在人类策划的MS-COCO数据集上标题图像的一个数量级增加。根据人工评分者的测量,机器策划的概念字幕的准确率约为90%。此外,由于概念标题中的图像是从网络上提取的,因此它比以前的数据集代表了更广泛的图像标题样式,允许更好地训练图像标题模型。为了跟踪图像字幕的进展,我们还宣布了概念字幕挑战,让机器学习社区在概念字幕测试平台上训练和评估他们自己的图像字幕模型。
谷歌博客拥有所有细节.