超过150万历史报纸图片现在发现与报纸导航员在线
(2020年9月15日)公众现在可以在网上免费浏览150多万份历史报纸图片。来自国会图书馆实验室的最新机器学习体验,报纸导航器允许用户搜索1789-1963年美国报纸上的视觉内容。
用户首先输入一个返回所选照片的关键字。然后,用户可以选择搜索的照片,从而发现之前搜索引擎无法检测到的相关图片。
几十年来,美国各地的合作伙伴通过图书馆合作,将报纸数字化记载了美国该网站是美国历史报纸的数据库。通过字符识别技术,可以搜索报纸的文本,但需要搜索特定图片的用户需要浏览个别报纸。通过住宅创新者本杰明·李(Benjamin Lee)的创意和机器学习的进步,报纸导航现在可以通过用户通过视觉相似性搜索报纸中的图像。
为了创建“报纸领航员”,李训练计算机算法对1600万份“美国编年”报纸页面进行分类,以寻找照片、插图、地图、漫画、漫画、标题和广告。Lee开创性项目的想法始于2017年“寓所创新者”Tong Wang所称的图书馆众包实验无法用语言表达该网站邀请公众帮助识别一战时期报纸上的漫画、插图、照片和广告。用户可以在页面上的视觉内容周围画框,抄写标题或查看其他用户的抄写。
“当我第一次遇到Beyond Words的时候,我被志愿者识别出的数千张照片、插图、漫画和地图迷住了。我开始怀疑,这些识别出来的视觉内容是否是使用机器学习打开《美国编年记》1600万页视觉内容宝库的关键。”他向图书馆提出申请创新者住校程序来找出答案。
虽然图像搜索技术对科技公司来说并不新鲜,但《报纸导航员》将文化遗产与计算机科学结合在了一起。用户将看到如何训练算法在数秒内扫描数百万条数据的实时演示。项目中使用的所有代码都是开源的,并放置在公共领域,以便无限制地重用。数据集代码可以在github.com/LibraryOfCongress/newspaper-navigator.
宾夕法尼亚州立大学(Penn State University)非裔美国人研究助理教授吉姆·凯西(Jim Casey)是《报纸导航员》测试小组的一员,他说:“在我撰写美国早期编辑史的过程中,《报纸导航员》将成为描绘新闻界视觉文化的宝贵工具。”“它为我们提供了大量关于编辑(幕后)工作的线索,以打造历史初稿的外观和感觉。本·李在LC实验室的工作是计算机如何帮助我们以新的和意想不到的方式理解我们的文化遗产的第一流的例子。我预计报纸导航平台将开辟许多新的研究领域,因为它允许我们提出新的问题。”
图书馆与美国国家人文基金会(National Endowment for The Humanities)的长期合作创建了“国家数字报纸计划”(National Digital Newspaper Program),推出《美国编年史》(chronicle America)。
美国国家人文基金会的Molly O 'Hagan Hardy说:“《报纸导航员》为阅读美国编年史提供了一个全新的视角。”“印刷报纸页面上的图像和文字相互作用,为过去和现在的读者构建意义,而当我们的搜索完全依赖书面文本时,我们错过了一半的意义创造。”
哈代说,“报纸导航员”将使读者更容易获得大量的收藏,并能从历史报纸中发现新发现。
国会图书馆(Library of Congress)数字战略主管凯特·茨瓦德(Kate Zwaard)说:“《报纸导航员》激励我的地方在于,它只有通过几十年的集体愿景和创新才能实现。”本的创造性工作建立在其他开源软件项目、美国各地图书馆和档案馆扫描的《编年美国》的开放数据以及Beyond Words用户的共同贡献之上。它让我们看到了共享信息和技术的指数效应。”
通过实验、研究和合作,LC实验室致力于实现图书馆的愿景,即通过实现图书馆的数字战略,“所有美国人都与国会图书馆相连”。LC实验室是国会图书馆驻馆创新者项目的所在地;培养了机器学习实验,并将收集的数据用作数据;并孵化了图书馆广受欢迎的“人民转录”项目。了解更多信息并订阅LC实验室的每月通讯labs.loc.gov.
国会图书馆是世界上最大的图书馆,提供美国的创作记录以及来自世界各地的大量资料的现场和在线访问。它是美国国会的主要研究机构,也是美国版权局的所在地。探索收藏,参考服务和其他项目,并计划访问loc.gov;访问美国联邦立法信息的官方网站congress.gov;并将原创作品登记于copyright.gov.
原新闻稿是在这里.