(2018年7月20日,美国华盛顿贝灵汉和英国卡迪夫)今天发表在医学影像杂志-“deepplesion:自动挖掘大规模病变注释和基于深度学习的通用病变检测”——宣布向公众开放最大的CT病变图像数据库。这些数据是机器学习算法训练集的基础;到目前为止,对于深度学习方法的发展至关重要的大规模标注放射图像数据集还没有公开可用。
DeepLesion由美国国立卫生研究院临床中心的一个团队开发,是通过从他们自己的图片存档和通信系统中挖掘历史医学数据开发的。这个新的数据集有巨大的潜力来启动计算机辅助检测(CADe)和诊断(CADx)领域。
数据库包括多种病变类型,包括肾脏病变、骨骼病变、肺结节和肿大的淋巴结。迄今为止,缺乏多类别病变数据一直是开发更通用的能够检测多种病变类型的CADe框架的主要障碍。一个多类别的病变数据集甚至可以使CADx系统的发展成为自动化放射诊断的可能。
这个数据库是用注释——“书签”——从图像档案中对医学图像的临床有意义的发现建立起来的。在分析了这些书签的特征之后——它们采用不同的形式,包括箭头、线条、省略号、分段和文本——团队收集并分类了这些书签,以创建DeepLesion数据库。
计算机视觉领域可以访问包含数百万张图像的健壮的ImageNet3数据集,而医学成像领域无法访问相同数量的数据。大多数公开可用的医学图像数据集只包含几十或数百个病例。DeepLesion数据集从超过10,000个案例研究中获得了超过32,000个注释病灶,是目前最大的公共可用医学图像数据集。
“我们希望该数据集将使医学成像领域受益,就像ImageNet使计算机视觉领域受益一样,”该论文的第一作者、资深作者罗纳德·萨默斯(Ronald Summers, MD, PhD)实验室的博士后研究员柯燕(Ke Yan)说。
除了建立数据库,该团队还开发了基于数据库的通用病变检测器。研究人员指出,对放射科医生来说,病灶检测是一项耗时的任务,但却是诊断的关键部分。该探测器将来可能作为放射科医师或其他专业CADe系统的初始筛选工具。
除了病变检测,DeepLesion数据库还可以用于对病变进行分类,根据查询字符串检索病变,或者根据数据库中已有的模式预测新病例中的病变生长。该数据库可从以下网址下载https://nihcc.box.com/v/DeepLesion.