招标网服务号 微信公众平台
招标网APP 中招APP下载

微信扫码添加在线客服,描述您的问题。

二维码 关闭
麻省理工学院创建新型对象识别数据集颠覆最好机器视觉模型

计算机视觉模型可以准确地识别照片中的对象,在某些数据集上的表现优于人类。但当那些相同的物体检测器变得不灵敏时,它们的性能会明显下降,那么自动驾驶汽车和其他使用机器视觉的系统具备的可靠性引人担忧。


麻省理工学院创建新型对象识别数据集 颠覆最好机器视觉模型


为了弥补这种性能差距,麻省理工学院和IBM研究人员组成的团队着手创建一种基于ImageNet不同的对象识别数据集,被称为ObjectNet,ImageNet是众包的照片数据库,负责引发现代人工智能的繁荣。


与ImageNet具有从Flickr和其他社交媒体网站拍摄的照片不同,ObjectNet拥有由付费自由职业者拍摄的照片。网站上的对象是侧面倾斜的,以奇数角度拍摄,并显示在杂乱的房间中。当在ObjectNet上测试领先的对象检测模型时,其准确率从ImageNet上的97%的高位下降到50-55%。


麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究科学家鲍里斯·卡茨(Boris Katz)说:“我们创建了这个数据集来告诉人们对象识别问题仍然是一个难题。我们需要更好更智能的算法。” Katz和他的同事将在神经信息处理系统会议(NeurIPS)上介绍ObjectNet及其结果。


深度学习是推动AI最新发展的技术,它利用人工“神经元”层在大量原始数据中查找模式。在训练了数千个示例之后,它学会在照片中挑选椅子。即使具有数百万个图像的数据集也无法以每个可能的方向和设置显示每个对象,这在模型在现实生活中遇到这些对象时也会造成问题。


ObjectNet与常规图像数据集不同:它不包含训练图像。大多数数据集都分为训练模型和测试其性能的数据。但是训练集通常与测试集有着细微的相似之处,实际上使模型在测试时达到了潜行高峰。


麻省理工学院创建新型对象识别数据集 颠覆最好机器视觉模型


乍看之下,拥有 1400万张图像的ImageNet看起来是巨大的。如果不包括训练集,则其大小可与ObjectNet媲美(50,000张照片)。


研究合著者CSAIL和CBMM的研究作者Andrei Barbu说:“如果我们想知道算法在现实世界中的表现如何,我们应该在无偏见且从未被训练过的图像上对其进行测试。” 。


试图捕获现实世界对象的复杂性的数据集


重点是很少有人会考虑与他们的朋友分享ObjectNet的照片。研究人员从Amazon Mechanical Turk聘请了自由职业者,为数百张随机摆放的家用物品拍照。工人们在应用程序上收到了照片分配,并带有动画说明,告诉他们如何定向分配的对象,从哪个角度拍摄以及将对象摆放在厨房,浴室,卧室或客厅的不同位置。


他们希望可以消除三个常见的方面:正面朝上,在标志性位置和高度相关的设置中显示的对象,例如厨房中堆叠的盘子。


花费三年时间来构思数据集并设计一个可标准化数据收集过程的应用程序。麻省理工学院电气工程和计算机科学系研究生David Mayo说:“发现如何控制各种偏差收集数据是非常棘手的。还必须进行实验,以确保我们的指示清晰明了,并确保工人确切理解要求。”


又花了一年的时间收集实际数据,最后由于不符合研究人员的要求,全部自由职业者提交的照片中有一半被丢弃了。为了提供帮助,一些工人在他们的物体上添加了标签,将它们放在白色背景上,或者试图改善分配给他们拍摄的照片的美观性。


许多照片是在美国以外的地区拍摄的,所以有些物体可能看起来很陌生。成熟的橘子是绿色的,香蕉的大小不同,衣服的形状和质地也各不相同。


麻省理工学院创建新型对象识别数据集 颠覆最好机器视觉模型


Object Net与ImageNet:领先的对象识别模型的比较


当研究人员在ObjectNet上测试最新的计算机视觉模型时,他们发现ImageNet的性能下降了40-45个百分点。结果表明,物体检测器仍然难以理解物体是三维的并且可以旋转并移动到新的环境中。IBM研究人员Dan Gutfreund说:“这些概念并未内置在现代物体检测器的体系结构中。”


为了证明ObjectNet很难精确地归因于如何查看和定位对象,研究人员允许模型训练ObjectNet数据的一半,然后再对其余一半进行测试。在同一数据集上进行训练和测试通常可以提高性能,但此处的模型仅稍有改善,这表明对象检测器尚未完全理解现实世界中对象的存在方式。


自2012年以来,计算机视觉模型已逐步得到改善,当时称为AlexNet的物体检测器在年度ImageNet竞赛中击败了比赛。随着数据集变得越来越大,性能也得到了提高。


但是研究人员说,设计更大版本的ObjectNet增加视角和方向并不一定会带来更好的结果。ObjectNet的目的是激励研究人员提出下一波革命性技术,就像ImageNet挑战最初的启动一样。


卡兹说:“人们为这些探测器提供了大量数据但是得到的成果却在减少。您不能从任何角度和每种情况下查看一个对象。我们希望这个新的数据集将产生强大的计算机视觉,而不会在现实世界中造成令人惊讶的故障。”


投诉侵权

上一页: 辽宁省2009年度医疗机构药品集中采购实施方案(征求意见稿)

下一页: 2021年保险业:监管继续补短板 人身险业值得期待