您现在的位置是: 首页 > 创业创新 >

时间越长照片中的内容会改变

乍一看,引起您注意的内容可能会随着仔细观察而发生变化。那头穿着红色墙纸的大象最初可能会吸引您的眼球,直到您的目光移向客厅沙发上的那个女人,并且令人惊讶地意识到这对夫妇似乎在一起共享了一个安静的时刻。

在本周虚拟计算机视觉和模式识别会议上进行的一项研究中,研究人员表明,我们注视图像的时间越长,我们的注意力就会以独特的方式移动,并且这些观看模式可以由人工智能模型复制。这项工作提出了改善视觉内容取笑并最终在线显示的直接方法。例如,自动裁剪工具可能会放大大象以进行缩略图预览,或者缩小以包含有趣的细节,一旦读者单击故事,这些细节就会变得可见。
 时间越长照片中的内容会改变

该研究的主要作者,麻省理工学院的硕士生Anelise Newman说:“在现实世界中,我们观察周围的场景,注意力也随之移动。”“随着时间的流逝,引起我们兴趣的因素是多种多样的。”该研究的主要作者是Zoya Bylinskii博士。'18,Adobe Research的研究科学家,麻省理工学院MIT智囊团联合主任,麻省理工学院Compute的高级研究科学家Aude Oliva

研究人员对显着性以及人类如何看待图像的了解来自于实验,在实验中为参与者显示了固定时间段的图像。但是在现实世界中,人们的注意力通常会突然转移。为了模拟这种可变性,研究人员使用了一个称为CodeCharts的众包用户界面,通过一组在线实验,以三个持续时间(半秒,三秒和五秒)向参与者显示照片。

当图像消失时,要求参与者通过在与图像相对应的网格地图上键入三位数的代码来报告他们最近看过的地方。最终,研究人员能够收集热图,以了解参与者在给定图像中的不同时间集体集中视线的位置。

每隔一秒钟,观众就将注意力集中在面部或视觉上占主导地位的动物或物体上。三秒钟后,他们的目光转移到了以行动为导向的功能上,例如,用狗链牵引,射箭目标或空中飞盘。五秒钟后,他们的视线要么回飞镖般回落到主要对象上,要么就停留在暗示性的细节上。

该研究的另一位主要作者卡米洛·福斯科(Camilo Fosco)博士说:“我们对这些观看模式在不同持续时间的一致性感到惊讶。”麻省理工学院的学生。

掌握了真实的数据后,研究人员接下来训练了深度学习模型,以预测在不同的观看时间段内从未见过的图像的焦点。为了减小模型的大小,他们包括一个递归模块,该模块可处理输入图像的压缩表示形式,模仿人类注视在不同持续时间探索图像时的情况。经过测试后,他们的模型在预测观看期间的显着性方面胜过了现有技术。

该模型具有潜在的应用程序,可用于编辑和渲染压缩图像,甚至提高自动图像字幕的准确性。除了指导编辑工具在较短或更长的观看时间范围内裁剪图像外,它还可以优先考虑优先为观看者呈现压缩图像中的哪些元素。通过清除场景中的视觉混乱,它可以提高当前照片捕获技术的整体准确性。它还可以为仅用于瞬间查看的图像生成字幕。

Bylinskii说:“您认为最重要的内容取决于您必须看的时间。”“如果一次看到完整的图像,则可能没有时间吸收全部图像。”

随着越来越多的图像和视频在网上共享,对寻找和理解相关内容的更好工具的需求正在增长。关于人类注意力的研究为技术人员提供了见识。就像配备计算机和配备摄像头的手机有助于造成数据过载一样,它们还为研究人员提供了新的平台,以研究人类的注意力并设计更好的工具来帮助我们消除噪音。

在ACM计算机系统人为因素会议上接受的一项相关研究中,研究人员概述了包括CodeCharts在内的四个基于Web的用户界面在大规模收集人类注意力数据方面的相对优势。这四种工具都可以吸引人们的注意力,而无需依靠实验室中传统的眼动追踪硬件,它们可以像CodeCharts一样收集自我报告的凝视数据,也可以记录对象单击鼠标或放大图像的位置。

该研究的主要作者纽曼说:“没有一种适合所有人的适用于所有用例的接口,我们的论文着眼于消除这些折衷。

通过更快,更便宜地收集人类注意力数据,这些平台可能有助于产生有关人类视觉和认知的新知识。Oliva说:“我们对人类如何看待和理解世界的了解越多,我们就可以将这些见解融入我们的AI工具中,从而使它们变得更加有用。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
Top