您现在的位置是: 首页 > 创业创新 >

弥合人机视觉之间的鸿沟

假设您从几英尺远的地方短暂看过一个从未见过的人。退后几步,再看一次。你能认出她的脸吗?“是的,当然。”您可能在想。如果这是真的,那么这意味着我们的视觉系统在看到物体(例如特定面部)的单个图像后,即使改变了物体的位置和比例,也能可靠地识别它。另一方面,我们知道最先进的分类器(例如香草深层网络)将无法通过此简单测试。
 弥合人机视觉之间的鸿沟

为了识别一系列变换下的特定人脸,需要使用在不同条件下的许多人脸示例来训练神经网络。换句话说,它们可以通过记忆实现不变性,但是如果只有一张图像可用则无法做到这一点。因此,了解人类的视觉如何实现这一非凡的成就与旨在改进其现有分类器的工程师相关。对于神经科学家用深度网络对灵长类动物视觉系统进行建模也很重要。尤其是,生物视觉所展现的一键式学习的不变性可能需要与深度网络相比完全不同的计算策略。

麻省理工学院电气工程与计算机科学博士学位的候选人Yena Han及其同事在《自然科学报告》中发表了一篇题为“人类视觉中新对象的尺度和平移不变性”的新论文,讨论了他们如何更仔细地研究这种现象以创建新颖的,受生物启发的网络。

“与深度网络不同,人类可以从很少的例子中学到东西。这是一个巨大的差异,对视觉系统的工程设计和理解人类视觉的真正工作方式具有巨大的影响,”合著者Tomaso Poggio(大脑中心主任)说,思维与机器(CBMM)和麻省理工学院Eugene McDermott脑与认知科学教授。“造成这种差异的一个关键原因是灵长类动物视觉系统在缩放,移动和其他变换方面的相对不变性。奇怪的是,在AI社区中,这一点大多被忽略了,部分原因是心理物理数据远比清晰的少。汉的工作现在已经建立了对人类视觉基本不变性的可靠测量。”

为了区分固有计算中的不变性与经验和记忆中的不变性,新的研究测量了一次学习中不变性的范围。通过向不熟悉该语言的人类对象呈现韩语字母刺激来执行一次学习任务。这些字母最初是在一种特定条件下单次提交的,并在与原始条件不同的比例或位置上进行了测试。第一个实验结果是-正如您所猜想的,仅一次接触这些新颖的物体,人类就显示出显着的尺度不变性识别。第二个结果是位置不变的范围受到限制,具体取决于对象的大小和位置。

接下来,Han和她的同事们在旨在再现这种人类表现的深度神经网络中进行了可比的实验。结果表明,为解释人类对物体的不变识别,神经网络模型应明确纳入内置的尺度不变性。此外,通过使模型神经元的接受域随着距离视野中心的增加而增加,可以更好地在网络中复制有限的人类视觉位置不变性。该体系结构与常用的神经网络模型不同,后者使用相同的共享滤镜以统一的分辨率处理图像。

“我们的工作提供了对不同观点下对象的大脑表示的新理解。CBMM研究人员,该研究的主要作者Han表示:“这也对AI产生了影响,因为研究结果为深度神经网络的良好架构设计提供了新的见解。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
Top