您现在的位置是: 首页 > 创业创新 >

双8位突破使人工智能脱颖而出

  • 2020-02-29 16:19:29    来源:   作者:

本周,在国际电子设备会议(IEDM)和神经信息处理系统会议(NeurIPS)上,IBM研究人员将展示将使AI超越以往的新硬件:从边缘到边缘。我们针对数字和模拟AI芯片的新颖方法提高了速度,并在不牺牲准确性的情况下大幅降低了深度学习的能源需求。在数字方面,我们正在为AI培训建立新的行业标准奠定基础,该方法可实现八位精度的完全准确性,在当今系统上将培训时间缩短了2-4倍。在模拟方面,我们报告了一种模拟芯片的八位精度,这是迄今为止最高的精度,与以前的模拟芯片相比,精度大约提高了一倍,而能耗却比类似精度的数字架构少33倍。

双8位突破使人工智能脱颖而出

进入后GPU时代

自2009年首次采用GPU来加速深度学习以来,软件和AI硬件的创新很大程度上推动了AI的计算性能每年提高2.5倍。但是,我们正在达到GPU和软件可以做什么的极限。为了解决我们最棘手的问题,硬件需要扩大规模。下一代AI应用程序将需要更快的响应时间,更大的AI工作负载以及来自众多流的多模式数据。为了释放AI的全部潜能,我们正在考虑AI重新设计硬件:从加速器到用于AI工作负载的专用硬件(例如我们的新芯片),最终是用于AI的量子计算。使用新的硬件解决方案扩展AI是IBM Research所做的更大努力的一部分,它从通常用于解决特定的,定义明确的任务的狭窄AI过渡到跨学科的广泛AI,以帮助人类解决最紧迫的问题。

精度降低的数字AI加速器

IBM Research在一篇具有里程碑意义的论文中推出了降低精度的AI模型训练和推理方法,该论文描述了一种新的数据流方法,该方法适用于常规CMOS技术,可通过显着降低数据和计算的位精度来改造硬件平台。首次展示了以16位精度训练的模型,与以32位精度训练的模型相比,其精度没有任何损失。在随后的几年中,降低精度的方法很快被采用为行业标准,如今16位训练和8位推理已变得司空见惯,并激起了初创公司和风险投资的热潮,以减少基于精度的数字AI芯片。

双8位突破使人工智能脱颖而出AI培训的下一个行业标准

降低精度训练的下一个重要里程碑将在NeurIPS上发表,题目为“使用八位浮点数训练深度神经网络”(作者:王乃刚,崔荣郁,Daniel Brand,陈家瑜,Kailash Gopalakrishnan )。在本文中,已经提出了许多新思路来克服以前的挑战(以及正统学说),这些挑战将训练精度降低到16位以下。使用这些新提出的方法,我们首次展示了以八位精度训练深度学习模型的能力,同时完全保留了所有主要AI数据集类别(图像,语音和文本)的模型准确性。与当今的16位系统相比,该技术将深度神经网络(DNN)的训练时间缩短了2-4倍。尽管以前认为不可能进一步降低培训的精度,但我们希望这个八位培训平台将在未来几年内成为广泛采用的行业标准。

降低位精度是一项有望为更高效的大规模机器学习平台做出贡献的策略,这些结果标志着在扩展AI方面迈出了重要的一步。将这种方法与定制的数据流体系结构相结合,可以使用单芯片体系结构跨各种大小的工作负载和网络有效地执行训练和推理。这种方法还可以容纳关键的广泛AI功能所需的“小批量”数据,而不会影响性能。以八位精度实现所有这些功能以进行培训,也为边缘化高能效的广泛AI领域打开了大门。

用于内存计算的模拟芯片

由于其低功耗要求,高能效和高可靠性,模拟技术很自然地适用于边缘AI。模拟加速器将为AI硬件加速提供路线图,超越传统数字方法的限制。但是,尽管数字AI硬件正争相降低精度,但迄今为止,模拟量一直受到其相对较低的固有精度的限制,从而影响了模型精度。我们开发了一种新技术来对此进行补偿,从而为模拟芯片实现了最高的精度。我们在IEDM上发表的论文,“具有预测相变存储器的8位精密内存乘法”(作者:Iason Giannopoulos,Abu Sebastian,Manuel Le Gallo,VP Jonnalagadda,M.Sousa,MN Boon,Evangelos Eleftheriou)

降低能耗的关键是改变计算架构。使用当今的计算硬件,必须将数据从内存移动到处理器以用于计算,这需要大量时间和精力。另一种选择是内存计算,其中内存单元作为处理器发挥作用,有效地完成了存储和计算的双重任务。这样就避免了在存储器和处理器之间穿梭数据的需要,从而节省了时间并减少了90%或更多的能源需求。

相变存储器

我们的设备使用相变存储器(PCM)进行内存中计算。PCM在其物理状态下沿非晶态和结晶态之间的梯度记录突触权重。材料的电导随其物理状态而变化,可以使用电脉冲进行修改。这就是PCM能够执行计算的方式。因为状态可以沿着零到一之间的连续体在任何地方,所以它被认为是模拟值,而不是数字值,后者是零或一,两者之间什么也没有。

双8位突破使人工智能脱颖而出

我们通过一种称为投影PCM(Proj-PCM)的新方法提高了PCM存储的砝码的精度和稳定性,其中,我们在与相变段平行的位置插入了一个非绝缘的投影段。在写入过程中,投影段对设备的操作影响最小。然而,在读取期间,编程状态的电导值主要由投影段确定,这明显不受电导变化的影响。这使得Proj-PCM设备可以实现比以前的PCM设备更高的精度。

我们的研究团队提高了精度,这表明内存计算可以在低功耗环境(例如IoT和边缘应用程序)中实现高性能深度学习。与我们的数字加速器一样,我们的模拟芯片旨在针对视觉,语音和文本数据集的AI 训练和推理进行扩展,并扩展到新兴的广泛AI。我们将整周在NeurIPS上演示以前发布的PCM芯片,并使用它通过云实时对手写数字进行分类。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
Top