您现在的位置是: 首页 > 人工智能 >

谷歌开放源码ALBERT自然语言模型

  • 2020-01-25 17:45:49    来源:   作者:
  谷歌AI拥有开源的A Lite Bert(ALBERT),这是一种深度学习的自然语言处理(NLP)模型,使用的参数比最先进的BERT模型少89%,准确性几乎没有损失。该模型也可以扩大,以实现新的最先进的性能在NLP基准。

  研究小组在将提交给国际学习代表大会的一份文件中介绍了该模型。ALBERT使用两种优化方法来减少模型的大小:嵌入层的分解和网络隐藏层的参数共享。将这两种方法结合起来,得到了一个只有12M参数的基线模型,与BERT的108M相比,在几个NLP基准上达到了80.1%的平均精度,而BERT的平均精度为82.3%。该小组还培训了一个具有235M参数的“双超大”ALBERT模型,该模型在基准方面的表现优于具有334M参数的“大”BERT模型。

  最先进的NLP模型的最新进展来自使用“自我监督”技术对大量未标记文本数据进行预培训的大型模型。然而,这些模型的大尺寸,有数亿个参数,给实验带来了障碍。不仅训练时间和成本随着模型的大小而增加,而且在某种程度上,模型太大,无法训练;它们不能适应训练计算机的内存。虽然有解决这一问题的技术,谷歌人工智能团队已经确定了在不牺牲准确性的情况下减少模型大小的方法。有了较小的模型,研究人员可以更好地探索模型的超参数空间:

  为了改进NLP的这种新方法,人们必须了解什么才能促进语言理解性能-网络的高度(即层数)、它的宽度(隐藏层表示的大小)、自我监督的学习标准,还是完全其他的东西?

  在ALBERT的优化中,第一个是单词嵌入的因式分解。与BERT和许多其他深度学习NLP模型一样,ALBERT是基于Transformer体系结构的..该模型的第一步是将单词转换为数字“一热”向量表示。然后将一个热向量投影到嵌入空间中。变压器的一个限制是嵌入空间必须具有与隐藏层的大小相同的尺寸。将大小为V的词汇表投影到维度E的嵌入中需要VxE参数。随着实现最先进的结果所需的大量词汇和模型维度,这可能需要接近十亿个参数。通过分解嵌入,ALBERT团队首先将单词向量投影到一个较小的维度空间:128vsBERT的768。然后将这种较小的嵌入投影到具有与隐藏层相同维数的高维空间中。团队假设第一个投影是单词的上下文无关表示,而第二个投影是上下文相关表示。

  第二个优化是在网络的层上共享参数。变压器网络层同时包含一个前馈组件和一个注意组件;ALBERT的策略是在所有层之间共享每个组件..这确实造成了大约1.5个百分点的精度损失,但它确实将所需参数的数量从89M减少到12M。

  谷歌发布了一个基于TensorFlow的ALBERT实现,以及一个英语语料库和一个中文语料库上的模型;Twitter上的用户现在询问谷歌是否计划发布一个西班牙语语料库上的模型。在GitHub上可以获得ALBERT代码和模型。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
Top