小智典  > 所属分类  >  技术   
[0] 评论[0] 编辑

预训练

微软研究院版本

目前神经网络在进行训练的时候基本都是基于后向传播(Back Propagation,BP)算法,通过对网络模型参数进行随机初始化,然后利用优化算法优化模型参数。但是在标注数据很少的情况下,通过神经网络训练出的模型往往精度有限,“预训练”则能够很好地解决这个问题,并且对一词多义进行建模。

预训练是通过大量无标注的语言文本进行语言模型的训练,得到一套模型参数,利用这套参数对模型进行初始化,再根据具体任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中,都被证明拥有更好的效果。目前,热门的预训练方法主要有三个:ELMo,OpenAI GPT和BERT。

在2018年初,艾伦人工智能研究所和华盛顿大学的研究人员在题为《Deep contextualized word representations》一文中提出了ELMo。相较于传统的使用词嵌入(Word embedding)对词语进行表示,得到每个词唯一固定的词向量,ELMo 利用预训练好的双向语言模型,根据具体输入从该语言模型中可以得到在文本中该词语的表示。在进行有监督的 NLP 任务时,可以将 ELMo 直接当做特征拼接到具体任务模型的词向量输入或者是模型的最高层表示上。

在ELMo的基础之上,OpenAI的研究人员在《Improving Language Understanding by Generative Pre-Training》提出了OpenAI GPT。与ELMo为每一个词语提供一个显式的词向量不同,OpenAI GPT能够学习一个通用的表示,使其能够在大量任务上进行应用。在处理具体任务时,OpenAI GPT 不需要再重新对任务构建新的模型结构,而是直接在 Transformer 这个语言模型上的最后一层接上 softmax 作为任务输出层,再对这整个模型进行微调。

ELMo和OpenAI GPT这两种预训练语言表示方法都是使用单向的语言模型来学习语言表示,而Google在提出的BERT则实现了双向学习,并得到了更好的训练效果。具体而言,BERT使用Transformer的编码器作为语言模型,并在语言模型训练时提出了两个新的目标:MLM(Masked Language Model)和句子预测。MLM是指在输入的词序列中,随机的挡上 15% 的词,并遮挡部分的词语进行双向预测。为了让模型能够学习到句子间关系,研究人员提出了让模型对即将出现的句子进行预测:对连续句子的正误进行二元分类,再对其取和求似然。

预训练
预训练

 

百度百科版本

无监督预训练是用来训练的数据不包含输出目标,需要学习算法自动学习到一些有价值的信息。

 算法:

  1. 聚类:K均值、混合模型、等级聚类。
  2. 神经网络:自动编码、深信念网、 Hebbian学习、生成敌对网络、自组织映射。
无监督学习的一种统计方法是时刻的方法。在矩的方法中,模型中的未知参数(感兴趣的)与一个或多个随机变量的矩相关,因此,这些未知参数可以在给定矩的情况下被估计。这些时刻通常是根据经验估计的。基本时刻是一阶和二阶时刻。对于随机向量,一阶矩是平均向量,二阶矩是协方差矩阵(当均值为零时)。通常使用张量来表示更高阶的矩,所述张量是作为多维阵列将矩阵推广到更高阶的张量
特别是,矩的方法被证明是有效的学习潜变量模型的参数。潜变量模型是统计模型,除观测变量外,还存在一组未观测到的潜变量。机器学习中潜在变量模型的一个非常实用的例子是主题建模,它是一种基于文档主题(潜在变量)在文档中生成单词(观察变量)的统计模型。在主题建模中,当文档主题发生变化时,根据不同的统计参数生成文档中的文字。它表明,矩的方法(张量分解技术)在一些假设下一致地恢复大类潜变量模型的参数。

附件列表


您所在的用户组无法下载或查看附件

0

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 无监督学习    下一篇 元学习

同义词

暂无同义词