阿里巴巴达摩院罗福莉老师到访实验室

2020年10月16日下午，应实验室博士后林鸿宇的邀请，阿里巴巴的罗福莉老师到访实验室，为实验室师生做了题为“阿里深度语言模型体系ALICE”的讲座分享。

报告的开始，罗福莉老师首先对她所在的阿里巴巴达摩院语言技术实验室进行了整体介绍，进而描述了阿里巴巴语言模型体系ALICE的架构。来自ALICE的六大语言模型一举拿下了英文GLUE、多语言XTREME、多模态VQA、阅读理解和生成MS MARCO在内的多项国际赛事和榜单的第一名。本次分享将详解参赛榜单的语言模型（包括通用语言模型StructBERT、多语言预训练模型、生成式PALM、多模态预训练模型StructVBERT等）背后的技术创新、平台建设以及对内外的应用落地。

罗老师首先介绍了团队提出了通用预训练模型StructBERT，通过设计基于语言结构的预训练任务，使得模型能够学习到词级别和句子级别的结构信息。

罗老师第二个介绍的是跨语言预训练模型。首先梳理了现有的工作，大体分为两类：第一类是Encoder-based模型，例如XLM及其一系列的扩展工作，其缺陷在于预训练阶段无法对Decoder的Cross-attention模块进行初始化，由此带来预训练和微调阶段的gap。第二类为Encoder-Decoder模型，例如mBART和XNLG模型，主要缺点在于在自然语言理解任务上表现欠佳。基于上述分析，罗老师团队提出了能够同时支持自然语言理解和自然语言生成任务的跨语言预训练模型，在多个任务上取得了SOTA的性能。罗老师还结合多语言预训练任务的上游模型、下游场景和落地任务，对阿里巴巴多语言训练技术大图进行了详细介绍。该工作引发了同学们的积极思考和提问，在模型的训练问题，数据获取问题，以及设计细节等方面展开了热烈的讨论。

之后罗老师结合具体的应用场景剖析了多模态预训练模型的发展方向，例如阿里小蜜中的多模态问答技术，淘宝中的多模态语义匹配技术。现有的多模态预训练模型主要分为两类，双流模型对文本和视觉信息进行独立编码，再通过注意力机制等技术实现模态融合。单流模型则在一开始就对文本信息和视觉信息进行建模，将其编码到相同的向量空间。为了综合两类模型的优势，阿里巴巴团队提出了单双流融合的多模态预训练模型，并取得了不错的性能表现。

最后是生成式的预训练模型PALM，该模型采用了与之前的生成模型不同的训练方式，预训练目标并非重构输入文本，而是预测后续文本。PALM使用自编码方式编码输入文本，同时使用自回归方式解码输出文本。这种预训练方式促使该模型提高对输入文本的理解能力，使其在下游的各个语言生成任务上取得更好的效果。

罗老师的报告内容充实，信息量非常大，包括实验室师生的互动都值得反复思考和品味。实验室师生获益良多。

供稿：曹博希

999