2018年实验室代表性论文介绍

一、基于区块提议网络的中文事件检测

事件检测则是事件抽取中的一个关键步骤。近年来，随着基于神经网络方法的发展，人们常常将事件检测转化为一个词级别的分类问题来对待。然而，基于词级别分类的事件检测方法没有考虑到事件触发词块与词的不匹配问题。特别是在中文当中，有许多的事件触发词块并不是一个特定的词。

针对上述问题，我们提出了一种基于区块提议网络的中文事件检测方法。具体地，我们的方法首先使用动态多池化卷积神经网络抽取字符级别和词级别的混合特征。之后基于混合特征的触发词块生成器可以在字符级别上直接给出整个触发词块的检测结果，从而避免了事件触发词块与词的不匹配问题。实验结果表明我们的方法在事件检测标准数据集TAC-KBP2017以及ACE2005上取得了State-of-the-Art性能。

上述成果长文发表在自然语言处理顶级国际会议ACL 2018会议上：

Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun. Nugget Proposal Networks for Chinese Event Detection. In: Proc. of the 56th Annual Meeting of the Association for Computational Linguistics, pp. 1033-1043. Melbourne, Australia (ACL 2018) (CCF-A)

二、用于信息检测的动态缩放优化方法

信息抽取中的许多问题均可以被视为信息检测任务。与传统分类问题不同的是，信息检测任务有着显著的类别不平等问题。这种类别不平等主要表现在数据分布以及使用的评价指标上。这使得传统基于交叉熵的优化目标无法得到较好的优化结果。

针对上述问题，我们提出了一种基于动态重要性缩放的信息检测模型优化算法。该方法借用了经济学中的边际效用的理论，首先基于每个类别相对于评价指标的边际效用计算每个类别的重要性。之后在优化模型的过程当中，我们将该重要性加入到目标函数当中，从而使得整个优化过程能够与评价指标更加吻合。同时，我们还提出了一种具体的、用于批处理的神经网络检测模型的动态重要性缩放方案。我们的方法在中英文事件检测标准数据集TAC-KBP2017上取得了State-of-the-Art性能以及更好的优化稳定性。

上述成果长文发表在自然语言处理顶级国际会议ACL 2018会议上：

Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun. Adaptive Scaling for Sparse Detection in Information Extraction. In: Proc. of the 56th Annual Meeting of the Association for Computational Linguistics, pp. 1033-1043. Melbourne, Australia (ACL 2018) (CCF-A)

三、基于半监督的词典学习的语义解析

词典是基于组合语义的语义解析方法的基础，传统的词典需要从（句子，逻辑表达式）的标注对中学习，这类方法的缺点是需要大量的标注语料，并且存在词典覆盖度不够的问题。近年来，语义解析逐渐从受限领域扩展到开放领域，进一步加剧了词典覆盖度不够的问题。

为了解决上述问题，我们提出了一种基于半监督的词典学习方法。该方法利用容易获取的文本语料和词汇资源来扩充词典。该方法的出发点是：相似语义的词语应该映射到相同或相近的谓词。具体的，我们提出基于图的半监督学习框架，利用文本与文本之间的语义相关性来从种子词汇中学习新词汇，从而提高词典的覆盖度。我们在两个公开数据集上进行了实验，实验表明：我们的方法远远超过了基准系统，特别是大大提高了基准系统的召回率，这得益于扩充后的词典覆盖度更高。

上述成果长文发表在自然语言处理重要国际会议COLING-2018会议上：

Bo Chen, Le Sun and Xianpei Han. Semi-Supervised Lexicon Learning for Wide-Coverage Semantic Parsing. In: The 27th International Conference on Computational Linguistics (COLING 2018，CCF-B), pages 892-904.

四、基于端到端语义图生成的语义解析

语义解析一般需要两个函数：结构预测和语义落地。传统语义解析器大部分都基于组合文法，如CCG，DCS，这些方法需要设计文法，并且需要学习词典。为了解决上述问题，近年来该领域有两个备受关注的技术路线：基于语义图的语义解析，基于序列到序列的语义解析。

基于语义图的方法利用语义图来表示自然语言句子的语义，进而把语义解析转化为语义图匹配/生成的问题。现阶段的语义图构建方法要么是利用自定义模板，要么从依存树转化，要么通过启发式的算法。这些方法都是基于人工设计，很难处理开放域条件下的复杂句子。

基于序列到序列的方法利用循环神经网络模型把句子解析成序列化的逻辑表达式，这类方法不需要特定的文法，也不需要学习词典。

基于此，我们提出了一种新的语义解析框架——Sequence-to-Action，该框架同时利用语义图的语义表示能力，以及循环神经网络模型的强表示学习能力和序列预测能力。具体的，我们把语义解析问题建模成一个端到端地语义图生成的问题。此外，我们在解码端加入句法约束条件和语义约束条件，来进一步提高解析的准确度。

我们在三个公开数据集上进行了对比试验，在两个数据集上取得了具有竞争力的结果，在一个数据集上取得了现阶段最好的结果。

上述成果长文发表在自然语言处理重要国际会议ACL-2018会议上：

Bo Chen, Le Sun and Xianpei Han. Sequence-to-Action: End-to-End Semantic Graph Generation for Semantic Parsing. In: the 56th Annual Meeting of the Association for Computational Linguistics(ACL 2018，CCF-A), pages 766-777.

五、基于文本增强的知识表示学习方法

知识是自然语言理解的核心资源，传统的知识表示学习方法基于知识图谱中的三元组学习实体和关系。不能很好的处理知识不完整和关系语义不准确的问题，导致了信息信息缺失的问题。

针对上述问题，我们提出了⼀种利⽤⽂本来增强知识表⽰的⽅法。该⽅法利⽤能够准确描述知识的⽂本来补充已有的知识表⽰学习⽅法，以弱化信息缺失的问题。具体地，对于给定的三元组，模型从⽂本语料中抽取能够准确描述该三元组语义的⽂本提及和实体描述信息；然后使⽤注意⼒模型和⽂本表⽰模型学习⽂本提及和实体描述的表⽰；最后，我们使⽤该表⽰增强基于知识图谱中学习到的实体和关系的表⽰。在知识补全任务和知识问答任务上的实验结果表明，准确的⽂本信息有助于学习到更好的知识表⽰，并能够显著提升知识补全和知识问答上的效果。

上述成果长文发表在自然语言处理重要国际会议NAACL 2018会议上：

Bo An, Xianpei Han and Le Sun. Accurate Text-Enhanced Knowledge Graph Representation Learning. In: The 16th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies(NAACL 2018) (CCF-C).

六、基于上下文感知的文本表示学习方法

文本表示一直是自然语言理解的核心技术。传统的文本表示学习方法利用文本的局部上下文来学习不同粒度的文本表示，并且在语义组合时未能充分考虑文本的歧义性，导致文本的歧义性影响了学习到的文本表示的质量。

针对上述问题，我们提出了⼀种利⽤上下⽂信息增强的⽂本表⽰和组合⽅法。该⽅法利⽤主题模型建模⽂本的上下⽂，通过主题标签来限定单个词在特定主题下的语义，并基于包含主题标签的词序列学习主题限定的词向量。⽂本的上下⽂信息则通过主题分布来表⽰，通过结合主题限定的词向量，可以得到上下⽂相关的词表⽰。同时，主题分布信息⽤于增强⽂本组合模型，以学习到上下⽂感知的短语/句⼦的表⽰。在不同粒度下⽂本相似度任务上的实验结果表明，该⽅法学习到的⽂本表⽰能够更好地反映⽂本的语义，在⽂本相似度的打分上与⼈类的打分更加⼀致。

上述成果长文发表在自然语言处理重要国际会议COLING 2018会议上：

Bo An, Xianpei Han and Le Sun. Model-Free Context-Aware Word Composition. In: The 27th International Conference on Computational Linguistics (COLING 2018，CCF-B).

七、基于知识表示的知识问答系统

基于知识的问答系统是自然语言处理的关键任务。当前主流的知识问答系统基于不同的表示学习方法分别学习问句和知识的表示，然后通过向量的相似度来识别问句中的实体和关系，然后基于知识库检索得到答案。但是文本和知识本身是异构的，独立学习到的表示之间不能很好的反映其语义的相关度。

针对⽂本和知识的异构问题，本⽂提出了⼀种融合⽂本和知识的统⼀表⽰⽅法。该⽅法在数据层⾯建⽴⽂本和知识之间的关联，利⽤表⽰学习将⽂本和知识投射到统⼀的表⽰空间。基于该⽅法学习到的⽂本和知识的表⽰向量的欧式距离能够更好地反映其语义相关性。具体地，本⽂基于实体和关系的描述⽂本学习实体和关系的表⽰，并作为知识表⽰学习的输⼊。通过拟合知识，将知识图谱的结构信息学习到⽂本的表⽰和组合模型中。实现了⽤知识来约束⽂本的表⽰和组合，并基于⽂本表⽰和组合得到实体和关系的表⽰。在基于知识的问答系统上的实验表明，基于统⼀表⽰学习到的问句表⽰和知识表⽰更好地反映数据之间的语义，有助于提升知识问答系统的准确率。

上述成果长文发表在国内的重要期刊《中国科学信息科学》期刊上：

安波, 韩先培, 孙乐.融合知识表示的知识库问答系统. 中国科学: 信息科学, 2018, 48(11): 1521-1532.

八、基于伪相关反馈的神经网络信息检索框架

伪相关反馈是信息检索系统的一项关键技术，它通过识别排名靠前的初始检索文档集合中权重最高的词项来提升检索系统的性能。现存的基于神经网络的模型都只单纯考虑查询与待评分文档的交互特征，没有引入伪相关反馈技术，因此也忽略了伪相关反馈中隐含的对查询的多方面、多层次的表达信息。

针对上述问题，我们提出了一个端到端的基于伪相关反馈和神经网络的信息检索框架。我们将伪相关反馈的每篇文档都当做用户信息需求的一种表达，挖掘每篇文档权重最高的词项，从而构建每一篇文档的信息表示。利用现有的基于神经网络的信息检索模型，对于待评分文档，通过多篇伪相关文档的信息表示对其形成多个评分，最后融合形成最终的评分。实验结果表明我们的方法在信息检索标准数据集TREC1-3和Robust04都取得了state-of-the-art性能。

上述成果长文发表在自然语言处理重要国际会议EMNLP 2018会议上：

Canjia Li, Yingfei Sun, Ben He, Le Wang, Kai Hui, Andrew Yates, Le Sun, Jungang Xu: NPRF: A Neural Pseudo Relevance Feedback Framework for Ad-hoc Information Retrieval. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, October 31 – November 4, 2018: 4482-4491 (CCF B)

九、基于深度神经网络的两阶段主题无关自动作文评分模型

自动作文评分利用自然语言处理和机器学习技术自动地给作文进行打分，已经被广泛应用于GRE等大规模写作能力测试中，具备重要的实用价值。现有的自动作文评分模型主要依赖于同一个主题下的已评分作文作为训练数据，尽管主题相关的自动作文评分模型已经能够取得比较好的效果，但是在主题无关场景下如何准确预测作文的评分还未被广泛研究过，这在实际应用中缺乏主题相关训练数据时是一个重要的问题。

针对上述问题，我们提出一个基于深度神经网络的两阶段主题无关自动作文评分模型。具体地，在第一阶段，利用主题无关的训练数据训练一个传统的自动作文评分模型，通过该模型对目标作文进行评分，选出分数在两端的部分作文作为下一阶段的伪训练数据集；在第二阶段，我们提出一个端到端的混合深度神经网络模型，利用伪训练数据集来学习得到一个主题相关的自动作文评分模型，混合深度神经网络模型有语义网络、词性标注网络和句法网络三部分构成。在自动作文评分的标准数据集ASAP上的实验表明了我们提出的模型在主题无关自动作文评分任务上具有显著提升。

上述成果长文发表在自然语言处理重要国际会议ACL 2018会议上：

Cancan Jin, Ben He, Kai Hui, Le Sun: TDNN: A Two-stage Deep Neural Network for Prompt-independent Automated Essay Scoring. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, {ACL} 2018, Melbourne, Australia, July 15-20, 2018, Volume 1: Long Papers 2018: 1088-1097 (CCF A)

十、基于伪相关反馈文档相似度的神经网络医疗决策支持模型

医疗决策支持通常被视为一个检索任务，将病人的电子病例作为查询，从海量医疗文献中检索出相关的医疗文献，从而辅助医疗人员更好地进行医疗决策。近年来的研究工作仅仅关注待排序医疗文献与电子病例的直接相关性，而电子病例很难准确、全面地反映长医疗文献中的信息，这导致了仅仅考虑与电子病例的直接相关性的模型达不到很好的效果。

针对上述问题，在待排序医疗文献与病人电子病例的直接相关性的基础之上，我们进一步考虑待排序文档与病人电子病例的伪相关反馈文档集的相关性，提出一种基于伪相关反馈文档相似度的神经网络医疗决策支持模型。我们首先利用传统检索模型（如BM25）为病人的电子病例构建一个伪相关反馈文档集合，把这个伪相关反馈文档集作为电子病例的补充，通过计算多个查询词向量表示与待排序医疗文献的向量表示的相似度和多篇伪相关反馈文档向量表示与待排序医疗文献的相似度作为特征，构建两个多层感知机网络将两部分特征分别映射为相关性评分，最终将输出评分融合并与传统检索模型的评分进行插值得到最终的相关性评分。我们在感知机网络的文档间相似度输入特征中引入了BM25评分，同时考虑了用线性组合的方式替代感知机网络结构。在TREC医疗决策支持任务的标准数据集TREC CDS 2014和TREC CDS 2015(A)上的实验结果表明了本文提出方法的有效性。

上述成果全文发表在生物信息学国际期刊IJDMB上：

Yanhua Ran, Ben He, Kai Hui, Jungang Xu, Le Sun: Neural relevance model using similarities with elite documents for effective clinical decision support. International Journal of Data Mining and Bioinformatics 20(2): 91-108 (2018) (SCI)

十一、基于挖掘隐含治疗概念信息和神经信息检索的精准医疗模型

精准医疗是生物信息学中的重要研究领域。精准医疗系统可根据患者病历提供的具体疾病、遗传变异等信息，检索出包含治疗信息的医学文献，从而帮助医生诊断。现有方法普遍基于人工词典，通过将表达治疗信息的关键字如“treatment”，“therapy”等加入到查询来进行查询重构。然而，由于忽略了众多在相关文档中高频出现并且隐含的表达治疗信息的医学词汇，检索效果欠佳。

针对上述问题，我们提出了一个端到端的、同时挖掘明确的和隐含的治疗信息的检索框架。在基于概率检索词项打分模型的基础上，使用了KL、Bo1词项打分模型从相关文档中挖掘出表达治疗信息的隐含词项，构成隐含查询。在基于原始查询的疾病、遗传信息的基础上加入明确表达治疗信息的词项，构成明确查询。对于这两部分的查询，我们使用了基于核方法的信息检索模型对待评分文档进行打分，最后对评分进行融合。实验结果表明我们的方法在精准医疗数据TREC PM2017任务上取得了显著效果提升。

上述成果长文发表在生物信息学重要国际会议BIBM 2018会议上：

Canjia Li, Ben He, Le Sun, Yingfei Sun: Neural Precision Medicine by Mining Implicit Treatment Concepts. In Proceedings of IEEE International Conference on Bioinformatics and Biomedicine, BIBM 2018, Madrid, Spain, December 3-6, 2018: 1-6 (Accepted, CCF B)

858