root

/root

About root

This author has not yet filled in any details.
So far root has created 130 blog entries.

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告

2021-07-29T09:51:49+00:00

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告 2021年7月28日下午,应实验室林鸿宇博士后的邀请,哈尔滨工业大学的覃立波博士到访实验室,并为实验室师生作了题为“任务型对话系统中口语语言理解综述——前沿与挑战”的学术报告。 覃立波博士是哈尔滨工业大学SCIR在读博士生,导师车万翔教授,博士期间以第一作者或者共同第一作者发表CCF A/B会议/期刊14篇。研究方向为任务型对话系统与自然语言处理,曾获三年国家奖学金,春晖创新一等奖学金,之江实验室奖学金,字节跳动奖学金(中国10人),百度奖学金(全球10人),以及入选全球首份AI华人新星百强榜单,IJCAI-SAIA YES学术新星等榜单。同时,他热衷于开源分享和社区建设,促进NLPer在国内的交流,创办了机器学习算法与自然语言处理社区,突破50w+订阅人数和超过2千万阅读量。 报告开始,覃立波博士首先介绍了任务型对话系统的整体结构,接着对其中的自然语言理解模块进行了深入的讲解,然后对口语语言理解(SLU)领域近10年的发展进行一个回顾和总结,最后根据当前发展现状给出了一些研究问题和挑战。 口语语言理解是任务型对话系统中最核心的组件,近些年来的发展也是非常迅速的。根据对意图识别(intent detection)和槽位填充(slot filling)两个子任务的建模方式和交互关系,口语语言理解模型大致可以分为以下几个发展阶段:独立模型(2013-2015),隐式联合建模(2016-2017),显式联合建模—单向信息流动(2018-2019),显式联合建模—双向信息流动(2019-2021)。 从独立建模到隐式联合建模,再从显式单向信息流动到显式双向信息流动的发展趋势,反映了在口语语言理解中意图识别和槽位填充的两个子任务的密切关系,两者的联合交互建模在口语语言理解中起到了非常关键的作用。 经过最近10年的发展,SLU从之前的单独建模已经发展到目前的双向显式联合建模;在单轮、单领域、单意图的SLU已经取得了显著的进步并得到了基本解决,继续在ATIS、SNIPS等经典benchmark上刷分反而会阻碍SLU模型在真实场景下的应用。此外,人机对话方向也越来越受到工业界和学术界的关注。因而,诸如上下文SLU、多意图SLU、跨语言SLU、鲁棒的SLU和基于用户信息的SLU等将会是新的发展前沿,并且如何将SLU模型在真实场景下得到很好的应用将会是未来的研究趋势。 覃立波博士立足于任务型对话系统中的口语语言理解模块,介绍了近些年相关研究工作的发展脉络,并根据目前的发展现状对未来的发展趋势给出了一些探索性问题。报告结束后,覃立波博士与实验室师生就相关工作细节和科研经验展开了热烈讨论。     撰稿:陈轩昂 责任编辑:刘汇丹

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告 2021-07-29T09:51:49+00:00

西湖大学特聘研究员张岳应邀到访中文信息处理实验室并作学术报告

2021-07-20T16:36:43+00:00

西湖大学特聘研究员张岳应邀到访中文信息处理实验室并作学术报告 2021年7月20日上午,应实验室孙乐研究员和韩先培研究员的邀请,西湖大学特聘研究员张岳老师到访实验室,为实验室师生做了题为“Challenges in Machine Learning in NLP”的学术报告。在本次报告中,张岳老师向中文信息的师生们分享了一些自然语言处理瓶颈的思考,并从模型学习到的特征、解决问题的过程等方面分享一些探索工作。  近年来,自然语言处理的范式从统计模型发展到神经网络模型,并逐步形成了大规模预训练(pretraining)-任务微调(finetuning)的新范式。张老师首先为大家梳理了近年自然语言处理范式的发展过程,并分析了现有预训练加微调范式的几个不足:1)跨领域鲁棒性低、2)对输入扰动敏感、3)缺乏常识知识,以及4)对逻辑与数值理解能力有限。 现有不少研究认为预训练语言模型可以存储知识,但是预训练语言模型是否可以作为下游任务的知识库仍是亟待回答的问题。为回答这一问题,张老师介绍了他们在ACL2021的最新工作:Can Generative Pre-trained Language Models Serve as Knowledge Bases for Closed-book QA? 该工作探究了生成式语言模型在经典的微调范式下进行闭卷式问答(Closed-book QA)的能力。张老师首先向大家介绍了针对预训练模型从文本中获取及应用知识的能力所设计的一系列实验。通过大量的实验分析,张老师认为:1)现有预训练语言模型通过预训练过程记忆知识的能力较弱,2)即使预训练语言模型模型记住了一部分知识,也难以利用这些内在知识来回答问题。 近年来,尽管预训练模型在许多任务中取得了优异的性能,但是人们对这类模型的鲁棒性及原始数据中存在的Spurious Patterns依赖提出了重要的问题。针对这些泛化性挑战,目前的解决方案是通过人工反馈及众包工作来构建反事实数据进行数据增强,并以此减少模型对原始数据中的Spurious Patterns的依赖。但是,这些方法通常成本高昂且耗时。针对以上不足,张老师团队提出了一种自动生成反事实数据的方法。该方法首先使用基于上下文的采样敏感性的解耦合方法来自动识别因果词,并使用掩码语言模型来提高自动生成反事实数据的可读性和语法正确性,最后使用编辑距离自动评估器评估生成过程中的最小编辑及流利性,保证自动生成反事实数据的质量。最终实验证明,该方法生成的数据可以提高神经网络分类器的鲁棒性,并优于现有最优的人工反馈(Human-in-the-loop)系统。 报告结束后,张岳老师与实验室师生就预训练语言模型记忆能力和学习范式等问题展开了热烈的讨论。张老师的报告内容充实,包括最后与实验室师生的互动都值得反复思考和品味。实验室师生在此次报告及与张老师的讨论过程中获益良多。     撰稿:陆垚杰 责任编辑:刘汇丹

西湖大学特聘研究员张岳应邀到访中文信息处理实验室并作学术报告 2021-07-20T16:36:43+00:00

中文信息处理实验室一篇论文获SIGIR 2021最佳短论文奖

2021-07-17T18:33:02+00:00

中文信息处理实验室一篇论文获SIGIR 2021最佳短论文奖 近期,第44届国际计算机学会信息检索大会(The 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2021)于2021年7月11日-7月15日以线上会议形式顺利召开。ACM SIGIR是人工智能领域智能信息检索(Information Retrieval,IR)方向最权威的国际会议,会议专注于文本推荐、检索、语义计算等领域的最新研究成果。此次SIGIR 2021大会共收到了720篇长论文和526篇短论文,其中有151篇长论文和145篇短论文被录用,录用率分别约为21%和27%。 在14日凌晨,本次SIGIR 2021大会公布了最佳论文、最佳短论文、时间检验奖等多个奖项。其中,最佳短论文奖由中文信息处理实验室研究生获得。获奖论文题为《Contextualized Offline Relevance Weighting for Efficient and Effective Neural Retrieval》,作者依次为博士生陈轩昂、何苯教授、回恺博士、博士生王怡然、孙乐研究员、孙应飞教授。 图1:SIGIR 2021最佳短论文获奖证书 论文简介:在线搜索延迟(online search latency)是在检索应用中部署大规模预训练语言模型(如BERT)的一个主要瓶颈。我们受到文档扩展技术(基于transformer模型)最新成果的启发,提出了一种以大量伪查询(pseudo-query)和近邻文档(neighbour document)的离线相关性评分换取在线效率的神经检索框架。具体而言,我们利用强大的BERT排序模型对语料中每个文档生成的伪查询与其对应收集的近邻文档之间进行了离线相关性评分,并且在线检索时只需进行输入查询和种子文档(seed document)的伪查询之间的匹配,以此提高检索的效率。那么,在在线检索阶段,传统的查询-文档匹配(query-document matching)将被简化为成本更低的查询-伪查询匹配(query to pseudo-query matching),并根据预先计算好的近邻文档快速召回出相应的文档排序列表并返回给用户。在MS MARCO检索数据集上的实验结果表明,我们的方法在在线效率和有效性方面都获得了很好的效果。 论文地址:https://dl.acm.org/doi/10.1145/3404835.3463073   撰稿:何苯 责任编辑:刘汇丹

中文信息处理实验室一篇论文获SIGIR 2021最佳短论文奖 2021-07-17T18:33:02+00:00

北京理工大学毛先领副教授应邀到访中文信息处理实验室并作学术报告

2021-06-11T12:09:06+00:00

北京理工大学毛先领副教授应邀到访中文信息处理实验室并作学术报告 2021年6月11日上午,应实验室孙乐研究员和韩先培研究员的邀请,北京理工大学毛先领副教授到访实验室,为实验室师生做了题为“Similarity-preserved Hashing: Diffusing from Images Retrieval to Other Scenarios”的学术报告。 毛先领老师现任北京理工大学计算机学院副教授、博士生导师。主要研究深度学习、机器学习与网络数据挖掘,具体研究领域涉及Information Extraction、 Question Answering and Dialogue和Learn to Hashing等方向。目前担任中国计算机学会中文信息技术专委会委员,中文信息学会青工委委员以及语言与知识专委会委员;已在SIGIR、AAAI、IJCAI、TOIS、 TKDE、CIKM、EMNLP、COLING等国际期刊会议上发表30余篇论文;分别获NLPCC 2019和ICKG 2020最佳论文奖;部分成果获中国电子学会科技进步一等奖(2018)和浙江省科技进步三等奖(2018);正在承担或参与国家重点研发计划子课题、国家自然科学基金重点项目和面上项目等多项;主持开发了首个多模态学术搜索引擎HammerScholar(www.hammerscholar.net)。 近年来,互联网的数据总量呈现爆炸式增长态势。极大的数据规模对数据的存储效率和检索速度提出了更高的要求,给针对中小规模数据集构建的传统机器学习算法带来了挑战和机遇。最近邻搜索(NN)是许多大规模机器学习和数据检索任务的基础组成部分。在许多任务中,近似最近邻(ANN)已经足够获得令人满意的性能,例如搜索引擎中的图像检索任务等。 相似度保持的哈希算法存储成本低、检索速度快,是大规模检索系统中比较流行的方法之一。相似度保持指的是将数据点转换为哈希码之后,哈希码之间的相似度能够代替原始数据点的相似度计算,从而提高检索速度。 目前的相似度保持哈希算法可分为数据依赖的和数据独立的算法,数据独立的算法具有更强的可扩展性,而数据依赖的算法可以获得更高的性能。数据独立的相似度保持哈希算法的核心是随机映射(Random Projection)。通过对数据在向量空间进行多次的线性划分,确定各数据点的哈希码,从而保证了相似的数据点具有相似的哈希码(LSH算法)。数据依赖的相似度保持哈希算法的核心是寻找监督信息,包括数据本身的标签信息和数据点之间隐含的语义结构信息。相似度保持哈希算法可以用于在超大分类空间中对分类器进行加速、跨模态检索和文本语义表示等领域。 毛先领老师首先回顾了哈希算法的基础,然后分别针对数据独立的和数据依赖的相似度保持哈希算法进行了介绍,并介绍了相似性保持哈希在图像检索等领域中的应用,最后总结了哈希算法潜在的应用方向。报告结束后,毛先领老师与实验室师生就算法的应用等问题展开了热烈讨论。 撰稿:边宁 责任编辑:刘汇丹

北京理工大学毛先领副教授应邀到访中文信息处理实验室并作学术报告 2021-06-11T12:09:06+00:00

中文信息处理实验室六篇长文被ACL2021主会录用

2021-05-08T15:52:21+00:00

中文信息处理实验室六篇长文被ACL2021主会录用 日前,自然语言处理领域的顶级会议 ACL 2021陆续向作者发送录用通知,中国科学院软件研究所中文信息处理实验室六篇长文被主会录用。 下面是论文列表及介绍: 论文一 标题:TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction 作者:Yaojie Lu, Hongyu Lin, Jin Xu, Xianpei Han, Jialong Tang, Annan Li, Le Sun, Meng Liao, Shaoyi Chen 录用类型:长文 简介:我们提出一个序列到结构的生成范式—Text2Event,该方式可以通过文本-事件记录的粗粒度标注数据进行模型学习,直接从纯文本序列中提取结构化事件记录。具体而言,我们设计了一种用于事件抽取的序列到结构生成网络,并在推理过程中使用受限解码算法注入事件框架知识。此外,我们还设计了一种基于课程学习的训练算法帮助模型从预训练语言模型中迁移知识。实验结果表明,在有监督和迁移学习的设定下,我们所提出的方法可以仅使用记录级别标注的情况下达到与最优模型的可比性能。 论文二 标题:Element Intervention for Open Relation Extraction 作者:Fangchao Liu, Lingyong Yan, Hongyu Lin, Xianpei Han, Le Sun 录用类型:长文 简介:开放关系抽取任务在深度学习模型的推动下有了长足发展,但近期的相关工作表明,深度学习模型容易受关系数据集中存在的伪相关线索干扰,从而导致模型性能不稳定。为此,我们从因果结构模型的角度对开放关系抽取的过程进行建模,利用因果介入的方式,分别提出了针对实体对和上下文的介入方法,在T-REx的两个无监督关系抽取数据集上取得了目前最好的性能。 论文三 标题:From Discourse to Narrative: Knowledge Projection for Event Relation Extraction 作者:Jialong Tang, Hongyu Lin, Meng Liao, Yaojie Lu, Xianpei Han, Le Sun, Weijian Xie, Jin Xu 录用类型:长文 简介: 本工作设计了一个从语篇到事件的知识映射范式,充分利用语篇知识和事件知识之间的内在关联。具体的,本工作挖掘了:1)语篇文本和事件文本存在相似的词法和句法结构;2)语篇语义和事件语义蕴含可类推的语义关系;3)语篇关系和事件关系共享相同的粗粒度分类标准;并分别设计了词级别,语义级别和粗粒度分类级别的三个知识映射模块。内部实验表明,本工作提出的知识映射范式能够发现大量有价值的隐式事件关系,相较于从零开始训练的模型以及简单的迁移学习等框架有稳定的准确率提升。同时,外部实验表明,丰富了隐式事件关系的事件知识图谱能够更有效地提升下游自然语言理解任务。 论文四 标题:From Paraphrasing to Semantic Parsing: Unsupervised Semantic Parsing via Synchronous Semantic Decoding 作者:Shan Wu, Bo Chen, Chunlei [...]

中文信息处理实验室六篇长文被ACL2021主会录用 2021-05-08T15:52:21+00:00

春意浓浓,寄情山水——记中文信息处理实验室春游

2021-04-16T11:43:00+00:00

春意浓浓,寄情山水——记中文信息处理实验室春游 智者乐水,仁者乐山。2021年4月11日,中文信息处理实验室部分职工及学生共同来到黑龙潭风景区,放松心情。 黑龙潭位于北京市密云区石城镇鹿皮关北面的一条全长4公里,水位落差220米的峡谷里,有春花、秋月、平沙、落雁、曲、叠、沉、悬潭等十八个名潭,千姿百态,各领风骚。 爬山对于人的体力和毅力都是极大的考验,但是实验室一行人不畏艰险、勇攀高峰。大家沿着盘山栈道,欣赏着涓涓瀑布流入清澈见底的石潭,感受着攀登陡峭山路的艰难困苦,终于在中午时分登上了黑龙潭的顶峰。 一时间湖光山色尽收眼底,就好似科研攻坚路漫漫,志在巅峰不辞遥。   山顶的温度确实比山脚低很多,但是大家围坐一团互相分享食物、交流的温馨画面顿时驱散了寒意。傍晚,实验室一行人在农家小院的饭菜香味中,结束了一天的行程。 通过这次春游活动,大家在欣赏祖国的美好河山的同时也体会到科研路上应坚持不懈,勇攀高峰。最后,中文信息处理实验室将继续不忘初心,奋勇前进。 撰稿:张文凯 责任编辑:刘汇丹

春意浓浓,寄情山水——记中文信息处理实验室春游 2021-04-16T11:43:00+00:00

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告

2021-04-21T14:45:48+00:00

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告 2021年4月13日下午,应实验室孙乐研究员和韩先培研究员的邀请,复旦大学张奇教授到访实验室,为实验室师生做了题为“模型鲁棒性分析与评测”的学术报告。 张奇老师现任复旦大学计算机科学技术学院教授、博士生导师,主要研究方向是自然语言处理,信息检索和数据密集型计算,共发表学术论文70余篇。 近年来,随着深度学习以及预训练方法的发展,深度学习模型在几乎全部自然语言处理任务中都取得了非常好的效果,甚至在阅读理解等多项任务上取得了超越人类的准确性。然而在实际应用中,这些模型的效果却大打折扣。近年来许多研究工作表明,深度神经网络模型在处理掺杂了微小扰动的样本时,其预测效果就会出现大幅度下降。模型鲁棒性的研究也因此受到越来越多的关注。在本次报告中,张奇老师针对模型的鲁棒性、可解释性以及如何评估模型的鲁棒性三个方面进行了讲解。 尽管目前已有一些针对NLP任务的模型鲁棒性工作,但它们大多只针对单个NLP任务,且只有少量的数据变形方法,缺乏系统性的工具集合。针对这一问题,张老师课题组展开了大规模的鲁棒性评测工作,开发了面向自然语言处理的多语言鲁棒性评测平台TextFlint。 利用 TextFlint,张老师课题组对分词、词性标注、句法分析、命名实体识别等自然语言处理任务的约100个模型进行了复现和实验。实验结果显示,现有算法在新测评数据集上的结果都较原始测评结果有较大幅度下降。从以上结果可以看出,目前绝大多数模型的鲁棒性都亟待提升。 张老师从鲁棒性出发,介绍了课题组的研究工作,并对未来NLP领域的发展进行展望。报告结束后,张奇老师与实验室师生就自然语言处理领域未来发展和科研经验展开了热烈讨论。 撰稿:王怡然、刘方超 责任编辑:刘汇丹

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告 2021-04-21T14:45:48+00:00

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告

2020-12-29T16:38:12+00:00

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告 2020年12月28日下午,应实验室孙乐研究员和韩先培研究员的邀请,厦门大学苏劲松教授到访实验室,为实验室师生做了题为“神经机器翻译领域自适应研究”的学术报告。 苏劲松老师现任厦门大学信息学院软件工程系教授,博士生导师。主要研究方向是自然语言处理、社会计算,共发表学术论文100余篇,包括CCF推荐列表论文68篇。 近年来,低资源神经机器翻译(NMT)受到广泛关注,多领域神经机器翻译可以利用多个领域平行语料来构造一个统一的模型从而解决领域内数据稀少的问题。 为了同时利用和共享多种领域的翻译数据构建多领域NMT,苏老师课题组提出了区分词粒度上下文的多领域神经机器翻译模型。该方法将词级别隐状态区分为领域相关和领域共享的隐状态,并根据目标词与不同领域的相关性,调整目标词在NMT训练目标中的权重。模型在大规模多领域汉英和英法语数据集上验证性能均有所提升。 用于神经机器翻译的领域适应研究集中在领域外向领域内的一次迁移训练方式,然而由于领域间的差异这样one-pass训练方式很难达到目标,为此苏老师课题组提出了迭代双向迁移的神经机器翻译训练框架。这样迭代多源知识互转移框架在机器阅读理解中也验证了其有效性。 苏老师从机器翻译的领域迁移出发,介绍了课题组的研究工作和后续的研究进展,并对未来的神经机器翻译和领域知识蒸馏研究进行总结和展望。报告结束后,苏劲松老师与实验室师生就论文细节和科研经验展开了热烈讨论。 撰稿:吴杉 责任编辑:刘汇丹

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告 2020-12-29T16:38:12+00:00

中文信息处理实验室两篇论文被AAAI2021录用

2020-12-09T12:18:45+00:00

中文信息处理实验室两篇论文被AAAI2021录用 日前,2021年的首个人工智能顶级会议 AAAI 2021公布了论文录用列表,中国科学院软件研究所中文信息处理实验室两篇长文被大会录用。 下面是论文列表及介绍:   论文一 题目:Denoising distantly supervised named entity recognition via a hypergeometric probabilistic model 作者:张文凯、林鸿宇、韩先培、孙乐、刘汇丹、袁晶、魏志成 录用类型:长文 简介:远程监督命名实体识别缓解了深度学习模型对大量标注数据的依赖,但性能却受到远程监督数据中噪声的影响。为此,我们提出了一种基于超几何分布的远程监督数据降噪算法HyperGeometric Learning(HGL)。HGL利用超几何分布和模型训练过程的相似性,能够在训练过程中自适应的对噪声数据分布进行拟合,在ACE2005数据集上取得较好的降噪效果。   论文二 题目:Benchmarking Knowledge-enhanced Commonsense Question Answering via Knowledge-to-Text Transformation 作者:边宁,韩先培,陈波,孙乐 录用类型:长文 简介:提出了一个简洁而有效的基于知识到文本转换的常识问答模型框架,在多个标准的常识问答数据集上进行了深入的测试和分析,并为知识增强的常识问答提供了高性能的基准模型。实验显示:①基于知识到文本转换的常识问答模型是有效且鲁棒的;②融合外部知识对于常识问答任务依然有较大潜力;③目前的常识问答模型还远不能充分发挥知识的潜力——与使用标准知识解释的模型相比,现有模型均有较大性能差距。 据悉, AAAI 2021 将于美国纽约举办,时间在 2021年2 月 2 日至 9 日,本届是第 35 届 AAAI 大会。AAAI 由美国人工智能协会主办,该协会是人工智能领域的主要学术组织之一,其主办的年会也是人工智能领域的国际顶级会议。在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中,AAAI 均被列为人工智能领域的 A 类顶级会议。AAAI 2021官方发布接收论文列表,9034篇论文提交有1692篇论文接受,接受率21%。 撰稿:刘汇丹 责任编辑:刘汇丹

中文信息处理实验室两篇论文被AAAI2021录用 2020-12-09T12:18:45+00:00

中文信息处理实验室师生参加EMNLP 2020

2020-11-24T10:12:46+00:00

中文信息处理实验室师生参加EMNLP 2020 2020年11月16日至11月20日,由国际语言学会(ACL)下属的SIGDAT小组主办的自然语言处理领域的顶级国际会议EMNLP成功召开。受疫情影响,今年EMNLP 会议全程以线上形式举行。实验室的师生通过线上方式参加了此次大会,博士后林鸿宇做了线上分组报告。 EMNLP 2020共收到投稿3677篇,其中有效投稿为3359篇,接收论文数量为752篇,包括长论文602篇、短论文150篇,论文接受率为22.4%。另外,今年EMNLP也带来了一项创新:“Findings of ACL: EMNLP 2020”,它用于刊登未被主会接收,但经过程序委员会评估为足够solid的工作,其实质、质量和新颖性有足够保证。这些论文将作为ACL选集的一部分被收录。 实验室有1项工作被主会录用,3项工作被Findings录用,包括: A Rigorous Study on Named Entity Recognition: Can Fine-tuning Pretrained Model Lead to the Promised Land? Hongyu Lin, Yaojie Lu, Jialong Tang, Xianpei Han, Le Sun, Zhicheng Wei and Nicholas Jing Yuan. EMNLP 2020. Syntactic and Semantic-driven Learning for Open Information Extraction. Jialong Tang, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Xinyan Xiao and Hua Wu. Findings of EMNLP 2020. Global Bootstrapping Neural Network for Entity Set Expansion. Lingyong Yan, Xianpei Han, Ben He and Le Sun. Findings of EMNLP 2020. BERT-QE: Contextualized Query Expansion for Document Re-ranking. Zhi [...]

中文信息处理实验室师生参加EMNLP 2020 2020-11-24T10:12:46+00:00