root

/root

About root

This author has not yet filled in any details.
So far root has created 142 blog entries.

中文信息处理实验室六篇长文被ACL2021主会录用

2021-05-08T15:52:21+00:00

中文信息处理实验室六篇长文被ACL2021主会录用 日前,自然语言处理领域的顶级会议 ACL 2021陆续向作者发送录用通知,中国科学院软件研究所中文信息处理实验室六篇长文被主会录用。 下面是论文列表及介绍: 论文一 标题:TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction 作者:Yaojie Lu, Hongyu Lin, Jin Xu, Xianpei Han, Jialong Tang, Annan Li, Le Sun, Meng Liao, Shaoyi Chen 录用类型:长文 简介:我们提出一个序列到结构的生成范式—Text2Event,该方式可以通过文本-事件记录的粗粒度标注数据进行模型学习,直接从纯文本序列中提取结构化事件记录。具体而言,我们设计了一种用于事件抽取的序列到结构生成网络,并在推理过程中使用受限解码算法注入事件框架知识。此外,我们还设计了一种基于课程学习的训练算法帮助模型从预训练语言模型中迁移知识。实验结果表明,在有监督和迁移学习的设定下,我们所提出的方法可以仅使用记录级别标注的情况下达到与最优模型的可比性能。 论文二 标题:Element Intervention for Open Relation Extraction 作者:Fangchao Liu, Lingyong Yan, Hongyu Lin, Xianpei Han, Le Sun 录用类型:长文 简介:开放关系抽取任务在深度学习模型的推动下有了长足发展,但近期的相关工作表明,深度学习模型容易受关系数据集中存在的伪相关线索干扰,从而导致模型性能不稳定。为此,我们从因果结构模型的角度对开放关系抽取的过程进行建模,利用因果介入的方式,分别提出了针对实体对和上下文的介入方法,在T-REx的两个无监督关系抽取数据集上取得了目前最好的性能。 论文三 标题:From Discourse to Narrative: Knowledge Projection for Event Relation Extraction 作者:Jialong Tang, Hongyu Lin, Meng Liao, Yaojie Lu, Xianpei Han, Le Sun, Weijian Xie, Jin Xu 录用类型:长文 简介: 本工作设计了一个从语篇到事件的知识映射范式,充分利用语篇知识和事件知识之间的内在关联。具体的,本工作挖掘了:1)语篇文本和事件文本存在相似的词法和句法结构;2)语篇语义和事件语义蕴含可类推的语义关系;3)语篇关系和事件关系共享相同的粗粒度分类标准;并分别设计了词级别,语义级别和粗粒度分类级别的三个知识映射模块。内部实验表明,本工作提出的知识映射范式能够发现大量有价值的隐式事件关系,相较于从零开始训练的模型以及简单的迁移学习等框架有稳定的准确率提升。同时,外部实验表明,丰富了隐式事件关系的事件知识图谱能够更有效地提升下游自然语言理解任务。 论文四 标题:From Paraphrasing to Semantic Parsing: Unsupervised Semantic Parsing via Synchronous Semantic Decoding 作者:Shan Wu, Bo Chen, Chunlei [...]

中文信息处理实验室六篇长文被ACL2021主会录用 2021-05-08T15:52:21+00:00

春意浓浓,寄情山水——记中文信息处理实验室春游

2021-04-16T11:43:00+00:00

春意浓浓,寄情山水——记中文信息处理实验室春游 智者乐水,仁者乐山。2021年4月11日,中文信息处理实验室部分职工及学生共同来到黑龙潭风景区,放松心情。 黑龙潭位于北京市密云区石城镇鹿皮关北面的一条全长4公里,水位落差220米的峡谷里,有春花、秋月、平沙、落雁、曲、叠、沉、悬潭等十八个名潭,千姿百态,各领风骚。 爬山对于人的体力和毅力都是极大的考验,但是实验室一行人不畏艰险、勇攀高峰。大家沿着盘山栈道,欣赏着涓涓瀑布流入清澈见底的石潭,感受着攀登陡峭山路的艰难困苦,终于在中午时分登上了黑龙潭的顶峰。 一时间湖光山色尽收眼底,就好似科研攻坚路漫漫,志在巅峰不辞遥。   山顶的温度确实比山脚低很多,但是大家围坐一团互相分享食物、交流的温馨画面顿时驱散了寒意。傍晚,实验室一行人在农家小院的饭菜香味中,结束了一天的行程。 通过这次春游活动,大家在欣赏祖国的美好河山的同时也体会到科研路上应坚持不懈,勇攀高峰。最后,中文信息处理实验室将继续不忘初心,奋勇前进。 撰稿:张文凯 责任编辑:刘汇丹

春意浓浓,寄情山水——记中文信息处理实验室春游 2021-04-16T11:43:00+00:00

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告

2021-04-21T14:45:48+00:00

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告 2021年4月13日下午,应实验室孙乐研究员和韩先培研究员的邀请,复旦大学张奇教授到访实验室,为实验室师生做了题为“模型鲁棒性分析与评测”的学术报告。 张奇老师现任复旦大学计算机科学技术学院教授、博士生导师,主要研究方向是自然语言处理,信息检索和数据密集型计算,共发表学术论文70余篇。 近年来,随着深度学习以及预训练方法的发展,深度学习模型在几乎全部自然语言处理任务中都取得了非常好的效果,甚至在阅读理解等多项任务上取得了超越人类的准确性。然而在实际应用中,这些模型的效果却大打折扣。近年来许多研究工作表明,深度神经网络模型在处理掺杂了微小扰动的样本时,其预测效果就会出现大幅度下降。模型鲁棒性的研究也因此受到越来越多的关注。在本次报告中,张奇老师针对模型的鲁棒性、可解释性以及如何评估模型的鲁棒性三个方面进行了讲解。 尽管目前已有一些针对NLP任务的模型鲁棒性工作,但它们大多只针对单个NLP任务,且只有少量的数据变形方法,缺乏系统性的工具集合。针对这一问题,张老师课题组展开了大规模的鲁棒性评测工作,开发了面向自然语言处理的多语言鲁棒性评测平台TextFlint。 利用 TextFlint,张老师课题组对分词、词性标注、句法分析、命名实体识别等自然语言处理任务的约100个模型进行了复现和实验。实验结果显示,现有算法在新测评数据集上的结果都较原始测评结果有较大幅度下降。从以上结果可以看出,目前绝大多数模型的鲁棒性都亟待提升。 张老师从鲁棒性出发,介绍了课题组的研究工作,并对未来NLP领域的发展进行展望。报告结束后,张奇老师与实验室师生就自然语言处理领域未来发展和科研经验展开了热烈讨论。 撰稿:王怡然、刘方超 责任编辑:刘汇丹

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告 2021-04-21T14:45:48+00:00

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告

2020-12-29T16:38:12+00:00

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告 2020年12月28日下午,应实验室孙乐研究员和韩先培研究员的邀请,厦门大学苏劲松教授到访实验室,为实验室师生做了题为“神经机器翻译领域自适应研究”的学术报告。 苏劲松老师现任厦门大学信息学院软件工程系教授,博士生导师。主要研究方向是自然语言处理、社会计算,共发表学术论文100余篇,包括CCF推荐列表论文68篇。 近年来,低资源神经机器翻译(NMT)受到广泛关注,多领域神经机器翻译可以利用多个领域平行语料来构造一个统一的模型从而解决领域内数据稀少的问题。 为了同时利用和共享多种领域的翻译数据构建多领域NMT,苏老师课题组提出了区分词粒度上下文的多领域神经机器翻译模型。该方法将词级别隐状态区分为领域相关和领域共享的隐状态,并根据目标词与不同领域的相关性,调整目标词在NMT训练目标中的权重。模型在大规模多领域汉英和英法语数据集上验证性能均有所提升。 用于神经机器翻译的领域适应研究集中在领域外向领域内的一次迁移训练方式,然而由于领域间的差异这样one-pass训练方式很难达到目标,为此苏老师课题组提出了迭代双向迁移的神经机器翻译训练框架。这样迭代多源知识互转移框架在机器阅读理解中也验证了其有效性。 苏老师从机器翻译的领域迁移出发,介绍了课题组的研究工作和后续的研究进展,并对未来的神经机器翻译和领域知识蒸馏研究进行总结和展望。报告结束后,苏劲松老师与实验室师生就论文细节和科研经验展开了热烈讨论。 撰稿:吴杉 责任编辑:刘汇丹

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告 2020-12-29T16:38:12+00:00

中文信息处理实验室两篇论文被AAAI2021录用

2020-12-09T12:18:45+00:00

中文信息处理实验室两篇论文被AAAI2021录用 日前,2021年的首个人工智能顶级会议 AAAI 2021公布了论文录用列表,中国科学院软件研究所中文信息处理实验室两篇长文被大会录用。 下面是论文列表及介绍:   论文一 题目:Denoising distantly supervised named entity recognition via a hypergeometric probabilistic model 作者:张文凯、林鸿宇、韩先培、孙乐、刘汇丹、袁晶、魏志成 录用类型:长文 简介:远程监督命名实体识别缓解了深度学习模型对大量标注数据的依赖,但性能却受到远程监督数据中噪声的影响。为此,我们提出了一种基于超几何分布的远程监督数据降噪算法HyperGeometric Learning(HGL)。HGL利用超几何分布和模型训练过程的相似性,能够在训练过程中自适应的对噪声数据分布进行拟合,在ACE2005数据集上取得较好的降噪效果。   论文二 题目:Benchmarking Knowledge-enhanced Commonsense Question Answering via Knowledge-to-Text Transformation 作者:边宁,韩先培,陈波,孙乐 录用类型:长文 简介:提出了一个简洁而有效的基于知识到文本转换的常识问答模型框架,在多个标准的常识问答数据集上进行了深入的测试和分析,并为知识增强的常识问答提供了高性能的基准模型。实验显示:①基于知识到文本转换的常识问答模型是有效且鲁棒的;②融合外部知识对于常识问答任务依然有较大潜力;③目前的常识问答模型还远不能充分发挥知识的潜力——与使用标准知识解释的模型相比,现有模型均有较大性能差距。 据悉, AAAI 2021 将于美国纽约举办,时间在 2021年2 月 2 日至 9 日,本届是第 35 届 AAAI 大会。AAAI 由美国人工智能协会主办,该协会是人工智能领域的主要学术组织之一,其主办的年会也是人工智能领域的国际顶级会议。在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中,AAAI 均被列为人工智能领域的 A 类顶级会议。AAAI 2021官方发布接收论文列表,9034篇论文提交有1692篇论文接受,接受率21%。 撰稿:刘汇丹 责任编辑:刘汇丹

中文信息处理实验室两篇论文被AAAI2021录用 2020-12-09T12:18:45+00:00

中文信息处理实验室师生参加EMNLP 2020

2020-11-24T10:12:46+00:00

中文信息处理实验室师生参加EMNLP 2020 2020年11月16日至11月20日,由国际语言学会(ACL)下属的SIGDAT小组主办的自然语言处理领域的顶级国际会议EMNLP成功召开。受疫情影响,今年EMNLP 会议全程以线上形式举行。实验室的师生通过线上方式参加了此次大会,博士后林鸿宇做了线上分组报告。 EMNLP 2020共收到投稿3677篇,其中有效投稿为3359篇,接收论文数量为752篇,包括长论文602篇、短论文150篇,论文接受率为22.4%。另外,今年EMNLP也带来了一项创新:“Findings of ACL: EMNLP 2020”,它用于刊登未被主会接收,但经过程序委员会评估为足够solid的工作,其实质、质量和新颖性有足够保证。这些论文将作为ACL选集的一部分被收录。 实验室有1项工作被主会录用,3项工作被Findings录用,包括: A Rigorous Study on Named Entity Recognition: Can Fine-tuning Pretrained Model Lead to the Promised Land? Hongyu Lin, Yaojie Lu, Jialong Tang, Xianpei Han, Le Sun, Zhicheng Wei and Nicholas Jing Yuan. EMNLP 2020. Syntactic and Semantic-driven Learning for Open Information Extraction. Jialong Tang, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Xinyan Xiao and Hua Wu. Findings of EMNLP 2020. Global Bootstrapping Neural Network for Entity Set Expansion. Lingyong Yan, Xianpei Han, Ben He and Le Sun. Findings of EMNLP 2020. BERT-QE: Contextualized Query Expansion for Document Re-ranking. Zhi [...]

中文信息处理实验室师生参加EMNLP 2020 2020-11-24T10:12:46+00:00

中文信息处理实验室师生参加第十四届全国知识图谱与语义计算大会

2020-11-17T15:00:12+00:00

中文信息处理实验室师生参加第十四届全国知识图谱与语义计算大会 第十四届全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing, 2020)11月12日至15日在江西南昌召开。实验室韩先培研究员担任本次大会评测主席,主持了评测环节报告。实验室颜令勇博士的论文被大会录用,并在大会上作了分组报告。实验室的其他师生通过线上方式参加了此次大会。 因受疫情影响,本届CCKS会议采用线上、线下两种参与方式。CCKS2020会议日程共分为两个阶段:11月12日至13日的前沿技术讲习班(ATT)和11月14日至15日的主会。 本届ATT邀请了来自国内外学界和企业界的知名专家学者从垂直领域知识图谱构建、知识图谱应用、多模态知识图谱以及知识图谱表示学习等方面传授知识,分享经验。 本届主会由特邀报告、知识图谱相关顶级会议回顾及研究进展报告、学术论文口头报告、评测以及知识图谱工业界论坛等组成。 14日上午的特邀报告环节,陆汝钤院士介绍了题为《发展知识图谱支撑平台研究》,回顾总结知识图谱支撑系统,提出了基于大知识概念的通用知识图谱支撑平台的构建方案; 来自字节跳动的李航博士在线分享了语言模型的发展历程,以及他们在语言模型方面的最新工作(《推进语言模型的前沿研究》)。 15日上午的特邀报告环节,来自斯坦福大学的Barbara Tversky教授线上分享了作了题为《Thinking with the body and the world》的报告,从手势动作等方面介绍了这些周边世界信息如何增强认知。 本届CCKS主会共收到投稿论文187篇,录用论文63篇,其中Oral论文15篇、Poster论文48篇。 在分组报告中,颜令勇博士就实体翻译挖掘这一主题与参会学者分享了题为“Reinforcement Learning for Clue Selection in Web-Based Entity Translation Mining”(Lingyong Yan, Xianpei Han, and Le Sun)的报告,介绍了一种基于强化学习的实体翻译挖掘方法,将实体翻译挖掘建模为MDP并利用强化学习训练。 技术评测环节共设置为8个任务:新冠知识图谱构建与问答、面向中文短文本的实体链指、面向中文电子病历的医疗实体及事件抽取、面向金融领域的小样本跨类迁移事件抽取、面向金融领域的篇章级事件主题与要素抽取、基于本体的金融知识图谱自动化构建技术评测、基于标题的大规模商品实体检索、面向试验鉴定的命名实体识别。 据悉,CCKS是由中国中文信息学会语言与知识计算专业委员会主办的全国知识图谱领域的重要会议,其前身是中文知识图谱研讨会(CKGS)和中国语义互联网与Web科学大会 (CSWS),本届会议CCKS2020由江西师范大学承办。 撰稿:颜令勇 责任编辑:刘汇丹

中文信息处理实验室师生参加第十四届全国知识图谱与语义计算大会 2020-11-17T15:00:12+00:00

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛

2020-11-06T19:02:52+00:00

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛 2020年11月6日,第五届语言与智能高峰论坛举行,实验室孙乐研究员和韩先培研究员应邀参加论坛。孙乐研究员主持了上午的由微软亚洲研究院副院长周明博士特邀报告。韩先培研究员应邀在下午的青年科学家论坛上做了题为“开放知识获取:从启发式规则到端到端Bootstrapping网络”的报告。实验室师生以在线的方式参加了本届论坛。 本届论坛邀请了微软亚洲研究院、复旦大学、华为、百度研究院、俄勒冈州立大学等单位的特邀嘉宾做报告。 让机器理解人类语言是人工智能长期以来的梦想,经过几十年的发展,语言与智能技术发展到了什么程度,如何评价语言理解的智能水平,未来发展趋势如何?为了深入探讨这些重要问题,中国中文信息学会和中国计算机学会联合创办了“语言与智能高峰论坛”,首届论坛于2016年在北京举行,每年举行一次,之前已成功举办四届,旨在向社会公众介绍语言与智能的前沿动态和创新成果,推动我国相关领域快速发展。 撰稿:刘汇丹 责任编辑:刘汇丹

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛 2020-11-06T19:02:52+00:00

中国科学院自动化研究所何世柱副研究员应邀作学术报告

2020-10-30T17:58:35+00:00

中国科学院自动化研究所何世柱副研究员应邀作学术报告 2020年10月30日下午,应实验室孙乐研究员和韩先培研究员的邀请,中国科学院自动化研究所何世柱副研究员到访实验室,为实验室师生做了题为“融合知识的生成式对话研究”的学术报告。 何世柱老师博士毕业于中科院自动化所,现任模式识别国家重点实验室副研究员、硕士生导师,主要研究方向为知识推理和问答系统。 近年来,从大规模原始对话数据中学习生成式的对话模型受到越来越多的关注,主要方法大都基于深度学习模型,使用多层神经网络记忆对话中涉及的知识。但是,一方面,对话中涉及到的知识非常多,并且时常更新,深度学习模型仅依赖神经网络中的若干参数不可能对它们完全表示和存储;另一方面,事实上目前大部分知识常以形式化的知识图谱形式表示。因此,如何在基于深度学习模型的对话模型中利用知识图谱是一个重要研究课题,它不仅能够提升深度模型生成答复的多样性,也能够给用户提供富有内容的回复。何老师从语言知识、主题知识和世界知识三类知识的应用,介绍相关的研究工作和课题组的研究进展,并对融合知识的生成式对话研究进行总结和展望。 报告结束后,何世柱老师与实验室师生就文本生成方面的技术进行了互动。 撰稿:刘汇丹 责任编辑:刘汇丹

中国科学院自动化研究所何世柱副研究员应邀作学术报告 2020-10-30T17:58:35+00:00

九九重阳,登高赏秋

2020-10-26T12:06:36+00:00

九九重阳,登高赏秋 九月九日望遥空,秋水秋天生夕风。10月25日,正值重阳佳节,中文信息处理实验室组织教职工和学生40余人前往慕田峪长城登高望远,共赏红叶。 慕田峪长城位于北京市怀柔境内,距北京城区73公里,历史悠久,文化灿烂。景区内山峦叠嶂,树木葱郁,在中外享有“万里长城,慕田峪独秀”的美誉。 金秋十月,阳光灿烂,遍山红叶开得正欢。在攀登途中,大家观赏美妙秋景,眺望长城景观,感到心旷神怡。 离开了雄伟壮观的慕田峪长城,大家又前往果园进行采摘活动。果园里瓜果飘香,芬芳迷人,大家精心挑选果实,收获了亲近自然的美妙体验。 太阳没入山丘,夕阳余晖洒落。伴随着欢声笑语,大家踏上归程之路。休闲放松之后,实验室各位将以饱满的精神投入到科研工作中。相信在大家的辛勤地耕耘下,中文信息实验室将收获沉甸甸的果实!

九九重阳,登高赏秋 2020-10-26T12:06:36+00:00