root

/root

About root

This author has not yet filled in any details.
So far root has created 39 blog entries.

中文信息处理分工会组织春游活动

2019-04-01T11:47:49+00:00

春意融融,长城怀古 阳春三月,草长莺飞,正是万物复苏的好时节。3月31日,中文信息处理实验室组织职工及学生40余人共同来到黄花城水长城景区,欣赏美景,放松心情。 黄花城水长城位于北京市怀柔区九渡河镇境内,因三段长城入水而得名,是北京唯一一处长城与水相连的长城。此处融青山、碧水、长城、古树为一体,有“塞外景,江南风,尽在水长城”的美誉。 拾级而上,水长城悠然而立,古朴自然。身处长城之上,漫山野桃花灿烂缤纷,灏明湖碧波粼粼,不时有小船掠过。大家通力合作,一起登上了长城的最高点,在这个过程中既感受到长城承载的厚重历史,也欣赏了自然的美丽风光。微风吹拂中,所有的疲惫都一扫而光。 除了雄伟的长城,归途上形态万千的板栗林,依山蜿蜒的盘山栈道,风景亦是美不胜收。在这样的美景中,大家心情愉悦,一路上欢声笑语,其乐融融。暮色四合,在农家小院的饭菜香味中,大家结束了一天的旅程。 欢乐不觉时光过。通过此次活动,大家放松心情,也将春天的生机与活力带回了实验室中。作为一个团体,中文信息处理实验室将继续奋进,一同前行! (供稿:陈晓阳)  

中文信息处理分工会组织春游活动 2019-04-01T11:47:49+00:00

北京大学冯岩松副教授应邀做学术报告

2019-03-25T09:19:17+00:00

北京大学冯岩松副教授应邀做学术报告 2019年3月22日下午14:00,应实验室孙乐研究员与韩先培研究员的邀请,北京大学冯岩松副教授来访实验室,为大家带来一场题为“Combining Human Knowledge with Neural Network Models: A Case Study for SLU and Beyond”的学术讲座。 冯岩松老师的报告主要关注点在于如何将人类预先获得的知识融入到现有的深度神经网络架构之中,从而提升网络在少样本学习上的能力。具体来说,冯岩松老师围绕着意图识别和关系抽取两大任务,向大家介绍了多种将正则表达式以及预定义规则融入到神经网络学习过程中的方法,并详细比较了多种不同方法的优劣以及适用范围。最后,冯老师同大家分享了自己在信息抽取领域的丰富实践经验,并详细地解答了同学们提出的各种相关问题。

北京大学冯岩松副教授应邀做学术报告 2019-03-25T09:19:17+00:00

新浪微博张俊林博士应邀来实验室做学术报告

2019-03-04T10:52:44+00:00

新浪微博张俊林博士应邀来实验室做学术报告 2019年3月1日,应实验室主任孙乐研究员的邀请,新浪微博AI Lab资深算法专家张俊林博士来访实验室,为师生带来一场题为“自然语言预训练技术及RNN/CNN/Transformer比较”的精彩学术报告。现场座无虚席,反响热烈。 张俊林博士首先介绍了NLP中的一些主要预训练技术的技术演进历程,从基础的word embedding技术到近一年来兴起的ELMO、GPT、BERT等语言模型。这些预训练语言模型采用无监督的学习算法,得以利用大规模的自然语言语料进行训练,在各类自然语言处理任务上均取得巨大突破。而作为BERT基础组件的Transformer近年来也得到广泛应用,在各项任务中均取得不少进展。然后,张俊林博士对自然语言处理中的三大特征抽取器Transformer、RNN和CNN的各自优缺点进行了对比分析。最后,张俊林博士又同大家分享了自己对近些年预训练语言模型发展趋势的展望,并详细解答了同学们提出的相关问题。  

新浪微博张俊林博士应邀来实验室做学术报告 2019-03-04T10:52:44+00:00

中国科学院自动化研究所刘康副研究员应邀做学术报告

2019-03-25T09:20:34+00:00

中国科学院自动化研究所刘康副研究员应邀做学术报告 2019年1月11日下午14:00,应实验室孙乐研究员与韩先培研究员的邀请,中国科学院自动化研究所刘康副研究员走进中文信息处理实验室,为实验室师生做了关于事件抽取的学术讲座。 刘康博士结合课题组近年来的工作进展, 向大家介绍了从非结构化文本中抽取结构化事件知识的基本方法, 以及应对开放域事件抽取标记数据稀缺的新思路。此外,刘康博士还和大家分享了深度学习方法在金融事件抽取应用项目中的经验和体会。 报告结束后,刘康老师与参会的师生进行互动,探讨了金融事件抽取相关的若干问题,现场气氛活跃。

中国科学院自动化研究所刘康副研究员应邀做学术报告 2019-03-25T09:20:34+00:00

复旦大学邱锡鹏老师访问实验室

2019-03-25T09:21:02+00:00

复旦大学邱锡鹏老师访问实验室 2018年11月9日,应实验室韩先培研究员邀请,复旦大学计算机科学技术学院邱锡鹏老师走进中文信息处理实验室,为师生带来精彩学术报告,中科院软件所和自动化所的同学前来听讲座,现场座无虚席,反响热烈。 邱锡鹏老师以“如何端到端地写科研论文”为题,介绍了如何做科研和写出好的科研论文。老师先讲解了几大顶会的评审制度和审稿标准,然后又从同行评议的数据集出发,通过几种可解释性强的模型,分析了对于论文录用概率有影响的不同的写作方法和写作细节。邱老师又以自己组内ACL-2017的文章《Adversarial Multi-Criteria Learning for Chinese WordSegmentation》为例,详细讲解了文章的摘要、介绍、背景、方法、试验、相关工作和结论的写作中的注意事项。 报告结束,同学们获益匪浅,反响热烈,并和邱锡鹏老师一同合照。    

复旦大学邱锡鹏老师访问实验室 2019-03-25T09:21:02+00:00

2018年实验室代表性论文介绍

2018-12-25T10:33:00+00:00

2018年实验室代表性论文介绍 一、基于区块提议网络的中文事件检测 事件检测则是事件抽取中的一个关键步骤。近年来,随着基于神经网络方法的发展,人们常常将事件检测转化为一个词级别的分类问题来对待。然而,基于词级别分类的事件检测方法没有考虑到事件触发词块与词的不匹配问题。特别是在中文当中,有许多的事件触发词块并不是一个特定的词。 针对上述问题,我们提出了一种基于区块提议网络的中文事件检测方法。具体地,我们的方法首先使用动态多池化卷积神经网络抽取字符级别和词级别的混合特征。之后基于混合特征的触发词块生成器可以在字符级别上直接给出整个触发词块的检测结果,从而避免了事件触发词块与词的不匹配问题。实验结果表明我们的方法在事件检测标准数据集TAC-KBP2017以及ACE2005上取得了State-of-the-Art性能。 上述成果长文发表在自然语言处理顶级国际会议ACL 2018会议上: Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun. Nugget Proposal Networks for Chinese Event Detection. In: Proc. of the 56th Annual Meeting of the Association for Computational Linguistics, pp. 1033-1043. Melbourne, Australia (ACL 2018) (CCF-A)   二、用于信息检测的动态缩放优化方法 信息抽取中的许多问题均可以被视为信息检测任务。与传统分类问题不同的是,信息检测任务有着显著的类别不平等问题。这种类别不平等主要表现在数据分布以及使用的评价指标上。这使得传统基于交叉熵的优化目标无法得到较好的优化结果。 针对上述问题,我们提出了一种基于动态重要性缩放的信息检测模型优化算法。该方法借用了经济学中的边际效用的理论,首先基于每个类别相对于评价指标的边际效用计算每个类别的重要性。之后在优化模型的过程当中,我们将该重要性加入到目标函数当中,从而使得整个优化过程能够与评价指标更加吻合。同时,我们还提出了一种具体的、用于批处理的神经网络检测模型的动态重要性缩放方案。我们的方法在中英文事件检测标准数据集TAC-KBP2017上取得了State-of-the-Art性能以及更好的优化稳定性。 上述成果长文发表在自然语言处理顶级国际会议ACL 2018会议上: Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun. Adaptive Scaling for Sparse Detection in Information Extraction. In: Proc. of the 56th Annual Meeting of the Association for Computational Linguistics, pp. 1033-1043. Melbourne, Australia (ACL 2018) (CCF-A)   三、基于半监督的词典学习的语义解析 词典是基于组合语义的语义解析方法的基础,传统的词典需要从(句子,逻辑表达式)的标注对中学习,这类方法的缺点是需要大量的标注语料,并且存在词典覆盖度不够的问题。近年来,语义解析逐渐从受限领域扩展到开放领域,进一步加剧了词典覆盖度不够的问题。 为了解决上述问题,我们提出了一种基于半监督的词典学习方法。该方法利用容易获取的文本语料和词汇资源来扩充词典。该方法的出发点是:相似语义的词语应该映射到相同或相近的谓词。具体的,我们提出基于图的半监督学习框架,利用文本与文本之间的语义相关性来从种子词汇中学习新词汇,从而提高词典的覆盖度。我们在两个公开数据集上进行了实验,实验表明:我们的方法远远超过了基准系统,特别是大大提高了基准系统的召回率,这得益于扩充后的词典覆盖度更高。 上述成果长文发表在自然语言处理重要国际会议COLING-2018会议上: Bo Chen, Le Sun and Xianpei Han. Semi-Supervised Lexicon Learning for Wide-Coverage Semantic [...]

2018年实验室代表性论文介绍 2018-12-25T10:33:00+00:00

自然语言处理国际著名学者Mark Steedman教授应邀到实验室访问并做学术报告

2019-02-20T09:28:11+00:00

自然语言处理国际著名学者Mark Steedman教授应邀到实验室访问并做学术报告 2018年11月13日上午,爱丁堡大学Mark Steedman教授应孙乐研究员邀请,在中科院软件所3层会议室做了题为“Towards a Form-Independent Semantics for NLP”的公开学术报告,中科院软件所的孙乐研究员、韩先培研究员,中科院自动化所的刘康副研究员,等参加了报告,参加报告的还有以及来自软件所和自动化所的学者和学生。 报告中,Steedman教授介绍了他们组提出来的一种form-independent的语义表示,该语义表示基于一个知识图谱(knowledge graph)和一个蕴含图谱(entailment graph),与传统语义表示相比,该语义表示体系更贴近语言本身,同时能够更好的进行推理。该语义表示能广泛用于问答,机器翻译等,相关的论文将在今年的TACL上发表。Steedman教授的报告深入浅出,底蕴丰厚,耐人回味,深受观众喜爱,会场气氛热烈,大家都踊跃提问。 下午,Steedman教授单独访问我组,并与实验室的老师和博士生进行深入的交流。交流会上,每位博士生先介绍自己的研究工作,并就自己研究过程中所遇到的问题向Steedman教授请教,Steedman教授耐心的一一进行解答。孙乐研究员、韩先培研究员、陈波博士也就相关学术问题与Steedman教授进行了深入探讨。交流会持续了2个小时,大家都受益匪浅。会后实验室部分成员与Steedman教授进行合影留念。

自然语言处理国际著名学者Mark Steedman教授应邀到实验室访问并做学术报告 2019-02-20T09:28:11+00:00

祝贺实验室林鸿宇和陆垚杰荣获2018年国家奖学金

2019-02-20T09:31:33+00:00

祝贺实验室林鸿宇和陆垚杰荣获2018年国家奖学金 所研究生国家奖学金评审委员会于2018年10月15日组织了公开答辩、评议,最后通过无记名投票表决,我实验室2017级博士林鸿宇同学、2016级硕士陆垚杰同学获得2018年研究生国家奖学金。值得一提的是,这是林鸿宇同学连续第2年获得博士国家奖学金。向两位同学表示祝贺!

祝贺实验室林鸿宇和陆垚杰荣获2018年国家奖学金 2019-02-20T09:31:33+00:00

第三届全国知识图谱与语义计算大会在天津召开,实验室论文荣获大会唯一最佳中文论文奖

2018-08-21T09:37:51+00:00

第三届全国知识图谱与语义计算大会在天津召开,实验室论文荣获大会唯一最佳中文论文奖 2018年8月14日至17日,由中国中文信息学会语言与知识计算专委会主办的第三届全国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic Computing,CCKS2018)在天津滨海新区圆满召开。我实验室安波同学论文荣获大会唯一的最佳中文论文奖。 作为国内自然语言理解领域的顶级盛会,CCKS2018吸引了来自国内各大高校、科研院所以及产业界的超过800人参与。本次大会的主题是“知识计算与语言理解”,会议聚焦于知识图谱及语义计算的相关问题,讨论建模、获取以及利用知识图谱这一外部知识模式的相关技术,解决自然语言处理领域的重要问题,推动人工智能的发展。 CCKS2018延续此前CCKS会议的特色,分为前两天(8月14日至8月15日)的前沿技术讲习班(ATT)以及后两天(8月16日至8月17日)的主会议。 主会议阶段的两天上午分别邀请了国内外的知名学者分享了关于人工智能以及知识图谱的特邀报告。8月16日上午的两个特邀报告分别来自清华大学的张钹院士和来自伦斯勒理工学院的James Hendler教授。张钹院士首先就当前人工智能所面临的问题做出了理性的分析与思考,解释了知识在人工智能发展中的重要性,以及知识与数据相结合的发展前景。James Hendler教授则详述了为了让智能系统更加可读并理解万维网中的信息而建立起的语义网(Semantic Web)的诞生与演变。8月17日上午的两个特邀报告别来自阿里巴巴的玄难副总裁以及来自罗马大学的Roberto Navigli教授。玄难副总裁首先介绍了阿里巴巴的生态系统和技术体系,并结合阿里巴巴生态链的具体应用场景给出了外部先验知识(知识图谱)在处理和增加这些场景方面的重大作用,从产业界的角度给出了知识图谱的未来应用前景。Roberto Navigli教授则介绍了跨语言知识图谱BabelNet的构建过程,并着重阐述了跨语言知识图谱在多种应用场景下了强大作用,在会上还演示了相关的系统演示视频,让人印象深刻。主会议阶段第一天的上午的最后还邀请了国内的优秀青年学者罗列和分析了在顶级会议中知识图谱相关论文的总体情况并介绍了一些优秀的论文。 主会议阶段的两天下午议程十分丰富。第一天下午首先由6篇优秀论文的作者分别做了口头报告。之后会议评测组织者报告了本次会议的评测和获奖系统,最后则由优秀的参评系统做了系统报告。第二天上午的最后时段创造性地让海报作者用30秒的时间介绍自己的系统,效果显著,之后的海报展示环节交流热烈。第二天下午则首先由10位来自产业界的技术人员分享了在产业界知识图谱的应用场景和相关架构。之后的圆桌会议则分别邀请了来自学术界和产业界的各自3人从各自角度阐述了知识图谱的发展与未来,碰撞出的智慧的火花让台下观众受益匪浅。 8月14日至15日的前沿技术讲习班,邀请到了来自加州大学圣巴巴拉分校William Wang副教授、来自阿伯丁大学的Jeff Pan教授、来自皇后大学的朱晓丹教授、来自卡塔尔的计算研究所的preslav nako教授、来自阿里巴巴的张伟老师以及来自科大讯飞AI研究院的刘权老师分享了关于知识图谱的利用与推理,知识图谱建模与知识获取,以及知识图谱的使用分享了前沿的学术思考与技术经验。William Wang副教授做了题为《深度知识图谱推理》的报告,从基于路径和基于嵌入式表示的两个路线介绍了知识图谱推理相关研究,并详细解析各自的优势与特点。Jeff Pan教授分别做了《开放知识图谱的利用与推理》的报告,介绍了当前的一些常见的开放知识图谱并详细分析了使用开放知识图谱进行知识推理的研究思路和优缺点。朱晓丹教授则从自然语言推理和语义组合方面详细介绍了他们实验室的相关工作,并分享了利用使用了外部知识来增强神经自然语言推理的相关工作。Preslav nako 教授则系统梳理了语义关系的发展历程以及关系模式的不同层次的特点,并介绍了抽取语义关系使用的实体或者关系的不同特征表示的优缺点;之后分别介绍了有监督和无监督两种关系抽取的相关技术路线以及基于嵌入式表示的相关方法和研究。张伟老师和刘权老师则从实践的角度具体详细地介绍了特定领域知识图谱的构建与应用,以及语义计算和知识问答的不同层次的不同研究思路和应用场景。 我实验室的老师和同学积极参与本次盛会,提交并被录用了总计3篇论文(录用率28%)及一个自然语言语义解析平台的演示系统。我实验室的安波同学、宋希良同学以及陆垚杰同学各有一篇论文被CCKS2018录用,分别是:《融合结构语义的知识库问答系统》(安波,韩先培,孙乐),《面向新类型人名识别的Data Augmentation方法》(宋希良,韩先培,孙乐)以及《基于语言学扰动的事件检测数据增强方法》(陆垚杰,林鸿宇,韩先培,孙乐)。其中安波同学的论文荣获了最佳中文论文奖!另外我实验室自主构建的自然语言语义解析系统作为演示系统,受到了参会人员的大量关注。      

第三届全国知识图谱与语义计算大会在天津召开,实验室论文荣获大会唯一最佳中文论文奖 2018-08-21T09:37:51+00:00

祝贺实验室林鸿宇、陆垚杰、刘方超3位同学荣获2017-2018学年优秀学生

2019-02-20T09:20:03+00:00

祝贺实验室林鸿宇、陆垚杰、刘方超3位同学荣获2017-2018学年优秀学生 根据《中国科学院软件研究所优秀学生评选办法》,经所评审小组评审,我实验室2017级博士林鸿宇同学获得“三好标兵”荣誉称号,2018级博士陆垚杰和刘方超同学获得2017-2018“三好学生”荣誉称号。

祝贺实验室林鸿宇、陆垚杰、刘方超3位同学荣获2017-2018学年优秀学生 2019-02-20T09:20:03+00:00

Contact Info

4# South Fourth Street, Zhong Guan Cun, Beijing 100190

Phone: 86-10-62661012, 62661013

Fax: 86-10-62562533

Web: ThemeFusion

Recent Posts