root

/root

About root

This author has not yet filled in any details.
So far root has created 136 blog entries.

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告

2020-12-29T16:38:12+00:00

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告 2020年12月28日下午,应实验室孙乐研究员和韩先培研究员的邀请,厦门大学苏劲松教授到访实验室,为实验室师生做了题为“神经机器翻译领域自适应研究”的学术报告。 苏劲松老师现任厦门大学信息学院软件工程系教授,博士生导师。主要研究方向是自然语言处理、社会计算,共发表学术论文100余篇,包括CCF推荐列表论文68篇。 近年来,低资源神经机器翻译(NMT)受到广泛关注,多领域神经机器翻译可以利用多个领域平行语料来构造一个统一的模型从而解决领域内数据稀少的问题。 为了同时利用和共享多种领域的翻译数据构建多领域NMT,苏老师课题组提出了区分词粒度上下文的多领域神经机器翻译模型。该方法将词级别隐状态区分为领域相关和领域共享的隐状态,并根据目标词与不同领域的相关性,调整目标词在NMT训练目标中的权重。模型在大规模多领域汉英和英法语数据集上验证性能均有所提升。 用于神经机器翻译的领域适应研究集中在领域外向领域内的一次迁移训练方式,然而由于领域间的差异这样one-pass训练方式很难达到目标,为此苏老师课题组提出了迭代双向迁移的神经机器翻译训练框架。这样迭代多源知识互转移框架在机器阅读理解中也验证了其有效性。 苏老师从机器翻译的领域迁移出发,介绍了课题组的研究工作和后续的研究进展,并对未来的神经机器翻译和领域知识蒸馏研究进行总结和展望。报告结束后,苏劲松老师与实验室师生就论文细节和科研经验展开了热烈讨论。 撰稿:吴杉 责任编辑:刘汇丹

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告 2020-12-29T16:38:12+00:00

中文信息处理实验室两篇论文被AAAI2021录用

2020-12-09T12:18:45+00:00

中文信息处理实验室两篇论文被AAAI2021录用 日前,2021年的首个人工智能顶级会议 AAAI 2021公布了论文录用列表,中国科学院软件研究所中文信息处理实验室两篇长文被大会录用。 下面是论文列表及介绍:   论文一 题目:Denoising distantly supervised named entity recognition via a hypergeometric probabilistic model 作者:张文凯、林鸿宇、韩先培、孙乐、刘汇丹、袁晶、魏志成 录用类型:长文 简介:远程监督命名实体识别缓解了深度学习模型对大量标注数据的依赖,但性能却受到远程监督数据中噪声的影响。为此,我们提出了一种基于超几何分布的远程监督数据降噪算法HyperGeometric Learning(HGL)。HGL利用超几何分布和模型训练过程的相似性,能够在训练过程中自适应的对噪声数据分布进行拟合,在ACE2005数据集上取得较好的降噪效果。   论文二 题目:Benchmarking Knowledge-enhanced Commonsense Question Answering via Knowledge-to-Text Transformation 作者:边宁,韩先培,陈波,孙乐 录用类型:长文 简介:提出了一个简洁而有效的基于知识到文本转换的常识问答模型框架,在多个标准的常识问答数据集上进行了深入的测试和分析,并为知识增强的常识问答提供了高性能的基准模型。实验显示:①基于知识到文本转换的常识问答模型是有效且鲁棒的;②融合外部知识对于常识问答任务依然有较大潜力;③目前的常识问答模型还远不能充分发挥知识的潜力——与使用标准知识解释的模型相比,现有模型均有较大性能差距。 据悉, AAAI 2021 将于美国纽约举办,时间在 2021年2 月 2 日至 9 日,本届是第 35 届 AAAI 大会。AAAI 由美国人工智能协会主办,该协会是人工智能领域的主要学术组织之一,其主办的年会也是人工智能领域的国际顶级会议。在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中,AAAI 均被列为人工智能领域的 A 类顶级会议。AAAI 2021官方发布接收论文列表,9034篇论文提交有1692篇论文接受,接受率21%。 撰稿:刘汇丹 责任编辑:刘汇丹

中文信息处理实验室两篇论文被AAAI2021录用 2020-12-09T12:18:45+00:00

中文信息处理实验室师生参加EMNLP 2020

2020-11-24T10:12:46+00:00

中文信息处理实验室师生参加EMNLP 2020 2020年11月16日至11月20日,由国际语言学会(ACL)下属的SIGDAT小组主办的自然语言处理领域的顶级国际会议EMNLP成功召开。受疫情影响,今年EMNLP 会议全程以线上形式举行。实验室的师生通过线上方式参加了此次大会,博士后林鸿宇做了线上分组报告。 EMNLP 2020共收到投稿3677篇,其中有效投稿为3359篇,接收论文数量为752篇,包括长论文602篇、短论文150篇,论文接受率为22.4%。另外,今年EMNLP也带来了一项创新:“Findings of ACL: EMNLP 2020”,它用于刊登未被主会接收,但经过程序委员会评估为足够solid的工作,其实质、质量和新颖性有足够保证。这些论文将作为ACL选集的一部分被收录。 实验室有1项工作被主会录用,3项工作被Findings录用,包括: A Rigorous Study on Named Entity Recognition: Can Fine-tuning Pretrained Model Lead to the Promised Land? Hongyu Lin, Yaojie Lu, Jialong Tang, Xianpei Han, Le Sun, Zhicheng Wei and Nicholas Jing Yuan. EMNLP 2020. Syntactic and Semantic-driven Learning for Open Information Extraction. Jialong Tang, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Xinyan Xiao and Hua Wu. Findings of EMNLP 2020. Global Bootstrapping Neural Network for Entity Set Expansion. Lingyong Yan, Xianpei Han, Ben He and Le Sun. Findings of EMNLP 2020. BERT-QE: Contextualized Query Expansion for Document Re-ranking. Zhi [...]

中文信息处理实验室师生参加EMNLP 2020 2020-11-24T10:12:46+00:00

中文信息处理实验室师生参加第十四届全国知识图谱与语义计算大会

2020-11-17T15:00:12+00:00

中文信息处理实验室师生参加第十四届全国知识图谱与语义计算大会 第十四届全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing, 2020)11月12日至15日在江西南昌召开。实验室韩先培研究员担任本次大会评测主席,主持了评测环节报告。实验室颜令勇博士的论文被大会录用,并在大会上作了分组报告。实验室的其他师生通过线上方式参加了此次大会。 因受疫情影响,本届CCKS会议采用线上、线下两种参与方式。CCKS2020会议日程共分为两个阶段:11月12日至13日的前沿技术讲习班(ATT)和11月14日至15日的主会。 本届ATT邀请了来自国内外学界和企业界的知名专家学者从垂直领域知识图谱构建、知识图谱应用、多模态知识图谱以及知识图谱表示学习等方面传授知识,分享经验。 本届主会由特邀报告、知识图谱相关顶级会议回顾及研究进展报告、学术论文口头报告、评测以及知识图谱工业界论坛等组成。 14日上午的特邀报告环节,陆汝钤院士介绍了题为《发展知识图谱支撑平台研究》,回顾总结知识图谱支撑系统,提出了基于大知识概念的通用知识图谱支撑平台的构建方案; 来自字节跳动的李航博士在线分享了语言模型的发展历程,以及他们在语言模型方面的最新工作(《推进语言模型的前沿研究》)。 15日上午的特邀报告环节,来自斯坦福大学的Barbara Tversky教授线上分享了作了题为《Thinking with the body and the world》的报告,从手势动作等方面介绍了这些周边世界信息如何增强认知。 本届CCKS主会共收到投稿论文187篇,录用论文63篇,其中Oral论文15篇、Poster论文48篇。 在分组报告中,颜令勇博士就实体翻译挖掘这一主题与参会学者分享了题为“Reinforcement Learning for Clue Selection in Web-Based Entity Translation Mining”(Lingyong Yan, Xianpei Han, and Le Sun)的报告,介绍了一种基于强化学习的实体翻译挖掘方法,将实体翻译挖掘建模为MDP并利用强化学习训练。 技术评测环节共设置为8个任务:新冠知识图谱构建与问答、面向中文短文本的实体链指、面向中文电子病历的医疗实体及事件抽取、面向金融领域的小样本跨类迁移事件抽取、面向金融领域的篇章级事件主题与要素抽取、基于本体的金融知识图谱自动化构建技术评测、基于标题的大规模商品实体检索、面向试验鉴定的命名实体识别。 据悉,CCKS是由中国中文信息学会语言与知识计算专业委员会主办的全国知识图谱领域的重要会议,其前身是中文知识图谱研讨会(CKGS)和中国语义互联网与Web科学大会 (CSWS),本届会议CCKS2020由江西师范大学承办。 撰稿:颜令勇 责任编辑:刘汇丹

中文信息处理实验室师生参加第十四届全国知识图谱与语义计算大会 2020-11-17T15:00:12+00:00

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛

2020-11-06T19:02:52+00:00

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛 2020年11月6日,第五届语言与智能高峰论坛举行,实验室孙乐研究员和韩先培研究员应邀参加论坛。孙乐研究员主持了上午的由微软亚洲研究院副院长周明博士特邀报告。韩先培研究员应邀在下午的青年科学家论坛上做了题为“开放知识获取:从启发式规则到端到端Bootstrapping网络”的报告。实验室师生以在线的方式参加了本届论坛。 本届论坛邀请了微软亚洲研究院、复旦大学、华为、百度研究院、俄勒冈州立大学等单位的特邀嘉宾做报告。 让机器理解人类语言是人工智能长期以来的梦想,经过几十年的发展,语言与智能技术发展到了什么程度,如何评价语言理解的智能水平,未来发展趋势如何?为了深入探讨这些重要问题,中国中文信息学会和中国计算机学会联合创办了“语言与智能高峰论坛”,首届论坛于2016年在北京举行,每年举行一次,之前已成功举办四届,旨在向社会公众介绍语言与智能的前沿动态和创新成果,推动我国相关领域快速发展。 撰稿:刘汇丹 责任编辑:刘汇丹

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛 2020-11-06T19:02:52+00:00

中国科学院自动化研究所何世柱副研究员应邀作学术报告

2020-10-30T17:58:35+00:00

中国科学院自动化研究所何世柱副研究员应邀作学术报告 2020年10月30日下午,应实验室孙乐研究员和韩先培研究员的邀请,中国科学院自动化研究所何世柱副研究员到访实验室,为实验室师生做了题为“融合知识的生成式对话研究”的学术报告。 何世柱老师博士毕业于中科院自动化所,现任模式识别国家重点实验室副研究员、硕士生导师,主要研究方向为知识推理和问答系统。 近年来,从大规模原始对话数据中学习生成式的对话模型受到越来越多的关注,主要方法大都基于深度学习模型,使用多层神经网络记忆对话中涉及的知识。但是,一方面,对话中涉及到的知识非常多,并且时常更新,深度学习模型仅依赖神经网络中的若干参数不可能对它们完全表示和存储;另一方面,事实上目前大部分知识常以形式化的知识图谱形式表示。因此,如何在基于深度学习模型的对话模型中利用知识图谱是一个重要研究课题,它不仅能够提升深度模型生成答复的多样性,也能够给用户提供富有内容的回复。何老师从语言知识、主题知识和世界知识三类知识的应用,介绍相关的研究工作和课题组的研究进展,并对融合知识的生成式对话研究进行总结和展望。 报告结束后,何世柱老师与实验室师生就文本生成方面的技术进行了互动。 撰稿:刘汇丹 责任编辑:刘汇丹

中国科学院自动化研究所何世柱副研究员应邀作学术报告 2020-10-30T17:58:35+00:00

九九重阳,登高赏秋

2020-10-26T12:06:36+00:00

九九重阳,登高赏秋 九月九日望遥空,秋水秋天生夕风。10月25日,正值重阳佳节,中文信息处理实验室组织教职工和学生40余人前往慕田峪长城登高望远,共赏红叶。 慕田峪长城位于北京市怀柔境内,距北京城区73公里,历史悠久,文化灿烂。景区内山峦叠嶂,树木葱郁,在中外享有“万里长城,慕田峪独秀”的美誉。 金秋十月,阳光灿烂,遍山红叶开得正欢。在攀登途中,大家观赏美妙秋景,眺望长城景观,感到心旷神怡。 离开了雄伟壮观的慕田峪长城,大家又前往果园进行采摘活动。果园里瓜果飘香,芬芳迷人,大家精心挑选果实,收获了亲近自然的美妙体验。 太阳没入山丘,夕阳余晖洒落。伴随着欢声笑语,大家踏上归程之路。休闲放松之后,实验室各位将以饱满的精神投入到科研工作中。相信在大家的辛勤地耕耘下,中文信息实验室将收获沉甸甸的果实!

九九重阳,登高赏秋 2020-10-26T12:06:36+00:00

卓盛云科技有限公司创始人金友兵博士应邀访问实验室

2020-10-22T10:06:50+00:00

卓盛云科技有限公司创始人金友兵博士应邀访问实验室 2020年10月20日下午,应实验室主任孙乐研究员的邀请,卓盛云科技有限公司创始人金友兵博士应邀访问实验室,为实验室师生做了题为“软件开发管理和架构设计”的报告。 金友兵博士拥有多年Linux操作系统、办公软件、文档管理和文档安全等领域的研发经历,曾主持过大型软件系统开发,具备400+人规模的团队管理经验。曾主持863重大专项和10多项国家级/北京市重大项目,历年共申请发明专利20多项。曾获得2010年国务院特殊津贴、北京市科技进步一等奖/新世纪百千万北京市级人才称号等荣誉。金博士曾任红旗中文贰仟公司 CTO、书生集团CTO。他于2017年创立卓盛云科技有限公司(南京/天津),主持开发容器化存储软件、云平台软件等相关产品。 在报告中,金博士主要围绕软件项目管理、软件架构设计、敏捷开发、持续集成-DevOps四个方面的内容展开介绍,并与实验室职工和学生就软件开发和项目管理中的问题进行了讨论。

卓盛云科技有限公司创始人金友兵博士应邀访问实验室 2020-10-22T10:06:50+00:00

阿里巴巴达摩院罗福莉老师到访实验室

2020-10-21T09:57:21+00:00

阿里巴巴达摩院罗福莉老师到访实验室 2020年10月16日下午,应实验室博士后林鸿宇的邀请,阿里巴巴的罗福莉老师到访实验室,为实验室师生做了题为“阿里深度语言模型体系ALICE”的讲座分享。 报告的开始,罗福莉老师首先对她所在的阿里巴巴达摩院语言技术实验室进行了整体介绍,进而描述了阿里巴巴语言模型体系ALICE的架构。来自ALICE的六大语言模型一举拿下了英文GLUE、多语言XTREME、多模态VQA、阅读理解和生成MS MARCO在内的多项国际赛事和榜单的第一名。本次分享将详解参赛榜单的语言模型(包括通用语言模型StructBERT、多语言预训练模型、生成式PALM、多模态预训练模型StructVBERT等)背后的技术创新、平台建设以及对内外的应用落地。 罗老师首先介绍了团队提出了通用预训练模型StructBERT,通过设计基于语言结构的预训练任务,使得模型能够学习到词级别和句子级别的结构信息。 罗老师第二个介绍的是跨语言预训练模型。首先梳理了现有的工作,大体分为两类:第一类是Encoder-based模型,例如XLM及其一系列的扩展工作,其缺陷在于预训练阶段无法对Decoder的Cross-attention模块进行初始化,由此带来预训练和微调阶段的gap。第二类为Encoder-Decoder模型,例如mBART和XNLG模型,主要缺点在于在自然语言理解任务上表现欠佳。基于上述分析,罗老师团队提出了能够同时支持自然语言理解和自然语言生成任务的跨语言预训练模型,在多个任务上取得了SOTA的性能。罗老师还结合多语言预训练任务的上游模型、下游场景和落地任务,对阿里巴巴多语言训练技术大图进行了详细介绍。该工作引发了同学们的积极思考和提问,在模型的训练问题,数据获取问题,以及设计细节等方面展开了热烈的讨论。 之后罗老师结合具体的应用场景剖析了多模态预训练模型的发展方向,例如阿里小蜜中的多模态问答技术,淘宝中的多模态语义匹配技术。现有的多模态预训练模型主要分为两类,双流模型对文本和视觉信息进行独立编码,再通过注意力机制等技术实现模态融合。单流模型则在一开始就对文本信息和视觉信息进行建模,将其编码到相同的向量空间。为了综合两类模型的优势,阿里巴巴团队提出了单双流融合的多模态预训练模型,并取得了不错的性能表现。 最后是生成式的预训练模型PALM,该模型采用了与之前的生成模型不同的训练方式,预训练目标并非重构输入文本,而是预测后续文本。PALM使用自编码方式编码输入文本,同时使用自回归方式解码输出文本。这种预训练方式促使该模型提高对输入文本的理解能力,使其在下游的各个语言生成任务上取得更好的效果。 罗老师的报告内容充实,信息量非常大,包括实验室师生的互动都值得反复思考和品味。实验室师生获益良多。 供稿:曹博希

阿里巴巴达摩院罗福莉老师到访实验室 2020-10-21T09:57:21+00:00

孙乐研究员应邀在软件所学术年会做特邀报告

2020-10-15T12:09:01+00:00

孙乐研究员应邀在软件所学术年会做特邀报告,其中实验室2个海报评为优秀海报奖 9月21日,中国科学院软件研究所2020年度学术年会在软件所举办。本次会议采用了现场和线上直播相结合的方式进行,软件所所长赵琛、学术委员会主任林惠民院士以及所内外专家学者共240余人参加了会议。大会开幕式由田丰研究员主持。 赵琛所长首先对软件所学术委员会、大会组委会的辛勤付出以及特邀报告人为年会带来的精彩报告表示感谢;随后的报告环节包括上午的两场特邀报告和下午的三场学术报告。实验室孙乐研究员应邀为此次大会作了题为“认知启发的自然语言理解”的特邀报告。 本次大会共征集到来自研究所科研成果87份,由大会组委会及各实验室/中心择优选出74份成果以海报形式公开展出、8份成果作大会学术报告。同时,大会选出35份代表性论文进行视频介绍,经过组委会及公众两轮投票最终选出了10份学术年会优秀海报。 其中实验室的2份海报评为优秀海报奖,具体的获奖信息如下: (1)一种简单易用的语义解析平台,完成人:安波,陈波,韩先培,孙乐 (2)用于实体集合拓展的端到端自举网络,完成人:颜令勇,韩先培,何苯,孙乐    

孙乐研究员应邀在软件所学术年会做特邀报告 2020-10-15T12:09:01+00:00