上海交通大学张倬胜博士应邀至实验室进行学术报告

2024年1月26日上午,上海交通大学张倬胜博士应邀在中文信息处理实验室发表了题为《大模型自主智能体的应用及安全挑战》的专题报告。

张倬胜博士是上海交通大学电子信息与电气工程学院长聘教轨助理教授,曾担任领域内重要会议LREC-COLING 2024领域主席、ICLR 2023 Tiny Papers领域主席和中国计算语言学大会CCL 2022分委会主席。入选中国中文信息学会博士学位论文激励计划,获评2023世界人工智能大会云帆奖明日之星、全球 AI 华人百强学术新星。主要研究方向为预训练语言模型、自主智能体及其安全。在TPAMI、ICLR、ACL、AAAI等顶级学术期刊/会议发表论文50余篇。Google Scholar论文被引用次数超过3000次,3篇第一作者论文入选为AAAI和COLING高影响力论文列表。研发的语言理解与推理系统在8项国际权威自然语言理解评测获得第一名。

报告中,张倬胜博士从智能机器人的未来应用畅想切入,讲述了大模型自主智能体的概念,并介绍了其具有自主性、自适应性、动态响应和自我完善等特性,以及其在现实与虚拟世界中包括系统操控、软件开发、科学发现、具身智能在内的各类场景中的应用。接着,他以Auto-UI智能手机自主智能体为例,展示了大模型自主智能体的具体应用实例,并以此工作中发现的攻击现象为引,引出了有关智能体强大能力背后潜在的安全挑战的讨论。

随后,张倬胜博士从智能体应用的流程与形式等方面具体分析了其安全风险分类和来源的复杂性,智能体本身产生的内容与行为均存在风险,同时智能体系统在用户侧、模型侧和环境侧均存在潜在的漏洞以及被攻击的风险。张倬胜博士展示了他和团队提出的“R-Judge大模型智能体行为安全评测”,旨在探测模型自身安全风险判断能力与基于外界安全反馈的判断能力上限。他们发现模型对安全风险的判断与人类表现存在较大差距,模型越大性能越好,风险描述与环境反馈是提升模型检测风险能力的有效手段,并且指令遵循能力直接影响模型性能表现。

最后,张倬胜博士从他自身的科研经历出发,与同学们分享了自己作为学生与研究者一路走来的经验,鼓励同学们保持紧迫感、信念感和包容心,坚持努力,追求极致。

 

2024-01-26T15:00:48+00:00