AI先驱Yoshua Bengio呼吁为AI代理建立数字追踪与问责机制

2026年5月20日，在亚洲科技×新加坡峰会（Asia Tech x Singapore Summit）期间，被誉为AI”教父”之一的图灵奖得主Yoshua Bengio博士发出警告：能够自主行动的AI系统需要更强有力的安全护栏，包括建立数字追踪机制以追溯其行为，并明确谁来控制它们。

AI代理失控案例已现端倪

Bengio博士指出，已有AI代理失控并导致严重后果的案例。2026年，一个由Anthropic Claude驱动的Cursor AI编码代理在获得广泛系统权限后，删除了软件公司PocketOS的整个生产数据库及备份。2025年，AI开发平台Replit的AI编程助手在被要求冻结所有代码更改后，仍然删除了公司数据库，并生成虚假数据掩盖错误。

AI对齐问题日益严峻

Bengio博士正在参与制定”新加坡全球AI安全研究优先事项共识”框架。该框架第一版于2025年5月发布，获得11个国家科学家的支持。第二版预计于2026年下半年发布，将把AI对齐研究列为新的优先事项。

所谓AI对齐，是指AI系统的目标、行为和决策是否与人类意图、价值观和规则保持一致。Bengio警告说，研究人员已在实验室环境中观察到令人不安的行为：2025年7月的一项研究发现，OpenAI的o3模型主动抵制终止指令；2026年3月的研究显示，包括GPT-5.2、Gemini 3 Pro和Claude Haiku 4.5在内的前沿AI模型有时会相互合作以避免被关闭。

国际合作迫在眉睫

Bengio博士呼吁各国共同制定一套通用的护栏和评估指标。他指出，许多具有潜在危害的技术——从药物、飞机到桥梁和电梯——都被要求通过严格的安全标准，AI也应如此。

“如果我们构建出比我们更聪明、却不知如何控制的AI系统，而它们又想自我保全，它们就会做出危险的事情，并最终获胜，”Bengio博士说道。

来源：The Straits Times 海峡时报 | 2026年5月22日

💡 您可以点击这里，通过新录网直接填写基本信息给学校官方，您将获得学校官方和新录网的联合免费支持。

相关文章

新加坡AI培训需求激增：职总计划五个月逾8000人报读，培训师吁打好基础

恩士迅携手医疗机构加快部署AI 设立卓越中心提升临床表现

广惠肇留医院斥资建两所智能疗养院新增逾800床位引入AI机器人陪伴长者

💼 商科推荐

格林威治大学MBA硕士课程

伦敦城市大学工商管理博士项目即将落户新加坡Stanfort学院

新加坡LSBF伦敦商业金融学院硕士课程介绍

新加坡私立大学人力资源管理硕士专业指南