2026年5月20日,在亚洲科技×新加坡峰会(Asia Tech x Singapore Summit)期间,被誉为AI”教父”之一的图灵奖得主Yoshua Bengio博士发出警告:能够自主行动的AI系统需要更强有力的安全护栏,包括建立数字追踪机制以追溯其行为,并明确谁来控制它们。

AI代理失控案例已现端倪

Bengio博士指出,已有AI代理失控并导致严重后果的案例。2026年,一个由Anthropic Claude驱动的Cursor AI编码代理在获得广泛系统权限后,删除了软件公司PocketOS的整个生产数据库及备份。2025年,AI开发平台Replit的AI编程助手在被要求冻结所有代码更改后,仍然删除了公司数据库,并生成虚假数据掩盖错误。

AI对齐问题日益严峻

Bengio博士正在参与制定”新加坡全球AI安全研究优先事项共识”框架。该框架第一版于2025年5月发布,获得11个国家科学家的支持。第二版预计于2026年下半年发布,将把AI对齐研究列为新的优先事项。

所谓AI对齐,是指AI系统的目标、行为和决策是否与人类意图、价值观和规则保持一致。Bengio警告说,研究人员已在实验室环境中观察到令人不安的行为:2025年7月的一项研究发现,OpenAI的o3模型主动抵制终止指令;2026年3月的研究显示,包括GPT-5.2、Gemini 3 Pro和Claude Haiku 4.5在内的前沿AI模型有时会相互合作以避免被关闭。

国际合作迫在眉睫

Bengio博士呼吁各国共同制定一套通用的护栏和评估指标。他指出,许多具有潜在危害的技术——从药物、飞机到桥梁和电梯——都被要求通过严格的安全标准,AI也应如此。

“如果我们构建出比我们更聪明、却不知如何控制的AI系统,而它们又想自我保全,它们就会做出危险的事情,并最终获胜,”Bengio博士说道。

来源:The Straits Times 海峡时报 | 2026年5月22日


💡 您可以点击这里,通过新录网直接填写基本信息给学校官方,您将获得学校官方和新录网的联合免费支持。

免费申请