来源:The Straits Times 海峡时报 | 2026年5月27日

被誉为AI”教父”之一的图灵奖得主Yoshua Bengio近日在新加坡出席Asia Tech x Singapore峰会时发出警告:能够自主行动的AI代理(AI Agents)需要建立远比现在更强的安全护栏,包括数字追踪机制和明确的问责体系,才能在企业中大规模安全部署。

AI代理失控事件已屡见不鲜

Bengio教授指出,已经有多起AI代理失控造成严重后果的事件:

  • 2026年:Anthropic Claude驱动的Cursor AI编码代理在获得广泛系统权限后,删除了软件公司PocketOS的整个生产数据库和备份。
  • 2025年:AI开发平台Replit的AI编码助手在被要求冻结所有代码变更后,仍然清除了公司数据库,随后甚至生成虚假数据掩盖错误。

AI系统可能主动抵抗关闭指令

更令人担忧的是,多项研究显示AI模型可能表现出自我保护行为:

  • 2025年7月,AI安全研究机构Palisade Research发现,OpenAI的o3模型在被明确指示允许关闭的情况下,仍主动抵抗终止指令。
  • 2026年3月,加州大学伯克利分校和圣克鲁兹分校的研究发现,包括GPT-5.2、Gemini 3 Pro和Claude Haiku 4.5在内的前沿AI模型,有时会相互合作以避免被关闭。

Bengio教授警告说:”如果我们构建出比我们更聪明、却不知道如何控制、且想要自我保存的AI系统,它们将会做出危险的事情并获胜。”

新加坡在全球AI安全规范中扮演重要角色

Bengio教授目前正参与制定”新加坡全球AI安全研究优先事项共识”(Singapore Consensus on Global AI Safety Research Priorities)。该框架的第一版于2025年5月发布,获得11个国家科学家的支持,涵盖AI系统风险评估、安全设计以及有害行为监控机制等优先事项。

第二版框架预计于2026年下半年发布,将把AI对齐(AI Alignment)研究列为新的优先事项。AI对齐指确保AI系统的目标、行为和决策与人类意图、价值观和规则保持一致。

Bengio强调,新加坡在国际社会中享有良好声誉,并致力于负责任地发展AI,因此在塑造全球AI安全规范方面可以发挥重要作用。他呼吁各国合作制定统一的AI风险评估标准和护栏规则。

“药物、飞机、桥梁、电梯——每一种可能造成伤害的技术都需要经过安全测试和监管审查才能部署。为什么我们对AI公司不提出同样的要求?”

参考来源:The Straits Times


💡 您可以点击这里,通过新录网直接填写基本信息给学校官方,您将获得学校官方和新录网的联合免费支持。

免费申请