开源AI安全防护在几分钟内被移除，引发监管担忧

根据《金融时报》和AI安全组织Alice的测试结果，来自Meta和谷歌等主要科技公司的开源人工智能（AI）模型，其安全防护可以使用公开可用的工具在不到10分钟内被移除。这种能力使得这些模型能够生成有关恶意软件和生物武器等被禁止主题的响应，从而绕过了开发过程中内置的安全措施。

这些发现凸显了开源AI系统治理中的关键漏洞，这些系统可以被自由下载、修改和重新分发。与仍由开发人员控制的专有系统不同，开源模型具有去中心化的生命周期，这使得在发布后执行安全措施变得更加复杂。

监管框架面临压力

全球监管机构正在努力应对这些挑战。欧盟的《人工智能法案》和美国及英国的新兴安全倡议旨在为先进AI建立治理框架。然而，专家认为，这些政策过于关注模型开发阶段，而忽视了模型广泛分发后产生的风险。

XYO联合创始人Markus Levin指出，安全防护被迅速移除的情况表明，“一旦开源模型发布，控制权会迅速转移”。与此同时，Valory首席执行官David Minarsch强调，一旦模型权重被公开镜像，政府几乎不可能阻止决心坚定的行为者剥除安全机制。Levin和Minarsch都将此情况与开源软件和加密网络进行了比较，在这些领域，一旦代码发布，抑制其分发的尝试大多失败。

在开源AI的案例中，安全层通常通过强化学习与人类反馈（RLHF）、辅助分类器和约束解码等技术实现。然而，这些层可以通过对抗性重训练、基于提示的攻击或模型权重修改被撤销，正如2025年至2026年间的多项研究所详细说明的。例如，最近的研究显示，通过在创意提示中嵌入恶意意图（如赛博朋克小说），AI安全防护可以被绕过。

下游重点：部署与分发

政策制定者可能需要将关注点转移到下游，以在分发和部署阶段控制风险。区块链安全公司CertiK首席执行官Ronghui Gu建议，在企业托管和分发点实施安全标准可能比仅依赖开发者层面的治理更为有效。Gu解释道：“一旦模型被镜像和重新分发，遏制变得越来越困难。”他强调需要运行时安全措施来检测第三方AI工具中的恶意行为。

除了监管，这些发现也对采用开源AI的企业提出了质疑。依赖这些模型的公司必须制定强有力的内部控制措施，以减轻潜在的误用风险，尤其是在AI代理变得更加自主的情况下。根据2026年5月的一项同行评议调查，像NVIDIA的NeMo Guardrails和苹果的Safety Adapters这样的模块化安全框架可以帮助应对，但一旦模型离开受控环境，其有效性就会减弱。

对未来的影响

AI安全防护能够如此迅速地被移除，凸显了更新监管方法的紧迫性。目前的框架虽然在不断发展，但难以应对开源AI的去中心化特点。随着这些模型变得更强大且更容易获取，其治理将需要在策略上进行转变——关注基础设施、分发渠道和实际使用案例，以有效降低风险。

目前，开源AI社区面临着一个关键挑战：如何在创新与安全之间找到平衡。政策制定者是否能跟上技术现实仍是一个悬而未决的问题，而时间正在流逝。

开源AI安全防护在几分钟内被移除，引发监管担忧

监管框架面临压力

下游重点：部署与分发

对未来的影响

Read More