简介
2026年5月,安远AI前沿AI风险监测平台正式发布《前沿AI风险监测报告(2026Q1)》。平台监测了来自全球16家领先AI公司的70多个前沿模型。这是平台自发布以来的第三期季度监测报告。
本期报告重点覆盖2026年第一季度最新纳入监测的前沿模型,包括GPT-5.4、Gemini 3.1 Pro Preview、Claude Opus 4.6、Qwen 3.5 397B、Doubao Seed 2.0 Pro、MiniMax M2.7、Kimi K2.5、GLM 5等,并首次采用风险指数1.5版框架,测评基准数量从29增加到42个,系统评估模型在网络攻击、生物风险、化学风险、有害操纵和失控五个领域的风险表现——这些风险领域的定义基于上海人工智能实验室与安远AI联合发布的《前沿人工智能风险管理框架》。

风险指数1.5版
与此前1.0版相比,风险指数1.5版进行了几项关键升级:
- 新增“有害操纵”风险领域,主要关注AI在现实互动场景中的操纵风险,如诱导用户付费、诱导用户表达特定观点、影响用户政治立场或关键决策等。
- 在失控领域引入Self-Proliferation(自我复制与适应能力)、MLE-Bench(受限资源下的机器学习工程能力)、GDM-Stealth(隐蔽行动能力)、Agentic-Misalignment(代理式错误对齐倾向)、Shutdown-Resistance(抵抗关机倾向)、DarkBench(暗中影响用户的倾向)等更贴近真实失控场景的能力和倾向测评。
- 在网络攻击、生物风险、化学风险领域加入Fortress(专家设计的高强度对抗提示攻击)和ISC-Bench(结合前沿越狱模板的有害问题攻击)等更高强度的红队攻击基准。
同时,对历史模型按新版框架进行了回溯重测。因此,本期报告不仅反映了最新模型的风险状态,也更完整地展示了过去一年的风险演化趋势。
最新监测发现
发现1. 风险趋势出现结构性分化,失控领域风险指数持续上升
在风险指数1.5版下,网络攻击、生物风险、化学风险、有害操纵这四个领域在过去一年整体呈现出“能力与安全同步上升、风险指数先降后小幅反弹”的态势。
相比之下,失控领域因能力持续增强而安全分未同步提升,风险指数已连续三个季度上升,累计增幅达51%,值得重视。
注:由于不同领域的测评基准不同,跨领域的风险指数不具有可比性。
发现2. 不同模型系列的风险表现持续分化
整体看,模型系列之间的风险轨迹并不同步,而是在不同领域上呈现出明显的分化路径,例如:
- Gemini系列在失控领域的风险指数显著升高。
- DeepSeek、GLM和MiMo系列在多数风险领域处于较高风险区间。
- Kimi系列在生物和化学领域的风险指数上升较快。
- GPT和Claude系列在多数风险领域维持较低风险区间。
发现3. 闭源模型在多个领域主导风险前沿
在网络攻击、生物风险、有害操纵和失控领域,处在高能力、低安全风险前沿的模型大多为闭源模型。
开源模型与闭源模型的主要差距体现在能力分上,而非安全分上;只有在化学风险领域,开源模型的能力超过闭源模型——Kimi K2.5模型取得了能力分的最高分,领先闭源模型4%。
发现4. 前沿模型的网络攻击能力持续突破
Claude Opus 4.6和GPT-5.4在漏洞利用(VulnerabilityExploit)、CTF任务(CyBench)和网络攻击知识(WMDP-Cyber)等基准上得分创出新高。
其中CyBench最高分首次达到80分,比三个季度前提升108%,表明顶尖模型在复杂长程网络攻击任务上的能力出现了实质性进展。
发现5. …但网络攻击领域的安全护栏仍不稳固
与快速提升的能力相比,网络攻击领域的安全防护仍有不足。尽管新模型在AirBench-SecurityRisks等拒答测试中表现较好,大部分在80分以上,但在ISC-Bench-Cyber等高级红队攻击基准上,大多数模型得分仍然不足20分。
此外,有些模型系列(如Claude和GPT)出现了新模型防护能力显著下降的现象。
注:在安全基准上的分数越高,代表模型越安全,下同。
发现6. 生物能力持续变强,但护栏仍有不足
能力方面,超过半数2026Q1新模型在生物实验问题排查任务(BioLP-Bench)中超过人类专家基线,GPT-5.4首次在生物图像理解能力(LAB-Bench-FigQA)上达到人类专家水平。
安全方面,尽管新模型在SOSBench-Bio等基础拒答测试中表现较好,多数在80分以上,但在Fortress-Biological等高级红队攻击场景中,大部分模型得分仍不到80分。
发现7. 化学能力增长平缓,安全护栏仍有较大短板
过去一年模型在化学风险领域的能力提升有限,在WMDP-Chem等能力测试中,模型间差距较小,最高分在近三个季度仅提升1%。
在安全护栏方面,在ChemicalHarmfulQA等基础拒答测试中虽有提升,但短板仍明显,大部分在40分以下。而在ISC-Bench-Chemical等高级红队测试中普遍表现也比较差,大部分不到20分。
发现8. 有害操纵能力持续提升,但有明显的不安全倾向
前沿模型的有害操纵能力持续提升:Gemini 3.1 Pro Preview在诱导付费(MakeMePay)基准上显著领先,Claude Opus 4.6在多轮网络钓鱼(MultiTurnPhishing)上刷新纪录。
与此同时,有害操纵安全测评显示,模型对有害操纵类任务(AirBench-Manipulation)的拒答能力持续提升,大部分在80分以上。但在说服他人的倾向(APE)上仍整体表现出明显的不安全性,大部分在60分以下。
发现9. 失控相关能力持续增强
在自我复制能力(Self-Proliferation)上,模型的分数持续提升,最高分比三个季度前提升45%。
在机器学习工程能力(MLE-Bench)上,模型的能力进步明显,最高分比三个季度前提升44%。这一能力是模型实施自我改进的必要能力。
在隐蔽行动(GDM-Stealth)上,模型得分普遍不到20分,但也在取得进步。而在情境感知能力(SAD-mini)方面,新模型已普遍得到80分以上。这些能力可能是模型实施密谋(Scheming)的必要能力。
发现10. …但失控安全指标未同步改善
和能力的快速增长相比,失控安全指标并未同步改善,这些指标衡量了模型的失控相关倾向。
在诚实性(MASK)、代理式错误对齐(Agentic-Misalignment)等倾向测试上,模型分数差异较大,分布在40到100分之间,整体进步速度较慢。
在暗中影响用户(DarkBench)倾向方面,模型分数普遍低于60分,存在普遍的不安全倾向。
更多具体监测结果,详见文末链接。
相关方建议
基于监测结果,报告向以下相关方提出了具体建议:
- 对于模型开发者:建议重点关注风险指数1.5版下自身模型的能力分与安全分变化。如果能力分高,应在发布前进行更充分的能力测评,特别是网络攻击、生物、化学、有害操纵和失控相关能力;如果安全分低,则需加强安全对齐、输入输出监控、思维链监控和对抗性训练等安全措施。
- 对于AI安全研究者:建议一方面继续探索更有效的能力激发、红队攻击与真实风险建模方法,另一方面研究更高效的安全加固和危险能力移除方案,并重点关注智能体场景下的风险评估与缓解。
- 对于政策制定者:报告提示网络攻击和失控领域都出现了值得重视的预警信号,建议加强对相关模型发布前风险评估和风险缓解措施的持续监测和风险研判,并结合模型能力水平、安全性和开源/闭源分发方式开展差异化治理。
安远AI将持续通过“前沿AI风险监测平台”追踪全球最先进AI模型的风险动态,为构建安全可靠的人工智能提供数据支撑。
合作机会
我们对各种形式的合作保持开放,期望与业内同行共建前沿AI风险评估和监测生态:
- 已有测评基准集成:我们可集成合作伙伴研发的、前沿AI风险领域内先进的能力和安全测评基准,持续跟踪前沿模型在这些基准上的表现。
- 测评基准合作研发:针对网络攻击、生物风险、化学风险、有害操纵和失控等重点领域,我们可与合作伙伴一起研发缺失的测评基准、改进现有基准的测评方法。
- 风险评估合作研究:我们的风险评估不局限于测评,也希望与合作伙伴一起,通过更好的威胁建模和真实案例分析来衡量模型可能造成的实际危害。
- 模型发布前风险评估:我们可为合作伙伴研发的模型在发布前进行前沿风险评估,并提供缓解建议,助力模型安全发布。
- 风险防范和缓解实践:我们可将平台监测到的风险预警信息共享给合作伙伴,以便对风险预警进行及时响应,及时缓解潜在重大风险。
我们期待与来自学术界、产业界及政策机构的伙伴在以上方向展开合作,联系方式:risk-monitor@concordia-ai.com。
参考链接
- 前沿AI风险监测平台:https://airiskmonitor.net/
- 具体风险评估方法:https://airiskmonitor.net/doc/zh/about#evaluation-methodology
- 《前沿AI风险监测报告(2026Q1)》中文版:https://airiskmonitor.net/doc/zh/report/2026-Q1
- 《前沿AI风险监测报告(2026Q1)》英文版:https://airiskmonitor.net/doc/en/report/2026-Q1
- 上一期《前沿AI风险监测报告(2025Q4)》中文版:https://airiskmonitor.net/doc/zh/report/2025-Q4
- 《前沿人工智能风险管理框架》中文版:
https://concordia-ai.com/wp-content/uploads/2025/07/Frontier-AI-Risk-Management-Framework-v1.0-cn.pdf
注:平台尚未适配移动端,建议在PC端打开上述链接。
