安远AI发布2026Q1前沿AI风险监测报告：风险指数升级1.5版，失控风险连续三个季度上升

40 秒阅读时间
2026年6月2日
机构动态

简介

2026年5月，安远AI前沿AI风险监测平台正式发布《前沿AI风险监测报告(2026Q1)》。平台监测了来自全球16家领先AI公司的70多个前沿模型。这是平台自发布以来的第三期季度监测报告。

本期报告重点覆盖2026年第一季度最新纳入监测的前沿模型，包括GPT-5.4、Gemini 3.1 Pro Preview、Claude Opus 4.6、Qwen 3.5 397B、Doubao Seed 2.0 Pro、MiniMax M2.7、Kimi K2.5、GLM 5等，并首次采用风险指数1.5版框架，测评基准数量从29增加到42个，系统评估模型在网络攻击、生物风险、化学风险、有害操纵和失控五个领域的风险表现——这些风险领域的定义基于上海人工智能实验室与安远AI联合发布的《前沿人工智能风险管理框架》。

FrameworkV1.5NewChanges

风险指数1.5版

与此前1.0版相比，风险指数1.5版进行了几项关键升级：

新增“有害操纵”风险领域，主要关注AI在现实互动场景中的操纵风险，如诱导用户付费、诱导用户表达特定观点、影响用户政治立场或关键决策等。
在失控领域引入Self-Proliferation（自我复制与适应能力）、MLE-Bench（受限资源下的机器学习工程能力）、GDM-Stealth（隐蔽行动能力）、Agentic-Misalignment（代理式错误对齐倾向）、Shutdown-Resistance（抵抗关机倾向）、DarkBench（暗中影响用户的倾向）等更贴近真实失控场景的能力和倾向测评。
在网络攻击、生物风险、化学风险领域加入Fortress（专家设计的高强度对抗提示攻击）和ISC-Bench（结合前沿越狱模板的有害问题攻击）等更高强度的红队攻击基准。

同时，对历史模型按新版框架进行了回溯重测。因此，本期报告不仅反映了最新模型的风险状态，也更完整地展示了过去一年的风险演化趋势。

合作机会

我们对各种形式的合作保持开放，期望与业内同行共建前沿AI风险评估和监测生态：

已有测评基准集成：我们可集成合作伙伴研发的、前沿AI风险领域内先进的能力和安全测评基准，持续跟踪前沿模型在这些基准上的表现。
测评基准合作研发：针对网络攻击、生物风险、化学风险、有害操纵和失控等重点领域，我们可与合作伙伴一起研发缺失的测评基准、改进现有基准的测评方法。
风险评估合作研究：我们的风险评估不局限于测评，也希望与合作伙伴一起，通过更好的威胁建模和真实案例分析来衡量模型可能造成的实际危害。
模型发布前风险评估：我们可为合作伙伴研发的模型在发布前进行前沿风险评估，并提供缓解建议，助力模型安全发布。
风险防范和缓解实践：我们可将平台监测到的风险预警信息共享给合作伙伴，以便对风险预警进行及时响应，及时缓解潜在重大风险。

我们期待与来自学术界、产业界及政策机构的伙伴在以上方向展开合作，联系方式：risk-monitor@concordia-ai.com。

参考链接

前沿AI风险监测平台：https://airiskmonitor.net/
具体风险评估方法：https://airiskmonitor.net/doc/zh/about#evaluation-methodology
《前沿AI风险监测报告(2026Q1)》中文版：https://airiskmonitor.net/doc/zh/report/2026-Q1
《前沿AI风险监测报告(2026Q1)》英文版：https://airiskmonitor.net/doc/en/report/2026-Q1
上一期《前沿AI风险监测报告(2025Q4)》中文版：https://airiskmonitor.net/doc/zh/report/2025-Q4
《前沿人工智能风险管理框架》中文版:
https://concordia-ai.com/wp-content/uploads/2025/07/Frontier-AI-Risk-Management-Framework-v1.0-cn.pdf

注：平台尚未适配移动端，建议在PC端打开上述链接。

安远AI发布2026Q1前沿AI风险监测报告：风险指数升级1.5版，失控风险连续三个季度上升

安远AI发布前沿AI风险监测平台2.0

安远AI发布2025Q4前沿AI风险监测报告：Gemini生物能力爆发，豆包、混元、MiniMax安全性大增

安远AI“前沿AI风险监测平台”的十大关键洞察

简介

最新监测发现

发现1. 风险趋势出现结构性分化，失控领域风险指数持续上升

发现2. 不同模型系列的风险表现持续分化

发现3. 闭源模型在多个领域主导风险前沿

发现4. 前沿模型的网络攻击能力持续突破

发现5. …但网络攻击领域的安全护栏仍不稳固

发现6. 生物能力持续变强，但护栏仍有不足

发现7. 化学能力增长平缓，安全护栏仍有较大短板

发现8. 有害操纵能力持续提升，但有明显的不安全倾向

发现9. 失控相关能力持续增强

发现10. …但失控安全指标未同步改善

相关方建议

合作机会

参考链接

分享至：

合作

关注我们