上海人工智能实验室联合安远AI ,正式发布《人工智能前沿风险管理框架(1.0版)》(以下简称 “框架”),旨在为通用型人工智能(General-Purpose AI)模型研发者提供全面的风险管理指导 方针,主动识别、评估、缓解和治理一系列对公共安全和国家安全构成威胁的严重人工智能风险, 保障个体与社会的安全。 本框架旨在为通用型人工智能模型研发者管理其通用型人工智能模型可能带来的严重风险提供指 导。框架充分借鉴了安全攸关型行业的风险管理标准与最佳实践,涵盖风险管理的六大核心流程: 风险识别、风险阈值、风险分析、风险评价、风险缓解及风险治理。
· 1. 风险识别:本章节聚焦通用型人工智能模型可能引发的严重风险,明确四大核心风险类 型:滥用风险、失控风险、意外风险及系统性风险。我们计划通过持续更新风险分类体系, 动态应对未知与新兴风险。
· 2. 风险阈值:本章节明确了一系列不可接受的风险结果(红线)以及触发更高级别安全保障 措施的早期预警指标(黄线)。我们针对可能威胁公共安全和国家安全的几个关键领域设定 阈值,其中包括:网络攻击、生物威胁、大规模说服和有害操控,以及失控风险。
· 3. 风险分析:本章节建议在人工智能全生命周期中贯穿实施动态风险分析,以判断模型是 否越过黄线——即达到触发更高级别安全措施的早期预警指标。我们建议AI研发者在研发前 和部署前进行系统性评估,以便为关键的部署决策提供参考。同步应建立部署后持续监测 机制,为新一代系统研发提供安全指引。与本框架同时发布的还有一份针对一系列通用型 人工智能模型的风险评测技术报告。
· 4. 风险评价:建立三级风险分级体系:绿色区域(基于常规措施可安全部署)、黄色区域 (需强化安全防护与授权)、红色区域(需特殊措施,如限制部署或限制研发)。我们建议 对缓解措施实施后的剩余风险进行迭代评估,进一步采取降低风险的措施直至风险达到可接 受水平。
· 5. 风险缓解:构建全生命周期纵深防御风险缓解策略,包含三种风险缓解措施:安全训练措 施、部署缓解措施及模型安保措施,并根据模型处于绿色区域、黄色区域或红色区域设定不 同的保障级别。我们呼吁全球持续加大AI安全基础研究投入,当前技术手段尚难以充分保障 先进AI系统的安全性。
· 6. 风险治理:提出监督和调整整个风险管理流程的治理路径。建立四维治理体系:内部治理 机制、透明度与社会监督、应急管控机制、政策定期更新和反馈机制,并根据模型处于绿色 区域、黄色区域或红色区域设定不同的保障级别。

-scaled.jpg)