前沿人工智能风险管理 - Concordia AI

前沿人工智能风险管理框架1.5

Xinyuan Tian — Tue, 02 Jun 2026 04:27:06 +0000

上海人工智能实验室联合安远AI，于2025年7月正式发布《前沿人工智能风险管理框架（1.0版）》，旨在为通用型人工智能（General-Purpose Al）模型研发者提供全面的风险管理指导方针，主动识别、评估、缓解和治理一系列对公共安全和国家安全构成威胁的严重人工智能风险，保障个体与社会的安全。本框架旨在为通用型人工智能模型研发者管理其通用型人工智能模型可能带来的严重风险提供指导。框架充分借鉴了安全攸关型行业的风险管理标准与最佳实践，涵盖风险管理的六大核心流程：风险识别、风险阈值、风险分析、风险评价、风险缓解及风险治理（详见下文“框架总览”）。

1.5 版本的新增内容

2026年2月，我们正式发布了框架的1.5版本。新版本的关键更新包括:

失控风险章节扩写：为更好地实施“人类最终控制”和“前瞻预防应对”等核心原则，以防范人工智能技术失控，我们细化了与失控风险相关的场景和阈值，同时加强了智能体监督措施和应急响应机制相关的内容，旨在为学界与业界提供指导，帮助其持续监测相关风险。
风险分析实操化：为使该框架更具可操作性，我们更新了面向通用型人工智能模型提供方的风险分析指南。通过阐明该过程中的关键环节——如模型评测、模型激发、风险建模与估计等，我们希望能够方便开发者在有效落实有关风险分析的最佳实践（详见第3节：风险分析）。
互操作性增强：我们对照国内外领先的人工智能风险管理指南，特别是全国网络安全标准化技术委员会TC260《人工智能安全治理框架2.0》和欧盟《通用型人工智能模型行为准则（安全与安保章节）》，对本框架的风险管理措施开展了映射分析，此举有助于开发者采纳国内外主要监管指南共同推荐的安全措施（详见附录一和附录二）。

The post 前沿人工智能风险管理框架1.5 first appeared on Concordia AI.

前沿人工智能风险管理框架：风险评测实践报告

Xinyuan Tian — Sat, 26 Jul 2025 05:10:46 +0000

当前，人工智能技术日新月异，一系列风险隐患随之而来。全球顶尖研究机构正积极投身于前沿风险的讨论中，虽已就主要风险维度形成初步共识，但仍面临诸多挑战。现有AI风险治理框架往往难以有效应对高突发性、高不对称性风险。其源于前沿通用性人工智能（General-Purpose AI）的净新增能力，可导致危害规模扩大、滥用门槛降低，且具备高严重性、难以逆转等特性，因此，建立更具前瞻性的治理体系显得尤为关键。 2025年7月27日，在安远AI主办的WAIC 2025人工智能安全与治理论坛上，上海人工智能实验室与安远AI联合发布了《前沿人工智能风险管理框架》v1.0，并配以《风险评测实践报告》。作为国内首个聚焦前沿风险的风险管理框架，《框架》为通用型人工智能模型研发者提供了一套全流程的风险管理指南，旨在主动地识别、评估、缓解和治理一系列对于公共安全和国家安全的严重风险。《框架》识

别了四大核心风险类型：滥用风险、失控风险、意外风险和系统性风险，创新性地提出了“部署环境(E)-威胁源(T)-使能能力(C)”三维分析框架，并给出了针对性的风险识别、评估、缓解与治理建议，推动前沿风险从“模糊的定义”到“精确的坐标”。《框架》同时发布有英文版。点击链接查看《实践报告》。

The post 前沿人工智能风险管理框架：风险评测实践报告 first appeared on Concordia AI.

前沿AI风险管理框架

Xinyuan Tian — Fri, 25 Jul 2025 14:58:08 +0000

上海人工智能实验室联合安远AI ，正式发布《人工智能前沿风险管理框架（1.0版）》（以下简称 “框架”），旨在为通用型人工智能（General-Purpose AI）模型研发者提供全面的风险管理指导方针，主动识别、评估、缓解和治理一系列对公共安全和国家安全构成威胁的严重人工智能风险，保障个体与社会的安全。本框架旨在为通用型人工智能模型研发者管理其通用型人工智能模型可能带来的严重风险提供指导。框架充分借鉴了安全攸关型行业的风险管理标准与最佳实践，涵盖风险管理的六大核心流程：风险识别、风险阈值、风险分析、风险评价、风险缓解及风险治理。

· 1. 风险识别：本章节聚焦通用型人工智能模型可能引发的严重风险，明确四大核心风险类型：滥用风险、失控风险、意外风险及系统性风险。我们计划通过持续更新风险分类体系，动态应对未知与新兴风险。

· 2. 风险阈值：本章节明确了一系列不可接受的风险结果（红线）以及触发更高级别安全保障措施的早期预警指标（黄线）。我们针对可能威胁公共安全和国家安全的几个关键领域设定阈值，其中包括：网络攻击、生物威胁、大规模说服和有害操控，以及失控风险。

· 3. 风险分析：本章节建议在人工智能全生命周期中贯穿实施动态风险分析，以判断模型是否越过黄线——即达到触发更高级别安全措施的早期预警指标。我们建议AI研发者在研发前和部署前进行系统性评估，以便为关键的部署决策提供参考。同步应建立部署后持续监测机制，为新一代系统研发提供安全指引。与本框架同时发布的还有一份针对一系列通用型人工智能模型的风险评测技术报告。

· 4. 风险评价：建立三级风险分级体系：绿色区域（基于常规措施可安全部署）、黄色区域（需强化安全防护与授权）、红色区域（需特殊措施，如限制部署或限制研发）。我们建议对缓解措施实施后的剩余风险进行迭代评估，进一步采取降低风险的措施直至风险达到可接受水平。

· 5. 风险缓解：构建全生命周期纵深防御风险缓解策略，包含三种风险缓解措施：安全训练措施、部署缓解措施及模型安保措施，并根据模型处于绿色区域、黄色区域或红色区域设定不同的保障级别。我们呼吁全球持续加大AI安全基础研究投入，当前技术手段尚难以充分保障先进AI系统的安全性。

· 6. 风险治理：提出监督和调整整个风险管理流程的治理路径。建立四维治理体系：内部治理机制、透明度与社会监督、应急管控机制、政策定期更新和反馈机制，并根据模型处于绿色区域、黄色区域或红色区域设定不同的保障级别。

框架英文版框架中文版

The post 前沿AI风险管理框架 first appeared on Concordia AI.

人工智能 x 生命科学的负责任创新

Xinyuan Tian — Fri, 25 Jul 2025 14:54:52 +0000

2025年7月27日，在安远AI主办的WAIC 2025 人工智能安全与治理论坛上，安远AI与天津大学生物安全战略研究中心联合发布了《人工智能 x 生命科学的负责任创新》报告。

报告整体分为7个章节，篇幅逾70页，参考了300余项资料。系统探讨了人工智能与生命科学融合的关键趋势，强调其变革潜力，识别并评估相关风险，并审视现有的生物安全治理实践。最后，报告提出了风险缓解策略与治理选项，并为不同利益相关方提供了有针对性的建议。

The post 人工智能 x 生命科学的负责任创新 first appeared on Concordia AI.

人工智能安全作为全球公共产品

eggplant — Fri, 11 Jul 2025 11:21:06 +0000

随着人工智能系统的能力不断增强并深入融入社会，人工智能的安全开发已经成为一项关键的治理挑战。《人工智能安全作为全球公共产品：影响、挑战与研究重点》（Examining AI Safety as a Global Public Good: Implications, Challenges, and Research Priorities）由安远AI、牛津马丁人工智能治理倡议和卡内基国际和平研究院共同主导，该报告借鉴气候变化、核安全和全球健康治理的经验教训，探讨了将人工智能安全视为”公共产品”是否能帮助应对这些挑战。分析确定了三个关键的协调挑战：

平衡集体责任，同时追究在人工智能开发中拥有不成比例权力的利益相关者的责任
管理共享人工智能安全最佳实践与限制潜在危险能力传播之间的张力
确保安全要求不会限制人工智能对可持续发展的潜力或延续全球不平等

安远AI国际人工智能治理主管吴君仪、安远AI创始人谢旻希，与来自世界各地的14位学者共同撰写了这份报告。

The post 人工智能安全作为全球公共产品 first appeared on Concordia AI.

探索人工智能前沿：人工智能自主体的演进和影响入门指南

eggplant — Wed, 09 Jul 2025 09:21:11 +0000

2024年12月16日,由安远AI参与的世界经济论坛(World Economic Forum)白皮书《探索人工智能前沿：人工智能自主体的演进和影响入门指南》(Navigating the AI Frontier: A Primer on the Evolution and Impact of AI Agents)正式发布。白皮书探讨了人工智能自主体的发展，并研究了人工智能自主体与大语言模型和多模态模型的最新进展之间的联系，重点介绍了人工智能自主体如何提高医疗、教育和金融等各个领域的效率。

其追溯了人工智能从简单的基于规则的程序到具有复杂决策能力的复杂实体的演变过程，讨论了人工智能自主体的好处和风险。报告强调了透明度和问责制等道德考量，强调了建立健全治理框架和跨部门合作的必要性。

作为世界经济论坛人工智能治理联盟工作组的一员，安远AI深度参与了白皮书的迭代，技术经理段雅文以主要贡献者身份获报告正式致谢。

The post 探索人工智能前沿：人工智能自主体的演进和影响入门指南 first appeared on Concordia AI.

基础模型的负责任开源

eggplant — Sun, 15 Jun 2025 09:52:52 +0000

2024年4月27日，中关村论坛平行论坛之一“通用人工智能论坛”在中关村国家自主创新示范区会议中心召开。论坛由北京市科学技术委员会、中关村科技园区管理委员会，北京市海淀区人民政府主办，由北京通用人工智能研究院、北京大学人工智能研究院、北京大学智能学院、清华大学自动化系承办，安远AI协办，汇聚海内外顶尖专家学者分享最新技术趋势、邀请行业专家展示前沿科技成果、吸引企业领袖探讨产业发展机遇。

本次论坛的一大亮点是安远AI联合北京大学人工智能研究院、北京大学武汉人工智能研究院、北京通用人工智能研究院，共同发布《基础模型的负责任开源——超越开源闭源的二元对立: 负责任开源的内涵、实践与方案》报告。

开源基础模型已成为创新的重要驱动力之一，如何平衡发展与安全至关重要，但目前这一领域存在诸多争论需要厘清。本报告从安全治理的角度分析AI开源的主要争论，系统性梳理了各国在开源AI治理上的政策取向，并建议超越开源闭源的二元对立，推动并建议负责任开源的务实方案。

The post 基础模型的负责任开源 first appeared on Concordia AI.

前沿人工智能安全的最佳实践——面向中国机构的研发实践案例与政策制定指南

eggplant — Sun, 15 Jun 2025 09:46:36 +0000

由清华大学和香港科技大学联合主办“2023人工智能合作与治理国际论坛”12月8-9日在香港科技大学举办。其中，安远AI联合举办并主持了12月9日下午的“前沿人工智能安全与治理”(Frontier AI Safety and Governance)分论坛。

本次论坛的一大亮点是《前沿人工智能安全的最佳实践（征求意见稿）》的首次公开。经过了一个多月的专家反馈，我们对所有收到的宝贵意见均进行了认真修订，正式发布《前沿人工智能安全的最佳实践——面向中国机构的研发实践案例与政策制定指南》。

本报告概述了当今人工智能安全领域有前景的想法、新兴流程和相关实践，其目的是作为前沿人工智能机构安全政策制定的参考和指南。

The post 前沿人工智能安全的最佳实践——面向中国机构的研发实践案例与政策制定指南 first appeared on Concordia AI.

人工智能对齐：全面性综述

eggplant — Tue, 27 Feb 2024 15:18:12 +0000

北大团队联合国内外多所高校的研究者推出AI对齐全面性综述，覆盖“从反馈学习 (Learning from Feedback)” 、“在分布偏移下学习 (Learning under Distributional Shift)” 、“对齐保证 (Assurance)”、“AI治理(AI Governance)” – 实现AI对齐（AI Alignment）的四个核心问题，并提出AI对齐是一个不断更新、迭代改进的环路。

其中，安远AI的段雅文、吴君仪、谢旻希对综述整体方向、内容框架和第五章AI治理的部分做出了贡献。

The post 人工智能对齐：全面性综述 first appeared on Concordia AI.