中国人工智能安全 - Concordia AI

中国人工智能安全全景报告（2025）

Xinyuan Tian — Fri, 25 Jul 2025 14:55:49 +0000

7月27日，在安远AI主办的WAIC 2025人工智能安全与治理论坛上，我们正式发布了《中国人工智能安全全景报告（2025）》。此份全英文报告首次发布于2023年，之后每年更新一次，主要面向国际读者和利益相关方，是当前关于中国如何推进通用型人工智能安全与治理的最全面的年度综述之一，试图向国际社会清晰传递中国AI安全治理的声音。

本次报告涵盖了从2024年5月至2025年6月的最新进展。报告总篇幅近100页，参考了300余项资料，共分为五个主要章节，分别是：

国内治理（Domestic Governance）：对国内高层AI政策和AI安全标准体系建设及其未来发展方向的系统性分析；
国际治理（International Governance）：分析中国如何通过国际会议、多边组织和双边对话，在全球AI治理中发挥独特的作用；
安全研究（Technical Safety Research）：对中国学者前沿AI安全技术研究的量化评估；
专家观点（Expert Views on AI Safety and Governance）：深入分析国家级或第三方独立机构专家通过会议或撰文对AI安全相关议题的讨论；
产业治理（Industry Governance）：首次对中国主流模型开发者的模型技术报告中与AI安全相关的信息进行系统性分析。

The post 中国人工智能安全全景报告（2025） first appeared on Concordia AI.

中国人工智能安全全景报告（2023）

eggplant — Thu, 10 Jul 2025 06:42:54 +0000

自2017年《新一代人工智能发展规划》以来，中国人工智能取得飞速发展，已跻身主要参与国之列。中国在制定生成式人工智能法规、在联合国倡议人工智能国际合作、开展人工智能安全技术研究等方面，发挥重要作用，对全球人工智能发展、安全和治理产生深远影响。但国际社会对中国在人工智能安全方面的立场和举措的了解仍较有限。本报告旨在通过分析中国国内治理的发展、中国对国际治理的立场、安全技术研究、专家对人工智能风险的观点、科研机构和企业治理以及公众对人工智能的态度，力求向世界展示真实、立体、全面的中国人工智能安全现状，为进一步国际交流合作奠定基础。

第一，中国已制定出一系列治理措施，为今后应对未来更高级人工智能的潜在风险打下基础。在国家宏观治理层面，政府重视加强人工智能发展的潜在风险研判和防范，确保人工智能安全、可靠、可控。相关部委已建立算法备案制度、深度合成内容管理规定等法规。《生成式人工智能服务管理暂行办法》使中国成为全球首个落地生成式人工智能监管的主要国家。十部门联合印发《科技伦理审查办法（试行）》，列出了需要开展伦理审查复核的科技活动清单。人工智能法草案已被列入《国务院2023年度立法工作计划》。

第二，在国际舞台上，中国大力将人工智能安全和治理定位为国际合作新领域。《全球安全倡议》将加强人工智能等新兴科技领域国际安全治理列为20项重点合作方向之一。中国在金砖国家领导人第十五次会晤上指出金砖国家已经同意启动人工智能研究组工作，拓展合作，共同做好风险防范。在第三届“一带一路”国际合作高峰论坛上，中国提出《全球人工智能治理倡议》，呼吁确保人工智能始终处于人类控制之下，共同防范人工智能技术的恶用滥用。

第三，在安全技术研究方面，多家人工智能科研机构正在从不同角度进行研究。多家大模型科研机构采用人类反馈强化学习等技术开展对齐研究。中国在鲁棒性研究方面进行了具有国际影响力的工作。部分研究团队对中国大型语言模型进行了安全性评测。目前的安全评测尚未考量到更前沿的潜在危险能力。此外，部分研发机构从计算机视觉角度，对模型可解释性进行了广泛探索。至少12家知名研发机构在过去一年发表的人工智能安全预印本论文数量显著增加。

第四，中国专家学者也在积极探讨可能的人工智能风险与应对之策，推动社会各界提高对人工智能安全的认识。早在2016年，少数专家学者就曾对人工智能可能带来的生存风险表示担忧，但当时未得到广泛关注。2020年，GPT-3的发布促使更多专家学者加入讨论。2023年ChatGPT发布后，人工智能安全与风险已经成为热门辩论话题，中国多位院士和领军科学家关注未来人工智能失控可能带来的生存风险。多位学者强调以具有中国特色的“底线思维”管控人工智能风险。

第五，中国科研机构和企业在前沿人工智能风险管理方面主要采取配合监管的态度。从2018年开始，许多机构陆续发布了人工智能伦理原则，但目前还没有具体针对前沿大模型的安全性原则。近日，中国人工智能产业发展联盟表达了对价值对齐问题的关注。个别科研机构概述了其发布的大语言模型采取的安全措施。这些机构公开表示进行的评估主要集中在真实性和有害内容方面。

第六，目前没有足够数据反映中国公众对前沿人工智能的看法。现有证据显示，中国公众普遍认为人工智能发展的利大于弊。一项调查表明，公众认为即使通用人工智能可能造成生存风险，但风险可控，因此仍应发展通用人工智能。但现有的公众舆论调查参与度有限，问题设计的精确度也有待提高，因此今后需进一步了解中国公众对前沿人工智能风险的看法。

The post 中国人工智能安全全景报告（2023） first appeared on Concordia AI.

中国人工智能安全全景报告（2024）

eggplant — Thu, 10 Jul 2025 06:20:52 +0000

前一版《中国人工智能安全全景报告》自发布以来获得积极反响，为实时更新上一年以来人工智能安全领域的发展动态，安远AI正式发布本次更新版《中国人工智能安全全景报告》。原版报告在英国AI安全峰会召开前发布，安远AI向十余家机构做了简报，吸引了政界、学术界与媒体的广泛关注，收获了各方对报告核心见解日益提高的关注与参与。

本次更新在2023年版的基础上，凝练了与前沿AI安全相关的最新技术研究、治理实践与公共话语新趋势。全报告共分九个部分，涵盖了技术安全工作、国际与国内治理、实验室与产业实践、专家观点以及公众意见等多个领域。

要点速览：

中国在前沿AI安全方面的技术研究相关性与质量显著提升，且在诸如大语言模型遗忘学习、核生化领域误用风险以及大语言模型“权力寻求”与“自我意识”风险评估等前沿议题上，研究产出量日渐增多。
过去6个月中，中国平均每月发布近15篇关于前沿AI安全的技术论文，经报告调研发现，其中相当一部分来自于11个业内核心研究团队。
中国签署《布莱切利宣言》，与法国发表AI治理联合声明，并与美国开展政府间AI对话，显示出与2023年初相比，世界主要大国在AI安全问题上的共识有所深化。
自2022年以来，中国与西方国家围绕AI已举行8场二轨或准一轨对话，其中有2场聚焦前沿AI安全与治理。
中国国家层面的政策领导层在推动大模型发展的同时，愈发重视风险防范的平衡。
中国即将出台的法律法规（非官方专家草案）包含了AI安全条款，规定了对基础模型实施专项的监管要求，以及通用人工智能（AGI）的价值对齐要求。
中国三大AI枢纽所在的地方政府，均出台了有关AGI或大模型的政策，主要目的是促进AI技术发展，同时也包含了国际合作、伦理以及测试与评估等方面的考量和规定。
多个有影响力的行业协会设立了AI安全问题研究项目或委员会，但其关注重点主要集中在内容与数据安全，而非前沿AI安全。
近几个月来，中国专家探讨的一系列焦点议题包括，为避免“存在性风险”而设定AI不可逾越的“红线”、AI安全研究的最低经费保障水平以及AI对生物安全的影响。

The post 中国人工智能安全全景报告（2024） first appeared on Concordia AI.

中国AI安全评估生态

eggplant — Thu, 10 Jul 2025 05:55:41 +0000

前沿AI系统的安全性忧虑与日俱增，全球各国政府、开发者和研究者逐渐认识到建立相关机制、评估AI系统危险风险与社会影响的重要性。AI安全评估可以针对模型潜在的风险能力发出前期预警，尽管无法确保百分百的安全无虞，但仍是降低相关风险的重要工具。由于AI安全评估作为一门科学尚处于起步阶段，社会各方均有意提升其科学严谨性，共享最佳实践方案，从而帮助世界各国建立恰当且稳健的风险评估措施。中国的《全球人工智能治理倡议》呼吁“建立基于AI风险等级的测试评估体系”，而《布莱切利宣言》则体现了国际社会对前沿AI系统安全测试与评估的支持。

中国不仅具备先进的AI技术实力，而且已经开展了大量AI评估项目，在AI安全与风险治理的问题上无疑扮演着重要角色。安远AI发布的此份报告，以及最近推出的中国AI安全评估数据库，是国际上首个针对中国在AI安全评估的现状所做的英文全面分析。我们希望在AI安全评估最佳实践方面，促进中国与其他国际领先实体的交流共享，并欢迎与其他有意推动相关议题的组织机构与我们一道，就AI安全评估与风险治理的实践分享与标准制定开展合作。

本文将首先介绍中国的AI治理行动中有关AI安全评估的要求，然后分享我们建立“中国AI安全评估数据库”式所采取的方法论。这一数据库涵盖了来自先进AI系统的一系列安全与社会风险问题，但鉴于在AI安全风险领域，跨国性威胁与灾难性后果更需要、也更有潜力开展国际合作，本文的分析将主要聚焦于“前沿AI风险”。我们将概述数据库中总结呈现的重要趋势与结果，例如主要测试了哪些风险、评估的类型与方法、使用的语言及模态等。最后，本文将就有关的核心政府部门、学术研究和企业团队如何开展AI安全评估工作，给出详细的说明和指引。

The post 中国AI安全评估生态 first appeared on Concordia AI.

安远AI前沿大模型的风险、安全与治理

eggplant — Sun, 15 Jun 2025 10:05:21 +0000

2023年10月，我国提出的《全球人工智能治理倡议》指出，当前全球人工智能技术快速发展，对经济社会发展和人类文明进步产生深远影响，给世界带来巨大机遇。与此同时，人工智能技术也带来难以预知的各种风险和复杂挑战。人工智能治理攸关全人类命运，是世界各国面临的共同课题。

中国政府重视预判和防范AI的潜在风险，发布了多个相关政策文件。国际和国内的AI科学家和领袖已开始关注AI可能带给人类社会的生存风险。人工智能安全和治理已成为我们时代的关键议题。

本报告聚焦“前沿大模型”(Frontier Large Model)：能执行广泛的任务，并达到或超过当前最先进现有模型能力的大规模机器学习模型，是目前最常见的前沿AI，提供了最多的机遇但也带来了新的风险。

鉴于前沿大模型的快速发展，各国政府、国际组织、企业、科研院校、民间机构和公民个人需要共同努力，及时了解这些风险并研究可能的应对措施。

本报告共分为五个主要章节，全面梳理了前沿大模型的趋势预测、风险分析、安全技术、治理方案，并进行了总结和展望。报告旨在促进对相关问题的认知与讨论，希望能为建立负责任和包容的全球人工智能安全和治理体系作出贡献。

The post 安远AI前沿大模型的风险、安全与治理 first appeared on Concordia AI.