演讲与分享 - Concordia AI

2025“AI向善”全球峰会：安远AI谢旻希解析前沿AI四大风险与治理路径

Concordia AI — Thu, 20 Nov 2025 12:32:04 +0000

导言

2025年7月10日，安远AI创始人兼CEO谢旻希出席了由联合国和国际电信联盟（ITU）共同组织的“AI向善”全球峰会（AI for Good Summit）“前沿AI治理：从原则到实践”圆桌讨论，探讨前沿人工智能所带来的风险及其治理方案。此次圆桌讨论汇聚了全球人工智能领域的顶尖专家，包括清华大学智能产业研究院院长张亚勤院士、欧盟委员会人工智能顾问Juha Heikkilä、美国前沿模型论坛负责人Chris Meserole，以及来自AWS、Signal等科技企业的企业高管代表。台下观众包括数百位横跨政府、科技、政策与社会创新的各界全球领袖。谢旻希指出AI正面临滥用、意外故障、潜在失控与系统性社会冲击四大风险，其风险治理的先决条件之一是识别和理解前沿AI具有的潜在风险。谢旻希提出“部署前—部署后”两步走路径：既要落实部署前登记与审计，也要建立标识框架推动透明监管与追溯问责，并分享了中国在生成式AI领域的监管实践。他呼吁，防范和管控AI安全风险，需要构建多方协同的治理框架，明确不可接受结果与预警指标，将公民意见与国际共识纳入决策，以避免由少数人冒险导致的系统性危害。

关于管理前沿人工风险的治理模式，谢旻希强调，为了确保人工智能真正造福人类，我们有必要借鉴安全攸关领域的风险管理经验，其先决条件之一是要识别和理解潜在风险。安远AI此前参与的《国际人工智能安全报告》以及最新相关研究指出，目前前沿人工智能在全球范围内的广泛应用暴露出了四大方面的安全风险挑战：

一、滥用：前沿人工智能已经在编程、科学推理、病毒学等两用领域达到专家级水平，为恶意行为者发动复杂网络攻击或设计危险病原体降低了技术门槛。也有研究证实，AI智能体已具备利用零日漏洞的能力。针对这类恶意滥用人工智能的风险，一项制度性的应对办法是向防御方提供早期和优先的访问权限，以便提前研发应对措施，确保系统的防御能力始终先于新兴威胁一步。

二、意外事故与故障：聊天机器人在日常对话中表现出的“幻觉”现象无伤大雅，但在医疗诊断等高风险场景下，其幻觉却可能酿成严重伤害。针对这类意外风险，建议明确将特定应用场景归入高风险类别，并施加强有力的监管措施保障用户安全。例如，北京市政府已出台监管办法，禁止人工智能系统自动生成医用处方。

三、失控：正如Geoffrey Hinton在本届峰会所言，目前尚无可靠机制能确保数字超级智能始终在人类掌控之下。已有迹象显示，在某些条件下，前沿模型可能试图欺骗用户或逃脱控制，虽然现阶段人工智能模型还很难绕过客户身份验证（KYC）等安全验证机制，无法在现实环境中自我复制。针对这类高危风险，即便现阶段其实现概率不高或不详，也仍有必要设立预防措施，例如制定危机应对预案，例如开发可靠的系统“开关”等。

四、社会层面的系统性风险：随着通用型人工智能在许多高价值任务上的表现超过人类，劳动力市场受到的来自人工智能的冲击势必逐渐加深。并且，由于这种渐进的影响往往并不集中，任何单一组织都无法独立应对这样广泛的外部性。针对这类系统性风险，我们必须建立多利益相关方的合作机制，来共同管理人工智能催生的

社会层面的冲击与转型，确保无论是地区还是全球范围内不让任何人掉队。这也正是ITU平台的重要价值所在。

针对上述各类风险，谢旻希提出，人工智能治理亟需更强有力的措施。当前，针对人工智能的监管比食品安全还少，这在通用型人工智能可能造就深远影响的今天显得尤其不足。未来几年应重点推动两方面的人工智能安全治理举措：一是部署前的模型登记与审计，以许可框架确保通用型人工智能在进入市场前经过安全评估与备案，并且可随着认知加深不断优化；二是部署后的透明度机制，包括建立生成合成内容标识体系及未来的AI智能体身份标识，确保人工智能系统可追溯、可问责。

展望未来，治理人工智能安全风险更关键的一步，在于建立各方协同的治理框架：明确人工智能系统可能带来的“不可接受结果”或红线，并建立清晰的早期预警指标。人工智能风险阈值的界定不应仅由行业内部决定。全球金融危机和环境灾害已经给过我们历史教训，如果放由少数精英决策者铤而走险，弱势群体所受的冲击只可能更大，甚至可能酿成波及全球的系统性危害。因此，在下一阶段的人工智能治理问题上，凝聚共识、划定边界并强化问责，将是最需要落实的实质性举措。

The post 2025“AI向善”全球峰会：安远AI谢旻希解析前沿AI四大风险与治理路径 first appeared on Concordia AI.

安远AI参与2025年SCAI新加坡人工智能会议，会议发布《新加坡共识》建立全球AI安全研究合作新框架

Concordia AI — Sat, 01 Nov 2025 17:10:39 +0000

导言

2025年4月26日，《新加坡共识：全球人工智能安全研究优先事项》在新加坡人工智能会议：人工智能安全国际科学交流会（Singapore Conference on AI, SCAI) 上正式发布。由全球顶尖学术机构的100多位专家共同制定，明确提出了风险评估、安全开发和可控性三大研究优先领域，旨在通过国际协作共建AI安全技术框架。

继2023年首次新加坡人工智能会议后，安远AI第二次受邀出席并参与了《新加坡共识》初稿的反馈和建议工作。安远AI期待《新加坡共识》能成为加速推进全球AI安全行动的重要契机，共同构建更加安全、可靠的人工智能生态体系。

4月26日，第二届新加坡人工智能会议：人工智能安全国际科学交流会顺利举办。会议吸引了麻省理工学院、斯坦福大学、清华大学和中国科学院等学术机构的专家，以及来自OpenAI、Anthropic、Google DeepMind、xAI和Meta等科技公司的研究人员参与。会议同时促成了《新加坡共识：全球人工智能安全研究优先事项》的发布。

大会项目委员会汇聚了全球顶尖学者，包括加州大学伯克利分校的Dawn Song教授和Stuart Russell教授、清华大学的薛澜教授和张亚勤教授、南洋理工大学的Luke Ong教授、麻省理工学院及未来生命研究所的Max Tegmark教授、蒙特利尔大学Mila研究院的Tegan Maharaj博士和Yoshua Bengio教授。

安远AI CEO谢旻希与国际AI治理主管吴君仪受邀出席了本次会议，并积极参与了《新加坡共识》初稿的反馈和建议工作。继2023年12月首次受邀参与后，安远AI再次受邀出席。

《新加坡共识》由全球100多位顶尖专家共同推动，是识别通用型先进人工智能系统潜在风险、推动技术解决方案的重要里程碑，呼吁全球研究者围绕以下三大关键领域展开深入协作：

风险评估：旨在理解潜在危害的严重性和发生可能性，为关键研发和部署决策提供基础。研究方向包括开发衡量AI系统影响的方法，提升计量学能力确保测量结果的准确性和可重复性，以及构建支持第三方审计的机制，实现独立验证。

安全开发：致力于从设计层面确保AI系统值得信赖、可靠且安全，增强人们对AI创新的信心。遵循经典安全工程框架，研究方向包括明确AI系统的目标行为规范，设计符合规范的系统，以及验证系统是否满足要求。

可控性：通过反馈调节系统行为，确保AI在面对干扰或不确定性时仍能实现预期目标。研究方向包括开发监测与干预机制，拓展监测范围至更广泛的AI生态系统，以及增强社会基础设施适应AI带来的变革，提升整体社会韧性。

清华大学文科资深教授薛澜在评价这一共识时表示：”在当前地缘政治日益碎片化的背景下，这份关于AI安全前沿研究的全面汇总，体现了全球社会在构建更安全AI未来方面的共同承诺。“

安远AI在2024年更新发布的《中国人工智能安全全景报告》也显示，中国研究人员正积极贡献全球AI安全科学研究和治理体系构建。AI安全是各国面临的共同挑战和机遇，安远AI期待《新加坡共识》能成为加速推进全球AI安全行动的重要契机，共同构建更加安全、可靠的人工智能生态体系。

点击链接，查看完整共识文件。

The post 安远AI参与2025年SCAI新加坡人工智能会议，会议发布《新加坡共识》建立全球AI安全研究合作新框架 first appeared on Concordia AI.

AI安全国际论坛 × 复旦 × 安远AI联合举办“AI欺骗风险与治理国际研讨会

Concordia AI — Tue, 29 Jul 2025 11:44:23 +0000

导读

7月29日，AI安全国际论坛 (SAIF) 、复旦大学计算与智能创新学院以及安远AI共同举办研讨会，聚焦人工智能欺骗行为引发的风险。

这是国内外学者在AI欺骗问题上的首次深度交流。来自中美德加等国的高校学者、科技企业研究人员和一线研究者齐聚一堂，围绕”AI欺骗所引发的失控风险威胁模型“和”失控风险缓解策略”两大核心议题展开深入讨论。

会议聚焦AI系统可能具备的误导开发者、掩盖危险能力的”欺骗性行为”，提出了针对AI开发生命周期训练、评估、部署三个关键阶段的风险阈值设定方案。与会专家就情境感知能力识别、欺骗行为检测、监控机制规避等技术难题进行了深入研讨，并将基于讨论成果联合撰写AI欺骗风险缓解措施报告。

安远AI CEO谢旻希与技术经理段雅文参与研讨

会议概要

本次研讨会围绕 “‘AI欺骗’所引发的失控风险威胁模型” 以及 “失控风险缓解策略” 两大核心议题展开。

会议指出，AI系统可能具备误导开发者、掩盖其危险性能力、倾向及行为的能力，且此类行为难以被察觉。

这种“欺骗性行为”可能贯穿AI开发生命周期的全过程，具体表现为：在训练阶段操纵训练过程、在评估阶段干扰评估结果、在部署阶段规避监控机制。

为应对上述风险，研讨会提炼出针对训练、评估、部署三个关键阶段设定的三道风险阈值及应对措施。

与会人员重点围绕这三道风险阈值和缓解措施展开了深入讨论。

阈值一：AI系统具备情境感知能力

首先，美国加州非盈利组织Truthful AI的研究员James Chua组织与会者研讨了第一道阈值的划分标准及应对措施。

该阈值设定于 AI 系统具备情境感知能力 (Situational Awareness) 的时刻。

该能力具体指AI能够准确判断自身当前是处于训练、评估还是部署阶段，并能利用这一信息思考如何达成人类设定的相应目标。

若发现AI系统越过了此阈值，开发者需对其在训练和评估阶段可能采取的破坏训练过程、操作评估的行为进行全面测试。

阈值二：AI系统能可靠地破坏训练，博弈评估

复旦大学计算与智能创新学院副研究员，上海创智学院导师潘旭东组织与会人员就第二道阈值的设定及其应对方案进行了研讨。该阈值被设定于AI系统在前期测试中被确认能可靠地展现出破坏训练过程及操纵评估的能力。

提出该阈值的研究者认为，若发现系统表现出此类能力，开发者需采取更加强有力的应对措施：比如故意误导AI系统以干扰其对当前开发阶段的判断，在评估过程中引入更多噪声，或引导系统提升其行为的诚实性与透明度。

阈值三：AI系统能可靠地规避现有的监控机制

最后，在加拿大魁北克人工智能研究所博士后Sören Mindermann (首份国际AI安全报告技术负责人) 的组织下，与会人员讨论了第三道 (也是最后一道) 阈值：AI系统在大规模部署中能够可靠规避所有现有的监控机制。

该阈值建议：一旦触发此阈值，开发者必须立即停止部署，无论系统是在内部上线还是通过公开API发布。唯有在引入更强大的监控与安全措施，并确保系统无法规避这些机制后，方可恢复部署。

该原则同样适用于开源模型：一旦模型参数公开，监控责任即转移至使用者；在缺乏同等效力防护措施的情况下，不应运行该系统。

交流与分享

参会者针对每个环节的阈值及应对策略展开了深入讨论，比如是否可以跳过对于系统情境感知能力的测试（即阈值一），直接测试系统是否具备欺骗能力（即阈值二）；如何定义第二和第三部分提及的系统能力的“可靠性”；以及是否应强制要求模型内置监控工具，或者延迟模型发布直至监管体系完善。

会议主办方将根据讨论内容，对起草的阈值和缓解措施进行修改，联合与会者一起撰写一份关于人工智能欺骗风险和缓解措施的报告。敬请期待！

主办方

复旦大学计算与智能创新学院以原计算机科学技术学院为班底，整合国家示范性软件学院、国家保密学院、密码学院、网络安全学院，纳入大数据研究院、人工智能创新与产业 (AI³)研究院、金融科技研究院、先进计算系统研究院等多个实体科研机构，致力打造全球一流的计算与智能领域研究型学院。

安远AI致力于引领人际关系走向安全、可信、可靠的未来。在AI安全和治理领域。安远AI既是第三方研究和咨询机构，也是目前该领域全国唯一的社会企业。

AI安全国际论坛是一家非盈利组织，致力于推动全球人工智能治理合作，促进中西AI专家的第二轨道对话，共同应对AI带来的极端风险，造福全人类。我们主办AI安全国际对话，并提供研究和咨询服务。

The post AI安全国际论坛 × 复旦 × 安远AI联合举办“AI欺骗风险与治理国际研讨会 first appeared on Concordia AI.