一、活动背景:AI 技术快速发展与安全治理需求迫切
随着人工智能(AI)技术的迅猛进步,尤其是以 ChatGPT 为代表的大型语言模型技术的兴起,AI 技术已广泛渗透至各个领域。然而,AI 技术的快速发展亦伴随着一系列安全隐患的出现,如数据安全、知识产权、算法偏见、有害内容生成以及深度伪造、AI 诈骗等。这些问题不仅引起了公众的广泛关注和深切忧虑,也对 AI 技术的健康发展和社会的和谐稳定构成了潜在威胁。全国网络安全标准化技术委员会等机构亦发布了相关框架和指导原则,旨在规范 AI 技术的发展和应用,降低其潜在风险。同时,学术界和工业界也在积极探索 AI 安全治理的途径,从立法、监管、前沿研究、技术实践等多个层面出发,寻求有效的解决方案。
在此背景下,由中国计算机学会计算机视觉专委会主办,合合信息承办,中国运筹学会数学与智能分会协办的《打造大模型时代的可信 AI》论坛应时而生。该论坛旨在汇聚来自高校、研究机构、企业的专家学者,共同探讨 AI 安全领域的最新进展和未来趋势,为 AI 技术的健康发展提供有益的思路和建议。
二、论坛内容
论坛伊始,中国计算机学会计算机视觉专委会副秘书长潘金山博士发表致辞。他提到,在大模型时代,AI 技术正以前所未有的速度改变着生活和工作方式。随着 AI 技术的广泛应用,其安全性问题也日益凸显,成为制约 AI 技术进一步发展的重要因素。潘金山博士强调,AI 安全治理不仅关乎技术的健康发展,更关乎社会的和谐稳定。加强 AI 安全治理,推动 AI 技术向善发展,已成为共同的责任和使命。
金耀辉:智能共生时代:平衡生成式 AI 的创新与风险
上海交通大学人工智能研究院教授、总工程师金耀辉指出,大语言模型的内容安全风险多种多样,包括提示词注入、输出处理不安全、训练数据中毒、模型拒绝服务等。这些风险不仅影响模型的性能,还可能对社会造成负面影响。例如,三星员工违规使用 ChatGPT 导致机密资料外泄,新闻网站 CNET 使用 LLMs 生成文章却包含严重事实错误,这些案例都为我们敲响了警钟。
为保障 LLMs 的内容安全,金耀辉提出了几种安全保障手段。首先是训练对齐,通过算法和数据对模型进行微调,使其更加符合安全需求。此外,还有面向安全的提示引导和文本过滤等方法。提示引导利用特定流程和策略引导 LLMs,进一步激活其固有的安全属性;而文本过滤则通过外接模块检测有害内容,并触发处理机制,防止有害内容的产生和传播。
何延哲:人工智能安全检测评估的逻辑和要点
中国电子标准院网安中心测评实验室副主任何延哲就人工智能安全检测评估的核心逻辑与关键要点进行了分享。
何延哲首先强调了人工智能安全检测评估的背景与必要性。随着人工智能技术的迅猛发展,其带来的安全风险也日益凸显,涵盖网络信息安全、科技伦理安全、算力网络安全、数据安全与隐私保护等多个维度。针对这些风险,何延哲深入剖析了当前人工智能安全检测评估的方法与思路。他指出,我国已出台多项相关法律法规、政策文件及标准规范,为人工智能安全检测评估提供了坚实的制度保障。
在分享中,何延哲特别强调了基于人工智能相关标准规范的安全检测评估机制的重要性。他详细解读了《信息安全技术 机器学习算法安全评估规范》、《基于个人信息的自动化决策安全要求》等标准规范,并指出这些规范为人工智能安全检测评估提供了明确的指导与依据。此外,他还强调了加强个人信息处理全生命周期保护、定期开展合规审计、采取加密等措施保障个人信息安全的重要性。
谢洪涛:面向特定人物深度伪造视频的主动防御与被动检测技术
中国科学技术大学教授谢洪涛带来了一场关于面向特定人物深度伪造视频的主动防御与被动检测技术的深度解析。
谢洪涛首先介绍了深度伪造技术的背景及其发展现状。他指出,随着深度学习技术的飞速发展,深度伪造技术已经能够在人脸图像、语音等领域实现高度逼真的伪造效果,这无疑给个人隐私、国家安全等方面带来了前所未有的挑战。随后,谢教授详细阐述了主动防御与被动检测技术的核心原理。主动防御技术主要是在内容发布前添加一定程度的干扰信号,以防止伪造或即便伪造也能够顺利溯源。而被动检测技术则是在人脸素材被恶意伪造后,利用伪造视频自身获取线索或提取特征进行检测。


