
随着人工智能技术的飞速发展,大模型技术作为其中的佼佼者,正逐渐渗透到各行各业,推动着第四次工业革命的进程。大模型以其强大的数据处理能力和多任务处理能力,被业界认为是实现通用智能的可行路径。然而,随着大模型技术的商业化应用和产业化落地加速,其技术局限和潜在恶意使用不仅加剧了原有的人工智能安全风险,也引入了模型“幻觉”、指令注入攻击等新型风险。面对这些挑战,国际组织和世界主要国家正通过制定治理原则、完善法律法规、研制技术标准等方式,积极开展大模型安全治理。
关键词:大模型、安全风险、治理体系、技术革新、人工智能
一、大模型技术的发展与安全风险
大模型技术的发展标志着人工智能由专用弱智能向通用强智能的迈进。这一转变不仅预示着智能水平的显著提升,也预示着人机交互方式和应用研发模式的重大变革。大模型在各行各业的广泛应用,为第四次工业革命的爆发提供了蓬勃动力和创新潜力。然而,随着大模型技术的广泛应用,其安全风险也逐渐显现。大模型技术局限和恶意使用不仅加剧了原有人工智能安全风险,也引入了模型“幻觉”、指令注入攻击等新型风险。面对这些挑战,国际组织和世界主要国家正通过制定治理原则、完善法律法规、研制技术标准等方式,积极开展大模型安全治理。
二、构建层次化治理体系
未来,随着大模型技术能力日益接近人类并在经济社会中得到广泛应用,可能会对国家社会秩序带来严重冲击。首先,当社会信息主要由大模型生成时,获取社会真相的成本将急剧升高。随着多模态大模型技术的成熟和广泛应用,互联网上超90%的信息可能由大模型生成,这使得少数不法分子利用大模型进行歪曲事实、操作舆论的行为变得更加隐蔽且难以察觉,导致普通民众越来越难以辨别真相。其次,当社会工作大量由大模型参与完成时,人类自身和物理环境的安全可能面临威胁。智慧金融智能体、自主机器人、全自动驾驶汽车等大模型系统设备的非正常运行可能直接危害人类的生命健康和财产安全。同时,应用于农业、化工、核工业等领域的大模型系统设备如果非正常运行或遭受攻击,可能会对土壤、海洋、大气等环境安全造成破坏。
为全面有效应对大模型安全风险,未来需从构建层次化治理体系和创新安全保护技术两个方面同时发力。在治理体系构建方面,应通过国际、区域和国家三个层面,针对不同层次的问题进行分层解决。在国际层面,以联合国为中心,围绕大模型的突出风险和治理原则等问题,建立全球共识的治理框架,以促进跨国界的威胁信息共享和治理政策的协同。在区域层面,依托区域联盟、经济共同体等国际组织,结合本区域内技术产业发展特点和治理需求,制定相应的区域治理法案或指南。在国家层面,各国政府需根据本国国情,制定本国治理法规和日常监管措施。
三、创新安全保护技术
针对模型弱鲁棒性、模型“幻觉”等大模型安全风险,仍需从改进大模型自身技术机理,发展大模型价值对齐、大模型生成信息检测等安全技术,以确保安全问题的解决。大模型的鲁棒性不足主要体现在分布外鲁棒性不足和对抗鲁棒性不足两个方面。分布外鲁棒性不足主要指模型在遭遇实际运行环境中的小概率异常场景时,未能展现出预期的泛化能力,从而生成非预期的结果。而对抗鲁棒性不足则主要指模型面对攻击者利用精心设计的提示词或通过添加细微干扰来构造对抗样本输入时,模型可能无法准确识别,影响输出的准确性。
模型“幻觉”现象是指模型在回答用户问题时,可能产生看似合理但包含不准确、虚构或违背事实的信息。这种现象的出现,不仅会误导用户,还可能引发严重的社会问题。因此,提升模型的可解释性,使其决策过程和结果能够被详细准确地解释,对于理解模型输入如何影响输出,以及模型产生特定结果的原因至关重要。
在提升模型的可解释性方面,可以分为局部可解释和全局可解释两种方法。局部可解释性方法主要包括特征属性分析和Transformer结构分析。特征属性分析旨在识别和评估哪些输入特征对模型生成信息造成影响及其影响程度。Transformer结构分析旨在研究Transformer自注意力层和多层感知机层的机理,通过分析注意力权重了解模型如何对输入分配注意力,从而理解模型在文本生成中关注的输入信息的关键部分。全局可解释性方法主要包括基于探针的方法和机制可解释。基于探针的方法旨在分析和理解大模型生成信息的高层次表征,这些表征有助于从宏观角度理解大模型生成信息的行为。机制可解释旨在通过类比复杂计算机程序的逆向工程思路探索神经元的提取特征与大模型生成信息的映射关系。
总结
大模型技术的发展为社会带来了前所未有的变革,但同时也带来了新的安全挑战。构建层次化的治理体系和创新安全保护技术是应对这些挑战的关键。通过国际合作、区域协同和国家层面的法规建设,我们可以构建一个有效的治理框架,以确保大模型技术的健康发展。同时,通过技术创新,提升模型的鲁棒性和可解释性,我们可以更好地理解和控制大模型的行为,从而确保其在安全、可靠的轨道上运行。未来,大模型技术将继续在安全领域发挥重要作用,为我们的数字世界和物理世界带来更多的可能性。