作者:韩旭至,华东政法大学法律学院副教授,华东政法大学数字法治研究院副院长。
引言
2024年6月12日,习近平总书记在向联合国贸易和发展会议成立60周年庆祝活动开幕式发表视频致辞时提出了“以人为本、智能向善”的人工智能治理八字方针。大模型价值对齐与这一要求不谋而合。大模型价值对齐指,使具有大量参数和复杂结构的机器学习模型的输出结果与人类的意图和价值观相一致。
国内外最新的人工智能治理制度已对大模型价值对齐进行了初步规范。2024年5月21日,欧盟理事会批准通过的《人工智能法》对具有系统性风险的通用人工智能提出额外要求,明确包含价值对齐。2024年2月全国网络安全标准化技术委员会发布的《生成式人工智能服务安全基本要求》(TC260—003)以及同年5月进一步公布的《网络安全技术生成式人工智能服务安全基本要求(征求意见稿)》(以下称“征求意见稿”)均指出应控制语料及生成内容的伦理风险,暗含价值对齐的要求。2024年9月,全国网络安全标准化技术委员会在《人工智能安全治理框架》1.0版第6.1条第d款中进一步明确提出研发者应当“设计有效、可靠的对齐算法,确保价值观风险、伦理风险等可控”。
实践中大模型价值对齐的意义日益凸显,而法学研究的理论准备却并不充分。价值对齐已成为大模型企业合规的核心环节之一,监管部门在大模型评估、备案中往往十分注重价值对齐。因此,部分人工智能企业已开展了大模型价值对齐的研究。美国人工智能研究公司OpenAI首席技术官即提出,“要确保大模型符合人类的意图和价值观”。腾讯公司注意到大模型价值对齐“需要考虑不同的文化和社会价值”。理论上大模型价值对齐更多是作为一个技术问题或伦理学问题被研究。部分学者在人工智能伦理治理、公司治理的研究中涉及价值对齐的法律议题,但仍未能充分聚焦大模型价值对齐的法律规制问题。
此外,大模型价值对齐也是我国人工智能立法需要回应的重要问题。我国《国务院2023年度立法工作计划》《国务院2024年度立法工作计划》均将《人工智能法》列入立法规划,2024年全国人大亦提出研究推进人工智能科技立法工作。当前我国大模型价值对齐的方法、程序、后果均缺乏法律约束,法律要求与伦理规范的关系未被厘清,导致实践中容易采取最严格的对齐标准,不仅造成大模型企业权责失衡,而且影响我国人工智能技术的全球竞争力。本文将聚焦发展通用人工智能的国家战略,从大模型价值对齐的实践逻辑出发,识别其运行中的规制困境,最终提出法治化的机制再造方案。
大模型价值对齐的实践逻辑
价值对齐的理念与实践由来已久,现已成为应对大模型伦理风险的核心方法。1960年“控制论之父”维纳(Norbert Wiener)早已指出,借助机器实现特定目标时,应当确保输入的目标与预期相一致。生成式人工智能出现后,形成了新兴的伦理风险,价值对齐的重要性进一步凸显。同时,价值对齐也是人工智能治理制度的内在要求。
(一)功能目标:大模型伦理风险防控
当前,大模型已经展现出特定的伦理风险,大模型价值对齐的功能目标即在于防控这些风险。根据2021年全国信息安全标准化技术委员会秘书处发布的《网络安全标准实践指南——人工智能伦理安全风险防范指引》(TC260-PG-20211A),人工智能伦理安全风险可分为失控性风险、社会性风险、侵权性风险与责任性风险。这些风险在大模型应用中被进一步放大。大模型存在输出信息不准确、带有偏见或有害的输出、恶意使用大语言模型后产生的输出等问题,已经展现出失控、侵权、歧视、冲击文化价值认同、削弱人的主体地位等风险。
例如,未经对齐的机器学习模型极易形成性别刻板印象,对于医生、工程师、店主等职业仅生成男性形象。又如,以ChatGPT为代表的域外大模型,更会根据西方价值观与立场回答问题。因此,价值对齐被认为“关乎着意识形态安全乃至国家政治安全”。对此,《生成式人工智能服务安全基本要求》与“征求意见稿”均将“包含违反社会主义核心价值观的内容”“包含歧视性内容”与违法违规、侵权、不满足安全要求并列为大模型的主要安全风险。欧盟《人工智能法》“鉴于条款”第110项亦指出,大模型可能导致偏见歧视、生成虚假信息、损害隐私、冲击人类价值观。
与传统信息内容治理相比,大模型应用下人机关系与信息内容生产方式均发生了转型,价值对齐的重要性凸显。技术哲学指出,随着技术的迭代升级,人机关系会发生的转变。伊德(Donihde)将人机关系分为“具身关系—诠释关系—它异关系—背景关系”:在具身关系中,技术是人身体的延伸;在诠释关系中,人通过技术诠释以认识世界;在它异关系中,人通过具有自主性技术的产物认识世界;在背景关系中,技术成为了日常生活的背景。
作为部分真实世界“镜像”的大模型,成为了人认识世界的中介,构成它异关系,将来更可能进一步形成为背景关系。同时,互联网的内容生产模式经历了“专业生成内容(PGC)—用户生成内容(UGC)—大模型生成内容(AIGC)”的发展,引发了“信息内容生产与传播方式的革命性变革”。与搜索引擎或平台网站不同,大模型直接参与人类知识生成,能直接生成信息且适用于通用场景。
也就是说,在智能交互、人机协同的信息内容生产模式中,“大模型正在成为人们日常生活的一部分”,从而展现出“人机共生”的关系。大模型不仅成为了人们认识世界的重要媒介,而且其生成内容将很可能进入人类知识库、影响人类价值观。其伦理风险将在人机交互中不断强化,甚至以人们难以意识到的方式潜移默化地产生影响。因此,确保机器输出与人类的意图和价值观相一致,上升到前所未有的重要地位。
基于伦理与法律的功能差异,大模型价值对齐的目标应当分为两个层次。
一是最终的伦理目标层次,指向造福人类,塑造可信人工智能。从信任关系的角度,人类信任经历了“人的信任—组织信任—制度信任—机器信任”的变迁。区块链所提供的信任即典型的机器信任。可信赖是人工智能治理的核心目标之一,大模型的伦理风险直接影响了人机信任。
2019年欧盟人工智能高级别专家组发布的《可信赖的人工智能伦理准则》明确将“系统应该与伦理准则和价值观相一致”(合伦理)与合法、稳健并列作为可信人工智能系统的三大要件之一。2022年我国外交部发布的《中国关于加强人工智能伦理治理的立场文件》亦明确主张各国政府应要求研发主体逐步实现可信赖的要求。通过价值对齐确保大模型的输出符合人类价值观,保持人类对大模型的最终控制权,可有效重构大模型人机信任关系。
二是伦理目标转化为法律治理目标,指向大模型输出内容符合公序良俗、非歧视等。此时,价值对齐已不再仅仅是一个技术或伦理议题,而成为了人工智能的法律治理方案,展现出从“代码即法律”到“法律3.0”的法理逻辑。二十多年前,莱斯格(Lawrence Lessig)即指出,在传统的法律之外,网络空间规制还有赖于社群规范、市场、架构的要素。在“(技术)设计即权力”“代码即法律”的判断中,人们意识到“技术革新类似于法案或者政治纲领,它们为公共秩序建立框架”。
在此认识基础上,布朗斯沃德(Roger Brownsword)进一步提出,“法律3.0”“既关注规则的修改,也关注技术方案”。在大模型所形成的新型“人机共生”关系中,“人与技术走向深度互嵌”。相应地,价值对齐也成为了大模型治理的必要工具。
(二)运行机理:人机协同的技术治理
大模型的技术逻辑使传统的治理方式失效,呼唤价值对齐的技术治理路径。大模型具有大量参数和复杂结构,比传统的人工智能更为通用,随着参数量的几何倍增出现了“智能涌现”,大模型出现了“理解”人类自然语言的能力,人与智能体的交互变得更为便捷、高效和多元。大模型采取对话式的交互方式,即时生成大量内容,难以简单适用事前审核、拦截机制,具有一定的不可控性。大模型采用深度学习算法,难以直接采取删除数据的方式使大模型“遗忘”特定内容。若仅靠事后处置的方式,大模型服务提供者难以依《生成式人工智能服务管理暂行办法》第14条第1款要求及时停止生成违法内容。因此,通过价值对齐采取事先与事后相结合的模型优化显得尤其关键。
在技术上,价值对齐将伦理风险防控的目标进一步分解为“RICE原则”,即稳健性(robustness)、可解释性(interpretability)、可控性(controllability)、道德性(ethicality),并采取以下路径:首先,“人类反馈的强化学习”(RLHF)即通过人类标注对机器学习模型微调,是目前最为常用的价值对齐方法。在该方法下,《生成式人工智能服务安全基本要求》与“征求意见稿”从标注人员、标注规则、标注内容准确性、标注数据存储等方面对语料标注安全进行了规范。其次,价值对齐的常见技术路线还有监督学习(SL)、基于排序的人类偏好对齐(RRHF)、可扩展监督(scalable oversight)等。
值得注意的是,2023年美国Anthropic公司发布了“宪法人工智能”的价值对齐路径。该路径首先通过微调形成由人类原则定义的“宪法”模型,然后使用自我监督和对抗性训练等技术,让大模型再自行学习,使得输出结果与人类价值观保持一致。最后,大模型价值对齐的实践路径还包括:以语料清洗等方式干预训练数据,通过红队测试(red teaming,或称对抗测试)在模型发布前邀请专业人员发起对抗攻击测试模型安全,成立专门的大模型安全治理组织等。
由此可见,大模型价值对齐的技术路径遵循“自设计保护”(by design)的逻辑,实现了人机协同的技术治理。“自设计保护”出自数据法中“自设计保护隐私”(privacy by design)的理念,强调将法律要求前置到技术设计之中,并利用技术本身进行治理。该种技术路径也被称为“价值敏感性设计”。
当前,大模型本身已经成为了价值对齐的工具,2024年6月OpenAI发布的Critic GPT即旨在用大模型监督大模型,以帮助人类在RLHF中进行调整。这种人机协同的技术治理模式,正是人机关系转型的必然要求。在人与大模型的“它异关系”与“背景关系”中,人机关系实质上也体现为人机协同与人机融合的关系。相应的,大模型价值对齐的技术路径强调人类对系统的监督,通过价值对齐的方法确保“人在回路”(human-in-the-loop),引导大模型明辨是非。在计算机科学上,“人在回路”要求“计算机与人脑合作,共同管理或操作一个系统”。大模型价值对齐正是人机协同的典型例证。
(三)制度基点:价值对齐的规范意蕴
在价值对齐人机协同的技术治理中,技术、伦理、法律共同发挥作用,与最终目标相对应的柔性伦理要求逐渐转换为与法律治理目标相对应的具体刚性制度,构成了价值对齐的规范基础。
第一,价值对齐无疑是人工智能伦理治理的要求,适用软法规制。一方面,人工智能伦理准则本身即蕴含价值对齐的要求。2021年联合国教科文组织《人工智能伦理问题建议书》指出人工智能系统应对齐的价值观包括“尊重、保护和促进人权和基本自由以及人的尊严”“环境和生态系统蓬勃发展”“确保多样性和包容性”“生活在和平、公正与互联的社会中”。2022年我国外交部发布的《中国关于加强人工智能伦理治理的立场文件》亦呼吁“提高人工智能伦理意识”,“将伦理道德融入人工智能研发过程各环节”,以应对人工智能技术的伦理风险。
另一方面,部分人工智能伦理规范明确提出价值对齐的要求。2024年《东盟人工智能治理和伦理指南》明确提出,人工智能做出的决定必须“对齐价值观以及更广泛的道德和社会规范”,“评估风险时应考虑不同国家独特的本土规范和价值观”。同年,新加坡在瑞士达沃斯科技论坛上发布的《生成式人工智能治理框架模型倡议》提出,加强关于安全和价值对齐的研究开发,“以改善AI模型的意图,保证其与人类价值观的一致性”。然而,这些伦理治理的要求普遍“注重原则层次的价值宣言但缺乏执行力度”,亟须转化为具体的制度规则。
第二,价值对齐的伦理要求通过转化逐渐具有了可操作性,最终成为了法律的刚性要求。一是通过推荐性标准与指引文件,价值对齐的伦理要求转化为“合规标准”。例如,全国网络安全标准化技术委员会通过《生成式人工智能服务安全基本要求》《人工智能安全治理框架》等文件,引导服务提供者开展数据标注、评估算法偏见,进行价值对齐。在监管部门的备案、审查等活动中,这些文件实际发挥着重要作用。
二是科技伦理审查制度是价值对齐的柔性伦理要求与刚性法律制度之间的重要桥梁。通过科技伦理审查可检验价值对齐的效果。大模型的研发活动属于《科技伦理审查办法(试行)》第2条所规定的具有伦理风险挑战的科技活动,应当依法开展科技伦理审查。依据该规定第15条第5项,应当重点审查“算法、模型和系统的设计、实现、应用”是否遵守伦理准则。
三是价值对齐的伦理要求转化为人工智能治理的法律原则。例如,美国、英国和欧盟等于2024年9月5日签署的《人工智能、人权、民主和法治框架公约》第10条明确规定了“平等与非歧视”原则。又如,2024年7月15日我国台湾地区发布的“人工智能基本法草案及其说明”第3条(人工智能研究发展及应用之基本原则)说明第3项指出,人工智能参与者应“尊重法治、人权及民主价值观”。
第三,在具体的刚性制度规则上,信息内容治理规范与价值对齐的伦理要求不谋而合,为价值对齐设置了法律底线要求。一方面,我国现行法律法规中算法价值观的要求是价值对齐的核心制度基点。《生成式人工智能服务管理暂行办法》第4条第1项、《互联网信息服务深度合成管理规定》第4条、《互联网信息服务算法推荐管理规定》第6条第1款分别提出了“坚持社会主义核心价值观”、“坚持正确价值取向”和“坚持主流价值导向”的要求。调研得知,国内大模型价值对齐的工作重点即在于确保模型输出符合前述要求。
另一方面,训练数据与生成内容安全的规范直接作用于大模型价值对齐。在“审核—校准”机制上,《互联网信息服务深度合成管理规定》第10条规定,服务提供者应当对输入数据和合成结果进行审核。在技术措施上,《生成式人工智能服务管理暂行办法》第4条第2款要求,服务提供者“在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视”。
针对训练数据的对齐问题,《互联网信息服务深度合成管理规定》第14条、《生成式人工智能服务管理暂行办法》第7条及第8条均进行了规定,要求大模型服务提供者加强训练数据管理、提高训练数据质量、依法开展数据标注工作。
第四,在更广泛的安全层面,欧美最新立法直接规定了价值对齐相关义务,关注人工智能的风险治理。2024年欧盟《人工智能法》和2023年美国《关于安全、可靠、值得信赖地开发和使用人工智能的行政命令》(以下称美国“人工智能行政令”)即针对价值对齐设置了相关法律义务。
在义务内容上,欧美立法均聚焦价值对齐的记录与报告义务展开。欧盟《人工智能法》第53条第1款a项以及附件十一第2节指出,具有系统性风险的通用人工智能模型提供者应“编制并不断更新该模型的技术文件,包括其训练和测试过程及其评估结果”,记录和保存对齐和微调的措施,以便应要求向监管部门提供。美国“人工智能行政令”第4.2条规定,“两用基础模型”开发者应向美国联邦政府提供“红队测试”的相关信息。
在记录与报告义务外,美国“人工智能行政令”第4.1条、第10条还分别指出,美国国家技术与标准局需要制定“红队测试”标准指南,美国联邦政府使用人工智能的应当进行包括“红队测试”在内的外部测试。在义务承担主体上,欧美均未将价值对齐泛化为大模型提供者的一般法律义务,而是分别通过“具有系统性风险的通用人工智能模型提供者”“两用基础模型开发者”“政府使用”等概念严格对义务主体进行限定。需要承担价值对齐的法律义务的主体为模型参数海量、能力巨大,对市场经济、国家安全与公民基本权利存在广泛影响的大模型服务提供者、开发者。
对比可知,我国并未直接在法律法规中引入价值对齐的概念,亦未将价值对齐的义务限制在特定主体之中。我国大模型价值对齐实践的制度基点在于人工智能伦理治理的软法规范与信息内容治理的硬性要求。然而,这些规定存在一定的不确定性,价值对齐的方法、程序、后果均缺乏法律约束,由此形成了大模型价值对齐的规制困境。
大模型价值对齐的规制困境
大模型价值对齐的标准不明确并存在一定矛盾,义务责任亦不清晰,且存在对齐失败的问题,这与明确、不矛盾、现实性(有被遵守的可能性)的法治基本要求存在一定冲突。域外已有研究者意识到:在不考虑可行性与后果的情况下急于对价值对齐进行监管,可能会适得其反。
(一)对齐标准模糊:对齐实践的“寒蝉效应”
标准的个性化导致大模型价值对齐无法构建精确的量化指标。价值对齐的实践中,计算机科学家往往试图通过咨询法学专家以明确划定大模型的行为界限,而最终却发现构建一个明确的可量化指标体系无比困难。这不仅是因为“人工智能体无法模拟人类在复杂、动态环境中的伦理推理能力”,更是人类价值观的复杂性所决定的。
人类价值观是由社会环境决定的,不同地区、民族、群体对同一事物的价值判断可能截然不同。现代社会的价值观呈现出多元、冲突与碎片化的样态。即便为大模型输入自由、平等、公正等人类共同价值观,也必须处理不同价值之间的冲突与协调问题。对于大模型价值对齐而言,重要的不是价值观的枚举,而是价值的排序。
在面对价值冲突时,大模型也“可能会作出错误取舍”。对于同一问题,分别采取后果论、道义论与美德伦理学立场将形成不同结论。也就是说,价值对齐必须首先明确所追求的究竟是行动所产生的最优结果,抑或行为符合道德规范,还是行为的良善动机。“自动驾驶”中“电车难题”的伦理困境即在于此。因此,“为人工智能编写一个具有内在一致性的人类价值程序”被认为是几乎不可能完成的任务。
若仅以法律规范作为价值对齐的依据,也将面临不确定性概念的解释、原则条款的适用等问题。公序良俗、不良价值导向、伤害民族情感等法律概念不仅仅是一个教义学解释问题而且涉及价值判断,在不同的裁判逻辑下可能形成截然不同的结论。有学者将之称为价值“非标性”问题。
以公序良俗为例,在2001年“泸州二奶案”中,法院认为黄某将财产遗赠第三者的行为因有违公序良俗而无效。而在德国的类似案件中,德国联邦最高法院却指出公序良俗的法律概念不在于对个人行为是否道德进行评判,而应针对法律行为本身是否违背了善良风俗。大模型服务开发者、提供者进行价值对齐时并不具有清晰把握这些不确定性法律概念的能力。同时,又由于缺失经过官方认可的通用中文语料库作为参照,开发者、提供者只能将法律规范的要求转化为测试者个人的道德判断。
大模型价值对齐首先要解决人的对齐问题。有学者主张,“通过法律和公共政策直接统一人工智能价值体系”是失败的,价值对齐应“反映个人用户的道德偏好”。这种去中心化、个性化的价值对齐路径直接回避了人的对齐问题,既无助于解释法律规范对价值对齐的客观要求,亦无益于优化对齐标准与方案。即便是主张在无人驾驶汽车中设置“道德按钮”以供用户选择不同价值偏好的学者也不得不承认,人们个性化的选择与社会公共利益之间存在一定的紧张关系,人们往往希望自己乘坐的汽车采取利己主义算法,却又希望其他汽车采取功利主义算法。
在大模型对齐实践中,由于个人价值观的差异,人工标注与评判必然存在不一致之处,“个性化”的对齐方案不利于实现伦理风险防控的整体目标。例如,文生图的大模型所生成的中国人形象眼睛不够大,是否会被认为是“眯眯眼”而伤害民族感情?生成的西方接吻礼的画面,是否具有不良价值导向?生成太阳的艺术图案是否会被认为是生成日本“旭日旗”?生成特定的“吃播”方案是否有违公序良俗?
对于这些问题,不同大模型只能根据各自评测人员的价值观形成差异化的判断方案。然而,个人的判断可能出现错误、偏见与漏洞,将导致人类介入的风险与大模型本身的风险叠加。正因如此,价值对齐也被认为是“把一部分人的主观好恶以‘人类价值’的名义强行加进了一个原本在统计学意义上客观反映‘世界’的语言模型中”。
实践中,“盲人摸象”式的大模型价值对齐极易引发“寒蝉效应”,使得开发者与提供者采取最严格的对齐标准,对商业自由、言论自由造成冲击。为避免价值判断不准确引发的法律责任,国内主流的大模型服务开发者与提供者通常在一般的文字、影视作品审查标准的基础上,参照行业自律规范设置了更为严格的对齐标准。例如,《抖音社区自律公约》将血腥暴力的人体或动物图案、事故场景均判断为违规内容,同时禁止“伪正能量的内容”“价值观紊乱”“骗取关注和流量”等内容。为了避免犯错,价值对齐的标注与审核人员往往也倾向于采用最为严格的对齐标准。
当前,以Sora为代表的文生视频大模型正席卷全球,而最严格的对齐标准要求我国大模型确保每一帧画面的价值正确,必将自缚手脚,阻碍我国大模型产业的健康发展。值得注意的是,国外大模型已经出现了“过度补偿”的现象。2024年2月Gemini大模型被曝光其所生成的马斯克(Elon Reeve Musk)形象为黑人,生成的教皇形象不仅为黑人而且在画面中强行加入了性少数群体的标识,引起了广泛关注。由此可见,采取最严格的对齐标准虽然回避了模糊性问题,却可能使只懂生成正面内容的大模型沦为笑柄,难以满足辅助社会生产的需要。
(二)对齐性质不明:义务责任的泛化倾向
价值对齐究竟是一项强制性的法律义务,还是一项软法性质的道德义务并不清晰。法律中的价值导向有些表现为倡导性规定,有些则表现为强制性规定。一方面,《关于加强互联网信息服务算法综合治理的指导意见》第12点“树立算法正确导向”指向内容包括“推动企业借助算法加强正能量传播”且该规定并不指向违法责任,可被理解为倡导性规定。另一方面,《生成式人工智能服务管理暂行办法》第4条与《互联网信息服务算法推荐管理规定》第6条均在条文中通过“应当”一词表明坚持主流价值导向是服务提供者的义务,并且对应有相应的罚则,具有强制性规定的外观。
虽然基于对齐标准模糊的理由,笔者曾主张该类规范均应解释为倡导性规定。然而,实践中大模型未对齐或对齐失败生成违规内容确实将面临处罚。在主体责任的要求下,内容治理规范的刚性进一步凸显。2024年5月,重庆市九龙坡区网信办即因相关企业“违规生成法律法规禁止的信息,未尽到主体责任义务”而开出国内首例大模型罚单。具体而言,对齐的法律性质模糊又可进一步从实体内容与程序内容两个方面展开。
在实体内容上,对齐性质不清直接导致未能分类分级设定义务。我国并未将价值对齐的义务主体限制在特定大模型服务提供者之中,亦未将义务内容限制为记录与报告义务。虽然我国法律法规中未明确提及价值对齐,但通过设置训练数据管理、反歧视措施、生成结果审核等义务,形成了与价值对齐息息相关的广泛义务群。
所有大模型提供者都应采取必要措施确保生成结果符合主流价值观。反观欧美地区,事实上是在基础设施管理的意义上针对特定大模型开发者与提供者设置价值对齐的义务。这是因为,并非所有大模型都是通用基础模型,部分大模型可能并不会产生系统性风险,无须采取强监管模式。分类分级是我国人工智能监管的基本理念。《生成式人工智能服务管理暂行办法》第3条明确规定了包容审慎和分类分级监管原则。我国大模型价值对齐的法律规制应当在分类分级的基础上进一步回应“红队测试”标准、信息报告、对齐激励等问题。
此外,未对齐或对齐失败的法律责任性质亦并不清晰。在伦理学上,有学者认为“价值对齐既是一个过程也是一个结果”。该认识在法学中则表现为,大模型价值对齐究竟对应的是一种过程义务还是结果责任并不明确。若将其视为过程义务,则开发者、提供者仅应对未依法履行该义务的违法行为承担行政责任。
然而,实践中大模型未对齐或对齐失败可能导致企业承担包括关停、下架、罚款在内的不利后果,又呈现出结果责任的形态。同时,大模型致害的侵权责任亦不清晰,大模型服务开发者与提供者有可能适用比一般侵权行为更为严格的责任规则。若将生成内容视为产品,则开发者、提供者应承担无过错责任。
若将生成内容的行为视为信息传播行为,则大模型服务提供者应尽更为严格的审核义务与知识产权保护义务。若将大模型服务提供者视为网络内容提供者,则无法适用“通知—删除”的“避风港”责任豁免规则。整体来看,大模型开发者与提供者需要承担的义务与责任虽不清晰,却是一把悬于头顶的“达摩克利斯之剑”,并缺乏相应的责任豁免机制,形成权责失衡的状态。
在程序内容上,大模型价值对齐的属性不清导致程序控制失效。大模型价值对齐虽然不是风险评估、安全认证、算法备案的法定前置程序,但是却与之息息相关,更关系着大模型能否上架。以算法备案为例,通用大模型因“具有舆论属性或者社会动员能力”,需要根据《生成式人工智能服务管理暂行办法》第17条、《互联网信息服务算法推荐管理规定》第24条履行备案义务。互联网信息服务算法备案系统需要上传《落实算法安全主体责任基本情况》,并填报产品及功能信息与算法信息。
其中,价值对齐相关信息属于落实算法安全主体责任的重要信息。网信部门根据相关信息进行审查并决定备案是否通过。算法备案性质上虽属程序性事实行为,却是一种“带有刚性或柔性强制力的法律制度”。由于《互联网信息服务深度合成管理规定》第13条要求互联网应用商店等应用程序分发平台应当核实备案情况,实践中已形成了“对齐—合规—备案—上架”的链条,未取得备案的大模型难以上架,甚至出现了名为备案实为许可的违法现象。
(三)技术治理悖论:大模型的可控性难题
第一,大模型的自主性与可控性存在一定悖论。大模型自主学习、自主生成内容的特性,与输出控制之间的矛盾也被称为人机对齐的“瓦力悖论”。价值对齐是“牺牲人工智能能力为代价”的,这就是所谓的“对齐税”。
研究表明,经过价值对齐的大模型输出的多样性与智能表现都会有所降低。例如,2015年谷歌曾因将黑人识别为猩猩而删除了相关标签,以至多年后谷歌仍无法在动物图片中标识出猩猩。价值对齐的结果绝对不是使得大模型“变傻”甚至“停机”。对于越来越多大模型价值对齐后拒绝生成内容的问题,《生成式人工智能服务安全基本要求》与“征求意见稿”均提出引入“拒答率”指标。此外,最新研究表明,大模型无法学习所有可计算的函数,大模型“幻觉”(典型表现为“一本正经胡说八道”的输出)在技术上是不可完全避免的。对于普通的研发企业而言,开发大模型本身成本巨大,可能难以承担过高的“对齐税”去追求“不可能的任务”。
第二,“相关性替代因果性”的技术特征,导致难以通过删除或屏蔽显性的变量实现对齐。实验表明,将性别、种族、宗教信仰等可能导致歧视的变量删除后,仍然难以去除模型中刻板印象的隐性关联。这是因为,删除了特定变量后“还有其他因素与之相关”,这种现象被称为“冗余编码”。
因此,即便在价值对齐的环节中依法删除了特定敏感变量,仍可能造成歧视性的输出。在2016年美国“威斯康星州诉卢米斯案”中,用于评估再犯可能性的COMPAS算法并未将种族作为能否获得假释的变量,威斯康星州最高法院也据此认定该算法中立。该种外观中立的算法,却因可能存在系统性歧视而备受争议。被告居住地、亲友犯罪率等其他众多因素均可能与种族变量产生隐蔽的关联。对此,大模型服务开发者、提供者需要输入应依法屏蔽的变量方可校验价值对齐的效果,形成了信息处理的悖论。
第三,大模型技术的其他特性对价值对齐形成挑战。首先,价值对齐的要求与模型可解释性之间存在一定张力。价值对齐不仅需要理解模型出问题的原因以此纠偏,而且对齐过程本身也应当具有可解释性。然而,“深度学习模型一旦训练就难以理解模型及其行为的原因”。随着规模和复杂性的扩大,大模型将更加难以满足算法可解释的要求。
其次,各类大模型价值对齐的具体要求具有不可通约性。在价值对齐的知识图谱绘制上,单模态的大语言模型与多模态的图文大模型、文生视频大模型之间均有所差异。例如,用以判断文字结果是否“传播不良价值观”的标准难以直接适用于图像。同时,针对不同垂直领域的大模型应用,还需要分别确定“对齐的行为规范和价值观”。
再次,大模型输出结果容易被用户诱导。调研得知,在对比式提问、措辞替换式提问、场景预设式提问和“钓鱼”式提问的诱导提问方式下,大模型容易产生歧视性输出或其他违反法律和伦理的输出。笔者曾通过多轮问答诱导大模型产生了学历歧视、传授违法犯罪方法、鼓励近亲属结婚等违背伦理与法律要求的输出结果。
最后,大模型价值对齐还可能出现“欺骗性对齐”。人工智能系统可能会谎称完成了对齐任务,故意误导人类。
大模型价值对齐的理念更新
前述规制困境折射了传统信息内容治理的绝对安全观与单一维度规制模式的失败。“安全第一”的信息内容治理定位不仅催生最严苛的对齐标准以及对齐责任,忽视大模型的技术逻辑,而且不符合发展通用人工智能的政策导向。简单地将大模型服务开发者、提供者定位为治理对象,又忽视了大模型价值对齐本身就是服务开发者防控伦理风险的技术治理措施。对此,大模型价值对齐的理念与方案必须结合中国现实问题进行转向。参照我国在面对国际竞争中所提出的“不发展是最大的不安全”“不合作是最大的风险”理念,大模型价值对齐应以追求合理成本的模型安全为定位,走共建共享的合作治理路径。
(一)发展理念:合理成本的模型安全
大模型价值对齐重安全,但绝非与发展相对立。我国人工智能治理已从聚焦安全迈向兼顾发展与安全。然而,当前大模型价值对齐的主张与优先快速发展新技术的“加速主义”之间的仍然存在一定冲突。2023年11月OpenAI创始人兼CEO奥特曼(Sam Altman)被董事会开除5天后又返回岗位的风波即与大模型价值对齐中安全与发展的理念较量密切相关。实际上,很多时候人们对人工智能安全的忧虑源于对技术的不了解。整体而言,人工智能的输出比人类的输出更为安全,无人驾驶事故率即显著小于人工驾驶。
问题关键在于,人们无法接受人工智能造成的损害后果,从而追求绝对的安全。在引入欧盟“风险导向”的人工智能治理蓝本时,极易忽视风险是一个与行动决策相关的客观因素,而将风险误解为主观的判断。英国科幻作家亚当斯(Douglas Adams)曾以科技三定律深刻地讽刺了人们对新技术风险的高估,他表示人们倾向于认为在其出生时已有的事物都是正常世界秩序的一部分,在其15—35岁出现的新发明都是革命性的改变,而在其35岁之后的新科技都是违背自然秩序的。
在发展理念下,价值对齐应当以合理成本的模型安全为基本定位。在法律视野中并不存在绝对的安全。以个人信息安全为例,由于大数据技术的兴起,欧姆(Paul Ohm)提出了“匿名已死”的著名论断。在不限制成本的前提下,几乎任何匿名信息均可以被复原。然而,个人信息可识别性的判断恰恰需要充分考虑成本问题。欧盟《通用数据保护条例》(GDPR)“鉴于条款”第26项即表明:“识别所需的成本和时间”是判断可识别性的重要因素。“汉德公式”即指出,当行为人的风险预防成本乘以事故发生的概率大于事故的预期损失时,行为人不负侵权责任。虽然对齐失败的法律责任不限于民事责任,且伦理风险的预期损失难以量化。但可以明确的是,大模型价值对齐的法律规制也需要在服务开发者与提供者的预防成本、国家的社会治理成本、模型安全的效用之间取得平衡。
具体而言,合理成本的模型安全至少包括三个方面:
第一,就预防成本而言,大模型价值对齐不应当追求绝对的安全、完全消灭模型“幻觉”以及产生100%正确的输出,否则将使得对齐成为“不可能的任务”。
第二,实现可信赖的最终目标能有效降低人们使用大模型的信息成本,而这一目标的实现又不能以过高的社会成本为代价,不应妨碍大模型产业健康可持续发展。在技术安全的治理中,不乏因忽视合理成本而失败的案例。例如,1865年英国《公路机车法》曾规定机动车上路必须有人在道路前方挥舞红旗,极大地增加了使得汽车上路的成本,成为道路交通立法中失败的典型。
第三,价值对齐中模型安全的效用指向与人类价值观相一致的输出,不能与人工智能治理中的其他内容安全、系统安全以及其他风险治理问题相混淆。在此基础上,当前的大模型信息内容治理范式需要进行反思,避免导向最严格的对齐标准,提出无法实现的要求,应当通过法治化的机制设计合理分配责任。
值得注意的是,合理成本的安全并非价值对齐所独有的追求,而是人工智能治理中统筹发展与安全的关键之所在。例如,前述价值对齐的算法解释难题即可通过合理成本的定位进行解决。算法可解释有两种理解:一是对算法模型内部机理的阐释(interpretation),二是对输入与输出之间关系的诠释(explanation)。
在阐释意义上,大模型确实具有不透明性。服务开发者、提供者承担巨大成本也不一定可以完全破解算法黑箱。因此,法律一般仅在诠释意义上规定算法解释的权利义务。算法解释指向的是,“若非A则无B”的反事实推理解释。欧盟GDPR、联合国教科文组织《人工智能伦理问题建议书》均在诠释意义上定义算法可解释。综上可知,安全从来都是一个成本问题。
(二)合作理念:公私协同与国际合作
大模型价值对齐不宜采取单一维度规制模式,应当走共建共享的合作治理路径。党的十九大以来,中央明确提出“打造共建共治共享的社会治理格局”“坚持共商共建共享的全球治理观”。在人工智能治理中,以“命令—控制”为核心的传统治理模式已转向多中心主体参与的合作治理范式。
大模型价值对齐亦必须重视利益攸关方的参与,通过动态地平衡多元利益以确保最终的伦理目标与法律治理目标的实现。联合国教科文组织《人工智能伦理问题建议书》即把“广泛的利益攸关方合作”作为应对价值观和原则冲突的重要路径。2024年9月22日,联合国未来峰会通过的《未来契约》及其附件《全球数字契约》亦明确提出利益攸关方应当共同致力于确保技术与普遍的价值观保持一致。具体而言,大模型价值对齐的合作治理至少应当包括以下三个方面。
第一,重视企业与市场的作用。
首先,价值对齐是大模型企业重要的技术治理工作,贯穿于数据输入、预训练、精调、部署、服务的各个阶段。OpenAI、百度、抖音、阿里等主流大模型企业均设置有价值对齐的专门部门或团队。《人工智能安全治理框架》第6.1条更是指出,模型算法研发者应当开展内部研讨、组织专家评议、听取公众意见、加强员工安全教育培训。
其次,行业自律已在大模型价值对齐中发挥了重要作用。《关于加强互联网信息服务算法综合治理的指导意见》明确要求强化行业组织自律,“汇聚多方资源投入,承担算法安全治理社会责任”。在算法与模型治理领域,近年来已经形成了《互联网信息服务算法应用自律公约》、中国支付清算协会《关于支付行业从业人员谨慎使用ChatGPT等工具的倡议》、抖音《关于人工智能生成内容的平台规范暨行业倡议》等文件。
再次,“众包模式”成为了价值对齐的新路径。人工智能企业将价值对齐的任务“分包”给社会公众完成。我国已有大量“白帽子”致力于识别算法偏见和系统漏洞。2021年推特(Twitter)更是发起算法偏见赏金竞赛,呼吁参赛者创建工具来识别和减轻人工智能模型中的算法偏见。与此同时,斯坦福大学亦通过组织竞赛的方式,使社会大众参与到算法偏见审计之中。
最后,大模型价值对齐还被认为是企业环境、社会和公司治理(ESG)的重要内容。有学者即主张通过伦理导向的ESG信息披露促进价值对齐。
第二,引入用户治理,提升公民数字素养。在大模型中,用户的提示词非常关键,能直接决定输出的内容与质量,被称为“谁控制了提问,谁就控制了答案”,并催生了“提示词工程师”职业。大模型是真实世界的“镜像”,不仅用户有可能诱使大模型产生有毒有害输出,而且大模型也有可能被用户“带坏”。
2016年微软推出的聊天机器人就因为被用户引导成“一个满嘴脏话的种族主义者”从而上线不到24小时被紧急下架。因此大模型价值对齐必须引入用户治理。根据《生成式人工智能服务管理暂行办法》第10条、第14条第2款,服务提供者有义务引导用户依法合理使用大模型,在用户利用大模型从事违法活动时应采取处置措施并记录报告。也就是说,大模型企业应当结合用户协议、使用指引、自律规范、响应机制、系统架构设计等多方面规范用户使用,助推用户善用。
此外,国家还应当重视大模型应用机会与能力的不平衡问题,提升公民数字素养,弥合“数字鸿沟”,构建数字包容的社会。《提升全民数字素养与技能行动纲要》表明,数字社会公民的伦理道德素质和能力是数字素养的重要组成部分。国家亦有义务“强化数字社会法治道德规范”,参与大模型用户治理。
第三,通过大模型价值对齐的国际合作,推动构建开放、公正、有效的全球人工智能治理机制。全球范围内,人工智能治理的国际合作日益紧密。2019年经济合作与发展组织(OECD)通过了《人工智能原则》并明确提出进行跨国界和跨部门合作,2024年OECD更新了该原则,进一步强调“可信人工智能的国际合作”。
2023年我国发布的《全球人工智能治理倡议》更是提出了人工智能伦理先行,倡议各国建立并完善人工智能伦理准则、伦理指南、伦理审查等机制。在国际合作的推进方式上,应当根据习近平总书记的指示,“在联合国框架内加强人工智能规则治理”。2024年3月21日,联合国大会通过了人工智能治理的里程碑式决议——《抓住安全、可靠和值得信赖的人工智能系统带来的机遇,促进可持续发展》。决议指出,对人工智能治理而言“各国政府和多利益攸关方之间的有效伙伴关系和合作”是必要的。2024年7月1日,联合国大会通过了我国提出的《加强人工智能能力建设方面的国际合作》决议,强调了“必须加强国家之间和国家内部的协调与合作”。
2024年9月20日,联合国《2024年人工智能治理:为人类服务的最终报告》进一步指出国际合作的具体措施应当包括建立全球共同理解、制定全球标准以及分享人工智能的共同利益。因此,我国应当鼓励大模型价值对齐的国际合作与协作,提供国际合作平台,与他国政府、国际组织、研究机构和跨国公司共同探讨大模型的伦理治理议题,参与有关国际规则、标准的制定,确保大模型符合人类价值观,在全球人工智能治理中发出中国声音。
大模型价值对齐的法治化机制
在树立发展与合作理念的基础上,大模型价值对齐的指标设置应以体系融贯为原则,构建对齐目标限缩与对齐标准解释机制;伦理风险控制应以分类分级为基础,设计服务于价值对齐的评估、审计与应对机制;同时,以责任豁免与公共数据供给机制,形成对价值对齐的激励,由此塑造大模型价值对齐的法治化机制。
(一)体系融贯的指标校准机制
价值对齐的指标设计应以融贯性为原则,与普遍的伦理标准、法律标准相一致,排除个人的道德情感,形成清晰且可实现的规范指引。
第一,在发展理念下,应当建立对齐目标限缩机制。
为了在合理的成本下实现模型安全,可信人工智能的目标不能也不应是苛求大模型成为“圣人”,而是指向“不作恶”。面对价值的多元与不协调问题,制度规范不能要求大模型实现所有的良善价值。对此,强制性的法律标准需要与红线底线保持一致,倡导性的伦理规范则应适当保持弹性,以尊重价值的多样性。也就是说,大模型对齐的指标设计应以法律底线+价值追求的方式确定“最低限度的人工智能伦理”。
一方面,法律法规中关于危害国家安全、恐怖主义、极端主义、暴力色情、歧视他人、封建迷信等内容的禁止性规定形成了对齐的底线要求。价值对齐的指标设计应首先围绕法律底线展开。另一方面,习近平总书记明确提出,“和平、发展、公平、正义、民主、自由是全人类的共同价值”。这些共同价值与社会主义核心价值观一同形成了大模型价值对齐的基本追求。对于价值冲突问题,应当根据价值位阶原则进行取舍,即根据法益的优先性进行判断。同时,价值排序并非一成不变的,需要在不同应用场景中实现动态调整。社会主义核心价值观入法后已经成为了法律原则,可以“作为价值冲突的解决基础”。
通过“提取公因式”可以进一步确定与上述标准相一致的基本伦理准则。结合国家人工智能标准化总体组与全国信标委人工智能分委会发布的《人工智能伦理治理标准化指南》、外交部发布的《中国关于加强人工智能伦理治理的立场文件》与联合国教科文组织《人工智能伦理问题建议书》、OECD《人工智能原则》、欧盟《可信赖的人工智能伦理准则》等文件,可以确定大模型应当对齐的四大准则:一是以人为本和尊重人的自主性;二是公平和非歧视;三是透明和可解释;四是安全和可问责。
其中,以人为本和尊重人的自主性是最为核心的准则,要求大模型应尊重人身自由和人格尊严,增进人民福祉,不得压迫、欺骗、操纵人类。联合国大会最新通过的《加强人工智能能力建设方面的国际合作》决议亦强调“遵循人工智能造福所有人的原则”。值得注意的是,“提取公因式”所得的伦理准则,还需要接受本土化的校验,再次确保对齐目标与社会主义核心价值观相一致。在此基础上,最后方可根据各类模型的应用场景与特色设定个别化的指标体系。
第二,为进一步应对对齐标准模糊问题,需要建立对齐标准解释机制。
首先,应当通过法律解释方法确定对齐标准的具体内涵。以反歧视的标准为例,虽然法律法规并没有直接界定歧视的范围,但《宪法》第4条、第36条、第48条分别规定了禁止民族歧视、宗教信仰歧视、性别歧视,《刑法》《劳动法》《妇女权益保障法》《未成年人保护法》《家庭教育促进法》《广告法》等众多法律中均有反歧视的规定。通过体系解释可知,歧视就是根据民族、种族、信仰、国别、地域、性别、职业、健康等因素对人进行不合理的区别对待。
其次,对于涉及价值判断的有违公序良俗、不良价值导向、伤害民族情感等内容需要在教义学概念基础上采取动态系统论的方法,结合影响范围、目的、方式、后果等因素综合判断。价值对齐应以法律为首要标准。以涉嫌不当使用地图伤害民族情感为例,应依据《地图管理条例》进行审查,判断地图是否构成违法。又以生成“眯眯眼”图像为例,若生成目的并非辱华或扰乱网络秩序,图像展现的其他内容亦无违法情节,则不宜认定为有违公序良俗或伤害民族情感的内容。
最后,对齐指标的设计与解释应避免“过度补偿”。我国大模型价值对齐中尤其需要注意既要消除伤害民族感情的内容,也要防范极端民族主义的内容。2024年6月末,抖音、腾讯、百度等平台即先后发布公告,打击挑动极端民族主义的违规行为。
第三,在合作理念下,可以实现对齐指标的再校准。
对齐指标并非一成不变的,数据标注的目标与质量指标需要动态调整。以隐私概念为例,从沃伦(SamuelD.Warren)和布兰代斯(LouisD.Brandeis)论证的独处权,到普罗瑟(WilliamProsser)分析的侵权法上的隐私权,再到信息隐私权与个人信息保护,隐私的内涵随着技术发展而变迁。有学者已注意到,人工智能伦理“主要依赖于自下而上生成”。对此,应通过利益攸关方参与合作的方式,定期更新知识图谱。对于变动中的不确定性概念,法律通常也采取合作参与的方式加以确定。我国法中的习惯以及裁判说理运用的“常理”,美国法上关于淫秽的“当前社区标准”以及关于隐私的“合理期待标准”,均强调结合社会一般人的认知进行判断。该种解释方法,显然也适用于对齐标准的解释。
(二)分类分级的风险控制机制
根据价值对齐的功能定位和基本理念,需要分类分级地实现大模型伦理风险控制,在区分一般大模型与通用基础模型两个基本类型基础上,持续性地动态优化以实现价值对齐。
第一,一般大模型服务开发者、提供者应依法开展标注质量评估与算法安全评估。相关评估工作可自行或委托第三方开展。“评测—标注—微调—持续评估”是大模型价值对齐的重要步骤。
根据《生成式人工智能服务管理暂行办法》第8条,服务提供者应当制定“清晰、具体、可操作的标注规则”“开展数据标注质量评估”。推荐性国家标准《信息安全技术机器学习算法安全评估规范》(GB/T4288-2023)第5.1.2条指出,“数据标注应采取多途径标注,通过交叉验证标注结果”,同时应在提供者可控的环境下采取对抗训练。
服务开发者、提供者应自行或委托第三方开展“红队测试”,参考《生成式人工智能服务安全基本要求》与“征求意见稿”的要求重点对语料安全、生成内容安全、问题拒答几个方面进行评估。通过“红队测试”服务提供者可有效评估对齐的稳健性。此外,具有舆论属性或者社会动员能力的大模型需要根据《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》依法开展针对性的安全评估。
第二,针对通用基础模型服务开发者、提供者,人工智能立法应当明确设定价值对齐的法定义务,采取更严格的安全评估,并探索构建相应的算法伦理审计机制。借鉴欧盟“通用人工智能模型”与美国“两用基础模型”的定义,通用基础模型指的是拥有海量参数,具有广泛的能力,能够应用于多个领域的大模型。通用基础模型属于数字基础设施,受重点监管。
首先,通用基础模型服务开发者、提供者应当采取价值对齐的技术治理方法,建立完善的价值对齐治理流程、规则,确保模型安全可信。也就是说,对于通用基础模型服务开发者、提供者而言,价值对齐不再是散见于部门规章、标准文件之间的侧面要求,而应当升格为法定义务。相应地,服务开发者、提供者可以依据《个人信息保护法》第13条第1款第3项为履行法定义务所必须的合法性基础处理个人信息以应对价值对齐中“冗余编码”与系统性歧视问题。
其次,通用基础模型的算法安全评估的内容除算法安全风险与保护措施外,至少还应当包括是否存在偏见歧视、是否依法开展科技伦理审查。由此,将科技伦理审查结果纳入算法安全评估报告之中。
最后,已向公众提供服务的通用基础模型应当定期接受算法伦理审计。算法伦理审计独立于评估机制,被认为是“技术、法律及伦理之间的沟通渠道”。2024年美国加利福尼亚州《前沿人工智能模型安全创新法案》(“第1047号法案”)即要求,达到特定算力参数标准的大模型每年均需进行算法审计。就具体的审计内容而言,参照欧盟数据保护委员会(EDPB)最新发布的专家报告《人工智能审计:人工智能审计清单》,应当在大模型的全生命周期内,分别对数据收集、数据处理、模型训练、模型应用阶段,开展偏见测试与对抗性审计,识别偏见与其他伦理风险,判断有无系统性歧视、固化偏见以及其他潜在的伦理问题。
第三,在伦理风险应对机制上,既有基于模型类型的分类,又有基于安全事件的分级。
在报告机制上,一般大模型的评估结果一般无须向主管部门报告,主管部门也无暇处理海量的评测报告。当出现安全事件或安全漏洞时,才需要依法及时告知用户并向有关主管部门报告。然而,基于通用基础模型可能带来的系统性风险,开发者、提供者不仅应当保存评估、审计记录,而且有义务及时主动向主管部门报告;评估发现伦理风险时,应当及时向使用者披露。《人工智能安全治理框架》第4.24条第b款即指出应用于重点领域的人工智能系统“应具备高效精准的应急管控措施”。
在处置措施上,大模型服务开发者、提供者应以可能出现的违法后果划分风险等级,根据《生成式人工智能服务管理暂行办法》第14条,对相关内容采取与风险等级相适应的必要处置措施,针对性地采取语料清洗、微调、输出控制等措施进行整改,并依法对违法使用大模型的用户进行处置。
第四,应厘清大模型伦理风险评估、审计与应对机制与备案、许可之间的关系。
一方面,算法备案应限于对产品及功能信息与算法信息的形式审查与登记,与评估、审计之间在法律上并无必然的联系,《互联网信息服务深度合成管理规定》第13条关于上架审核的核验情况列举中即将安全评估与备案并列。
另一方面,不仅不应以备案形式设定许可,在人工智能立法中以“负面清单”的形式为大模型创设行政许可亦不可取。行政许可的创设增加了治理成本与企业合规成本,却并不一定是实现价值对齐的必要途径。只有当大模型的垂类应用涉及医疗健康、自动驾驶、政务服务等本身需要依法取得行政许可的领域时,方才涉及行政许可的适用。
第五,以个人权益保护的视角,可进一步构建与垂类大模型应用场景相适应的风险控制机制。
个人权益保护的内容虽然远远大于价值对齐,但通过权益保护机制,实质上可助益于对齐目标的实现。在用户反馈的基础上,即可实现“人在回路”与价值对齐的法律效果。服务提供者主要可以通过两种途径获取用户反馈:一是根据《互联网信息服务算法推荐管理规定》第22条,设置便捷有效的投诉、申诉、举报入口;二是用户行使自动化决策决绝权。
例如,在医疗、司法、教育、就业、金融等领域的大模型应用中,利用大模型进行完全自动化决策将对个人权益产生重大影响,个人有权根据《个人信息保护法》第24条第3款进行拒绝。此时,服务提供者应当在用户反馈的基础上,通过人工介入以重新审核、评估大模型输出是否存在歧视、侵权、价值观偏差等风险,针对性地进行微调,修正模型参数,以此实现价值对齐的持续性优化。
(三)激励相容的权责分配机制
激励相容的监管理念指出,应当通过激励性的规则提升被管理者守法的动力,“调动被管理者的守法诱因”。“命令—控制”范式下,过于刚性的制度设计可能造成普遍性违法、选择性执法的现象。唯有构建激励相容的机制,合理分配权利与法律义务,方可有效降低模型安全的成本,实现共赢。大模型价值对齐中激励相容的权责分配机制主要有二。
一是与发展理念相适应的责任豁免机制。就行政责任而言,价值对齐应属通用人工智能开发者的过程义务,与之相关的评估、审计、伦理审查也是典型的程序性要求。通用人工智能开发者未依法履行相反义务时,对应的罚则针对的是程序违法的事实,并非结果责任。在治理定位上,大模型应当定位为人类合作生产的“伙伴”而非向人类传授知识的“老师”,不应对大模型提出无法实现的过高要求。当前信息内容治理的范式下,让服务提供者无条件地对输出结果负责,并不利于我国大模型产业健康发展。应当引入合规免责机制规定,大模型开发者、提供者建立风险合规制度并切实履行,同时主动配合调查、整改的,可以减轻或免除行政处罚。
就民事责任而言,大模型价值对齐合规虽不能直接豁免民事责任,但可以作为判断过错的重要因素。大模型通常以使用许可的形式授权用户使用,其本身不属于用于销售的产品,不应适用严格责任,可以通过过错要件减轻或免除民事责任。服务提供者在履行价值对齐的合规义务后,实际上已经难以在合理成本内预见并防范大模型生成虚假、侮辱性的致害内容。以名誉权侵权为例,可参照《民法典》第1026条关于“合理核实义务”的规定,认定服务提供者尽到合理的注意义务。
此外,没有用户的提示词输入,大模型自己不会凭空生成内容。大模型服务提供者属于网络服务提供者,其承担责任应以“知道或应当知道”为限,适用《民法典》第1195条“通知—删除”的“避风港”责任豁免规则。一方面,《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》均将相关服务定位为互联网信息服务;另一方面,大模型服务提供者对模型生成内容的控制力并没有显著高于网络平台对用户生成内容的控制力,大模型生成信息时刻处于变动之中,公众参与本身是价值对齐的重要路径,未经通知服务提供者确实难以发现侵权内容的存在。
也就是说,大模型虽然生成了相关内容,但并不同于传统的网络内容提供行为。大模型的输出因提示词而异,同样的提示词在不同设备、不同时间、不同地点输入均产生不同的输出结果,是对特定用户所展现的个性化输出结果,表现为特定化的信息服务提供行为,显然不同于面向不特定公众的信息传播行为。同时,基于“知道或应当知道”标准,可进一步判断通用基础模型服务提供者与衍生开发者的法律责任。衍生开发模型侵权的一般应由衍生开发者承担责任。但通用基础模型服务提供者知道或应当知道衍生开发者利用通用基础模型从事违法活动,未采取必要措施的,属于共同侵权行为,应承担连带责任。
二是合作理念指导下的公共数据(语料)供给机制。大模型服务开发者、提供者有权获取公共数据以助益价值对齐。高质量数据集是大模型价值对齐的关键要素。不少厂商即通过多语种的数据集来帮助实现减少机器翻译中的性别偏见。当前大模型训练中普遍存在高质量中文语料缺失的问题。使用未经“去毒”的语料将导致产生伦理风险。研究表明,即便是以中文为主要训练语料的国内大模型仍然存在偏向西方价值观的问题。因此,应以合作治理模式,鼓励多主体协同开发,建设高质量数据集和数据库,研制数据标注的专业工具和系列标准。同时,应当尽快建立人工智能数据资源共享机制。
《生成式人工智能服务管理暂行办法》第6条第2款明确规定了推动“公共训练数据资源平台建设”的要求。《上海市推动人工智能大模型创新发展若干措施(2023—2025年)》亦提出“语料数据资源共建共享”。对此,需要根据收集主题、目的、依据、经费来源来判定公共数据。凡属公共数据均应以开放为原则,以受限开放或不开放为例外。在分类分级有序开放的基础上构建大模型公共数据池,为大模型开发者提供高质量的中文语料。此时,公共数据池作为服务于价值对齐的数字基础设施,应当无条件反哺市场主体,保障所有大模型开发者公平获得、使用开放数据,不宜采取授权运营模式。
值得注意的是,不能将所有大模型语料数据均视为应纳入公共数据池的公共数据,应当依法判断数据的公共性。不能将大模型备案中所掌握、收集的数据、企业未公开的“红队测试”数据直接作为公共数据池的内容。对于垂类大模型的应用,由于涉及个别化的私人利益,公共数据池可以采取授权运营的方式开放;其余情形应当无条件开放。
结语
大模型价值对齐的法治进路不仅与人工智能产业健康有序发展息息相关,而且服务于中国法学自主知识话语体系的构建。2023年4月28日,习近平总书记在主持召开中共中央政治局会议时指出:“要重视通用人工智能发展,营造创新生态,重视防范风险。”
大模型是实现通用人工智能的主要路径,价值对齐则是大模型伦理风险防控的核心方法。大模型价值对齐的规制不能继续以模糊、矛盾、难以实现的非法治形式进行,应当在兼顾发展与安全、合作治理的理念下,依法构建大模型治理的中国方案:在相关标准中的设计、解释与适用中,引入体系融贯的指标校准机制;在人工智能立法中,将价值对齐规定为通用基础模型服务开发者、提供者的法定义务,完善伦理风险评估、审计与应对机制,并构建相应的责任豁免与数据供给机制。这幅制度蓝图具有论纲性质,提供了将大模型价值对齐融入人工智能法律治理的基本框架。
必须承认,大模型价值对齐的制度建构有其天然的局限性。从外部关系来看,价值对齐既不是信息内容治理的全部内容,也不是实现大模型安全的唯一途径。价值对象需要与更广泛的安全规范、责任制度、保险制度相结合,服务于大模型治理的整体目标。
从内部关系来看,大模型价值对齐是一个不断发展的过程,至少受以下两个因素的制约:一是大模型价值对齐无法直接解决人的对齐问题。1952年图灵(Alan Mathison Turing)曾在一档广播节目中表示,在人机交互的过程中,人类与机器都需要学习。二是法律机制无法完全消除大模型与对齐技术的局限性问题。虽然通过合理成本的理念以及相应的机制设计可回应技术治理悖论中的部分问题,但技术问题本身仍需要通过技术发展予以解决。技术发展有望大大降低对齐成本,使“不可能的任务”变得可能。由此可见,价值对齐需要法律、伦理、技术共同合力,方可最终实现“以人为本、智能向善”。
(原文刊载于《中国法律评论》2025年第1期专论二)
《数字法治》专题由上海市法学会数字法学研究会特约供稿,专题统筹:秦前松。