在探讨了欧盟人工智能法案中高风险人工智能系统的风险管理框架之后,本文将深入分析数据训练和数据治理在高风险人工智能系统中的重要性及其合规要求。数据作为人工智能系统的基石,其质量和管理方式直接影响到人工智能系统的效能和安全性。
三、数据训练和数据治理
(一)数据训练和数据治理总论
第10条第1款 利用数据训练模型技术的高风险人工智能系统,应在使用符合本条第二款至第五款所述质量标准的训练、验证和测试数据集的基础上开发。
第10条第3款
训练、验证和测试数据集应具有相关性和充分的代表性,并在最大可能范围内没有错误,而且从预期目的来看是完整的。数据集应具有适当的统计特性,包括在适用的情况下,与意图使用高风险人工智能系统的个人或群体有关的统计特性。数据集的这些特性可以在单个数据集或数据集组合的层面上得到满足。
第10条第4款 数据集应在预期目的要求的范围内,考虑到高风险人工智能系统预期使用的具体地理、场景、行为或功能环境所特有的特征或要素。
数据作为人工智能模型的基础,是使人工智能与传统计算机系统线性模式不同的关键所在。欧盟《人工智能法》中援引经济合作与发展组织(OECD)对于人工智能的定义,其中强调“人工智能系统通过接收到的输入数据中推断出如何产生预测、内容、建议或决定等输出,以影响环境”,反映出了数据在人工智能生命周期中的三个作用:在开发和测试阶段需要通过投喂数据进行训练,在投入使用后,一方面通过部署者(用户)的输入数据产出结果,另一方面利用输入的数据更新模型,进一步以新数据为基础学习和迭代。数据的重要性也反映在《数据法》(Data
Act)和《数据治理法》(Data Governance
Act)等作为欧洲数据战略的一部分立法中,以及诸如《欧洲健康数据空间条例》(European Health Data Space
Regulation, EHDS)等细化条例中,应当将此类立法文件作以汇总一并阅读解释,以更全面理解欧盟数据规制框架。
第3款
所谓数据治理,指的是为在全生命周期保证高水平数据质量和隐私性所采取的措施,在立法草案中,对于数据质量的要求是极为严格的“没有错误”,后期修订通过的版本进行了一定的义务减缓,将其改为“完整”且“最大可能得没有错误”,与修订前的不同在于修订前的“没有错误”可以扩大解释作“在全生命周期”不附加且不产生错误,即使说这一要求对算法数据输入还是可行的,在后期更新和产出也会出问题。基于大数据模型的人工智能系统的数据具有海量性、高速性、多样性这样的特征,其渠道多元,规模庞大,传输速度快,且可能在传输中产生聚类反应,使得传输速度不均匀而是呈现出周期波动的态势,导致数据噪声大。在这种情况下,“最大可能”这一用语表明了立法者对于提供训练测试数据的提供者要求限制在了提供数据之时,依据审查步骤和现有技术水平,并结合训练测试数据的应用场景,能够评估数据为无误即可,至于是否会在其他场景出现错误、假以时日是否会再出现偏差,则在所不问。
对于训练测试数据的另一个基本要求是“相关性”和“充分代表性”,目前尚无相关标准或案例以资参考,笔者认为,将前者解释为“与预期目的的符合性程度高,且能够一定程度上反映算法设计目的和特性”,将后者则类似于随机森林或K近邻演算法的取样方法,为了获得稳健预测,减少潜在解释变量多重共线性对于样本数据微扰(Perturbation)所导致的预测变量和预测模型不确定性强的问题,基于原始数据重复取样产生新的随机数据,并将每个数据都作为一个决策树的“树根(Root)”,由其分别产生预测值并取平均,使抽取的训练测试数据具有“充分代表性”,这也与其提及的“统计特性”相一致。
此处,统计特性是针对数据的样本偏差问题,因为训练测试数据本质上是对于总体数据的抽样分析和测试,对于大模型而言,因其面向群体广泛,数据时效性要求高,故产生偏差和无法满足预期目的的可能性就随着时间推移和环节增多而大幅度上升。故而,提供者应当考虑到统计特性,在训练测试数据集中利用K交叉验证法等方法,避免重复相同或相近的样本数据导致数据窥视偏差或数据显著性水平失衡。
(二)数据训练和数据治理具体措施
第10条第2款 训练、验证和测试数据集应遵守适合高风险人工智能系统预期目的的数据治理和管理做法。这些做法应特别涉及
a. 相关的设计选择;
b. 数据收集过程和数据来源,如果是个人数据,还应说明收集数据初始目的;
c. 相关的数据准备处理工作,如标注、标记、清理、更新、充实和汇总;
d. 提出假设,特别是有关数据应衡量和代表的信息的假设;
e. 评估所需数据集的可用性、数量和适用度;
f. 审查可能存在的偏差,这些偏差可能会影响人的健康和安全,对基本权利产生负面影响,或导致欧盟法律所禁止的歧视,特别是在数据输出会影响未来运营投入的情况下;
g. 采取适当措施,发现、预防和减少根据第2f款确定的可能的偏差;
h. 确定妨碍遵守本条例的相关数据差距或缺陷,以及解决方法。
第2款
具体而言,对于数据训练和数据治理,立法者首先给出了一般数据的处理方法范式,第一点依旧是“设计选择”,这是一个很模糊的表述,笔者联系附件四中的§2.d对于技术文件的要求,认为此处的设计选择应当是包含技术文件的归档的一系列程序,可以通过第17条得到印证,其中提到数据管理系统包括“数据获取、收集、分析、标注、存储、过滤、挖掘、汇总、留存”和入市前与数据有关的任何操作,应当认为此处立法者有意于提供者提供数据在各个环节流通使用的一般路径程序设计,以便于对于后续提到的“偏差”进行逐个环节的追溯。
表2.3.1 第10条与第17条关于数据治理部分条文对比
后续的条文也能够佐证这一点,第二步要求保留数据收集过程和收集来源,特别指出对于个人数据收集应遵循的必要原则,要求提供收集目的。接下来是对数据处理工作的要求,较为宽泛,只点明了处理环节,而未对每一环节标准加以展开说明。第四步是假设,亦即在实际使用数据集进行训练之前,对于预期产出结果和目的的适配程度进行预测和评估,若两者相差较大,则应当重新选取数据或清洗数据集。第五步要求对数据可用性和适用度进行评估,因为即使能够认定数据可有效产出希望的结果,当前所选取的数据集是否能够最有效且无害地产出特定结果,依旧需要谨慎评估,并在评估后审查和弥合或解决偏差,形成一个闭环的迭代过程,类似于上文所述的风险评估体系。
(三)与《通用数据保护条例》(GDPR)的关系
第10条第5款
在根据本条第2f款和第2g款确保与高风险人工智能系统相关的偏差检测和纠正的严格必要范围内,此类系统的提供者可例外处理2016/679号条例第9条第1款、2016/680号指令第10条和2018/1725号条例第10条第1款提及的特殊类别的个人数据,但必须适当保障自然人基本权利和自由。除2016/679和2018/1725号条例以及2016/680号指令中的规定外,必须满足以下所有条件才能进行此类处理:
a. 通过处理其他数据(包括合成或隐名)无法有效实现偏差检测和纠正;
b. 特殊类别的个人数据在重新使用时受到技术限制,并有最先进的安全和隐私保护措施,包括隐名化;
c. 对特殊类别的个人资料应采取措施,确保所处理的个人资料是安全的、受保护的、 有适当的保障措施的,包括严格的控制和查阅记录,以避免滥用,并确保只有经授权的人才能查阅这些负有适当保密义务的个人资料;
d. 特殊类别的个人资料不得被其他方传送、转让或以其他方式获取;
e. 一旦偏差得到纠正或个人资料的保存期结束,以先到期者为准,立即删除特殊类别的个人资料;
f.根据2016/679和2018/1725号条例以及2016/680号指令进行的处理活动记录包括处理特殊类别个人数据对于发现和纠正偏差绝对必要的原因,以及处理其他数据无法实现该目标的原因。
在欧盟立法体系下,收集、储存与处理个人数据的有关组织必须遵循《通用数据保护条例》(GDPR)的有关要求,例如根据其第六条和第九条,在收集处理个人数据提供必要性依据,并为处理特殊类别的个人数据,诸如种族、血统、健康相关数据时提供额外必要性依据。尽管《通用数据保护条例》明确禁止特殊类别的个人数据,但在其第9条第2款中也留下了立法保留的空间,其强调,此种例外允许应当是出于“重大利益”关涉,并根据欧盟或其成员国立法明确,此种处理是“必要的”,这种处理不仅不会很大程度上威胁到个人或社会公益,反而与欧盟及其成员国追求的目标相一致,在本质上是对数据保护权的尊重,与此同时能够提供适当措施保障数据主体权益。易言之,这是一种比例原则的体现,要件有四:一是重大利益,此种利益关涉更广泛群体或更广泛公众利益,与欧盟及成员国目标一致;二是由欧盟或成员国立法允许;三是处理数据具有必要性;四是处理的同时注重对于数据主体权益的保护。
此处,欧盟《人工智能法》第10条第5款即是此处的特殊的允许情形,立法仅为其提供了第二个要件的满足,因此在处理个人信息时,依旧需要证明处理数据的必要性(和预期目的的配合程度)和收集同时保护数据主体权益的两个问题。尽管如此,上述规定依旧赋予了为二次使用特定个人信息数据提供了自由度,也同时提供了一些保护措施,例如数据隐名处理、预期目的作为数据收集边界和技术安全措施等。此类保护措施通过文意解释,应当和《通用数据保护条例》中的要求一并使用,而并不是择一的关系,这一点在《人工智能法》释义性备忘录中也有明确提及。例如,在利用个人信息数据训练人工智能系统时,双重义务要求一方面相关、代表性、完整且最大程度无差错,另一方面要遵循《通用数据保护条例》第6条关于个人数据处理的规定。
律师简介
王进
海华永泰高级合伙人
王进,海华永泰律师事务所高级合伙人、科创业务委员会主任。华东政法大学法律硕士、复旦大学EMBA、复旦大学法学院实务讲师,近20年律师行业经验。专注于公司与商事、复杂案件争议解决、科创与高科技等领域。在人工智能与数字经济方面,对人工智能合规与企业风险应对、数据合规与交易、网络安全领域有深入的研究和丰富的经验。
乔恒祥
海华永泰律师助理
中国政法大学法学硕士。专注于人工智能、数字经济行业等科创行业领域。
陈禹廷
本科就读于同济大学法学专业,参与上海市人工智能协同治理中心全球人工智能治理数据库等项目,担任AI-Law等组织负责人。
编辑:秦正