数字法治｜刘金松：数字时代大数据辅助司法证明的构造及其风险防控_中视新媒

数字法治｜刘金松：数字时代大数据辅助司法证明的构造及其风险防控

2024-06-24 17:48 点击:25482

刘金松

中国政法大学刑事司法学院诉讼法学专业博士生

引言

大数据与证据制度的结合已经从实践和理论两个维度展开。在司法实践中，海量的通信数据、资金流数据、账户信息、网页数据、网络舆情信息、地理信息及专业数据库的数据已被广泛运用，基于大数据技术分析形成的“舆情分析报告”“百度指数”“淘宝客反作弊系统数据”“轨迹大数据”“公安大数据平台数据”“证券交易监控系统数据”“大数据资金分析报告”等在庭审中用于事实认定的现象也层出不穷。地方司法机关与科技企业合作开发的基于大数据的“司法人工智能辅助系统”，也已经在证据标准校验以及风险评估等方面崭露头角。在理论研究层面，学界对大数据和证据法理论的研究主要围绕“大数据证据”这一关键词展开，对大数据证据的概念、法律地位、证据属性、作用方式、质证方式、审查判断规则等进行了卓有成效的讨论。然而，学界关于大数据介入司法证明的讨论较少，少数关于大数据与证明关系的研究仅分析了“大数据证明”的价值和模式，以及如何从算法和数据等角度确保“大数据证明”的可靠性等问题。

总体来看，既有的研究存在三个问题：第一，对大数据与证据法理论的探讨主要集中于“证据论”部分，对大数据介入“证明论”领域的研究不够充分；第二，现有关于大数据介入司法证明的研究过于关注大数据的使用问题和规制问题，对司法证明的基本结构和事实认定的推理过程关注不足，未能将大数据辅助证明的基本构造和内在风险等问题厘清；第三，未能充分梳理并阐释大数据介入司法证明的实践经验，从而也未能为智能证据审查系统的开发与批判提供方法论支持。

一、原理：大数据辅助证明的基本构造

从事实认定机制这一内部视角来看，证明包括证据推理和证据评价两个部分。大数据辅助证明以整体主义为指引，在证据推理和证据评价两个环节中分别发挥作用。

（一）证明模式：整体主义对大数据相关关系的回应

整体主义证明模式能够包容大数据分析的相关关系立场。面对大数据时代的冲击，有不少观点认为，只要有足够多的数据，数据自己就会说话，不需要有统一的模型和连贯的解释机制，大数据呈现的事物间的关系就足以成为人们决策的基础。无论这一断言在商业、医疗、金融、军事等领域得到了何种肯定，它都不能适用于司法领域，尤其是刑事司法领域。在司法证明中，我们不可能仅仅基于“因为A证据（群）显示B与谋杀案件有相关性”，就得出“B是本案的作案人（行为主体）”的结论。因此，我们需要在大数据相关性和司法证明依赖的逻辑规律之间找到合适的连接机制。整体主义可以承担这一使命。

整体主义与原子主义相对应。“整体主义”主张单项证据自身的证明力无法游离于证据的总体判断，一项材料的证明力源于所有已输入信息材料之间的相互作用，反对在对一个“证据群”的证明力进行评估时，将其分解为单独的“项”并赋予每一项独立的证明价值来进行。一方面，通过“整体主义”的指引，我们可以获得以大数据相关性为基础的因果关系涌现。数据结构化的过程，决定了有关的证据信息并不是局部的简单相加。通过结构化大数据的处理，可以实现不同证据种类或类型组合的有效聚合，通过全部证据点的相互融合、连接从而呈现出启发解释和论证的规模效应与结构效应，涌现出证据群与待证事实之间的推论关系，实现从零散信息到“故事”或者“事实”的飞跃。另一方面，在整体主义视野下，辅助证据对于证据推论具有重要意义。对于并非产生于本案但却对案件中待证事实有证明作用的辅助证据，如针对某一职业群体的历史大数据分析得出的危险性评估报告，可以将其纳入案件事实的推论过程。

（二）证据推理：高效组织数据与推论命题指引

司法证明的基础工作就是在证据与证据、证据与待证事实之间建立融贯的推论链条，建立证据推论链条的过程就是证据推理的过程。在开展证据推理工作之前，有三个问题需要明确：（1）可用的数据是什么？（2）必须被证明的最终主张是什么？（3）在这些数据和最终主张之间，存在什么样的似真或可辩解关系？大数据辅助证据推理仍然遵循这一框架。

1.高效组织数据

大数据分析技术的显著优势就是在大数据案件中提供科学的记录和组织数据的方法，高效辅助数据整合，为证据推论链条的建立提供“可用的数据”。证据推理方法归根结底是记录和组织数据的方法，是把命题之间的逻辑关系具体化的方法，并且是如何使它们得到整理，以支持或否定一个要件事实的方法。传统的数据表达模型和方法是在收集一定量的数据后才开始，面对海量数据无法在容许的时间内完成数据抽取和集成工作。大数据技术则提供了使用复杂模型来更有效地表征数据、解释数据的机会。在案例1中，面对超过10亿条的资金流水和数以万计的账户数等数据信息，如果没有运用大数据分析技术记录和组织数据，而是依靠公安司法机关的工作人员进行人工梳理，那势必无法在法定办案期限内完成数据整合工作。

【案例1】2015年，中华人民共和国公安部会同国家税务总局、中国人民银行用8个月时间查处了一起虚开增值税专用发票犯罪案件。办案人员收集到10亿多条资金流水，利用分析模型分析虚开公司资金流向，清楚地将涉案公司分为开票公司、收票公司、中转公司三层，根据资金流向区分出会员单位、二级单位等，绘制出资金流的闭环关系。这样的公司层级和会员关系，就揭示出涉案单位和人员的具体角色。

2.整合经验概括助力推论命题选择的准确性

在司法证明中，要证明的主张以及从证据到事实的过程并非不证自明。以刑事案件为例，证明是以《中华人民共和国刑法》及司法解释规定的构成要件为指引的，如果公诉机关要证明某人犯了抢劫罪，那么“抢劫罪成立”就是最终待证事实，抢劫罪的各构成要件就是次待证事实，如客观方面的主体、行为、结果、因果关系，以及主观方面的故意、动机和目的等要素，而次待证事实是从单个证据或几组证据中经由中间待证事实推导出来的。图1呈现了证明过程中最常见的一类证明犯罪行为存在的“证据推论链条”，从A提供的证言“B背着包从发生抢劫的商店跑出来”这一“证据性事实”，到“B实施了抢劫”这一“要件事实”，中间形成了诸多的推论命题（如图1中的推断性事实1、2、3和要素性事实4），而推论借助的大前提是经验概括。司法证明的实践困惑包括两个方面：第一，如何在构成要件较为模糊的案件中确定要件事实；第二，如何选定从证据到次待证事实的推论命题。从A提供的证言“B背着包从发生抢劫的商店跑出来”这一“证据性事实”，可能推出“B在商店实施了抢劫行为”这一事实命题，然而这取决于推论者会选择何种经验概括。如果推论者选择“通常而言，实施犯罪的人会逃离现场”这一概括，那么其很可能得出“B在商店实施了严重不当的行为”的结论；如果其选择“在商场的犯罪现场一般会有受惊吓的顾客逃跑”这一概括，那么其很可能得出“B是受到惊吓逃跑的顾客”的结论。因此，推论命题或中间命题的选择往往具有不确定性，需要借助大量的经验概括才能进行准确判断。

大数据技术的使用，可以在要件事实类型化和推论命题选择的准确性上助力司法证明。有学者通过实证研究发现，证明相同罪名案件的证据分布具有规律性，证明某一要件的事实也可以在大规模样本的归纳和抽取下形成标准指引。通过对过往裁判文书、案件审理报告等的标注、抽取与融合，进行广泛的数据抽取、结构化存储和分析处理，对常见复杂类型的犯罪构成要件事实进行基于海量数据的归纳、整理，最终形成犯罪构成要件事实的类型数据库，可以为个案中更为精确地简述证据主张和要件事实之间的中间推论性命题提供指引。同时，证据推理依赖于一般经验与常识，需要法官同时调动代表社会经验和常识的“社会知识库”，以及以自身经历、知识和直觉为基础的“个人知识库”。通过广泛的数据抽取集成，可以将前述案卷材料中的地方性知识、一般性经验和常识、科学知识、事物联系的规律等构建成可支持查询、分析和计算的知识库，为法官展开证据推理提供基于大数据分析的经验支持。当然，无论是建构知识库还是概括链条选择等都面临技术难题，有研究已经进行了详细讨论，本文不再展开。

（三）证据评价：证据标准校验与证明力概率评价

在完成证据推论链条的建构后，才会进入证据评价环节。证据评价是在审查证据标准满足要求的基础上，对单个证据的证明力和全案证据的论证强度进行判断的活动。

首先，对在案证据是否符合法定证据标准进行审查是证据评价的保障机制。证据标准不同于证明标准，“证据标准”是指法律规范对实体性要件事实和程序性要件事实在证据种类、证据数量和表现形式等方面提出的要求。大数据辅助证据评价保障机制运作的典型实践就是证据标准智能校验系统。以2017年上海市“206系统”中证据标准、规则指引系统的开发运用为例，司法工作人员对上海市2012年至2016年来的591件命案进行分析，从每个案件的审理报告和案卷中提取具体证据，然后按照法定的八大证据种类进行归类，分类整理法律、司法解释及各地审判经验中的证据规范，最后明确各种证据的收集程序、形式要件、内容要素和不可采情形，并归纳出7个环节、13项查证事项、30种证据材料、235项证据校验标准。在司法专家的经验归纳和数据标注基础上，技术人员建构知识图谱并编写算法模型，通过海量数据的循环不断优化模型之后，就能适用于未来的案件当中。案例2就是运用证据校验系统对证据标准校验和审查判断的实例。

【案例2】当审判长提问：“被告人你的姓名？”系统就根据对该条语音的识别，自动从系统里预先储存的全案证据材料中抓取与提问内容相关联的信息，如被告人身份证等材料；在法庭调查环节中，根据系统单一证据校验功能提示，该案存在两处瑕疵，通过系统调取的瑕疵报告显示，瑕疵点为涉案的有关扣押物品未发现扣押笔录，公诉人应法庭的要求，对补正瑕疵的情况作出了说明。

其次，大数据技术助推证明力概率评价的科学化。在司法证明领域，最著名的概率论方法莫过于“贝叶斯定理”，其计算公式为：P(B|A)=P(B)P(A|B)/P(A)。其中，P(B|A)表示B相对于A的后验概率，P(A|B)被称为似然比，P(B)是B的先验概率，P(A)是A的先验概率，P(B)到P(B|A)的转变被称为贝叶斯条件转化，即在出现新证据A的情况下，评估待证事实B为真的概率。结合案例3不难发现，贝叶斯定理在司法证明中的运用，面临如概率本身包含多元解释且解释之间可能存在冲突、需求信息过多且用于计算的先验概率值缺乏客观性（主观赋值）、概率论本身的复杂性导致证明主体的学习成本过高而难以承受等困境。大数据技术使人类对现实世界信息的全量式掌握成为可能，有助于消解分析者（法庭工作者或专家）对许多事项发生概率赋值的主观因素。例如，对特定地区的裁判文书全量分析，能够在事实认定初期以及案件事实真伪不明时为事实认定者提供背景知识，使证据推理者能从客观数据而非个人经验出发，对类似于时间地点、动机、行/受贿过程、资金来源、赃款去向等证据事实的先验概率赋予基于大数据分析的客观值。

【案例3】2014年12月9日，南昌市中级人民法院公开开庭审理南昌大学原校长周某斌受贿一案。庭审中被告人周某斌出示了自制的“证据综合评价表”，用于证明肖某某提供了虚假证言。周某斌设置了时间地点、动机、行/受贿过程、资金来源、赃款去向等几个待证事项，对其分别赋予0.1、0.2、0.4、0.1、0.2的权重，然后分别计算上述待证事项的发生概率为0.88、0.375、0.375、0.5、0.375。最后得出肖某某行贿的概率为0.438，是大概率不可能发生的事实。虽然主审法官并未采纳周某斌提供的“证据综合评价表”，但这一事件引起了广泛关注。

最后，大数据智能不应当用于“证明标准智能化评价”。对全案论证强度的评估就是判断全案证据是否达到法定证明标准。一般认为，证明标准是指在诉讼活动中承担证明责任的一方对案件事实的证明必须达到的程度。长期以来，实务界和理论界都在探讨证明标准的精确性和操作性问题，试图通过精确且易操作的证明标准为事实认定之“真伪”提供一把标尺。甚至有不少观点主张证明标准应该走向精确的数字化和概率化，从而克服证明标准的模糊性和主观性问题。以司法领域大数据和人工智能技术的运用为契机，有研究者提出：“通过构建具有深度神经网络的人工智能，对其进行与庭审事实认定（尤其是审判评议过程）有关的大数据训练，即可推动证明标准朝着智能化评价的方向迈进。”这种观点可能过于乐观，未能充分评估证明标准的复杂性问题。证明标准包含客观性要素、主观性内容和潜在法律政策三个维度的内容。大数据人工智能无法从道德信念的角度回答“真诚确信”的问题，因为这并不单纯是理性和逻辑支配的领域，还需要以事实认定者的主体性和伦理观为基础。

二、隐忧：大数据辅助证明的系统风险

大数据技术通过辅助证据推理与证据评价能够提升司法证明的科学性，但如果对大数据智能产生非理性崇拜，那么大数据辅助证明有可能被异化为新的神明裁判方式。大数据辅助证明塑造的司法证明新样态，将会导致证据法的理性主义传统受到侵蚀，也会增加事实认定的附随风险。

（一）大数据智能是新的神明裁判方式吗？

神明裁判是人类对神明的非理性崇拜产生的，如果这种非理性崇拜转移到“大数据辅助证明”，大数据智能有可能异化为新的神明裁判方式。有观点认为，“神示证据”和“大数据证据”在运行方式、功能效果和面临的问题等方面极为相似。例如，“由别人告知”是古老的神示证据的主要特点，而大数据证据同样是在海量数据的基础上分析出事物之间的客观规律和相互关联，让收集的海量数据自己说话；又如，神明裁判的事实认定方式，是争议双方都信服的第三方证明体系，大数据证据也具有强客观性和稳定性的特征，比起口供更能让人信服；再如，和神示证据类似，人类法官无法处理深不可测的大数据证据，而必须交由人工智能并经由算法表达出来。也有观点提出，由于不同于“个人之洞见”和“众人之常识”，大数据量化研究所提供的知识体系变成了无限接近于真实世界的“神之见”。

尽管上述观点对大数据分析的过程和证明机理的理解有误，但将“神示证据”和“大数据证据”放在一起比较，正好提示我们不能像信赖神明一样信赖数字技术，不能将大数据智能当作新的神明裁判方式，否则无异于重回前启蒙时代。虽然大数据本身是科学技术，但使用其辅助证明并不代表证明的过程与结果就一定是科学的。这种“神话”大数据辅助功能和忽视证明领域知识壁垒的做法，将面临巨大的风险。

（二）内部风险：理性主义传统受到侵蚀

证明依赖于理性主义传统，而大数据辅助证明呈现出“神明裁判”的特点冲击了这一传统。特文宁以包括吉尔伯特、边沁、伊文斯、斯蒂芬、赛耶、威格摩尔等在内的十几位证据法学者的主要作品和观点为主线，对英美证据法学三百余年来的思想史进行系统梳理后发现，“理性主义”是英美证据法学的认识论根基。证据理性主义的基本内容包括：对过去发生事件的认知是可能的，对过去待证事实的确定是获得正义的必要条件，事实问题与法律问题应当保持有效区分，裁判认定的事实具有盖然性，关于过去事件的概率判断应当从提交给裁判者的证据中获得，有关概率的判断必须建立在有关普通事件过程的可获得的知识库的基础上等九项基本要素。我国证据法学的实践和理论也在分享“理性主义”传统的思维和方法。然而，大数据辅助司法证明将导致理性主义传统在如下方面受到侵蚀。

第一，多方主体交互的事实认定过程被掩盖，事实认定者的认知模式导致其认知偏差和认知偏见更难以得到检验和纠正。无论是当事人主义还是职权主义，事实认定者的认知都强调亲历性，并在听取当事人双方举证和辩论的基础上当庭形成有关事实认定的心证。然而，依靠大数据驱动的机器智能在自动化分析方面取代了裁判者所展开的那种亲自接触证据、亲自感知当事人的争辩、并依靠当庭接触的信息进行推理和判断的过程。事实认定者接受自动推送的信息，理性争辩的过程被录入、检索和机器分析所替代，争辩双方参与的机会被掩盖。原本多方主体的知识和意见在一个共时性的场域中接受理性的辩驳和检验的场景，以及强调程序对事实具有基础塑造作用的过程，异化为了事实认定者单方接受、消化和理解信息的结果。同时，由于事实认定过程不再受到多方认知主体交互的理性检验，有罪推定、目击证人是最好的证据，鉴定意见是绝对科学的等认知偏见将难以受到有效的程序规制。

第二，当事人的举证责任和说服责任减弱，裁判者中立的道德主体地位受到侵蚀。根据何福来教授的观点，事实认定的内部视角集中于事实认定者的角色所衍生出的责任，以及当事人有权对其评议的合理性和道德性所提出的要求。然而，一方面，依靠算法驱动的系统主动严格执行证据校验的标准，并向裁判者推送基于数据和机器辅助的推理结果，当事人甚至不用履行充分的举证责任和说服责任就会产生事实认定结果；另一方面，基于机器的推理虽然有更加“中立无偏私”的外观，但是这种“中立无偏私”很大程度上是智能系统的机械化运作塑造出来的，并不是裁判者在各方主体交互过程中基于其道德主体性和职业伦理而产生的。

第三，用“客观规律”代替“认识论概率”，呈现裸统计证据的推理悖论。“人们从证据中进行推理，是为了证明或者证伪某个假设或者待证事项。其框架是辩论，其过程是证明，其引擎是根据信息进行的推理。”大数据技术产生的“神之见”，不仅冲击了推理依赖的辩论框架和证明过程，还冲击了作为证明引擎的推理过程。大数据辅助证明中，最常见的裸统计证据推理就冲击了常规的证据推理过程。裸统计证据“将某个具体的人或事件，归入一类人或一类事件，然后指出该类人或事件在整体上具有某个盖然性特征，或者说具有某种行为倾向性，从而证明这个具体个人或事件具有这个特征或做出了某个行为。”案例4“院中囚犯悖论”即为典型的例子。依靠历史的或者当前的大数据甚至全量数据提供的“客观规律”，对行为和事实进行归类，然后直接得出结论的方法，实质上是用“客观规律”代替了“认识论概率”。然而，司法证明的概率性是基于人的“信念”所产生的“认识论概率”，“客观规律”无法代替“认识论概率”。因此，在案例4中，即使裸统计证据提供了极高的概率值，我们依然不能根据该客观值得出结论，因为它虽然符合“客观概率”，但是却背离“认识论概率”，只能得出显然不合理的结论。

【案例4】院中囚犯悖论当院中1000个囚犯中的999名囚犯参与了暴动并杀害了数个管理人员后，检察官对该1000名囚犯提起公诉，直接计算得出每一位囚犯参与暴动和谋杀的概率为0.999，达到了可以量化的刑事证明标准，然而，如果判决1000名囚犯都有罪是明显不合理的。

（三）外部风险：事实认定的附随风险增加

从审判程序和证明过程规制这一外部视角看，事实认定附随一系列风险。大数据分析技术在辅助证明的同时，还增加了事实认定的错误风险、成本提高风险、侵权风险以及伦理风险。

第一，事实认定错误风险。传统错案的教训表明，“鉴定错误”“证人辨认错误”“被告人错误认罪”“法官偏见”等因素都是导致错案的原因。而当大数据介入辅助证明时，则会带来新的错误风险：一方面，大数据虽然可以在整合经验概括助力推论命题选择的准确性方面发挥独特优势，但“概括”在推论中本身就是“必要却危险”的。通过对裁判文书的大数据分析，虽然可以将类型多样的“概括”转化为可供随时调用的“社会知识库”，在证据推理过程中发挥比较、提示甚至认知监控的作用，但是概括本身有可能是不真实的。另一方面，大数据依靠的数据和算法也会带来新的错误风险，智能化的算法不仅会采取“欺骗”的方式完成技术人员设定的任务，而且其中的错漏还很难被人工察觉，成为诱发错误的系统性偏见。

第二，成本提高风险。大数据“量大但价值密度低”的特点，决定了仅仅有一堆海量的数据是无用的，重要的是处理大数据的技术和方法。当公检法等机关利用智能办案系统将证据“数据化”存储之后，或者获取与案件相关的大量数据之后，在证据开示环节，可能会有意无意地对当事人和辩护律师进行“文件倾倒”。这种名义上公开信息和保障证据知悉权的做法无疑让当事人陷入信息的漩涡中，无宜于当事人进行证据分析和抗辩。

第三，侵权风险。威格摩尔曾说，“交叉询问”是发现真相最伟大的利器。争议双方通过行使对质权与不利证人进行对质，揭示不利证人证言中增、删、匿、饰的情况，有利于事实认定者在全面审查案件信息的基础上作出公正的裁决。然而，一方面，证据“数据化”就是创造“电子卷宗”，当以电子卷宗为基础并借助大数据分析技术直接辅助推理得出结论时，“案卷笔录中心主义”的事实认定机制会被强化，当事人的对质权实质上被限制和剥夺。另一方面，当事人因为缺乏专业知识和能力，无法处理海量数据的内容和有价值的信息，也会造成当事人对质权的虚化。

第四，伦理风险。“事实认定不能完全用认知学术语来描述，这项事业还引出了内在的伦理问题。”发现真相虽然是最崇高但却未必是压倒一切价值的目标。证据法通常会赋予某些特殊群体作证特免权，保护如近亲属、律师等和当事人的特殊人际关系；还会设置合理的证明标准，平衡保障无辜与发现真相之间的矛盾，在“求真”与“求善”之间达到平衡。然而，当大数据介入辅助证明时，可能会破坏法律保护的特殊关系：其一，对特殊人际关系的权衡不只发生在取证阶段，在证明力评价阶段也会涉及，比如有亲密关系的人提供的有利证言可能在证明力刻度表上会获得较低评价，但这需要结合个案情况作出具体判断，交给数据和算法来取舍将会使得证据法要保护的多元价值失去个案裁量的空间。其二，“排除合理怀疑”是基于事实认定者的“自由心证”，而我国司法实践践行的是客观印证的证据认定方式，基于“印证”实践的数据和算法必然与“自由心证”存在张力，届时，设定有罪与否的标准如果交给司法专家和技术专家确定，将会损害被告人获得基于具体案情的判决的权利。

三、应对：大数据辅助证明的风险防控

为应对大数据辅助证明的风险和隐忧，司法证明的重心应当从信息规制迈向风险防控。由于司法证明以程序规则为基础，有必要对大数据辅助证明确立基本准则，并从风险防控角度探索具体规制路径。

（一）从信息规制迈向风险防控

英美证据法是对抗式诉讼的产物。为了防止事实认定者被争议双方提供的误导性的或者偏见性的信息干扰，英美证据法建立了以“可采性”为中心的证据规则体系，包括传闻证据规则、特免权规则、意见证据规则以及最佳证据规则等。只有通过这些规则检验的证据材料和信息才能交给事实认定者，否则将被排除在庭审之外。因此，证据规则也被称为“排除规则”。以“排除规则”为中心的证据规则体系是为了“过滤信息”，而对排除之后的证据推理和评价过程，证据法不设置任何干预措施。然而，从司法裁判的角度来审视证据法可以发现，证据法不仅仅是关于证据排除的规范体系，作为整体的司法证明过程也决定了司法裁判是否建立在准确的事实认定基础之上。因此，证据法需要同时关注证据论和证明论，二者都需要被整合在“信息规制”的制度框架下。

然而，“信息规制”的制度框架逐渐受到挑战。第一，“信息规制”这一框架对证明过程中的“信息整合”缺乏足够的关怀；第二，当案件本身涉及海量数据和信息时，“信息规制”框架面临海量信息的冲击，事实认定者可能无法在可以忍受的期限范围内筛选材料和过滤信息；第三，当事实认定模式从“基于痕迹的事实认定模式”转型为“预测性的事实认定模式”，“信息规制”理论所规制的“痕迹”无法囊括基于历史数据和案例的推理；第四，“信息规制”理论将发现真相视为最崇高的目标，忽视了如果无法发现真相或者真伪不明时应当作出何种决定这一问题。斯坦教授注意到了上述漏洞，并提出“错误风险防控”的理念，将证据法视为促进发现真实和减少错误，并在不确定条件下分配风险的装置。

斯坦教授的“风险防控”理念正好可以用于应对大数据辅助证明引发的系统性风险。一方面，当理性主义传统中事实认定者的认知模式、道德责任主体地位和认识论概率假设被冲击引发内部风险时，基于“风险防控”的制度思维就应当及时采取风险预防措施，在证据“数据化”过程和结构化存储中做好数据质量把控工作，对事实认定者进行风险警示，对利害关系人提供检验和救济机会以对抗风险等；当无法消化风险时，应当基于风险控制能力和理性选择等标准合理地分配风险。另一方面，司法证明领域的知识壁垒决定了，法律人，尤其是证据法专家必须和技术人员合作，将司法证明的构造和机理作为大数据分析的指引，从而防止在证明过程中引入更多的数据错误和算法错误。

（二）风险防控的基本准则

为确保大数据辅助证明能同时满足“求真”与“求善”的要求，有必要在大数据辅助证明的探索过程中确立若干基本准则。

第一，明确大数据技术在证明过程中的辅助性。大数据辅助证明可以深度嵌入司法证明的证据推理和证据评价机制当中，从而促进事实认定的准确性与科学性。然而，“大数据辅助证明”这一概念，本身就意味着大数据技术在司法证明中只能居于“辅助”地位，起到“辅助”作用。大数据分析技术可以在组织数据和提供推论经验、进行认知指引方面发挥独特作用，但却不能用大数据分析的逻辑代替司法证明的自身逻辑。从司法证明的外部视角来看，构成司法证明的证明主体、证明责任、证明标准和证明程序四项要素，并不会因为大数据技术的介入而发生结构性改变。

第二，坚守诉讼主体在大数据辅助证明过程中的交互性。证明活动是一个多方主体交互的过程，争议双方需要在特定场域的三方构造之中，体现特定的交互理性。如前所述，证据数字化、电子化会在一定程度上强化案卷笔录中心主义的事实认定倾向，算法辅助进行的证据评价和证据分析会削弱事实认定者的亲历性，减损利害关系人参与事实认定过程的机会和权利。因此，在大数据介入辅助司法证明的情况下，有必要坚守诉讼主体的交互性。司法证明以诉讼程序为场域，控辩对抗、法官居中裁判的诉讼构造依然是大数据介入司法证明的程序基础。控辩裁三方的认知需要在直接接触证据、展开论辩和听取意见的基础上进行理性互动。

第三，注重大数据辅助证明的外部可检验性。与英美法系中陪审团认定事实被认为是“上帝的声音”而不需要说明理由不同，我国刑事诉讼中，法官不仅有义务对争议事实作出明确认定，而且有义务阐明支持每一个调查结论的各项证据，以及从这些证据导向特定事实判断的推理环节。这种证据分析和事实认定传统在大数据辅助证明的场域中将发挥重要作用。大数据辅助证明所提供的结论在证据推理和证据评价中应当作为“论据”而非“论点”，包括检察官在内的事实认定者在作出事实认定结论时，应当就大数据辅助的相关情况，如产生决策结果的个人数据、理由、每种指标的功能权重、机器定义的特定案例决策规则、起参考辅助作用的信息等进行充分说明，从而将证据推理和评价的过程通过相关裁判文书呈现出来，为利害关系人寻求权利救济、审判委员会讨论以及上级人民法院全面审查提供依据。

（三）风险防控的具体路径

第一，风险隔离。非法大数据证据排除规则是证据评价保障机制的重要组成部分，也是隔离证明风险源的重要装置。传统的非法证据排除规将排除对象主要限制在了通过刑讯逼供和其他非法手段获取的言词证据以及通过非法方法获取的实物证据上，并大致建立起了“绝对排除”“裁量排除”和“可补正的排除”三种非法证据排除模式。引入大数据技术辅助证明，除了需要处理好案件本身涉及的海量数据以外，不可避免地需要借助历史案例数据展开证据分析和证据评价工作。为此，必须将非法大数据纳入到非法证据排除规则的适用对象中来，并从排除范围和排除标准两方面建立专门的非法大数据证据排除规则。在排除范围方面，既要排除不合法的大数据证据，也要排除不可靠的大数据证据。在排除标准方面，应当以数据的完整性和大数据分析的技术标准确立相应的排除标准。构建非法大数据证据排除规则能够将不合法和不可靠的数据在司法证明的入口端排除，确保大数据辅助证明的可靠性。

第二，风险警示。要防范大数据辅助证明的风险，还需要对运用大数据辅助证明技术以及受大数据辅助证明影响的相关主体进行风险警示。一方面，事实认定者，尤其是法官和人民陪审员需要获得充分的风险警示；另一方面，司法机关使用智能证据校验系统或者其他风险评估系统时，相关信息和情况应当向辩方披露并作出风险警示，以便辩方做好相应的抗辩准备。

第三，风险对抗。为应对大数据辅助证明带来的侵权风险和成本提高风险，辩方在知道大数据辅助证明存在并对其基本情况有所了解的情况下，应当享有充分对抗风险的权利。从现有制度设计来看，辩方可以从三个方面展开风险对抗的诉讼活动。首先，申请排除非法大数据证据的权利。在进入正式的证据推理和证据评价之前，辩方就可以通过申请排除不合法与不可靠的大数据证据。其次，针对提供不利数据信息和智能系统的质证权。没有经过质证的证据，不得作为定案根据，大数据辅助证明提供的证据信息也是如此。控方和法官不能将大数据技术辅助证明提供的报告直接作为证据分析和案件事实认定的结论，必须经过辩护律师和被追诉人的质证。最后，获得有专门知识的人的协助。《中华人民共和国刑事诉讼法》第179条确立的“有专门知识的人”条款已经为这种情形预留了制度通道。在满足条件的情况下，利害关系人可以聘请“有专门知识的人”针对大数据运用的算法之科学性等问题出具专门意见并出庭作证。

第四，风险分配。当大数据辅助证明的风险无法通过隔离、警示和对抗等手段预防时，如何分配新风险和被强化的风险成为关键问题。证明责任被视为一种有效的风险分担机制，即如果承担客观证明责任的当事人未能有效承担举证责任和说服责任，就需要承担因为举证不能的败诉后果。然而，当大数据智能介入导致法官查证责任与当事人（控方）举证责任模糊化之后，证明责任的风险分担功能受到侵蚀，也无法应对新的风险。因此，需要寻找补充性的风险分配机制。第一，对风险源的控制义务是最重要的风险分配标准。如果容许大数据等数字技术手段进入司法证明领域，那么，实质上就赋予了公权力机关谨慎防范和控制大数据辅助证明所带来的风险的义务。第二，知情且自愿承受大数据辅助证明评价的风险也应当成为风险分配的重要标准。证明过程的交互性决定了包括被告人在内的利害关系人需要承受大数据辅助证明带来的消极后果。被告人承受这种风险的前提是，知情且自愿受到大数据辅助证明的评价。

结论

“大数据辅助证明”这一概念承认诉讼主体在证明活动中的主体性和交互性，强调大数据技术对于证据推理与证据评价的“辅助作用”。厘清大数据辅助证明的基本构造，不仅可以在实践中有效把握大数据辅助证明的内在机理，从而为司法人员和技术人员提供理论思路，还有助于从整体上呈现司法证明与大数据技术融合的基本结构与内在限度，从而为实践中智能证据审查系统、社会危险性评估系统的开发与限制提供知识资源。

（原文刊载于《现代法学》2024年第1期）

《数字法治》专题由上海市法学会数字法学研究会特约供稿，专题统筹：秦前松。