2024WAIC演讲实录｜周伯文：探索人工智能的45度平衡率_中视新媒

2024WAIC演讲实录｜周伯文：探索人工智能的45度平衡率

2024-07-05 18:24 点击:9827

作者：周伯文，上海人工智能实验室主任、首席科学家、清华大学惠妍讲席教授。

今天，我想提出一个技术主张，探索人工智能的45度平衡率。

当前，以大模型为代表的生成式人工智能快速发展，但是人力不断提升，模型应用存在一系列潜在风险顾虑。以公众对AI风险的关注顺序来看，首先是数据泄露、滥用隐私以及版权相关内容风险，其次是恶意使用带来的伪造、虚假信息等相关的使用风险，当然可能诱发偏见、歧视等相关的伦理问题。还有担心是否会带来就业结构等社会系统性的挑战，甚至在科幻电影中出现了AI失控、人类丧失自主权的设定。这些AI风险有的已经出现，但更多是潜在的。防范这一风险需要各界共同努力，需要科学社区做出更多的贡献。

去年5月份，数百名AI科学家共同签署文件表达了对AI风险的担忧，呼吁、防御人工智能风险应该与流行病、核战争与其他大规模风险一样成为全球优先议题。

根本原因是目前AI发展是失衡的，我们来看目前AI发展趋势，横轴是AI的技术能力提升，Transformer带来的模型基础下，大数据、大参数量的定理呈指数级增长，AI纵向角度安全标识、安全赋能与评估测量等，呈现离散化、碎片化且后置的特性。

最近的一些对其技术兼顾了性能和安全性，人类反馈强化学习、超级对齐等，这些方法帮助将人类偏好传递给大模型，涌现出了ChatGPT、GPT4，以及上海书生大模型等等。虽然瞄准安全提升，往往还是性能优先。

所以，总体上AI模型安全的提升还远远落后于性能，这种失衡导致AI发展包角的，不均衡背后是两者投入上的巨大差异。右边对比中可以看到，两者在研究上是否体系化，我们说的算法研究。人才密集度、商业驱动力，包括算力的投入度方面对比来看，安全度投入远远落后于AI投入，目前世界上只有1%对齐或者安全优先考量。

正如李总理刚才提出智能向善，AI要确保安全可控，统筹发展以安全。所以毫无疑问，我们要避免现在这类AI发展，真正需要追求的是右上角的AGI。

可幸AGI需要能够兼顾安全与性能，所以我们需要找到AI安全优先，但又能保证AI能力长期发展的技术体系，把这样一种技术思想体系叫做AI45度平衡率。AI45度平衡率是指长期角度来看，我们要大体上沿着45度安全与性能平衡发展，所谓平衡是指短期内可以有波动，但不能长期低于45度，如同我们所处的现在。也不能长期高于45度，这样会阻碍技术和产业应有的发展。45度平衡的技术体系要求强技术驱动、全流程优化、多主体参与，以及敏捷治理。

实现AI45度平衡率，也许有很多技术路径。上海探索一条以因果为核心的路径，取名为可信AGI的“因果之梯”。可信AGI的“因果之梯”分为泛对齐、可干预、能反思。泛对齐主要包含当前最前沿人类偏好对齐技术，但需要注意的是这些安全对齐技术目前仅依赖于其相关性，而不是真正的因果关系。可能导致错误的推理和潜在的危险，一个典型的例子是巴普罗夫的狗，当狗基于铃声和统计的相关性形成条件反射时，可能在任何时候听到都可以分泌唾液；可干预包含AI系统进行动态干预，探究其因果安全技术，包括人在回路，机器可解释性和刚刚最近提出的对抗演练。可以通过提高可解释性和泛化性来提升安全性，同时也提升AI的能力；能反思这要求AI系统不仅追求高效的执行任务，还能够审视自身行为的外在影响和潜在风险，从而确保性能同时保证安全和道德边界不被突破，这阶段技术包括基于价值的训练、因果可解释性、推理等等。

目前，从全球来看，AI安全和性能技术发展主要停留在第一阶段，部分在尝试第二阶段，等真正实现AI安全与性能平衡必须完善第二阶段，并勇于攀登第三阶段。沿着可信AGI因果之梯乘势而上，希望能够实现AI卓越与安全完美融合。为全球、全人类带来清洁丰富的能源一样，我们希望深度理解AI内在机理和内在过程，从而有效开发革命性技术。

但也正如可控核聚变对全人类都是共同利益一样，我们坚信AI安全性也是全球性公共福祉。正如书记所说，需要国际社会共同努力和合作，我们要与大家携手推进AI45度发展，共享AI安全技术，加强全球AI安全人才的交流与合作，平衡AI安全与能力的投入，共同构建开放、安全的通用人工智能创新生态和人才发展环境。

专题统筹：秦前松