“蒸馏模型”超越原创?美国要对“DeepSeek”下手
DeepSeek尚未予以回应。
1月29日,OpenAI最新称,它发现有证据表明中国人工智能初创公司DeepSeek使用其专有模型来训练自己的开源模型,并暗示这可能违反了OpenAI的服务条款。但OpenAI没有进一步列举哪些证据。OpenAI的服务条款规定,用户不能“复制”其任何服务或“使用其输出来开发与OpenAI竞争的模型”。
与Meta的Llama开源模型可免费使用不同,OpenAI的模型系统是封闭的,但个人用户仍可付费接入其编程接口(API)获取数据。DeepSeek尚未予以回应。
此前,美国政府称正在组织专家紧急评估DeepSeek的技术及影响。美国白宫AI和加密货币事务负责人大卫·萨克斯(DavidSacks)表示,未来几个月,美国领先的人工智能公司将采取措施,试图防止其他公司对“蒸馏技术”的获取。
DeepSeek模型取得的技术突破已经引起美国总统特朗普的关注。特朗普周一表示,DeepSeek这款中国AI应用程序应该成为美国公司的“激励因素”,他表示:“如果中国业界能够开发出更便宜的人工智能技术,美国公司也会效仿。你不必花费数十亿美元,而是花更少的钱,希望找到相同的解决方案。”
数据蒸馏是一种业内常见的技术做法,是指通过一系列算法和策略,将原始的、复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。数据蒸馏的目的是将复杂模型的知识提炼到简单模型。
据DeepSeek-V3的技术文档,该模型使用数据蒸馏技术生成的高质量数据提升了训练效率。通过已有的高质量模型来合成少量高质量数据,作为新模型的训练数据,从而达到接近于在原始数据上训练的效果。
“以前的大模型训练相当于使用题海战术,在大量的数据中训练。而蒸馏就相当于让在题海战术里磨练过的优秀大模型充当新模型的老师,筛选出有效题目,再让新的大模型训练。”一位计算机研究人员这样解释。
不过此前有学者认为,蒸馏技术存在“隐性天花板”,它虽然可以提高模型训练效率,但借此开发的模型无法超越基础模型的能力,当考虑到需要将能力扩展到新领域或应对以前从未见过的挑战时,这种限制就愈发成为问题;而且这种技术在多模态数据方面效果不好。