2025年,中国AI公司DeepSeek凭借其最新的大语言模型R1成功吸引了全球的目光。这款模型以接近GPT-4的性能和极低的训练成本为亮点,并成功地搅动了美股市场,引发了中美两国的广泛关注。更有人近乎夸张地评价DeepSeek可能是个“国运”级别的科技成果。
然而,在搅动美股市场几天后,DeepSeek就遇到了严峻的挑战,比如,意大利、爱尔兰和法国向DeepSeek发送数据监管请求,这些请求主要涉及数据隐私和合规性问题,反映出国际社会对AI技术的关注。同时,早前由首席执行官对DeepSeek的R-1模型做出过积极表态的OpenAI,也开始逐渐明朗地表态称已经掌握了DeepSeek疑似对ChatGPT使用“蒸馏”技术的证据。
关于“蒸馏”技术,目前还没有深入地研究其应用的全面分析,目前可以参考的是1月30日郑友德老师的一篇文章(点击蓝字阅读),其中关于AI蒸馏的分析值得借鉴。
值得关注的是在纽约时报起诉OpenAI的案件中,双方争议的核心之一就是,OpenAI是否可以声称其使用《纽约时报》等新闻机构的版权作品是“合理使用”。根据美国法律,“合理使用”允许在某些情况下使用版权材料,例如教育、研究或评论目的。然而,《纽约时报》认为,OpenAI使用其文章的方式并没有将这些作品转化为新的东西,也没有在不同的市场中竞争,因此不符合“合理使用”的标准。
《纽约时报》的诉状中(文件地址:https://hh-law.com/wp-content/uploads/2024/07/New-York-Times-complaint.pdf )提到,OpenAI和微软非法使用《纽约时报》的作品来创建与其竞争的人工智能产品,威胁到了《纽约时报》提供该服务的能力。被告的生成人工智能工具依赖于大语言模型,这些模型是通过复制和使用数以百万计的《纽约时报》受版权保护的新闻文章、深入调查、观点文章、评论、操作指南的。
虽然被告从许多来源进行了大规模复制,但他们构建大语言模型时特别强调了《纽约时报》的内容,这表明他们倾向于承认这些作品的价值。通过微软的 Bing Chat(最近更名为“Copilot”)和 OpenAl 的 ChatGPT,被告试图在未经许可或付款的情况下利用《纽约时报》对其新闻业的巨额投资来构建替代产品,从而搭便车。
OpenAI和微软的法律团队则辩称,ChatGPT的工作方式是将输入的数据分解为“标记”(tokens),以便更容易地分析数据,并识别模式。他们认为,ChatGPT并不是简单地复制文章,而是通过复杂的语言模型生成内容。
尽管AI蒸馏和纽约时报起诉OpenAI的案件涉及的争议技术细节不同,但是OpenAI的指控很难摆脱"双重标准"的嫌疑,因为OpenAI正在经受着类似的版权争议。
当然,针对DeepSeek的具体指控,不论是知识产权层面、出口管制层面还是数据隐私层面的挑战,都还远未浮出水面。
围绕DeepSeek的”探索“和讨论才刚刚开始(最早听到这家公司是从播客和12月的这篇文章), 没想到这么快就火爆了朋友圈。
作为人工智能产品的使用者,以及法律数据合规的从业者,希望大家在评价产品时保持理性,避免过度神话。最终,用户会选择最适合自己的产品,“情怀”不足以支撑长期使用。
付鑫律师, 国浩南京办合伙人,主要从事公司治理及合规、涉外商事争议解决业务。
付律师毕业于东南大学,上海交通大学、美国埃默里大学(Emory University)。撰写的多篇论文被全国律协网络与高新技术专业委员会评选为优秀论文,并曾获得全国律协网络与高新技术专业委员会年度贡献奖。
付律师现任江苏省网络安全协会法律专家,入选首届司法部涉外律师高级研修班、江苏省涉外律师人才库。
付律师同时还是英国大律师公会中国律师培训计划成员,曾在英国伦敦顶尖国际商事大律师事务所短期工作,并具有美国纽约州律师执业资格,
付律师同时是IAPP(国际隐私专家协会)会员, 国际信息隐私专家认证/欧洲(CIPP/E),国际信息隐私管理专家(CIPM)。
重磅福利
关注“法律检索”公众号,后台回复“暑期学校”即可获取首届“大数据与法律检索”暑期学校课程PPT。回复“PPT”即可获得中国大学MOOC《大数据与法律检索》主讲人在深圳律协授课的PPT(六百多页干货)。
深圳律协培训课程《律师法律检索核心技能》B站地址
https://www.bilibili.com/video/BV18y4y137xu/
扫下方二维码即可免费学习最新一期《大数据与法律检索》慕课: