AIGC高频实务问答集锦

文摘   2024-09-04 19:00   上海  

6月7日,我们举办了一场关于AIGC的小型研讨会。

在会议准备期间,我们向申请与会者征集了一些关于AIGC的问题。

会议研讨期间,与会嘉宾朱悦、范劭林、陈剑、Roy、Nicolas、虑得、小何等对部分问题进行了讨论。

会议结束后,我们又请与会嘉宾对部分问题进行了补充回复和确认。对于与会嘉宾没有回复而有价值的问题,袁立志、朱垒、刘旭龙、蒋月珍、于子晗结合研究和实务经验,撰写了回复。

从问题征集到答复整理,是一次小型的共创,在此对所有提问者和回答者一并致谢!

由于回答者不同,不同问题的回答角度、文字风格存在差异,敬请留意。

回答内容仅供参考,不构成法律意见或建议。

以下是经过合并选择后的32个问题及答复:‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

1.A公司使用B公司研发的通用大模型注入私有数据、参数、微调,形成适用特定行业的垂直模型,此场景下:A、B公司关于生成内容侵权的责任边界;对于A公司而言,有什么可操作的免责方式?

答:算法黑箱性使得侵害结果产生后的因果追溯和归责变得难以解释,现有立法及司法实践也尚未就生成内容侵权划定明确的责任边界。从 “奥特曼案”的裁决结果来看,广州互联网法院认为,服务提供者未尽到合理的注意义务,进而认定服务提供者需就侵权行为承担赔偿责任,但对于基础模型提供商的责任则并未展开讨论。

对于A公司而言,可采取一些措施降低内容侵权风险,包括(1)对拟接入的大模型的训练数据来源的合法性、大模型输出内容的管控机制、大模型安全评估和备案等情况进行适当核查,必要时可要求供应商出具相关说明和承诺函等;(2)与大模型厂商签订服务协议明确双方的义务和责任;(3)在对大模型进行优化训练时确保数据来源合法,不含有违法有害或侵权内容;(4)向用户充分告知使用垂直模型的注意事项,提示内容侵权违法风险及法律后果;(5)建立用户反馈、投诉举报和应急处置机制,及时处置生成内容侵权事件等。

2.对于调用市场上已有的经过备案的大模型,做封装、微调或者数据治理后,形成新类型产品,再次进行备案的手续是否存在差别,或者是否可以免于备案?

答:根据上海、北京、浙江等地网信办公告,若企业通过API接口或者其他方式直接调用已备案大模型产品或能力,向境内用户提供大模型服务的,经属地省级网信办同意,可采用登记方式上线提供服务。该登记手续可理解为一种轻量化的备案手续。若企业在已备案模型底座上进行优化调整,比如加入垂类语料进行再训练等,则仍需办理大模型备案手续。

3.关于车载人机交互设备安装语言大模型APP所涉及的法律风险。

答:除大模型一般风险之外,车企还要重点关注大模型是否可能导致驾驶员分散注意力进而影响汽车行车安全。

此外,车企还应关注大模型是否会对用户指令产生错误判断,进而做出错误决策,比如误开车窗、导航错误等。此前网传某品牌汽车车外能语音唤醒智能助手解锁车窗,对此,该品牌表示已在新版本上线了严苛的语音控制权限策略,即当车辆处于P挡且车门中控锁上锁时,将禁止通过语音控制开启车窗、前后备箱等。

4.利用大模型分析用户行为或评论区数据提升数字化营销效率的法律风险。

答:利用用户行为数据或评论数据进行智能营销,这在营销领域已经是常规操作了,大模型只是作为一种提高营销效率的自动化工具。在该场景下,企业需要注意个人信息处理、大模型、营销、算法推荐等方面的合规义务。其中,需要重点关注的法律风险可能涵盖以下几点:

第一是用户行为数据和评论数据来源合法性问题。此类数据通常有三种来源即企业自有渠道、商业采购、通过爬虫等手段进行爬取。若数据来源于企业自有渠道的,企业应落实告知同意义务以满足数据来源合法性要求。如果此类数据是由商业采购而来的,企业则应当对合作方数据来源合法性进行审核,包括要求合作方提供用户同意记录,查看合作方隐私政策及用户协议等,并要求合作方出具数据合法性承诺函进行保证。如果此类数据是通过爬取等方式获取的,企业需要重点关注爬虫应用方面的法律风险,这可能会涉及刑事或不正当竞争方面的法律风险。再者,若企业是基于个人同意处理此类数据的,应确保授权链的完整性,即个人不仅同意企业收集个人信息,还同意企业利用大模型分析此类数据用于提高营销效率。

第二是用户行为数据和评论数据内容合法性问题。企业应当充分过滤用户行为数据及评论数据中的违法不良信息,加强对于用户模型和用户标签的管理,避免将违法不良信息关键词记入用户兴趣点或者作为用户标签据以营销。

最后,企业在利用上述数据进行智能营销应当注意保护消费者公平交易的权利,不得实施不合理的差别待遇,如大数据杀熟等。

5.采用大模型构图进行营销推广涉及的版权问题评估。

答:大模型生成内容版权侵权风险的确是大模型应用的一大障碍,目前大模型领域的案例也主要聚集于此。例如在美国,艺术家集体起诉Stability AIAI绘画公司使用其作品训练AI工具。在国内,也有相关案例出现。某内容分享平台未经创作者允许,将创作者在该平台上发布的作品用于训练AI模型,故而四位创作者起诉至北京互联网法院,目前该起案件仍在审理中。

参考法律标准规定及行业实践,企业在应用大模型构图进行营销推广的过程中或可采取以下措施降低生成内容版权侵权的风险。

首先,如果企业是采购第三方的大模型服务,应当选取信誉良好且已完成备案手续的大模型,对拟接入的大模型的训练数据来源的合法性、大模型输出内容的管控机制、大模型安全评估和备案等情况进行适当核查,必要时可要求供应商出具相关说明和承诺函等,并在合作协议中约定发生内容侵权事件时双方的义务和责任;而如果企业是自研大模型的,应遵守TC260-003模型语料内容安全要求,尤其是知识产权方面的要求,如设置知识产权负责人,建立知识产权管理策略,识别语料中知识产权侵权风险,建立知识产权投诉举报渠道等。

其次,企业在使用大模型输入数据时,可采取关键词、人工等方式进行过滤,剔除可能存在版权侵权风险的内容。企业也应注意提示词的合规性,避免使用与知名作品、创作者相关、“模仿”等提示词。

再次,就模型生成内容,企业应当进行检查过滤,必要时应进行人工检查。

最后,企业在应用大模型生成内容进行营销推广时,还应当注意添加显著标识,提示该内容为AI生成,并建立和展示投诉举报渠道,以便接收权利人发出的侵权通知。

6.如果在大模型训练过程中撤回同意,对大模型会有哪方面的影响?根据《个人信息保护法》第15条,个人有权撤回同意,这可能导致部分训练材料在个人信息保护法上丧失信息处理的正当性和合法性。实践中大模型企业如何应对个人撤回同意?合规中如何保障个人同意的撤回及其后续的影响?

答:大模型训练场景下,个人撤回同意的效力有待深入讨论。根据《个保法》规定,个人撤回同意不会影响撤回前基于个人同意所进行的个人信息处理活动的效力。但个人撤回同意后,处理者应当删除个人信息,法律、行政法规规定的保存期限未届满,或者删除个人信息从技术上难以实现的,处理者应当停止除存储和采取必要安全措施外的处理。考虑到大模型的技术原理,删除语料库中特定个人信息不会对已经训练好的模型及其输出内容产生实质影响。如果要求企业剔除相应个人信息后对模型进行重新训练,一方面会使大模型训练语料库因个人行权而不时变动,从而影响模型正常运行,另一方面,重新训练成本过高,实践中也难以落地。

就这一问题,参考行业实践,多数大模型产品在其隐私政策等文件中表示在利用个人信息对模型进行训练和优化前会先对个人信息进行去标识化或者匿名化,从源头上降低个人信息在后续模型处理中的风险。

7.如何界定和处理生成式人工智能创造的内容的版权归属问题?

答:生成内容版权问题是AIGC产业的基础性议题。在讨论生成内容版权归属前,首先需要探讨的是生成内容是否有版权。横向来看,各国就生成内容可版权性尚未形成共识,欧盟持有开放但审慎的态度,通过采取四步测试法检验AIGC内容是否能够获得版权保护。美国司法/执法机构的态度相对保守,强调人类创作的要素。英国的态度则更具有前瞻性,根据《1988年版权、外观设计和专利法案》规定,完全由AI生成的作品可能获得版权。相比于美欧英,我国就这一问题的态度呈现出从保守到开放的趋势。早期在“菲林诉百度案”等案件中法院持不予保护的态度,到近期北京互联网法院审理的AI文生图案中法院肯定了生成内容的可版权性,认为生成内容若能体现出人的独创性智力投入,应当被认定为作品并受著作权法保护。

在生成内容具备可版权性的基础上,再看版权应当归属于谁。在上述AI文生图案件中,北京互联网法院首先根据著作权法第11条规定,著作权属于作者,而作者限于自然人、法人或非法人组织,故而大模型本身无法成为“作者”。接着,法院分析了生成内容之上的智力投入,认为模型设计者的智力投入体现在模型的设计上,即创作工具的生产上,而非生成内容上,故而模型设计者亦不是生成内容的作者。根据相关主体约定,模型设计者在其提供的许可证中表示不主张对输出内容的权利,法院认定设计者对输出内容不主张相关权利。最后,法院分析了生成内容的实质贡献并认定模型使用者为生成内容的作者并享有相应的著作权。

上述案件判决并未产生一锤定音的效果。就生成内容权利归属问题,学界也展开了激烈的讨论,主流观点认为生成内容权利归属需要分析相关主体在该内容生成过程中所做实质贡献,具体可以采取合同约定的契约安排模式。

8.普通用户应如何在使用生成式人工智能应用服务的时候保护自己的个人信息不被滥用?

答:相较于大模型提供者而言,普通用户在保护个人信息方面能做的比较有限。大模型应用场景下对于用户个人信息的保护,需要依靠监管、企业、用户、其他组织协同发力,尤其是企业应当在大模型开发、设计、上线等全过程中依法履行合规义务。

而对于普通用户而言,在使用大模型时需要注意以下几点:第一,应当选择信誉良好的大模型应用。第二,确保在安全网络环境下使用大模型服务。第三,应当在使用大模型服务时仔细阅读相关用户协议和隐私政策,了解大模型应用过程中个人信息处理详情。第四,在使用大模型服务时应当注意非必要不提供个人信息,特别是敏感个人信息。最后,在使用大模型服务时应当定期检查账号的隐私设置,可选择拒绝将个人信息用于模型训练。

9.AIGC在车端的应用,需要座舱数据能上云以优化大模型,但是囿于车端算力的限制,在车端本地布的模式只能是小或者微模型,无法实现对用户需求更智能化的响应,不仅仅是安全方面,几个小场景比如根据不同驾乘人员的年龄、喜好、行为综合调整座舱舒适度,但是41871又仅仅只同意固定的几个场景座舱数据可出车,如何解决这矛盾?41871在哪些情况下可突破?

答:我们平时和监管也有一些交流,有些理解和实践做法仅供参考。汽车数据出车可能不是我们常规意义上理解的只要把数据从车内传到车外就是出车。如果在云端专门有一块权限管理很严格的区域,比如只有驾驶员可以访问这个区域,数据从座舱到云端在某些情况下不理解为出车。出车的规定是为了防止把座舱数据传到车外,然后破坏隐私,但如果是传到云端,还是在一个权限管理很严格的区域,并不会导致隐私被损害。基于这种理解,或许可以考虑通过在上传和训练之间增加一些环节以实现功能切割。

比如,应用训练数据有一个“数据合规保护区域”,数据上传先进入到一个合规区域,在合规区域首先对数据进行保存训练以及合规性的审核校验,保证这些数据本身在管辖范围之内,再回到真正的逻辑训练,中间相当于多了一道门。

10.在进行数据训练的过程中如何保证训练质量,对于训练质量是否有特定的指标或者测试来衡量,有什么措施能够防止生成不当或者有害的内容,训练过程中的人为干预会对结果造成怎样的影响?

答:市面上已有比较多关于模型训练质量的评价指标了,比如混淆矩阵、准确率、召回率、F1得分、均方差(MSE)、平均绝对误差(MAE)、K折交叉验证等。除评价指标外,企业也可以通过自建测试案例、独立测试问题库等方式来测试模型的准确性,通过压力测试、渗透测试等方式来测试模型的可靠性。

为防止大模型生成不当或有害内容,在模型训练之初,企业就需要通过关键词、分类模型、人工抽检等方式对模型训练语料进行充分过滤。

其次,在模型训练过程中,企业要做好大模型开发训练的记录,提高模型透明度和可解释性,以便后续检测相关问题并予以解决。在模型开发和上线过程中,企业自己需要通过测试题库、拒答题库等方式对模型生成内容进行检测。在准备大模型备案手续的过程中,模型生成内容安全问题也是监管重点关注事项,监管对此也会进行相应检测,企业应当配合并就相关问题进行整改。模型上线提供服务后,企业要对用户输入信息和模型生成信息进行过滤,做好进出两端双保险。

再者,需要建立常态化内容监测机制,识别出违法不良内容时应及时阻断信息传播并采取针对性措施。

另外,对于模型生成内容,企业应当做好标识,提示用户审慎判断生成内容并建立有效的用户反馈机制。

人为干预在大模型训练过程中是必要的,包括提高模型性能、纠正模型偏差、价值对齐等,但另一方面人为干预也可能会对模型训练产生负面影响,比如引入或加剧偏差、处理不当造成模型性能下降(越用越傻)等,因此也需要谨慎操作。

11.作为AIGC的服务使用方,对技术提供方的大模型的尽职调查、AI风险评估应该进行到什么深度?(比如说对于AI风险的评估,如biastransparencyexplainabilityhuman oversight等)换言之,作为大模型服务的能力提供商,如何论证服务的合规性、具备的能力、以及解决客户在集成我们服务的过程中可能遇到的问题?

答:对技术提供方的调查和评估可以从以下几方面入手:一是大模型的运营者的身份、背景、行业口碑、监管记录;二是大模型的产品说明、演示文档、公示的法律协议,第三方机构的测评,试用情况;三是大模型产品的政府备案情况。

考虑到大模型技术的技术前沿性和复杂性,服务使用方的调查和评估通常只能从外部或外观证明入手,深入大模型内部的机制机理审核既难以实现(提供方不配合或使用方缺乏相关能力),也没有必要(市场和监管可在很大程度上起到筛选的作用)。

12.跨国企业在考虑欧盟、美国、中国不同的风险评价体系和法规要求的情况下,如何建立一套适用于评估中国运行的AI风险评估体系?

答:就大模型监管而言,中国目前以网信办主导的大模型备案为主要的监管抓手,具体要求体现在相关的国标草案或实践指南文件中。

欧盟够得上系统性的通用人工智能模型都是点对点的监管,高风险人工智能系统就是统一标准(Harmonised Standards),现在五个工作组都在开始收口,例如八到九月第一稿会出来,欧盟《人工智能法》第八到二十多条的要求都会拆解得很细致。里面每一条会有一些小难点,例如涉及基本权利需要有两个人监督,如果涉及到合成数据其实有点麻烦,但是整体来说是一个很标准的东西,我觉得是大同小异。

美国就是很散,有几个比较热门的执法方向,无论是FTC还是州立法最终都是落地让客户建立合规,又回到NIST上,其实和数据一样。预计很快就会像GDPR这样有一张相对来说大的方面比较一致的一张表,只是要在细节方面做很多调整。

现阶段来看,中美欧就大模型监管框架和重点有较大差异,且都在快速迭代中,想要建立一套协调适用于中美欧的AI风险评估体系可能还为时尚早。

13.关于辅助医生用药的AI solution,是否需要进行算法备案和评估?

答:如果仅是内部的学习使用,根据《生成式人工智能服务管理暂行办法》第二条,是可以不适用备案和评估的。

14.当企业采用生成式人工智能进行对外服务过程中,和客户产生纠纷。比如,客户感觉受到歧视。当发生诉讼情况,企业被要求解释AI决策,提供透明性。但,在采用深度学习的AI系统中,提供可解释的透明度本身就几乎不可能。企业如何在给“客户服务的协议”和“供应商AI服务协议”两端设立条款,保护企业自身。

答:说到底还是工程的问题,去年以来Anthropic有好几篇突破可解释性的一篇文章,在业内影响也比较大,简单说一个算法随便给一段输入,可以输出一段文本,这篇文章直接通过很理论的证明以及工程上的优化,直接回推出训练时候是哪些文本对最后输出的影响特别大。对于头部企业,这时候算法还是不是完全黑盒,我很怀疑。这肯定不是完全理解的解释,是功能性的解释,但比如在欧盟要求下的解释,头部的几家是可以做到的。其实我理解欧盟《人工智能法》对通用AI最后的监管表述具体例变得越来越不确定语焉不详、越来越协商化,这可能也是一个点。包括这部法里面AI版权其实对人工智能是有解释权的,藏在很后面一个很不起眼的条款,加了一些限制性很强的条件限制,这些事情都是一起发生的。

对于绝大部分普通的企业,这是做不了的,刚刚说的暴力的解释可能一两千万去做一次解释,对于绝大部分的合作场景这完全是幻想型的。当前我们也要考虑未来几年这个成本向下的速度会不会非常陡峭。很多时候,就是用透明性去逼近或者假装解释性,特别是包括数据卡、模型卡、模型架构的披露,这是一个方面。另一方面,有时候版权风险或者暴露也是因为过分解释或是被前端攻击暴露出来,直接在前端提取发现有一些输出的根据是有问题的。国内外有一些厂说他们可能有一些解释工具,也不知道那些落地能到什么程度。第一是可靠性还需要验证,第二不知道这种情况会不会引来更大的技术上和法律上的风险。

15.外资企业总部批准了全集团只能使用某个AI大模型,中国local是否可以直接使用总部批准的AI大模型?中国local是否应该进行哪些action可以进一步规避中国本地的合规风险?

答:如果是企业内部员工使用,比如提供帮助、开发文档、写代码,都是可以的。如果对外提供,该备案的备案,该登记的登记。另外,合规的风险很大一部分大家会考虑个人隐私。如果处理大量的在中国被认为是敏感个人信息、重要数据的,也要先通过审批。

另外,分享一些企业的实践,企业会有制度规定批准了的AI才能用,如果业务部门提出来要用某一个AI工具,这时候一定要批准,批完了才能够用。比如业务部门要用某个localAI,或者local的供应商套上了AI的壳,作为把关的人一定要非常仔细地看这个产品是不是AI,并和供应商强调不要套壳、不要过度宣传,如果产品是AI要先进行备案,不备案不能用。有些产品仅仅多了几个filter的功能,或者自动推送,一定要明确产品实际是什么,否则会承担很多的责任。

最后,对于员工负责任地用好AI要有基本的培训。

16.在企业内部使用第三方LLM大语言模型时,如何有效进行数据分级分类管理?在进行人机交互时,比如需要AI协助处理文本文档、进行数据整理、进行代码排错的话,就会存在违反分级分类标准的情况,因为内部数据流向了外部第三方。该如何避免此类风险?是否有好的治理方法或者技术方案去解决?

答:确实遇到有些客户做RAG时数据、文件变得非常多的时候,效果不好、找不到相应的内容、定位不到相应的位置,在这些场景下,我们会请客户将文档用AI模型打标签,甚至打标后重新分类,可能财务是一个主题,销售是一个主题。确实有工程方面的手段把数据做一些分类的标签,甚至会先用AI模型读一遍,生成比较有效的解析。

17.目前部分境外AI产品服务商向其客户提供了基于API接口的AI服务,其中也包括中国客户,这就意味着其中国客户在技术上可使用境外的AI工具。而根据《生成式人工智能服务管理暂行办法》规定,向中国境内公众提供服务需要大模型备案与算法备案,但境外AI工具在中国备案不具备可操作性。在此背景下,境内企业使用境外AI工具时,可能会面临何种程度的法律风险?针对不同的使用场景(如内部办公使用、商业场景间接使用、商业场景直接使用),其风险等级是否有所差异?以及可采取哪些手段规避相关风险?

答:首先存在“科学上网”的法律风险。

其次,企业侧应当关注使用AI工具是要做什么,圈定好范围,最重要一点是仅限于内部使用。举个例子,企业购买AI产品用于优化代码,企业内部控制好,代码涉及自身商业机密,是否符合自身相关内控措施。

至于针对商业场景间接使用或直接使用,根据《生成式人工智能服务管理暂行办法》第二十条,企业违规使用还存在被处罚的法律风险,建议企业还是使用已通过备案的AI工具。

最后,还需要注意数据出境的风险,即使用境外AI工具时,输入的数据会出境,如含有个人信息或重要数据,要遵守数据出境的要求。

18.面向外部顾客的AI智能客服是否被认为有舆论动员属性?面向外部用户的人工智能应用/服务在什么情况下企业备案可以豁免,如购买供应商已备案的产品,还是要考虑部署方式等多个因素?

答:认定大模型是否具有舆论动员属性的关键在于是否2C,如果2C,则将被视为具有舆论动员属性。如果大模型仅面向境外用户提供服务的,则根据《生成式人工智能服务管理暂行办法》第二条,不适用该规定。但此种情形下涉及AI出海,需要遵守出海目标地的合规要求。而如果外部用户指的是非公司用户,即中国境内非企业的用户,如给普通消费者使用,那么不可以豁免,至少要登记。如果购买已备案产品,做好登记即可。

19./外部用户使用AI,提供了个人信息,但不想被作为训练材料,针对这个痛点企业是否有好的实践?

答:部分企业,特别是垂直领域的,如医疗行业、金融行业,多少会获得一些个人的数据,在处理前全部进行脱敏会好很多。

现有企业实践中,训练数据和模型提供服务时所收集到的服务数据,企业肯定是要做严格的区分的,这不仅仅是个人信息保护的问题,也关系到模型质量,不可能让服务当中产生的数据直接影响到模型训练,这本身也是不严谨的。所以在绝大多数厂商的实践中,一定会不仅仅基于个人信息保护的原因严格地区分和隔离在应用提供服务的过程中所获取到的信息以及用于训练的数据,这是毋庸置疑的,无非是说在数据隔离的管控上怎么做的更好,如果要把服务中获取的数据经过匿名化以后再重新用于训练,这个过程中怎么管控。

20.使用作品去训练AI是否构成版权法意义上的合理使用行为,从而构成侵权豁免?进一步问,用于AI训练的作品数量(也就是数据的体量)是否对前述问题的答案产生影响。

答:关于使用作品训练AI能否构成版权法意义上的合理使用这一问题,目前尚无定论。

中国著作权法对合理使用的规定采用了“封闭式列举+兜底条款”的方式,然而AI工具训练模型难以符合这些条款。实践中,最高法曾发布相关政策,对合理使用的现行标准进行了部分突破,未来或有适用“合理使用”的可能。

美国法院采取四要素判断法:(1)使用行为的性质和目的,当商业性使用显著提高社会效益时,则应以“转换性使用”为判断标准;(2)被使用作品的性质;(3)被使用部分的数量和质量;(4)使用对作品潜在市场或价值的影响。根据上述判断标准,AI工具对他人作品进行学习并输出创造性新内容,或有构成转换性使用的可能。

从美国法院的方法来看,在判断合理使用时,作品使用数量是一个考虑因素。

21.开源大模型做AGI与自主研发相比在合规要务上有哪些异同?有哪些特别的挑战?

答:相比于自主研发,利用开源大模型做AGI在合规上需要特别注意开源许可证、透明度及可解释性、安全性、供应链稳定性等问题。

首先,企业需要重点关注开源许可证限制,包括商用限制、分发要求、不同开源组件许可证兼容性等问题,否则可能造成后续开发的大模型源代码被强制披露、公开或是面临知识产权侵权等风险。

再者,开源大模型在透明度和可解释性方面存在更为明显的不足,企业很难获知开源大模型(特别是未备案的境外开源大模型,如llama2)的技术细节、训练数据详情等情况,这可能也会影响到企业后续履行备案手续等事项。

其次,开源大模型的开放性具有两面性,它对于企业而言是开放的,对于恶意利用者而言也是开放的。因此,可能存在被恶意利用者滥用的情形,造成安全隐患。

另外,开源大模型开发者可能会不时变更许可证,如企业未加注意,可能会违反许可证限制,进而影响模型开发的稳定性。

22.RAG增强式搜索这类大模型产品的反不正当竞争风险。大模型改变传统搜索形式已渐成趋势,这类产品对传统搜索引擎有什么影响,对搜索来源网站又有什么影响,是否存在不正当竞争问题,大模型产品应当怎么做才能尽可能降低这类风险?

答:相比于传统搜索引擎,大模型+搜索模式或许能够更加准确地理解用户意图,并整合搜索内容以生成相应回复,向用户提供更有体系性、更具逻辑性、更个性化的信息内容。但要想大模型+搜索模式完全取代传统搜索引擎,还有很大差距,业内人士给出以下几点理由。

首先,该模式缺乏从01的产品形态突破,从而限制其在用户心中的影响力和吸引力。再者,大模型对搜索体验的提升对普通用户而言感知并不明显,大模型在搜索准确性、响应速度以及交互自然性方面还有相当一段长的路需要走。此外,该模式的商业化路径也尚不明晰。从成本来看,大模型每次互动成本可能远高于传统搜索这也限制了大模型+搜索模式的发展。

对于搜索来源网站而言,大模型+搜索的模式的确存在截取目标网站流量的问题,进而面临不正当竞争风险。据报道,美国多数顶尖新闻机构禁止AI爬虫爬取网站内容,美国贴吧Reddit也采取措施以限制大模型爬取其公开内容。此前,Perplexity曾偷偷绕过付费机制,爬取仅付费会员可阅读内容,剽窃记者文章等,此种行为引发了多家媒体不满,福布斯向其发函要求删除相关内容并赔偿损失。

现阶段,国内立法和司法实践尚未对如何降低大模型+搜索模式所带来的不正当竞争风险这一问题给出明确回应。参考类似不正当竞争案例及爬虫相关案例,RAG服务需要使用爬虫从互联网获取文字、图片信息,如果违反源网站相关协议中的反爬条款,或者破解源网站防护机制强行爬取相关数据,则存在较高的不正当竞争风险,还存在侵犯商业秘密、著作权以及其他权利的风险。

为避免上述风险,企业要严格遵守源网站Robots协议或用户协议中关于可以访问和禁止访问范围的要求,注意爬取数据的手段、频率、时间、数据量、爬取内容及源网站风险情况,尤其要避免绕过、破解源网站防护机制或反爬措施的技术手段强行爬取相关数据,并避免爬取国家秘密、国家机关工作秘密、商业秘密、著作权保护内容、服务器后台数据、个人信息等。若收到源网站发送的禁止爬虫警告函或类似文件,应立即停止爬取源网站相关数据。

23.  关于《生成式人工智能服务安全基本要求》中提到的使用用户输入信息进行模型训练需要给与用户关闭方式,目前该条是否是强制性的要求,如果已经对用户的身份进行了匿名化,是否仍视为使用用户输入信息进行模型训练?

答:将用户输入信息用于模型训练属于对个人信息的使用,用户享有知情权和决定权,服务商应当提供关闭方式,这是个保法的要求,《生成式人工智能服务安全基本要求》的规定只是对个保法要求的落实。

如果用户输入信息已经匿名化,则不再属于个人信息,用于模型训练不受限制。但目前匿名化的标准尚不明确,这是实践操作中需要面对的难题。

24.在与数据提供方共建大模型的模式下,作为模型的技术提供方的应该享有哪些权利?或者说如何约定双方权利义务?

答:欧盟对供应链上的互助义务在25-26年间会有一个建议性的标准合同条款,未来值得关注。

25.如何看待生成式人工智能发展下的自主学习型算法合谋与其他算法合谋的显著区别?对于生成式人工智能算法合谋的行为该如何认定?(包括生成式人工智能算法合谋的智能性导致主观意图难以确定、生成式人工智能算法合谋的强隐蔽性导致客观合谋行为的证据难以确定等问题)在对于生成式人工智能算法合谋的行为进行认定后,又该如何针对不同主体进行归责?(主体包括算法设计者、算法使用者、算法本身等)对于以上生成式人工智能算法合谋的垄断风险,企业又该如何进行合规规避呢?

答:算法合谋的问题已经争论了好几年,其实答案已经藏在了问题里,究竟是通过意思联络认定共谋、还是通过外在的客观效果认定,还是单纯通过观察价格上的一段时间的强相关性,就去推定或直接证明存在共谋。关于算法共谋的要件是规定一定要找到主观上的意思联络,可能需要查他们的邮件、微信群,甚至算法需求文档有没有相互勾连的内容,这完全是两种思路。

在归责方面,其实有两种主体,一种是有一个提供算法的轴枢,在他的组织协调下,可以几方去实现功能,这是一种主体结构;在欧盟那里,只有提供者和部署者,虽然没有把最后一层揭开,但是和控制者、处理者一样,大概率也是一对功能性的概念(Functional Terms),要综合各种事实去认定,就像GDPR要分清控制者和使用者在高风险场景实际是很麻烦的,因为约定不是百分百的安全,还会看实际的控制力。比如,用自己的商标在上面露出可能就是一个很重的权重,有一个约定也是一个很重的权重,但是没有办法百分百清楚。现在就是一边是比较困难的、甚至比较学理的,一边是功能性的、业务性的,还要把两边拼一起。

26.人工智能生成物可能侵犯既有著作权(如奥特曼案),因而引发侵权责任分配的问题。侵权生成物可能涉及用户、AI设计者和AI服务提供者(套壳网站)三者。想了解,在套壳网站的情况下,服务提供者对于AI生成物的呈现,在技术是否可以控制,以及实现的难度。

答:若AI服务提供者仅调用大模型接口而并未对模型进行修改的,从已有司法实践来看,考虑到AI服务提供者的控制能力,其所承担的注意义务也相对有限。

结合技术难度和成本,AI服务提供者可能采取的侵权防范措施包括关键词屏蔽、建立投诉举报机制、在用户协议中向用户提示风险,标注AI生成内容等。

27.开展虚拟主播业务,需要取得的证照和在此过程中需要遵守的法律义务和注意事项。不同情形下(比例,在自营平台上开展和在三方平台上开展,虚拟主播可以和用户互动和不可以互动)证照和法律义务是否有不同?

答:首先,企业需要根据大模型技术来源(自研/采购等)、面向的服务对象(C端用户/B端用户)等因素完成算法备案(技术支持者/服务提供者)、大模型备案或登记。

其次,开展虚拟主播业务,如涉及视频、音频制作经营行为的,可能还需要办理广播电视节目制作经营许可证。如涉及网络表演等经营性互联网文化活动的,可能还需要办理网络文化经营许可证等。

最后,像是抖音等短视频平台对开展虚拟主播业务也进行了相应规范,包括虚拟人需在平台进行注册,虚拟人技术使用者需实名认证等。

28.在第三方接入AIGC技术的情形下,针对个人信息保护事宜,服务提供者(即接入方)和技术支持者(被接入方)如何通过合同条款来安排各自的权责义务。

答:按照个人信息保护法律关系的分析框架,服务提供者是用户个人信息的处理者,如技术支持者也参与数据处理,则技术支持者是受托处理者,双方应当签署委托处理协议来安排双方在个人信息保护方面的义务和责任。这与非AIGC场景下的委托处理没有本质区别。

对于企业用户,如其输入的数据含有个人信息,则该企业用户是处理者,AIGC服务提供者是受托处理者,技术支持者是转受托处理者,法律关系分别是委托处理和转委托处理。

29.从企业角度来看,AIGC协议中知识产权归属应该明确归属于企业还是用户?如何划分知识产权归属的场景?

答: 协议约定生成内容知识产权归属于用户,但许可模型提供方可基于模型优化等目的使用生成内容,这是目前AIGC产品的主流做法。

模型提供者之所以这么约定,可能有这么几点原因:一是模型提供者主要卖的是AI技术服务而不是生成内容,他们更看重的是拿生成内容用来继续训练,此种约定能够满足其主要的业务需求。二是生成内容到底能否构成作品还有待讨论,如果模型提供者对生成内容主张知识产权等权利,主张权利的同时也意味着需要承担相应的义务,特别是生成内容侵权及安全风险。为此,模型提供者可能需要对用户如何使用AI产品、使用后果等施加更高的注意义务并采取更严格的合规举措。

30.AI生成免责标识具体指什么?在AI生成文档中标记AI生成是否可算作免责标识?

答:“AI生成”标识的主要作用是标明生成物的属性和来源,防止误导或误用。根据《生成式人工智能服务管理暂行办法》,相关服务提供者有义务对图片、视频等生成内容进行标识,未履行该义务可能遭受行政处罚。从这个角度来说,标明“AI生成”可以避免相应的行政处罚责任。

至于生成内容侵权的责任,如侵犯他人的著作权、肖像权、商标权等,要根据相关的侵权规则进行判断,即使标明由AI生成,也不产生免责效果。

31.当前大模型存在“越训越傻”或者“越用越傻”的情况,B端企业采购模型能力后,发现模型水平衰退,该如何举证如何维权?

答:应当有个benchmark,有基准有指标,最重要的条款要把基准约定好。当然不一定有一个基准,也可以是类似竞技场这样的,找一个有参照价值的模型来盲测,比如说相对于其他一些基础性的模型,盲测的结果是优胜率百分之多少。总的来说就是有把模型的能力用基准固定下来的东西。

从技术角度来讲,AIGC开发企业一定是比用户先发现问题,所以他们一般都会在非常短的时间内去迭代,比如GPT-4-0125出来之后,大家用一段时间发现变懒了、或者回答没有回答好。从开发企业角度来讲,要保持一定的进取心。如果从举证和维权角度,能想到的就是,原来是多长时间、现在回复需要多长时间,这是比较容易做对比的,还有就是问同一个问题,之前回答是什么样,现在是什么样,也可以做比对。

32.基于大模型生态所衍生的产业链也被称为MaaS(模型即服务),而在云计算行业,存在IaaSPaaSSaaS三个层次的部署模式。由于云服务商属于广义上的网络服务提供者,在过往的司法实践中形成的基本共识是,在适用避风港规则时,对以“必要措施”为落脚点的注意义务设定应区分服务层次,即按照对内容数据的控制力强弱区分不同的责任强度,最底层的IaaS提供商责任最小,在现有技术条件下其必要措施仅限于转通知。在AIGC产业中,未来的服务商类型和层次性也会越来越显著,其中最终用户在这里也是控制生成内容的一环而非单纯的内容服务使用者,所呈现的分层光谱为基座模型提供者、应用部署者、服务使用者,三者从不同的角度和程度对生成内容进行控制。虽然AIGC本身并非内容平台而是直接生成内容,但有相当多的学者主张基于其对侵权作品的原始控制力而赋予其平台责任。问题:各类AIGC提供商是否有适用避风港规则的空间?如果可以适用,是否应该就注意义务强度进行责任分层?分层的依据应该是什么?

答:在美国,根据Open AICEO在国会作证时的说法,AIGC提供商能否适用避风港规则尚存疑。

在中国,《生成式人工智能管理暂行办法》直接规定服务提供者要依法承担网络信息内容生产者责任,这似乎已经排除了避风港规则的适用空间。当然,这里所说的“内容生产者责任”也可以理解为仅指防止生成和传播违法有害内容的行政责任,至于民事侵权责任的分配,仍有讨论空间。

总的来说,AIGC在技术特征与商业模式上与传统的互联网平台服务存在本质区别,套用避风港规则并非良策。


数据何规
个人信息保护、网络、数据安全及AI治理。
 最新文章