闲话AI|第13期:AI标识将出台强制标准
财富
科技
2024-09-10 13:00
上海
本期作者 / OneRiver to AIGC 群友本推送收录一川AIGC社群过去几周就AIGC领域相关热点和话题的讨论结果,经充分脱敏并征得群友同意后予以公布。如有兴趣加入社群参与讨论,可在阅读文末的社群规则后扫描二维码以填写申请问卷,我们将在10个工作日内完成入群审核,并向满足入群门槛的申请者发放入群邀请。话题1:AI标识将出台强制标准
话题2:不同AI工具使用体验
话题3:AIGC对新闻业的意义
话题4:人工智能训练数据
话题5:AI生成作品和作者之间的竞争
我们之前也遇到这样的困惑,一个创作比赛,对于AI创作或作品经AI局部调整之后,是否有必要标识一下。已发布法规和标准标识范围都是生成内容,所以是不是只要是人工智能生成的就要标识。但是这些文件都是适用境内向公众提供生成式人工智能服务。测试了一下元宝的深度搜索,效果还蛮好的,跟秘塔的AI搜索有点相似。对,语料一直是元宝最大的优势。现在各个大模型也有各自的长板了,就我自己理解,ChatGPT4o长于英文语料和整体回答质量,kimi长于文本分析,元宝长于中文语料场景下的搜索·场景,其他大模型我没怎么用。元宝上了个深度研究,建议网上冲浪的朋友可以用来自搜下,我昨天就发现有人截图喷我了。没有AI多模态识别图片,我觉得发现不了。而且试了试效果可以和公众号搜索互补。又试着做了一些工作,但发现元宝的结论本身其实跟之前的版本没有明显迭代,就是字数更多了,但是还是会出现一些明显错误的结论或者引用法规错误的问题。只能说略有惊喜,多的不是一点半点,经常一个问题跑好1分钟。需要问比较简单的问题,元宝这个深度研究的按钮才能出现,感觉遇到稍微复杂一点的问题,按钮就消失了。元宝用下来,确实数据源是挺多,但是还是得加一道筛选。有时候瞎胡说都有出处,但并不知道出处是不是瞎胡说。元宝是中国版perplexity。可以试试Claude Sonnet 3.5,评价比GPT强。Claude + perplexity我觉得是最好的组合。可以先试试perplexity,付费版的可以调用其他大模型,例如Claude和GPT。因为Claude有一些独创的设置只能在Claude上用,例如project、artifacts,所以单独推荐了一下。这次公司法更新,已经看见好几个弄公司法智能体的了,比如元宝、智谱。我把看不过来的资料都倒进去了,问了几个问题,觉得比我强。被誉为“律师事务所的操作系统”的AI法律科技公司Clio宣布完成F轮融资,总额达到9亿美元,公司估值飙升至30亿美元。还得做点律师真需要的。Clio基本上是律所办公软件+律师业务支付工具了,我觉得他们一直都在考虑律师到底需要什么,披露的营收应该已经破亿了吧。希望群里大佬早日研发出查出每个错别字的人工智能给律所律师,每天看那么多字眼睛都快瞎啦。爱校对也可以。图书行业一般用黑马校对,行业认可的校对软件。挺贵的。就爱校对、秘塔写作猫,爱校对每天免费2w字。wps好像也可以校对错别字。Kimi推出了PPT工具,不知道会不会好用,等一个测评。AIGC只能应用在边角料的生产上,这是对AIGC在新闻业的应用中比较谨慎或者说保守的态度。历时这么多年,对于新闻业真正带来变化的(或者说达到平台级别的)只有两种,一是算法,它深刻改变了内容分发的逻辑;二是短视频,它深刻改变了内容呈现的形式。但说回来,它们只是改变了内容生产的方向,但是没有改变新闻生产的内核,AIGC带来的变化,也不会是这种平台级别的,但它会带来内容形式上的变化,也就是可以产生更多的“边角料”(摘自腾讯研究院发布的《AIGC对新闻业最大的意义,是生产边角料》)。可以直接试着把视频或者图片丢给多模态做描述,记者来修改生成好的内容。我担心有人会主观操控大模型生成内容,美其名曰为黑箱导致。AIGC在新闻正式内容的生产上潜力有限,有以下几个问题:一是因为,真实性永远是新闻业的追求。而AIGC难以保证真实性这一点。二是因为,内容的问题意识和可读性、可看性,是媒体的安身立命之本。而AIGC本质上趋近于“大机器生产”,它生产的内容足够标准化但却没有灵韵,同质化较为严重,也缺乏可读性。三是因为,AI的幻觉问题难以解决。本质上是因为AI对现实世界不是真正的理解,而只要幻觉问题始终存在,媒体也是不敢轻易使用的。也有人说,可以用机器生成搭配人工审核,但要考虑ROI也就是成本收益比的问题,一篇文章让记者来写,可能需要2个小时,机器生成可能就需要5分钟,但是加上审核、修改、细节校对,算下来可能就不止两小时了(摘自腾讯研究院发布的《AIGC对新闻业最大的意义,是生产边角料》)。当地时间7月12日,美国提出了《编辑和深度伪造媒体内容来源保护和完整性法案》(COPIED ACT)法案,旨在有效打击有害的深度伪造品的兴起。COPIED ACT禁止未经授权的大模型数据预训练。立法算前沿,思路倒不算新鲜。不过目前互联网上可用的信息已经被GPT耗尽了呢,这种只能限制后来者咯。感觉和开源代码的处理方式很像,创作者自己设定许可和协议。黄绍刚在《工智能训练数据收集的合法性困境与制度建构》一文中提出:“许可豁免制度是指在特定场景中,人工智能服务提供者为训练人工智能而抓取数据时,可以不经过数据在先权利者的意定许可。该制度本质上是数据收集端适当放开的具体体现。人工智能视域下的许可豁免规则不同于“合理使用”“法定许可”,既可以用于商业目的,又不必然要支付相应对价,同时也认可了数据在先权利者为人工智能发展所作出的贡献。”人工智能对数据使用的性质是否属于商业性使用看来不应当成为数据使用合理性判断的因素。在著作权法既有的合理使用制度中也并没有直接将商业性质使用他人作品的行为直接排除在合理使用范围之外。番茄小说AI协议遭联合抵制。作者在和平台签约时,合同中有涉及AI训练的条款,作者不仅要面对自己的小说被拿去训练AI模型的可能,还可能一无所获,最多获得一个新功能内测资格。AI确实和作者产生了竞争,而且看起来对于平台来说AI创作也是有利的。同一个设定反复用,确实很适合AI,而且定位上就是作为抖音的流量渠道,用AI对番茄来说就是在降低渠道成本。番茄这类免费小说APP跟起点这种付费小说APP的商业逻辑差异很大,相应地对AI的态度也自然会存在差异。有道理,可能像晋江、起点这种更鼓励原创作者的网站会更保护作者。晋江起点的逻辑是靠付费阅读+IP变现赚钱,几年前也有过强行约定IP收益归属,引起了不少作者纠纷。说实话我觉得都不算尊重作者,只不过AI更加饮鸩止渴。原创作者的IP更能变现以及衍生作品,目前AI的作品可能只能短期收益。就像虚拟偶像,一开始以为“永不塌房”和培育成本低,但是其实一直扶持的成本是很高的,而且根本养不出来super star。