大佬们偷上瘾了
文摘
2024-07-21 22:22
山西
哎哟喂,各位摄影家们,大公司偷油管(YouTube)的数据被抓包了,这些著名的大公司个顶个都是行业翘楚,包括苹果(Apple)、英伟达(Nvidia), 安思普AI(Anthropic)和赛富时(Salesforce)公司。他们用油管视频中的资料来训练其AI模型,尽管油管明令禁止,但这些大佬还是我行我素,“明知山有虎,偏向虎山行”。这事儿是数字媒体平台Proof News与老牌科技杂志《连线》的联手挖出来的。![]()
这些数据包括来自超过4.8万个频道的超过17万个油管视频的字幕,数据集名为“YouTube字幕”,包括来自可汗学院(Khan Academy)、麻省理工学院(MIT)和哈佛大学等教育和在线学习频道,《华尔街日报》、美国国家公共广播电台(NPR)和英国广播公司(BBC)的视频,“史蒂芬·科尔伯特晚间秀”、“约翰·奥利弗上周今夜秀”和“吉米·坎摩尔现场秀”(Jimmy Kimmel Live.)等节目的视频,还有油管上一些超级大V明星,包括有2.89亿的粉丝的MrBeast、1.11亿粉丝的PewDiePie、3100万粉丝的Jacksepticeye和1900万粉丝的Marques Brownlee。![]()
油管明确表示,将视频用于训练AI的行为违反了该平台的服务条款(TOS)。油管首席执行官桑达尔·皮查伊说:“我们有相应的条款和条件,当你开发一款产品时,我们希望人们能够遵守这些条款和条件。”但当下从文本到视频(Text-to-Video)、文本到音频(Text-to-Speech,TTS)的模型的竞争越来越激烈,油管的素材无疑是生成AI的聚宝盆。根据非营利组织EleutherAI发布的一份研究报告,这些数据只是名为“Pile”的冰山一角,还有欧洲议会、英维基百科、书籍和安然公司(Enron)的电子邮件等内容。Pile的大部分数据对所有人免费开放。![]()
“没有人和我说,‘我们想用你们这个’。”《大卫·帕克曼秀》(The David Pakman Show)的主持人帕克曼说,““这是我的饭碗,我投入了时间、资源、金钱和员工来制作这些内容。”这是一家拥有200多万粉丝和20多亿次观看量的视频节目,他的近160个视频被收到训练数据库里。“这是盗窃行为,”流媒体服务Nebula的首席执行官戴夫·威斯库斯(Dave Wiskus)说,尤其“生成型AI“可能会极大地剥削、伤害并取代真的艺术家。其实,AI一开始就带着版权的原罪,训练模型的数据来路一直像个谜。科技公司守口如瓶,谁也不吱声。就拿OpenAI来说吧,前些日子,面对媒体的提问,首席技术官米拉·穆拉蒂就是不肯说其AI文生视频Sora的训练数据详情,她只是笼统地说,“这些数据是公开可用或已获得许可的数据”。而在AI文生图(text-to-image),这种事早就习以为常,见怪不怪了。上个月,Meta使用IG和FB的上数千亿张公开分享的图片和数百亿个视频,训练其AI模型Emu,得到一众摄影大牛联名反对。上月初,时尚摄影师张晶娜和其他三位艺术家直接把谷歌告上了法庭。因为谷歌的AI图片生成器Imagen,偷偷用了他们的版权作品。这可不是头一遭,张晶娜和安德森之前还参与了和Stability AI类似官司。2022年10月,Midjourney创始人大卫·霍尔茨接受福布斯的采访时承认,他们没有训练模型的数亿张图像的版权。
2022年8月,OpenAI的DALL-E 2的训练数据是从互联网上收集的约6.5亿张图像。该公司声称“有数亿张图像是OpenAI获得授权的,还有一些来自公开可用的来源”。2022年2月,老牌图片社盖蒂Getty Images起诉Stable Diffusion,称其已经窃取了他们1200多万张受版权保护的照片,并要求赔偿1.8万亿美元。在赤祼祼的利益面前,大佬们就像一辆脱轨的列车,哐哐哐往前冲,资本的力量碾压所有阻拦它的一切,不管前面是什么。
又:解决拍虚了、修老照片、分辨率低的问题,小编现推荐一款图像AI放大和增强的软件,正在限免ing,可白用一年——Aiarty Image Enhancer,这款基于AI的工具来增强图像细节,消除噪点,提高图像分辨率,最高可放大到32K,满足打印或显示需求。
![](/static/gotop.png)