首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Claude爬虫惹众怒！技术论坛CEO喊话Anthropic：我知道你们缺数据，但一天攻击服务器上百万次已无法忍受！

科技 2024-08-08 11:39 福建

来自公众号：51CTO技术栈

忍无可忍了！

OpenAI最大的竞争对手Anthropic公司，为了让自家大模型Claude获得更多数据，直接用网络爬虫在一天内以百万次的速度访问了名为iFixit的技术网站。

直接把iFixit网站的CEO Kyle Wiens逼得在X上跟Anthropic对线！

Kyle Wiens毫不客气地戳Anthropic脊梁骨：嘿，@AnthropicAl，我知道你想要数据。Claude确实很聪明！但你真的需要在24 小时内对我们的服务器进行上百万次的攻击吗?

你不仅白嫖占用了我们的内容，还占用了我们的开发资源。这可不酷。

Kyle Wiens还阴阳了一把Anthropic说，“难道Claude的爬虫没有爬到我们网站的声明吗？”

因为在iFixit的服务条款里已经明确写了：“未经iFixit事先书面许可，严禁复制、复制或分发站点上的任何内容、材料或设计元素，包括用于训练机器学习或AI模型。”

令人愤怒的是，Anthropic并未向iFixit道歉，而是给了他一篇有甩锅意味的博文。博文里写道：

“根据行业标准，Anthropic使用各种数据源进行模型开发，如通过网络爬虫收集的公开可用数据。”“我们的爬取不应具有侵入性或干扰性。我们通过考虑在相同域中爬取速度和尊重适当的Crawl-delay来实现最小化的干扰。”

天降横祸：iFixit承受爬虫围攻

iFixit是一家专注于提供电子设备维修指南和工具的技术论坛。

iFixit的主要通过提供详细的拆解和维修指南，帮助用户自己动手维修设备，从而延长电子产品的使用寿命。

Kyle Wiens在接受外媒采访时讽刺地说，“我们只是世界上最大的维修信息库而已，他们未经许可偷走我们所有的数据并且在这个过程中把我们的服务器淹没，这也没什么大不了的。”

他补充说，iFixit的网站有数百万个页面，包括修理指南、这些指南的修订历史、博客、新闻帖子和研究、论坛、社区贡献的修理指南和问答部分等。

Wiens向媒体展示了网站的服务器日志，根据日志内容，Claudebot在几个小时的时间中，每分钟数千次的请求访问。

显然，爬虫过境会使得激增的访问量不断增加服务器负载，导致服务器响应时间变慢，甚至崩溃。

然而，这不是Claudebot的第一次惹祸，很可能也不是最后一次。

恶名在外：Claudebot罪行累累

搜索一下Claudebot，就会发现它已经是个惯犯了。

Claudebot疯狂起来直接将技术论坛搞到瘫痪数个小时。专注于Linux Mint操作系统讨论的Linux Mint Forums就曾惨遭毒手。

在ClaudeBot开始搜索和访问论坛后，导致该论坛在几个小时内性能极差，并最终导致了访问的中断。直到爬虫被防火墙阻止后，论坛性能才恢复正常。

Linux Mint Forums恢复后在声明中说：Anthropic正在通过免费搜索网站来训练AI。他们这样做会给网站带来大量额外负载，这实际上是一种 DDos 攻击。

因此，有人直接评价Claudebot为“近年来，在我的服务器上遇到的最惹人烦的爬虫机器人”。并说将屏蔽一切与Claude有关的内容。

Reddit上也有篇帖子吐槽Claudebot太过积极，更加不讲理的是Claudebot似乎直接开大绕过了他的robots.txt文件。

这篇帖子引起了广泛的共鸣，有人回应说，“我不介意通过爬虫获取数据来改进模型，但我绝对无法忍受这些公司荒谬的虚伪行为。

包括Claude在内的所有顶级模型都会警告你不要在输入中使用受版权保护的文字。人工智能模型本身也会告诉你这一点。

然而，这些公司在训练它们的模型时，却公然无视版权。这种 "只许州官放火，不许百姓点灯 "的情况实在令人恼火。

我还讨厌的是，反人工智能的人群大动干戈，试图压制其他穷人使用人工智能。因此，来自上层（公司）和下层（饥饿的艺术家）的双重压力都在压制其他穷人使用人工智能。这太愚蠢了。”

应对方案：有是有，但不完美

几乎所有的AI公司都不会遵守网站的服务条款。

就像Anthropic硬气声明自己是遵从“行业标准”那样，通过网络爬虫收集的公开可用数据是通用做法。所以，即使网站已要求其服务条款中的内容不得被抓取，但通常没有任何作用。

一个对抗LLM爬虫的通用做法是设置robots.txt文件。

这是一个放置在你网站根目录中的文件，用于告诉网络爬虫和机器人哪些部分可以访问。

以下是一个robots.txt的设置（部分），感兴趣的朋友可以移步查看代码解析：

https://neil-clarke.com/block-the-bots-that-feed-ai-models-by-scraping-your-website/

然而，这是一种防君子不防小人的应对策略——只有行为良好的爬虫会遵守这些指令，而ClaudeBot显然不在此列。

Reddit上有网友证实了这一点“我听出版商说，ClaudeBot 会忽略 robots.txt 说明。在 Anthropic 被亚马逊或其他担心诉讼的大公司收购之前，你能做的不多。”

也有人向Kyle Wiens支招：可以故意设置一些假的 fixit帖子，这样你就能追踪到是谁盗用了你的数据。例如发一个提问贴，询问“如何更换 Dipsogenic Hampoon（编造的设备）的电池......”

这是一个处理版权问题的常用做法，即编辑刻意添加虚假条目，作为版权陷阱，以揭露随后的抄袭或侵权行为。

然而即使能通过这种方式取证Anthropic们的侵权行为，但是否能保证胜诉呢？

目前，涉及AI公司使用爬虫侵犯网站内容的判例还不多。许多现有的案例集中在网站条款的执行、数据抓取的合理使用和版权问题上。例如，LinkedIn曾对数据抓取公司HiQ Labs提起诉讼，最终法院裁定HiQ Labs的行为部分不合法。

展望未来：艰难探索中的商业合作

显然，人工智能的爬虫滥用是一个表面问题，更加本质的问题在于，谁来保护技术论坛、新闻机构等内容产出者的版权？

在AI广泛发展的今天，这个问题不仅出现在海外，也在国内。此前，有网友发现字节系的豆包AI不仅了解自家小说APP上的网文，连“十年前的贴吧文”、“晋江VIP文章”都可以进行阅读和提问。如果此事属实，如此大规模的涉猎很难不依靠爬虫的介入。

就像Kyle Wiens喊话Anthropic时所说的，如果AI模型如此需要数据的话，不如大大方方地付费，来获得内容的商业授权。

当然，AI在版权问题上并非毫无长进。

在收到多次诉讼之后，OpenAI已经在推进商业层面的内容合作。OpenAI与GitHub、 Reddit以及多家新闻机构签署了合作和授权协议。

今年5月，OpenAI更是与News Corp新闻集团签署了一项具有里程碑意义的多年期协议，允许AI模型访问《华尔街日报》、《纽约邮报》、《巴伦周刊》、《市场观察》等主要出版物的内容。据估计，该协议在五年内价值超过 2.5 亿美元。

但是，那些能得到版权合作的网站注定是大的新闻机构和社区。像iFixit这样垂直的技术网站，如果要得到AI公司的内容合作，不知道还要等多久、能不能等到这一天。

参考链接：

https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/

---END---

http://mp.weixin.qq.com/s?__biz=MzIyMDEzMTA2MQ==&mid=2651167701&idx=1&sn=8114c7a951d2a384ac1bd2e8e2a1ebb8

黑客技术与网络安全

分享黑客技术和网络安全知识，让程序员了解黑客世界，学习黑客技术；普及上网和网络安全知识；帮助黑客、安全从业者、安全爱好者学习与成长。分享的所有技术和工具仅供学习之用。

最新文章

ChatGPT曝严重漏洞，聊天记录黑客随意看，网友：本地运行也没用

多地网友突然收到广东省教育厅“成人电影”短信

又“刑”了！搞瘫公司三千多工作电脑，不给 500 万就删 IT 账户，网友：快乐的员工谁干这事儿啊

被裁 4 个月后，一名印度程序员的“复仇”：怒删前司 180 台虚拟服务器，造成 67.8 万美元损失，被判两年八个月监禁！

人人影视创始人致歉：出来一个月，恍如昨日

57岁前员工怒删公司备份、搞瘫3000+台电脑，勒索532万元未遂被捕！网友：怀疑他是被裁的

开源下载工具Aria被诈骗份子使用，开发者无奈清空代码仓库

两男子自建视频平台App——“盗链”影视作品、获利3.92亿

视频网站总监辞职开发追剧神器，靠侵权视频获利广告费近4亿

无敌了！强烈建议网安人今年拿下软考！

60+年老系统现危机！4位航班号将耗尽，美国航空业陷入“千禧虫”困境

堪比Windows蓝屏危机！Linux被曝12年史诗级漏洞，“投毒者”是谷歌？

一条指令引发的血案···

扫地机被曝成偷窥工具！黑客可远程监视主人？知名品牌回应

Win10/11 危！退役 2 年，IE 浏览器不死，反被曝出高危漏洞？

Claude爬虫惹众怒！技术论坛CEO喊话Anthropic：我知道你们缺数据，但一天攻击服务器上百万次已无法忍受！

华为仓颉编程语言来了！推荐三本书...

“调制解调器遭入侵后，我调查发现了大漏洞！”

Apple地理定位API暴露了全球WiFi接入点

创始人自曝：30 名工程师撑起 9 亿用户社交帝国！却引安全专家怒斥：太不拿安全当回事了

2024 最受欢迎的 50 个密码排行榜

为什么我强烈建议大家入局AI？

Cisco曝超严重漏洞，黑客可修改管理员密码

不正当抓取高德地图“拥堵延时指数”，被判赔偿1250万

Windows核弹级漏洞，Win7-Win11全部沦陷，最新情况来了！

仅用 30 分钟！开发者做“山寨版” VSCode 扩展，攻破 4830 亿美元巨头，甚至登上了官方热趋榜？

报告：45% 的密码在一分钟内被破解

“现在，仅需两行代码，就能窃取你在 Windows PC 上输入/查看的所有内容！”

Git严重漏洞，远程执行代码，Mac和Windows通杀！

别惹程序员——印度IT工程师被解雇后删了前东家180台服务器、造成几百万损失

微软前员工：微软无视警告，罔顾国家利益！公司漏洞最终导致俄罗斯黑客的大规模攻击

请网安入局AI，现在！立刻！马上！！

你知道信息安全三要素吗？

《纽约时报》5000多个GitHub repo的源代码被泄露

知名远程控制工具、TeamViewer开源替代——RustDesk已暂停国内服务

一键查询 Github 用户邮箱

字节系多款 App 被指控抄袭源代码，连拼错的代码都抄走了？美摄回应：我们不是碰瓷，是在维权

真人视频开始冒充Sora，威尔·史密斯吃意大利面名场面

12秒“挪走”2500万！以太坊漏洞暴露，麻省理工两学子一手主导闪电窃案，或将面临二十年铁窗生涯

互联网档案馆遭遇 DDoS 攻击，导致服务多次宕机

华为工程师回应“Pura 70 AI消除衣服”争议：模型根据肉色人体背景自动补全

真心建议网安人冲一冲新兴领域，工资高前景好

邮件域名防止伪造的三种方式

诈骗分子利用 TeamViewer 转走 398 万！远程桌面厂商该如何作为？

被Linux之父力挺的软件，开源后倒下了...

待会删！请网安人低调浏览！

一键审计 web 日志

90后程序员辞职搞灰产：开发视频搬运软件、不到一年获利超700万，结局很刑！

360、阿里这么一搞，找工作更难了

两家知名云服务商遭诈骗 350 万美元，黑客挖矿赚取 100 万美元后被抓！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉