[开源项目] 收集各种AI爬虫名称并将其屏蔽 避免AI抓取你的数据训练模型

文摘   2024-11-11 16:00   浙江  
#网站应用 开源项目:收集各大公司的 AI 爬虫名称并将其屏蔽,这些爬虫主要都是用来抓取数据进行 AI 训练的,屏蔽后几乎不会对网站产生负面影响。当然允许它们抓取你的数据训练 AI 模型也不会给你的网站带来什么正面反馈,所以各位站长可以综合考虑内容、服务器压力和带宽问题选择是否屏蔽。

长久以来活跃在互联网上的爬虫都非常多,这些爬虫通常没有自己的独立名称,都是伪装成各种模仿用户的 UserAgent 进行抓爬。

现在更多爬虫是为了抓取数据用于训练 AI 模型,至少规模较大的 AI 公司会公布自己的爬虫名称,网站管理员可以屏蔽这些爬虫避免数据被抓取。

为什么要屏蔽 AI 爬虫:

这些爬虫的主要目的就是抓取你的网站内容拿去训练人工智能模型,这几乎不会给你的网站带来任何流量或其他正面反馈,因此直接屏蔽并没有什么大不了的。

当然正如 OpenAI 所说,允许 AI 爬虫抓取数据用于训练人工智能模型能够早日实现 AGI,为了这个宏大的理想你是否愿意被抓取呢?反正大多数大型出版商 (例如新闻网站) 都是不允许抓取的。

Ai Robots 开源项目:

该项目收集了众多已知的 AI 公司爬虫和少数不友好的爬虫,各位站长可以放心屏蔽,屏蔽后不影响网站的正常运行和继续获取来自主要搜索引擎的流量。

当然如果你不放心的话也可以将部分爬虫注释掉允许其继续抓取内容,如果你想了解每个爬虫的详细说明,请直接谷歌搜索爬虫名称,可以找到开发商的说明。

项目地址:https://github.com/ai-robots-txt/ai.robots.txt

下面是爬虫列表:

User-agent: AI2BotUser-agent: Ai2Bot-DolmaUser-agent: AmazonbotUser-agent: anthropic-aiUser-agent: ApplebotUser-agent: Applebot-ExtendedUser-agent: Bytespider#注意:Bytespider是字节跳动的爬虫,也用于头条搜索,请根据网站来自头条的流量决定是否要屏蔽User-agent: CCBotUser-agent: ChatGPT-User#注意:ChatGPT-User是代理用户访问的爬虫,该爬虫不用于收集数据训练AI,请根据情况自行决定是否屏蔽User-agent: Claude-WebUser-agent: ClaudeBotUser-agent: cohere-aiUser-agent: DiffbotUser-agent: DuckAssistBotUser-agent: FacebookBotUser-agent: facebookexternalhitUser-agent: FriendlyCrawlerUser-agent: Google-ExtendedUser-agent: GoogleOtherUser-agent: GoogleOther-ImageUser-agent: GoogleOther-VideoUser-agent: GPTBotUser-agent: iaskspider/2.0User-agent: ICC-CrawlerUser-agent: ImagesiftBotUser-agent: img2datasetUser-agent: ISSCyberRiskCrawlerUser-agent: Kangaroo BotUser-agent: Meta-ExternalAgentUser-agent: Meta-ExternalFetcherUser-agent: OAI-SearchBotUser-agent: omgiliUser-agent: omgilibotUser-agent: PerplexityBotUser-agent: PetalBotUser-agent: ScrapyUser-agent: Sidetrade indexer botUser-agent: TimpibotUser-agent: VelenPublicWebCrawlerUser-agent: Webzio-ExtendedUser-agent: YouBot

点击查看蓝点网 robots.txt 示例:https://www.landiannews.com/robots.txt

需要提醒的是 robots.txt 文件属于君子协定,此前 PerplexityBot 爬虫就被发现即便屏蔽也会继续抓取内容,所以仅仅依靠君子协定显然是不够的。

你甚至可以在 Nginx 服务器中直接将这些爬虫名称加入黑名单,在它们尝试抓爬时直接返回 HTTP 444 丢弃连接,这样也可以阻止内容被抓取。

但请注意:如果你在服务器上执行屏蔽操作那 robots.txt 文件就无效了,因为爬虫刚抵达服务器就直接被拦截,因此它们也无法先检查 robots.txt 文件是否允许抓取,在这种情况下这些爬虫可能会反复、高频抓取然后被丢弃连接。

如果仅通过 robots.txt 操作,则爬虫遵守协议的情况下它们不会再对其他内容进行抓爬,但如果不遵守协定那就会继续反复抓爬并给你的服务器造成压力。

蓝点网
科技资讯、软件工具、技术教程,尽在蓝点网。蓝点网,给你感兴趣的内容
 最新文章