[开源项目] 收集各种AI爬虫名称并将其屏蔽避免AI抓取你的数据训练模型

文摘 2024-11-11 16:00 浙江

#网站应用开源项目：收集各大公司的 AI 爬虫名称并将其屏蔽，这些爬虫主要都是用来抓取数据进行 AI 训练的，屏蔽后几乎不会对网站产生负面影响。当然允许它们抓取你的数据训练 AI 模型也不会给你的网站带来什么正面反馈，所以各位站长可以综合考虑内容、服务器压力和带宽问题选择是否屏蔽。

长久以来活跃在互联网上的爬虫都非常多，这些爬虫通常没有自己的独立名称，都是伪装成各种模仿用户的 UserAgent 进行抓爬。

现在更多爬虫是为了抓取数据用于训练 AI 模型，至少规模较大的 AI 公司会公布自己的爬虫名称，网站管理员可以屏蔽这些爬虫避免数据被抓取。

为什么要屏蔽 AI 爬虫：

这些爬虫的主要目的就是抓取你的网站内容拿去训练人工智能模型，这几乎不会给你的网站带来任何流量或其他正面反馈，因此直接屏蔽并没有什么大不了的。

当然正如 OpenAI 所说，允许 AI 爬虫抓取数据用于训练人工智能模型能够早日实现 AGI，为了这个宏大的理想你是否愿意被抓取呢？反正大多数大型出版商 (例如新闻网站) 都是不允许抓取的。

Ai Robots 开源项目：

该项目收集了众多已知的 AI 公司爬虫和少数不友好的爬虫，各位站长可以放心屏蔽，屏蔽后不影响网站的正常运行和继续获取来自主要搜索引擎的流量。

当然如果你不放心的话也可以将部分爬虫注释掉允许其继续抓取内容，如果你想了解每个爬虫的详细说明，请直接谷歌搜索爬虫名称，可以找到开发商的说明。

项目地址：https://github.com/ai-robots-txt/ai.robots.txt

下面是爬虫列表：

User-agent: AI2BotUser-agent: Ai2Bot-DolmaUser-agent: AmazonbotUser-agent: anthropic-aiUser-agent: ApplebotUser-agent: Applebot-ExtendedUser-agent: Bytespider#注意：Bytespider是字节跳动的爬虫，也用于头条搜索，请根据网站来自头条的流量决定是否要屏蔽User-agent: CCBotUser-agent: ChatGPT-User#注意：ChatGPT-User是代理用户访问的爬虫，该爬虫不用于收集数据训练AI，请根据情况自行决定是否屏蔽User-agent: Claude-WebUser-agent: ClaudeBotUser-agent: cohere-aiUser-agent: DiffbotUser-agent: DuckAssistBotUser-agent: FacebookBotUser-agent: facebookexternalhitUser-agent: FriendlyCrawlerUser-agent: Google-ExtendedUser-agent: GoogleOtherUser-agent: GoogleOther-ImageUser-agent: GoogleOther-VideoUser-agent: GPTBotUser-agent: iaskspider/2.0User-agent: ICC-CrawlerUser-agent: ImagesiftBotUser-agent: img2datasetUser-agent: ISSCyberRiskCrawlerUser-agent: Kangaroo BotUser-agent: Meta-ExternalAgentUser-agent: Meta-ExternalFetcherUser-agent: OAI-SearchBotUser-agent: omgiliUser-agent: omgilibotUser-agent: PerplexityBotUser-agent: PetalBotUser-agent: ScrapyUser-agent: Sidetrade indexer botUser-agent: TimpibotUser-agent: VelenPublicWebCrawlerUser-agent: Webzio-ExtendedUser-agent: YouBot

点击查看蓝点网 robots.txt 示例：https://www.landiannews.com/robots.txt

需要提醒的是 robots.txt 文件属于君子协定，此前 PerplexityBot 爬虫就被发现即便屏蔽也会继续抓取内容，所以仅仅依靠君子协定显然是不够的。

你甚至可以在 Nginx 服务器中直接将这些爬虫名称加入黑名单，在它们尝试抓爬时直接返回 HTTP 444 丢弃连接，这样也可以阻止内容被抓取。

但请注意：如果你在服务器上执行屏蔽操作那 robots.txt 文件就无效了，因为爬虫刚抵达服务器就直接被拦截，因此它们也无法先检查 robots.txt 文件是否允许抓取，在这种情况下这些爬虫可能会反复、高频抓取然后被丢弃连接。

如果仅通过 robots.txt 操作，则爬虫遵守协议的情况下它们不会再对其他内容进行抓爬，但如果不遵守协定那就会继续反复抓爬并给你的服务器造成压力。

http://mp.weixin.qq.com/s?__biz=MzA3MjUzNzE1OA==&mid=2247563298&idx=3&sn=d2101c9e59172f2fbc95cf4d24203741

蓝点网

科技资讯、软件工具、技术教程，尽在蓝点网。蓝点网，给你感兴趣的内容

最新文章

电脑1秒变成NAS 这个软件该火了！

搜狗输入法搞了个大的：还能这么玩？

硬盘检测神器更新了！下载备用！

创意极佳！网友为Mac Mini设计供电系统 3节18650续航45分钟

英伟达透露本季度游戏显卡出现短缺 RTX40系显卡预计会涨价

国外服务器黑五活动：10.98美元/年起 3TB大流量

微软将红帽的RHEL添加到WSL官方支持中同时允许企业进行私有化定制

谷歌在Android 16中采用Material You设计语言对WiFi共享密码进行改造

我搓！Win10全屏弹窗广告又来了

国外服务器黑五活动：10.98美元/年起 3TB大流量

微软为Win11带来新功能安装补丁不需要重启但要收费

Windows 11测试新功能软件请求管理员权限时需PIN/指纹验证

微软确认Win11可能在无任何操作下音量突然自动增加到100%

123网盘下载域名被卡巴斯基报毒拦截不过可配置白名单后继续访问

哈？安卓16测试版都来了，安卓15还没捂热

原神小米服今起停止注册和充值看来分成问题米哈游都没法解决

活动即将结束：云服务器仅需79元/年起 3M带宽

微软将为Win11推出快速机器恢复即便蓝屏死机也能远程恢复

微软Edge将增加恐吓软件拦截：你的电脑感染病毒请立即杀毒

微软将测试安全软件在内核外运行避免出错后导致蓝屏死机

Chromium 131+版导致大量网站出现复制问题选择内容后看不到选择样式

开国际玩笑？这个功能竟然还能收费！！！

谷歌可能会被迫出售Chrome浏览器

谷歌可能会放弃ChromeOS 将其整合到Android系统中

欧洲波罗的海两条海底光缆疑似被物理切断运营商正在着手调查

开源路由系统OpenWrt将包管理器从opkg迁移到apk

QQ/TIM大面积崩溃有人发恶意代码到群里请清理群聊记录

腾讯云轻量服务器 2核心3M内存仅需68元/年

俄罗斯将进行断网演练断开与国际互联网的连接

活动即将结束：云服务器仅需79元/年起 3M带宽

视频转换软件格式工厂新版本添加VVC/H266编码器支持嗯…

还没用上WiFi 7？ WiFi 8已经在路上吞吐量达到100Gbps

[技巧] Win11仍然可以通过注册表恢复为Win10通知中心样式

ChatGPT for Mac现在可以读取Xcode/VSCode等帮助开发者解释和生成代码

印度网友用法拉第笼"破解"苹果设备还成功了

华强北启动！拆解测试显示Mac Mini (2024)硬盘未锁定互换硬盘后仍可使用

活动即将结束：云服务器仅需79元/年起 3M带宽

国外服务器优惠：1年只要12美元

美光推出PCIe 5.0 60TB数据中心固态盘猜猜使用的是什么颗粒？

[下载] 微软推出Win11 24H2 Arm64镜像可在Mac等使用虚拟机安装

Edge又被发现偷Chrome数据更新后还自启动

不再强制登录！英伟达App发布替代GeForce Experience

iOS垃圾短信/电话拦截工具「拦截猫」特惠促销 31.5元/年

[技巧] 关闭Chrome浏览器最新版复制时弹出的链接已复制/图片已复制提示

腾讯云轻量服务器 2核心3M内存仅需68元/年

博通NB！VMware虚拟机彻底免费企业用都免费了

[离线脚本包] 激活神器MAS v2.8版发布支持一键激活Win/Office各种版本

活动即将结束：云服务器仅需79元/年起 3M带宽

苹果在iOS 18.1+版中增加强制重启功能用来解决被盗/破解等安全问题

[指南] 安装Win11 LTSC 2024后你需要安装的微软增强插件

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

[开源项目] 收集各种AI爬虫名称并将其屏蔽 避免AI抓取你的数据训练模型

[开源项目] 收集各种AI爬虫名称并将其屏蔽避免AI抓取你的数据训练模型