Cloudflare推出AI迷宫功能 通过生成海量无关内容将爬虫放进迷宫里避免抓取网站
网络服务提供商 Cloudflare 此前已经推出人工智能爬虫识别和拦截程序,避免主要目的是抓取数据的 AI 爬虫通过高频次抓取浪费网站带宽和硬件资源,也可以避免因为 AI 爬虫高频次抓取影响网站的正常运营。
但很多 AI 爬虫都伪装成正常的客户端 UA 进行抓取,所以仅仅靠爬虫自己携带的 UA 难以判断是否是爬虫以及能否成功拦截,所以 Cloudflare 在此基础上推出名为 AI Labyrinth 的新功能。
这个新功能可以称作是 AI 迷宫,其主要功能是通过人工智能生成海量无关内容,在检测到存在异常的爬虫时,就将爬虫引导到这个人工智能生成的蜜罐中,这些内容与网站无关,借此消耗这些爬虫的资源。
统计数据显示在 2024 年秋季 Facebook 排名前 20 的帖子中有 4 篇是 AI 生成的,Medium 平台大约有 47% 的内容是 AI 生成的,而 Cloudflare 每天要收到 AI 爬虫发出的超过 500 亿个请求。
为了解决被 AI 爬虫浪费的服务器资源,Cloudflare 创建这个 AI 迷宫功能算是以毒攻毒,AI 爬虫主要想要抓取人类撰写的数据来训练 AI,Cloudflare 则只给这些爬虫投喂 AI 生成的内容。
AI 迷宫的工作原理是这样的:
Cloudflare 使用 Workers AI 和开源模型来创建海量有关不同主题的独特 HTML 页面,这些内容页面通过预生成管道提前生成并存储在 Cloudflare R2 存储库中。
但为了避免虚假内容污染 AI 并造成虚假内容在互联网上传播,Cloudflare 给 AI 爬虫投喂的数据也是真实并且与科学事实相关,只是与被抓取的网站不相关或者不是专有的。
防止影响 SEO 和真人访问:
Cloudflare 生成的页面通过技术手段进行隐藏,首先这些内容绝对不会被真人访问到,其次 Cloudflare 做好元数据用来禁止真正的搜索引擎爬虫抓取,因此也不会影响网站正常的 SEO。
当检测到异常的抓取时 Cloudflare 才会动用 AI 迷宫并将爬虫引导到迷宫中,已识别且被网站允许的 AI 爬虫以及搜索引擎的爬虫都可以正常抓取内容。
目前 AI 迷宫功能已经面向所有用户开放,无论是否付费都可以开启,具体路径是 Cloudflare 控制台、网站、安全性、自动程序、AI Labyrinth。
即将结束:腾讯云 2025 年春季活动,境外服务器仅需 99 元/年,续费同价、不限新老用户,部分服务器 CN2GIA 线路。
-
OpenAI宣布将o3模型调用价格下调80% 每百万输出从40美元降低至8美元
2025 年 4 月 OpenAI 发布推理模型 o3,该模型在多种基准测试中都取得最佳成绩,模型还支持使用外部工具例如网页浏览和使用 Python 解释器等。尽管该模型在性能上表现不俗但 API 调
-
OpenAI推出旗舰推理模型o3-pro 在各方面全面提升且表现优异 附API价格
OpenAI 日前发布该公司推理模型中的新成员 o3-pro,该模型可以利用更多计算资源进行更加深入地思考并持续提供更加精准的回答。o3-pro 在数学、科学和编程方面的表现都非常优异,因此 Open
-
知名网络论坛Reddit起诉Anthropic指控其未获得许可抓取内容训练AI
已经成功上市的 Reddit 论坛目前一大收入来源就是将内容授权给 AI 公司获取报酬,已经与 Reddit 签订协议获取数据的包括谷歌和 OpenAI,当然也有公司尝试悄悄抓取数据而不付钱。Redd
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

随时掌握互联网精彩
- 小米首款小折叠!小米MIX Flip海外上市:12+512GB售价1299欧元
- 轩辕剑群侠录(手游电脑版) 1.0.4463.123最新版本2022下载地址
- 垃圾文件清理工具 1.0最新版本2022下载地址
- 女模特不满成绩扔鞋砸裁判 官方通报
- 王者之心2诛仙装备攻略介绍
- 真龙主宰 1.0.0.1最新版本2022下载地址
- 萌颜相机app v1.8.6最新版本2022下载地址
- 美悦陪练app v1.0最新版本2022下载地址
- 冰火战纪(手游电脑版) 11.0.16777.224最新版本2022下载地址
- 富绅掌怡购app v1.1最新版本2022下载地址
- 无双赵子龙iOS版 V3.0最新版本2022下载地址
- 鼎丰服装鞋帽进销存系统 14.5最新版本2022下载地址