热门资讯

GitHub实施更严格的风控规则阻止中文用户访问疑似是为了反爬虫和反抓取

互联网来源：蓝点网 2025-05-01 09:59:31

早前 GitHub 因为失误部署了屏蔽所有中国 IP 地址的规则，中国 IP 地址访问时会出现禁止访问提示，随后 GitHub 更新规则并解释是部署错误，更新规则后中国 IP 地址可以重新访问。

如果之前是失误那现在肯定就是故意的了，GitHub 部署的新规则会对用户语言进行检查，如果用户使用的是中文 (仅限 zh_CN) 则可能会触发限制而被限制访问，不过从情况来看 GitHub 应该是为了反爬虫的 (例如某 SDN 无差别拉取 GitHub 上的项目搬到自家平台)。

从测试情况来看 GitHub 将多个条件整合用来触发限制，例如首先检查 GitHub 的常规规则 (包括黑名单 IP 和 UA)，然后检测 IP 地址质量，以上两个条件全部通过后再检查第三个条件，也就是浏览器请求头的语言部分是否包含 zh_CN，如果检测到用户使用的中文则会返回错误。

也就是说 GitHub 并没有针对特定区域的 IP 进行封禁，如果用户 IP 质量没问题的话则不会触发语言检测，因此如果用户使用企业代理软件访问 GitHub 的话就可能因为 IP 地址质量差 (脏 IP) 而触发语言检测。

从这些情况来看 GitHub 大概率是为了反爬虫和反抓取，目前大量 AI 爬虫对 GitHub 疯狂抓取用来训练模型，这种抓取行为不仅会给 GitHub 服务器造成负担，也会浪费大量流量造成 GitHub 成本增加。

如果用户并非爬虫并且访问受到影响，那也可以进行针对性的解决：

1. 简单方法就是直接修改请求头将语言修改为 en_US 等其他未被限制的语言

2. 更换质量更好的 IP 地址避免触发风控，当然更换 IP 地址可能会增加潜在使用成本

不过针对语言的检测很容易被绕过，接下来 GitHub 很有可能会观察情况并对修改语言的行为进行检测，毕竟反爬虫是个长期工作，GitHub 也只能根据爬虫的情况进行针对性的策略调整实现封禁。

延伸阅读

OpenAI宣布将o3模型调用价格下调80% 每百万输出从40美元降低至8美元

2025 年 4 月 OpenAI 发布推理模型 o3，该模型在多种基准测试中都取得最佳成绩，模型还支持使用外部工具例如网页浏览和使用 Python 解释器等。尽管该模型在性能上表现不俗但 API 调
OpenAI推出旗舰推理模型o3-pro 在各方面全面提升且表现优异附API价格

OpenAI 日前发布该公司推理模型中的新成员 o3-pro，该模型可以利用更多计算资源进行更加深入地思考并持续提供更加精准的回答。o3-pro 在数学、科学和编程方面的表现都非常优异，因此 Open
知名网络论坛Reddit起诉Anthropic指控其未获得许可抓取内容训练AI

已经成功上市的 Reddit 论坛目前一大收入来源就是将内容授权给 AI 公司获取报酬，已经与 Reddit 签订协议获取数据的包括谷歌和 OpenAI，当然也有公司尝试悄悄抓取数据而不付钱。Redd

关注公众号：拾黑（shiheibook）了解更多

友情链接：

*文章为作者独立观点，不代表文娱排行榜立场

本文由 bonnybb发表，转载此文章须经作者同意，并请附上出处( 文娱排行榜 )及本页链接。

原文链接 https ://www.yaorank.com/news/net/32818.html

AI GitHub 人工智能抓取爬虫蓝点网