cover of episode Open source devs are fighting AI crawlers with cleverness and vengeance

Open source devs are fighting AI crawlers with cleverness and vengeance

2025/4/1
logo of podcast TechCrunch Industry News

TechCrunch Industry News

AI Deep Dive AI Chapters Transcript
People
C
Cloudflare
N
Niccolo Venarandi
Z
Z.I. (IOSO)
Topics
@Niccolo Venarandi : 开源软件开发者由于基础设施更加公开且资源有限,更容易遭受AI爬虫攻击。这使得他们需要付出更多努力来应对这些攻击,并承受更大的风险。 我观察到许多开源项目都面临着类似的问题,其中一些项目甚至不得不暂时封禁整个国家的IP地址以应对AI爬虫的攻击。这凸显了问题的严重性和AI爬虫对开源社区的巨大威胁。 Z.I. (IOSO): 许多AI爬虫无视robots.txt协议,对我的Git服务器发起持续不断的攻击,导致DDoS中断。这些爬虫会伪装身份和IP地址,使得阻止它们变得非常困难。 为了应对这些攻击,我开发了Anubis工具,这是一个反向代理,它通过工作量证明来验证请求是否来自人类,从而有效地阻止了AI爬虫的攻击。Anubis不仅有效地保护了我的服务器,还在开源社区中广受欢迎,这说明许多开发者都面临着同样的问题。 @Drew DeVault : 大型语言模型爬虫对Sourcehut网站造成了严重的性能问题,每周有20%到100%的时间都用来应对这些攻击,并且每周都会经历数十次短暂的中断。 虽然Nepenthes工具有一定的正义感,因为它会向爬虫提供无意义的内容,但Anubis才是对我的网站有效的解决方案。我呼吁大家停止使用和开发大型语言模型等AI工具,但这几乎不可能实现。 @Jonathan Corbett , @Kevin Fenzi : AI爬虫的攻击非常激进,导致我的网站速度变慢,甚至不得不封禁整个国家的IP地址来应对。这说明AI爬虫已经对开源社区造成了严重的威胁,需要采取更有效的措施来应对。

Deep Dive

Chapters
Open-source developers are disproportionately affected by AI web crawlers that ignore the robots.txt protocol. They're fighting back with clever tools and strategies, ranging from reverse proxies to country-wide IP blocks, to counteract the aggressive scraping and potential DDoS attacks.
  • AI crawlers ignore robots.txt, causing issues for open-source projects
  • Open-source projects have fewer resources to combat these attacks
  • Developers are using various methods, including reverse proxies and IP blocking, to fight back

Shownotes Transcript

AI web crawling bots are the cockroaches of the internet, many developers believe. FOSS devs are fighting back in ingenuous, humorous ways.

Learn more about your ad choices. Visit podcastchoices.com/adchoices