웹 인터넷 을 이루는 근간에 존재하는 중요한 rule 로서 robots.txt 가 있는데요. 웹 크롤러는 서로 이 rule 을 지키면서 현재의 웹이 있을 수 있었는데...
AI 크롤러는 이를 무시하고 있다는 더버지의 기사 입니다.
더버지는 robots.txt 를 일종의 인터넷의 작은 헌법과도 같은 문서라고까지. 이 robots.txt 는 정말 최소한의 선언이구요. 이걸 웹 콘텐츠 퍼블리셔가 제대로 이해하고 활용해도 제대로 본인 콘텐츠를 원하는 방식으로 보호하기란 사실 매우 어렵습니다.
이 기사에서 언급했듯 그동안의 크롤러 bot 은 대부분 검색서비스가 큰 비중을 차지하구요. 웹사이트 저작권자 입장에서는 해당 bot 을 통해 내 웹페이지의 존재를 알리고 검색에 노출되면서 더 많은 방문자를 불러올 수 있으니 굳이 bot 차단을 선언할 필요가 많이 없었어요. 서로 win-win 인 상황이었죠.
하지만 이제 AI 의 등장에 따라 크롤러가 해당 웹사이트 정보를 가져가지만 그러한 웹사이트에 아무런 혜택을 주지 않습니다. 그래서 현재 수많은 세계적인 웹사이트들이 AI 크롤러의 접근 차단을 선언 하고 있습니다. (robots.txt 를 통해서 말이죠)
대표적으로 NYTimes, CNN, TIMES 등 대부분의 언론사 사이트, Medium, Amazon, WikiHow, Facebook, Pinterest 등 사실상 메이저 급 사이트들은 대부분 google과 openai 를 차단하고 있는 상황..
그런데 AI 봇은 robots.txt 를 제대로 지키지 않는 경우가 많습니다. 또한 robots.txt 방식이 현재는 "AI Bot 이면 접근 금지" 라고 선언할 수 없는 문제도 있습니다. 그래서 구글이 리드해서 이 프로토콜 개선을 진행하고 있는 것이구요. 이제는 크롤러에 대한 접근 의도를 보다 명확히 개선할 때가 되었습니다.
저는 한편으로는 이미 많은 AI 회사들은 일단 열심히 크롤링하고 있는 지금의 상황에서 이 크롤러 차단 접근방법이 보다 개선되어서 웹 생태계에 자리잡을 때 즈음이면 그 이후 뛰어드는 신생 AI 회사입장에서는 꽤나 사다리 걷어차기와 같은 효과로 작용할 것 같기도.. ㅠ
웹 인터넷 을 이루는 근간에 존재하는 중요한 rule 로서 robots.txt 가 있는데요. 웹 크롤러는 서로 이 rule 을 지키면서 현재의 웹이 있을 수 있었는데... AI 크롤러는 이를 무시하고 있다는 더버지의 기사 입니다. 더버지는 robots.txt 를 일종의 인터넷의 작은 헌법과도 같은 문서라고까지. 이 robots.txt 는 정말 최소한의 선언이구요. 이걸 웹 콘텐츠 퍼블리셔가 제대로 이해하고 활용해도 제대로 본인 콘텐츠를 원하는 방식으로 보호하기란 사실 매우 어렵습니다. 이 기사에서 언급했듯 그동안의 크롤러 bot 은 대부분 검색서비스가 큰 비중을 차지하구요. 웹사이트 저작권자 입장에서는 해당 bot 을 통해 내 웹페이지의 존재를 알리고 검색에 노출되면서 더 많은 방문자를 불러올 수 있으니 굳이 bot 차단을 선언할 필요가 많이 없었어요. 서로 win-win 인 상황이었죠. 하지만 이제 AI 의 등장에 따라 크롤러가 해당 웹사이트 정보를 가져가지만 그러한 웹사이트에 아무런 혜택을 주지 않습니다. 그래서 현재 수많은 세계적인 웹사이트들이 AI 크롤러의 접근 차단을 선언 하고 있습니다. (robots.txt 를 통해서 말이죠) 대표적으로 NYTimes, CNN, TIMES 등 대부분의 언론사 사이트, Medium, Amazon, WikiHow, Facebook, Pinterest 등 사실상 메이저 급 사이트들은 대부분 google과 openai 를 차단하고 있는 상황.. 그런데 AI 봇은 robots.txt 를 제대로 지키지 않는 경우가 많습니다. 또한 robots.txt 방식이 현재는 "AI Bot 이면 접근 금지" 라고 선언할 수 없는 문제도 있습니다. 그래서 구글이 리드해서 이 프로토콜 개선을 진행하고 있는 것이구요. 이제는 크롤러에 대한 접근 의도를 보다 명확히 개선할 때가 되었습니다. 저는 한편으로는 이미 많은 AI 회사들은 일단 열심히 크롤링하고 있는 지금의 상황에서 이 크롤러 차단 접근방법이 보다 개선되어서 웹 생태계에 자리잡을 때 즈음이면 그 이후 뛰어드는 신생 AI 회사입장에서는 꽤나 사다리 걷어차기와 같은 효과로 작용할 것 같기도.. ㅠ
The rise and fall of robots.txt
As unscrupulous AI companies crawl for more and more data, the basic social contract of the web is falling apart.