É muito cedo para dizer como será a onda de acordos entre empresas de IA e editores. No entanto, a OpenAI já obteve uma vitória clara: seus rastreadores da web não estão sendo bloqueados pelos principais meios de comunicação no ritmo de antes.
O boom generativo da IA desencadeou uma corrida ao ouro pelos dados – e uma subsequente corrida à protecção de dados (pelo menos para a maioria dos websites de notícias) em que os editores procuraram bloquear os crawlers da IA e evitar que o seu trabalho se transformasse em dados de treino sem consentimento. Quando a Apple lançou um novo agente de IA neste verão, por exemplo, uma série de veículos de notícias importantes rapidamente optaram por não participar do web scraping da Apple usando o Protocolo de Exclusão de Robôs, ou robots.txt, o arquivo que permite aos webmasters controlar bots. Há tantos novos bots de IA em cena que pode ser como brincar de bater na toupeira para acompanhar.
O GPTBot da OpenAI tem o maior reconhecimento de nome e também é bloqueado com mais frequência do que concorrentes como o Google AI. O número de sites de mídia de alto escalão que usam o robots.txt para “proibir” o GPTBot da OpenAI aumentou dramaticamente desde seu lançamento em agosto de 2023 até aquele outono, depois aumentou de forma constante (mas mais gradual) de novembro de 2023 a abril de 2024, de acordo com uma análise de 1.000 meios de comunicação populares da startup de detecção de IA com sede em Ontário IA de originalidade. No auge, a alta foi de pouco mais de um terço dos sites; agora caiu perto de um quarto. Dentro de um grupo menor dos meios de comunicação mais proeminentes, a taxa de bloqueio ainda está acima de 50%, mas caiu em relação aos níveis do início deste ano, de quase 90%.
Mas em maio passado, depois que Dotdash Meredith anunciou um acordo de licenciamento com a OpenAI, esse número caiu significativamente. Em seguida, caiu novamente no final de maio, quando Vox anunciado seu próprio acordo – e novamente em agosto, quando a empresa-mãe da WIRED, Condé Nast, fechou um acordo. A tendência para o aumento do bloqueio parece ter acabado, pelo menos por enquanto.
Essas quedas fazem sentido óbvio. Quando as empresas firmam parcerias e dão permissão para que seus dados sejam usados, elas não são mais incentivadas a bloqueá-los, então elas atualizariam seus arquivos robots.txt para permitir o rastreamento; faça negócios suficientes e a porcentagem geral de sites que bloqueiam rastreadores quase certamente diminuirá. Alguns meios de comunicação desbloquearam os rastreadores da OpenAI no mesmo dia em que anunciaram um acordo, como o The Atlantic. Outros demoraram de alguns dias a algumas semanas, como a Vox, que anunciou sua parceria no final de maio, mas desbloqueou o GPTBot em suas propriedades no final de junho.
Robots.txt não é juridicamente vinculativo, mas funciona há muito tempo como o padrão que rege o comportamento dos rastreadores da web. Durante a maior parte da existência da Internet, as pessoas que administravam páginas da Web esperavam umas das outras que respeitassem o arquivo. Quando uma investigação da WIRED no início deste verão descobriu que a startup de IA Perplexity provavelmente estava optando por ignorar os comandos robots.txt, a divisão de nuvem da Amazon lançou uma investigação para saber se a Perplexity havia violado suas regras. Não é uma boa ideia ignorar o robots.txt, o que provavelmente explica por que tantas empresas proeminentes de IA – incluindo a OpenAI –declarar explicitamente que eles o usem para determinar o que rastrear. O CEO da Originality AI, Jon Gillham, acredita que isso acrescenta urgência extra ao esforço da OpenAI para fazer acordos. “É claro que a OpenAI vê o bloqueio como uma ameaça às suas ambições futuras”, diz Gillham.