A corrida para bloquear os scraping bots da OpenAI está desacelerando

Por Humberto Marchezini outubro 7, 2024

Escrito por Humberto Marchezini outubro 7, 2024

É muito cedo para dizer como será a onda de acordos entre empresas de IA e editores. No entanto, a OpenAI já obteve uma vitória clara: seus rastreadores da web não estão sendo bloqueados pelos principais meios de comunicação no ritmo de antes.

O boom generativo da IA desencadeou uma corrida ao ouro pelos dados – e uma subsequente corrida à protecção de dados (pelo menos para a maioria dos websites de notícias) em que os editores procuraram bloquear os crawlers da IA e evitar que o seu trabalho se transformasse em dados de treino sem consentimento. Quando a Apple lançou um novo agente de IA neste verão, por exemplo, uma série de veículos de notícias importantes rapidamente optaram por não participar do web scraping da Apple usando o Protocolo de Exclusão de Robôs, ou robots.txt, o arquivo que permite aos webmasters controlar bots. Há tantos novos bots de IA em cena que pode ser como brincar de bater na toupeira para acompanhar.

O GPTBot da OpenAI tem o maior reconhecimento de nome e também é bloqueado com mais frequência do que concorrentes como o Google AI. O número de sites de mídia de alto escalão que usam o robots.txt para “proibir” o GPTBot da OpenAI aumentou dramaticamente desde seu lançamento em agosto de 2023 até aquele outono, depois aumentou de forma constante (mas mais gradual) de novembro de 2023 a abril de 2024, de acordo com uma análise de 1.000 meios de comunicação populares da startup de detecção de IA com sede em Ontário IA de originalidade. No auge, a alta foi de pouco mais de um terço dos sites; agora caiu perto de um quarto. Dentro de um grupo menor dos meios de comunicação mais proeminentes, a taxa de bloqueio ainda está acima de 50%, mas caiu em relação aos níveis do início deste ano, de quase 90%.

Mas em maio passado, depois que Dotdash Meredith anunciou um acordo de licenciamento com a OpenAI, esse número caiu significativamente. Em seguida, caiu novamente no final de maio, quando Vox anunciado seu próprio acordo – e novamente em agosto, quando a empresa-mãe da WIRED, Condé Nast, fechou um acordo. A tendência para o aumento do bloqueio parece ter acabado, pelo menos por enquanto.

Essas quedas fazem sentido óbvio. Quando as empresas firmam parcerias e dão permissão para que seus dados sejam usados, elas não são mais incentivadas a bloqueá-los, então elas atualizariam seus arquivos robots.txt para permitir o rastreamento; faça negócios suficientes e a porcentagem geral de sites que bloqueiam rastreadores quase certamente diminuirá. Alguns meios de comunicação desbloquearam os rastreadores da OpenAI no mesmo dia em que anunciaram um acordo, como o The Atlantic. Outros demoraram de alguns dias a algumas semanas, como a Vox, que anunciou sua parceria no final de maio, mas desbloqueou o GPTBot em suas propriedades no final de junho.

Robots.txt não é juridicamente vinculativo, mas funciona há muito tempo como o padrão que rege o comportamento dos rastreadores da web. Durante a maior parte da existência da Internet, as pessoas que administravam páginas da Web esperavam umas das outras que respeitassem o arquivo. Quando uma investigação da WIRED no início deste verão descobriu que a startup de IA Perplexity provavelmente estava optando por ignorar os comandos robots.txt, a divisão de nuvem da Amazon lançou uma investigação para saber se a Perplexity havia violado suas regras. Não é uma boa ideia ignorar o robots.txt, o que provavelmente explica por que tantas empresas proeminentes de IA – incluindo a OpenAI –declarar explicitamente que eles o usem para determinar o que rastrear. O CEO da Originality AI, Jon Gillham, acredita que isso acrescenta urgência extra ao esforço da OpenAI para fazer acordos. “É claro que a OpenAI vê o bloqueio como uma ameaça às suas ambições futuras”, diz Gillham.

Source link

Humberto Marchezini

Post anterior

Para ser uma boa substituta na gravidez, ajuda primeiro ser uma dominadora

Proximo post

A corrida para bloquear os scraping bots da OpenAI está desacelerando

Para ser uma boa substituta na gravidez, ajuda primeiro ser uma dominadora

As especificações reivindicadas do M4 MacBook Pro são provavelmente reais (ish), mesmo que o vídeo não seja

Related Articles

Deixe um comentário Cancelar resposta