Os editores de notícias argumentaram no ano passado que chatbots de IA como o ChatGPT dependem de artigos protegidos por direitos autorais para impulsionar a tecnologia. Agora, os editores dizem que os desenvolvedores dessas ferramentas usam conteúdo de notícias de forma desproporcional.
A News Media Alliance, um grupo comercial que representa mais de 2.200 editores, incluindo o The New York Times, divulgou pesquisar na terça-feira, o que foi dito mostrou que os desenvolvedores superam os artigos em relação ao conteúdo online genérico para treinar a tecnologia, e que os chatbots reproduzem seções de alguns artigos em suas respostas.
O grupo argumentou que as descobertas mostram que as empresas de IA violam as leis de direitos autorais.
“É uma exacerbação de um problema existente”, disse Danielle Coffey, presidente e executiva-chefe da News Media Alliance, que há anos argumenta que empresas de tecnologia como o Google não compensam de forma justa as organizações de notícias por exibirem seu trabalho em serviços online.
Representantes do Google e da OpenAI, criadora do ChatGPT, não responderam imediatamente aos pedidos de comentários.
A inteligência artificial generativa, a tecnologia por trás dos chatbots, explodiu no mainstream no final do ano passado com o lançamento do ChatGPT, um chatbot que pode responder perguntas ou completar tarefas usando informações digeridas da Internet e de outros lugares. Outras empresas de tecnologia lançaram suas próprias versões desde então.
É impossível saber exatamente quais dados são inseridos nos grandes modelos de aprendizagem porque muitos não confirmaram publicamente o que é usado. Na sua análise, a News Media Alliance comparou conjuntos de dados públicos que se acredita serem usados para treinar os grandes modelos de linguagem mais conhecidos, que sustentam chatbots de IA como o ChatGPT, com um conjunto de dados de código aberto de conteúdo genérico extraído da web.
O grupo descobriu que os conjuntos de dados selecionados usavam conteúdo de notícias de cinco a 100 vezes mais do que o conjunto de dados genérico. Coffey disse que esses resultados mostraram que as pessoas que construíram os modelos de IA valorizavam o conteúdo de qualidade.
O relatório também encontrou casos de modelos que reproduziam diretamente a linguagem usada em artigos de notícias, o que, segundo Coffey, mostrava que cópias do conteúdo dos editores eram retidas para uso por chatbots. Ela disse que o resultado dos chatbots compete com artigos de notícias.
“Isso realmente funciona como um substituto para o nosso próprio trabalho”, disse Coffey, acrescentando: “Você pode ver que nossos artigos foram simplesmente retirados e regurgitados literalmente”.
A News Media Alliance tem submetido as conclusões do relatório do estudo do US Copyright Office sobre IA e leis de direitos autorais.
“Isso demonstra que teríamos um caso muito bom no tribunal”, disse Coffey.
Coffey acrescentou que a News Media Alliance estava explorando ativamente o licenciamento coletivo de conteúdo de seus membros, que incluem algumas das maiores editoras de notícias e revistas do país.
Os executivos da mídia levantaram uma série de preocupações sobre a IA, além do uso de artigos para treinar modelos de linguagem. O tráfego dos motores de busca para sites de notícias poderá diminuir, temem alguns executivos, se os chatbots se tornarem a principal ferramenta de busca. Além disso, muitos trabalhadores da mídia estão preocupado que eles poderiam ser substituídos pela IA