Home Economia A batalha pelos livros3 pode mudar a IA para sempre

A batalha pelos livros3 pode mudar a IA para sempre

Por Humberto Marchezini


Butterick discorda. “Uma ação judicial pode detê-los”, diz ele. “Se prevalecermos.”

Uma coisa com a qual todos os WIRED conversaram poderiam concordar? Todo esse escrutínio cada vez maior dos conjuntos de dados fez com que os grandes atores da IA ​​evitassem a transparência. Meta é o principal exemplo. Ela compartilhou abertamente os conjuntos de dados usados ​​para treinar a primeira versão de seu concorrente ChatGPT, Llama, incluindo o Books3. Agora, não há segredo sobre o que é usado nas versões mais recentes. “Cabe a essas empresas serem opacas quanto às suas fontes”, diz McCarthy. Saber que eles provavelmente enfrentarão ações judiciais se confessarem o uso de material protegido por direitos autorais em seus conjuntos de treinamento de dados é um poderoso impedimento. Isto, por sua vez, tornará mais difícil para os escritores saberem quando seus direitos autorais são potencialmente infringidos.

Neste momento, é cabe às empresas de IA divulgar ou não a origem de seus conjuntos de treinamento. Sem essas informações, é quase impossível para as pessoas provarem que seus dados foram usados, e muito menos pedir que eles sejam removidos. Embora o Parlamento Europeu tenha aprovado um projeto de lei sobre regulamentos de IA que exigiria maior transparência dos dados, esses regulamentos ainda não estão em vigor e outras regiões estão muito atrás.

Esta luta atinge o cerne das divergências muitas vezes cruéis sobre o papel que a IA deveria ter no nosso mundo. A lei dos direitos de autor existe para equilibrar os direitos concedidos aos criadores com o direito colectivo de acesso à informação, pelo menos em teoria. A batalha pelo Books3 é sobre como deveria ser esse equilíbrio na era da IA.

Presser acredita que se a OpenAI tiver acesso a este tipo de conjunto de dados, o público também merece ter acesso a eles. Nessa perspectiva, as tentativas de repressão ao Books3 podem acabar calcificando a indústria, impedindo a entrada de pequenas empresas e pesquisadores sem fazer muito para deter os atuais grandes players.

Pam Samuelson, advogada de direitos autorais que codirige o Centro de Direito e Tecnologia de Berkeley, concorda que uma repressão poderia beneficiar grandes corporações que já utilizam os conjuntos de dados. “Você não pode fazer isso retroativamente”, diz ela. Ela também acha que as regulamentações podem mudar o cenário onde os grandes jogadores se reúnem. Países como Israel e o Japão já adoptaram posições flexíveis em relação aos materiais de formação em IA, pelo que regras mais rigorosas na UE ou nos EUA podem promover o que ela chama de “arbitragem da inovação”, onde os empreendedores de IA migram para as nações mais amigáveis ​​às suas ideias.

O cerne desta luta resume-se a aceitarmos que o treinamento generativo de IA em material protegido por direitos autorais é uma inevitabilidade. Esta é a postura que Stephen King assumiu recentemente após descobrir que seu trabalho está no Books3. “Eu proibiria o ensino (se essa é a palavra) das minhas histórias para computadores? Nem mesmo se eu pudesse. Eu poderia muito bem ser o rei Canuto, proibindo a maré de subir. Ou um ludita tentando impedir o progresso industrial despedaçando um tear a vapor”, ele escreveu.

Os idealistas que querem recuperar o controle dos criadores, como Butterick e Hedrup, ainda não estão dispostos a desistir da luta. Há um movimento para transformar o treinamento generativo em IA em um modelo opcional, onde apenas o trabalho que é de domínio público ou fornecido gratuitamente entra nos conjuntos de dados. “Não se trata apenas de extrair conjuntos de dados da Web sem permissão”, afirma o pesquisador de tecnologia emergente Eryk Salvaggio. Se as empresas de IA forem pressionadas a descartar o trabalho que fizeram com materiais protegidos por direitos autorais e começar de novo, isso certamente mudaria o atual campo de atuação. (Menos certo? Se é remotamente possível.)

Entretanto, já existem esforços provisórios para persuadir grupos de IA generativos a respeitar os desejos das pessoas que desejam manter o seu trabalho fora dos conjuntos de dados. A Spawning, startup dedicada a esse tipo de ferramenta, possui um mecanismo de busca chamado “Have I Been Trained?” que atualmente permite que as pessoas verifiquem se o seu trabalho visual foi usado em conjuntos de dados de treinamento de IA; está planejando adicionar suporte para vídeo, áudio e texto no próximo ano. Ele também oferece uma API que ajuda as empresas a honrar as desativações. Até agora, StabilityAI é um dos principais participantes a adotá-lo, embora o CEO da Spawning, Jordan Meyer, esteja otimista de que empresas como OpenAI e Meta possam um dia embarcar. E Meyer recentemente fez contato com outro potencial colaborador: Shawn Presser.

Afinal, Presser quer ajudar os tipos criativos a sentir que têm algum controle sobre o destino de seu trabalho. “Acho totalmente razoável que as pessoas possam dizer: ‘Ei, não use minhas coisas’”, diz ele. “Isso é uma espécie de princípio básico da Internet.”



Source link

Related Articles

Deixe um comentário