A corrida da IA trouxe consigo questões espinhosas de direitos autorais e propriedade de dados, à medida que as empresas de tecnologia treinam bots como o ChatGPT em textos existentes, mas parece que a Meta deixou isso de lado enquanto trabalhava para integrar essas ferramentas ao Facebook e ao Instagram.
Como revelado pela primeira vez em uma moção apresentada pelos advogados dos romancistas Christopher Golden e Richard Kadrey e da comediante Sarah Silverman, que estão abrindo uma ação coletiva contra Meta por supostamente usar seu trabalho protegido por direitos autorais sem permissão, os funcionários da gigante da tecnologia tiveram conversas francas sobre o potencial de escândalo isso surgiria do aproveitamento de um recurso arriscado: Library Genesis, ou LibGen, uma enorme chamada “biblioteca sombra” de e-books e PDFs para download gratuito que inclui pesquisas e artigos acadêmicos que de outra forma seriam protegidos por acesso pago. Nessas trocas, os engenheiros da Meta identificaram a LibGen como “uma
conjunto de dados que sabemos ser pirateado”, mas indicou que o CEO Mark Zuckerberg aprovou seu uso para treinar a próxima iteração de seu grande modelo de linguagem, Llama.
Agora, sob uma ordem judicial do juiz Vince Chhabria, do Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, os registos desses diálogos internos anteriormente confidenciais foram não lacradoe parece confirmar a decisão de Zuckerberg de dar luz verde à transferência de dados LibGen pirateados e protegidos por direitos autorais para melhorar o Llama – apesar das preocupações sobre uma reação negativa. Em um e-mail para Joelle Pineau, vice-presidente de pesquisa de IA da Meta, Sony Theakanath, diretora de gerenciamento de produtos, escreveu: “Após um encaminhamento prévio para MZ (Mark Zuckerberg), GenAI foi aprovado para usar LibGen para Llama 3 (…) com uma série de mitigações acordadas.” A nota observou que a inclusão do material da LibGen os ajudaria a alcançar determinados benchmarks de desempenho e aludiu a rumores da indústria de que outras empresas de IA, incluindo OpenAI e Mistral AI, estão “usando a biblioteca para seus modelos”. No mesmo e-mail, Theakanath escreveu que sob nenhuma circunstância a Meta divulgaria publicamente o uso do LibGen.
O mesmo e-mail expõe as exposições legais e a potencial atenção negativa da mídia que poderia ocorrer se “partes externas” deduzissem que o tesouro da LibGen fazia parte dos dados de treinamento de Llama: “Direitos autorais e propriedade intelectual são prioridade para legisladores em todo o mundo, inclusive no EUA e UE”, afirma o documento. “Os legisladores dos EUA expressaram preocupação numa audiência recente sobre os desenvolvedores de IA que usam sites piratas para treinamento. Não está claro quais seriam suas ações legislativas se a preocupação se espalhar, mas isso reflete alguns dos lobbys negativos que os detentores de direitos têm feito, relacionados ao nosso litígio sobre este tópico (no sentido de que se trata de conteúdo “roubado” que depois contamina o resultado deste modelo).”
A Meta não retornou imediatamente um pedido de comentário sobre essas comunicações internas.
Em outras partes dos documentos não lacrados, os funcionários da Meta descrevem métodos para processar e filtrar texto da LibGen, a fim de remover indicações “padrão” de direitos autorais, como “ISBN”, “Direitos autorais”, “©” e “Todos os direitos reservados”. O autor de um memorando intitulado “Observations on LibGen-SciMag” (“SciMag” é o catálogo de revistas científicas da biblioteca) relata que a “qualidade do material é alta e os documentos são longos, então estes devem ser ótimos dados para aprender, em particular , para conhecimento altamente especializado!” O mesmo memorando recomenda tentar “remover mais cabeçalhos de direitos autorais e identificadores de documentos” – aparentemente mais uma evidência de que o Meta estava tentando encobrir seus rastros enquanto explorava esse cache de texto técnico que não tinha permissão para usar.
Outras mensagens reveladoras mostram a equipe de pesquisa de IA da Meta e executivos discutindo os melhores métodos para obter o conjunto de dados LibGen, além de torrent diretamente ou download via compartilhamento de arquivos peer-to-peer, dos endereços IP da empresa. Em alguns momentos, os funcionários se perguntaram se isso era permitido. “Acho que baixar e enviar torrents de um laptop corporativo não parece certo”, escreveu um engenheiro em abril de 2023, adicionando um emoji de rosto sorridente. (Um e-mail posterior reconheceu que os dados do “SciMag” haviam de fato sido torrentados.) E em outubro de 2023, mensagens para um pesquisador que trabalhava no Llama, Ahmad Al-Dahle, vice-presidente da GenAI da Meta, disse que havia “aberto o caminho para usar ” LibGen estava “empurrando desde o topo” para incorporar outros conjuntos de dados para melhorar o Llama e vencer a corrida da IA.
Não é de admirar que a Meta tenha lutado contra a revelação e a não redação dessas discussões quando o período de descoberta no processo de direitos autorais chegou ao fim: elas parecem prejudicar o argumento da empresa de que “usar texto para modelar estatisticamente a linguagem e gerar expressão original” se enquadra na rubrica legal de uso justo, ou o uso limitado permitido de material protegido por direitos autorais sem permissão, como seus advogados colocaram em uma moção para encerrar o processo. Além disso, os advogados dos demandantes registaram no seu último processo que o próprio Zuckerberg, num depoimento recente, disse que o tipo de pirataria descrito na sua última queixa alterada levantaria “muitas bandeiras vermelhas” e “pareceria uma coisa má”.
Claro, Meta, que anunciou terça-feira que cortará o 5 por cento de sua força de trabalho considerado o seu “desempenho mais baixo”, ou cerca de 3.600 trabalhadores, não está sozinho como um gigante do Vale do Silício acusado de desrespeitar (ou contornar) a lei de direitos autorais. Esta ação coletiva pode ser um indicador para o muitos outros ternos em andamento contra empresas de IA em relação à propriedade de fotografias, arte, música, jornalismo, livros e muito mais. Mas enquanto as empresas de tecnologia estiverem procurando avidamente por mais coisas para seus bots replicarem e remixarem, elas sempre dependerão dos criadores de conteúdo original: os seres humanos.