A corrida para liderar a IA tornou-se uma busca desesperada pelos dados digitais necessários para o avanço da tecnologia. Para obter esses dados, empresas de tecnologia, incluindo OpenAI, Google e Meta, economizaram, ignoraram políticas corporativas e debateram violar a lei, de acordo com um exame do The New York Times.
Na Meta, dona do Facebook e do Instagram, gerentes, advogados e engenheiros discutiram no ano passado a compra da editora Simon & Schuster para adquirir obras longas, de acordo com gravações de reuniões internas obtidas pelo The Times. Eles também conversaram sobre a coleta de dados protegidos por direitos autorais na Internet, mesmo que isso significasse enfrentar ações judiciais. A negociação de licenças com editoras, artistas, músicos e a indústria noticiosa levaria muito tempo, disseram.
Assim como a OpenAI, o Google transcreveu vídeos do YouTube para coletar texto para seus modelos de IA, disseram cinco pessoas com conhecimento das práticas da empresa. Isso potencialmente violou os direitos autorais dos vídeos, que pertencem aos seus criadores.
No ano passado, o Google também ampliou seus termos de serviço. Uma motivação para a mudança, de acordo com membros da equipe de privacidade da empresa e uma mensagem interna vista pelo The Times, foi permitir que o Google pudesse acessar Google Docs disponíveis publicamente, avaliações de restaurantes no Google Maps e outros materiais on-line para obter mais de seus Produtos de IA.
As ações das empresas ilustram como a informação online – notícias, obras de ficção, mensagens em fóruns, artigos da Wikipédia, programas de computador, fotografias, podcasts e clips de filmes – se tornou cada vez mais a força vital da florescente indústria da IA. A criação de sistemas inovadores depende de ter dados suficientes para ensinar as tecnologias a produzir instantaneamente textos, imagens, sons e vídeos que se assemelhem ao que um ser humano cria.