Pense em qualquer tópico vagamente relacionado à criação de filhos imaginável, e provavelmente há uma postagem sobre isso no Mumsnet, o fórum de pais do Reino Unido de longa data, extremamente popular e polêmico para mães. Ao longo de sua história de mais de duas décadas, o Mumsnet acumulou um arquivo de mais de seis bilhões de palavras escritas por sua base de usuários altamente engajada, sobre tópicos como fraldas sujas e maridos preguiçosos. (Sem mencionar um discurso maluco sobre golfinhos.)
Nesta primavera, depois que a Mumsnet descobriu que empresas de IA estavam raspando seus dados, a empresa diz que decidiu tentar fechar acordos de licenciamento com alguns dos principais participantes do espaço, incluindo a OpenAI, que inicialmente expressou disposição de explorar um acordo depois que a Mumsnet entrou em contato pela primeira vez. Depois que as negociações com a OpenAI fracassaram, a Mumsnet anunciou em julho sua intenção de prosseguir com uma ação judicial.
De acordo com a Mumsnet, durante essas primeiras conversas, um líder de parceria estratégica da OpenAI disse à empresa que conjuntos de dados com mais de 1 bilhão de palavras eram de interesse da gigante da IA. A liderança da Mumsnet estava animada. “Passamos um bom tempo em um vai e vem com eles”, disse a fundadora e CEO da Mumsnet, Justine Roberts, à WIRED. “Tivemos que assinar alguns NDAs, e eles queriam muitas informações nossas.”
No entanto, mais de um mês depois, a OpenAI disse à Mumsnet que a empresa não estava mais interessada em fazer parcerias naquele momento, de acordo com uma troca de e-mails analisada pela WIRED. Quando perguntado sobre o motivo, o funcionário da OpenAI caracterizou o conjunto de dados de 6 bilhões de palavras da Mumsnet como muito pequeno para garantir um acordo de licenciamento, diz Roberts. Eles também notaram que a OpenAI está interessada principalmente em grandes conjuntos de dados que o público ainda não pode acessar online, e que queria conjuntos de dados que capturassem ampla experiência humana.
Esse sentimento foi ecoado pela empresa quando solicitada a comentar pela WIRED. “Buscamos parcerias para conjuntos de dados em larga escala que refletem a sociedade humana e não buscamos parcerias somente para informações publicamente disponíveis”, diz a porta-voz da OpenAI, Kayla Wood. “Apoiamos a escolha do editor e do criador, oferecendo a eles maneiras de expressar suas preferências sobre como seus sites e conteúdo funcionam com IA em resultados de pesquisa e treinando modelos de base de IA generativa.”
Roberts diz que ficou “irritada” com esse desenvolvimento. Ela lembra que a OpenAI a princípio parecia especialmente interessada no Mumsnet por causa do conteúdo fortemente escrito por mulheres na plataforma. “São dados de conversação de altíssima qualidade”, ela diz. “São 90% de conversação feminina, o que é bem incomum.”
A OpenAI fechou uma série de acordos de licenciamento de dados com veículos de comunicação e plataformas no ano passado, firmando acordos com Mídia Vox, o atlânticoAxel Springer, Tempoe a empresa controladora da WIRED, Condé Nast, bem como plataformas repletas de conteúdo gerado pelo usuário, como o Reddit. (A Automattic, dona do WordPress.com e do Tumblr, também estaria em negociações de licenciamento no início deste ano.) Como os detalhes desses acordos não foram revelados, não está claro qual é o tamanho de seus respectivos corpus.
Quando a WIRED perguntou sobre o tamanho dos conjuntos de dados que ela consideraria para licenciamento comercial, a OpenAI se recusou a compartilhar essa informação. Mas a porta-voz Kayla Wood enfatiza que as parcerias da empresa com editoras são “focadas em exibir seu conteúdo em nossos produtos e direcionar tráfego para eles”.