“Um processo chamado aprendizagem por reforço a partir do feedback humano é usado atualmente em todos os modelos de última geração” para ajustar suas respostas, diz Baum. A maioria das empresas de IA pretende criar sistemas que pareçam neutros. Se os humanos que dirigem a IA virem um aumento no conteúdo de direita, mas julgarem que é inseguro ou errado, poderão desfazer qualquer tentativa de alimentar a máquina com uma determinada perspectiva.
A porta-voz da OpenAI, Kayla Wood, diz que na busca por modelos de IA que “representam profundamente todas as culturas, indústrias, ideologias e idiomas”, a empresa usa amplas coleções de dados de treinamento. “Qualquer setor – incluindo notícias – e qualquer site de notícias representa uma pequena fatia dos dados gerais de treinamento e não tem um efeito mensurável no aprendizado e nos resultados pretendidos do modelo”, diz ela.
Lutas pelos Direitos
A desconexão na qual os sites de notícias bloqueiam os rastreadores de IA também pode refletir uma divisão ideológica em matéria de direitos autorais. O New York Times está atualmente processando OpenAI por violação de direitos autorais, argumentando que a coleta de dados do iniciante em IA é ilegal. Outros líderes da grande mídia também veem esta sucata como roubo. O CEO da Condé Nast, Roger Lynch, disse recentemente em uma audiência no Senado que muitas ferramentas de IA foram construídas com “bens roubados”. (A WIRED é propriedade da Condé Nast.) Os chefes da mídia de direita têm estado praticamente ausentes do debate. Talvez eles permitam discretamente a coleta de dados porque endossam o argumento de que a coleta de dados para construir ferramentas de IA é protegida pela doutrina do uso justo?
Para alguns dos nove meios de comunicação de direita contactados pela WIRED para perguntar por que permitiam raspadores de IA, as suas respostas apontaram para uma razão diferente e menos ideológica. O Examinador de Washington não respondeu às perguntas sobre suas intenções, mas começou a bloquear o GPTBot da OpenAI dentro de 48 horas após a solicitação da WIRED, sugerindo que talvez não tivesse conhecimento ou priorizado a opção de bloquear rastreadores da web.
Enquanto isso, o Daily Caller admitiu que sua permissividade em relação aos rastreadores de IA foi um erro simples. “Não apoiamos bots que roubem nossa propriedade. Isso deve ter sido um descuido, mas está sendo corrigido agora”, diz o cofundador e editor do Daily Caller, Neil Patel.
A mídia de direita é influente e notavelmente hábil em aproveitar plataformas de mídia social como o Facebook para compartilhar artigos. Mas estabelecimentos como o Examinador de Washington e o Daily Caller são pequenos e enxutos em comparação com gigantes da mídia estabelecida como O jornal New York Timesque contam com extensas equipes técnicas.
O jornalista de dados Ben Welsh mantém um registro contínuo de sites de notícias que bloqueiam rastreadores de IA da OpenAI, do Google e do projeto Common Crawl, sem fins lucrativos, cujos dados são amplamente usados em IA. Seus resultados descobriram que aproximadamente 53 por cento dos 1.156 editores de mídia pesquisados bloqueiam um desses três bots. O tamanho da sua amostra é muito maior do que o da Originality AI e inclui sites de notícias menores e menos populares, sugerindo que veículos com equipes maiores e maior tráfego têm maior probabilidade de bloquear bots de IA, talvez devido a melhores recursos ou conhecimento técnico.
Pelo menos um site de notícias de tendência direitista está a considerar como poderá aproveitar a forma como os seus principais concorrentes estão a tentar bloquear projetos de IA para combater preconceitos políticos percebidos. “Nossos termos legais proíbem o scraping e estamos explorando novas ferramentas para proteger nossa propriedade intelectual. Dito isto, também estamos explorando maneiras de ajudar a garantir que a IA não acabe com os mesmos preconceitos da imprensa estabelecida”, disse a porta-voz do Daily Wire, Jen Smith. A partir de hoje, o GPTBot e outros bots de IA ainda estavam livres para extrair conteúdo do Daily Wire.
Atualizado às 10h20 ET, 24 de janeiro de 2024, para incluir o número específico dos principais sites de notícias dos quais o Originality AI coletou dados.