Home Saúde A IA está prestes a ficar sem dados? A história do petróleo diz que não

A IA está prestes a ficar sem dados? A história do petróleo diz que não

Por Humberto Marchezini


EUa bolha da IA ​​está prestes a estourar? A cada dia que os preços das ações da campeã de semicondutores Nvidia e das chamadas gigantes da tecnologia “Fab Five” (Microsoft, Apple, Alphabet, Amazon e Meta) não conseguem recuperar seus picos de meio de ano, mais pessoas fazem essa pergunta.

Não seria a primeira vez na história financeira que o hype em torno de uma nova tecnologia levaria os investidores a elevar o valor das empresas que a vendiam a patamares insustentáveis ​​— e então recuarem. A incerteza política em torno da eleição dos EUA está aumentando a probabilidade de uma liquidação, enquanto Donald Trump expressa seus ressentimentos persistentes contra as empresas Big Tech e sua ambivalência em relação a Taiwan, onde os semicondutores essenciais para a inteligência artificial são feitos principalmente.

A questão mais profunda é se a IA pode entregar o valor impressionante de longo prazo que a internet tem. Se você investisse na Amazon no final de 1999, você teria caído mais de 90% no início de 2001. Mas você estaria subindo mais de 4.000% hoje.

Um coro de céticos agora em voz alta reivindicações que o progresso da IA ​​está prestes a bater a tijolo parede. Modelos como GPT-4 e Gemini já coletaram a maior parte dos dados da internet para treinamento, segundo a história, e não terão os dados necessários para se tornarem muito mais inteligentes.

Consulte Mais informação: 4 gráficos que mostram por que o progresso da IA ​​dificilmente diminuirá

No entanto, a história nos dá uma forte razão para duvidar dos céticos. De fato, achamos que eles provavelmente acabarão no mesmo lugar infeliz daqueles que em 2001 lançaram calúnias sobre o futuro da livraria online de Jeff Bezos.

A revolução da IA ​​generativa deu vida nova ao aforismo pronto para o TED “dados são o novo petróleo”. Mas quando os influenciadores do LinkedIn repetem aquela citação de 2006 do empreendedor britânico Clive Humby, a maioria deles não está entendendo. Dados são como petróleo, mas não apenas no sentido fácil de que cada um é o recurso essencial que define uma era tecnológica. Como observa o futurista Ray Kurzweil, a chave é que tanto dados quanto petróleo variam muito na dificuldade — e, portanto, no custo — de extraí-los e refiná-los.

Parte do petróleo é óleo cru leve logo abaixo do solo, que jorra se você cavar um buraco fundo o suficiente na terra. Outro petróleo fica preso bem abaixo da terra ou trancado em rochas de xisto sedimentares, e requer perfuração profunda e fraturamento elaborado ou pirólise de alta temperatura para ser utilizável. Quando os preços do petróleo estavam baixos antes do embargo de 1973, apenas as fontes mais baratas eram economicamente viáveis ​​para exploração. Mas durante períodos de preços altos ao longo das décadas desde então, os produtores foram incentivados a usar meios cada vez mais caros para desbloquear mais reservas.

A mesma dinâmica se aplica aos dados, que afinal são o plural do latim dado. Alguns dados existem em conjuntos de dados limpos e organizados — rotulados, anotados, verificados e gratuitos para download em um formato de arquivo comum. Mas a maioria dos dados está enterrada mais profundamente. Os dados podem estar em páginas manuscritas mal digitalizadas; podem consistir em terabytes de vídeo ou áudio bruto, sem nenhuma etiqueta em recursos relevantes; podem estar cheios de imprecisões e erros de medição ou distorcidos por vieses humanos. E a maioria dos dados não está na internet pública.

Consulte Mais informação: O preço bilionário da construção de IA

Um estimado 96% para 99,8% de todos os dados on-line são inacessíveis aos mecanismos de busca — por exemplo, mídia com acesso pago, bancos de dados corporativos protegidos por senha, documentos legais e registros médicos, além de um volume exponencialmente crescente de armazenamento em nuvem privada. Além disso, a grande maioria do material impresso ainda nunca foi digitalizada — cerca de 90% para coleções de alto valor, como a Instituto Smithsoniano e Arquivos Nacionais do Reino Unidoe provavelmente uma proporção muito maior em todos os arquivos do mundo.

No entanto, sem dúvida, a maior categoria inexplorada é a de informações que atualmente não são capturadas, desde os movimentos das mãos dos cirurgiões na sala de cirurgia até as expressões sutis dos atores em um palco da Broadway.

Na primeira década após grandes quantidades de dados se tornarem a chave para treinar IA de ponta, as aplicações comerciais eram muito limitadas. Portanto, fazia sentido para as empresas de tecnologia coletarem apenas as fontes de dados mais baratas. Mas o lançamento do ChatGPT da Open AI em 2022 mudou tudo. Agora, os titãs da tecnologia do mundo estão presos em uma corrida frenética para transformar avanços teóricos de IA em produtos de consumo que valem bilhões. Muitos milhões de usuários agora pagam cerca de US$ 20 por mês para ter acesso aos modelos premium de IA produzidos pelo Google, OpenAI e Anthropic. Mas isso é ninharia comparado ao valor econômico que será desbloqueado por modelos futuros capazes de executar de forma confiável tarefas profissionais, como redação jurídica, programação de computadores, diagnóstico médico, análise financeira e pesquisa científica.

Os céticos têm razão em dizer que a indústria está prestes a ficar sem barato dados. À medida que modelos mais inteligentes permitem uma adoção mais ampla de IA para casos de uso lucrativos, no entanto, incentivos poderosos impulsionarão a perfuração para fontes de dados cada vez mais caras — cujas reservas comprovadas são ordens de magnitude maiores do que o que foi usado até agora. Isso já está catalisando um novo setor de dados de treinamento, à medida que empresas como Scale AI, Sama e Labelbox se especializam no refinamento digital necessário para tornar os dados menos acessíveis utilizáveis.

Consulte Mais informação: OpenAI usou trabalhadores quenianos por menos de US$ 2 por hora para tornar o ChatGPT menos tóxico

Esta também é uma oportunidade para os proprietários de dados. Muitas empresas e organizações sem fins lucrativos têm montanhas de dados proprietários que estão acumulando poeira hoje, mas que poderiam ser usados ​​para impulsionar a próxima geração de avanços de IA. A OpenAI já gasto centenas de milhões de dólares em licenciamento de dados de treinamento, fechando acordos de sucesso com Shutterstock e a Imprensa associada para acesso aos seus arquivos. Assim como houve especulação em direitos minerais durante os booms anteriores do petróleo, em breve poderemos ver um aumento de corretores de dados encontrando e licenciando dados na esperança de lucrar quando as empresas de IA se recuperarem.

Assim como a disputa geopolítica por petróleo, a competição por dados de alta qualidade também provavelmente afetará a política das superpotências. As leis de privacidade domésticas dos países afetam a disponibilidade de novos dados de treinamento para seus ecossistemas de tecnologia. O Regulamento Geral de Proteção de Dados de 2016 da União Europeia deixa o setor emergente de IA da Europa com uma escalada íngreme para a competitividade internacional, enquanto o estado de vigilância expansivo da China permite que empresas chinesas acessem conjuntos de dados maiores e mais ricos do que podem ser minerados na América. Dados os imperativos militares e econômicos para ficar à frente dos laboratórios de IA chineses, as empresas ocidentais podem ser forçadas a procurar no exterior fontes de dados indisponíveis em casa.

No entanto, assim como a energia alternativa está rapidamente corroendo o domínio dos combustíveis fósseis, novas técnicas de desenvolvimento de IA podem reduzir a dependência da indústria em grandes quantidades de dados. Os principais laboratórios agora estão trabalhando para aperfeiçoar técnicas conhecidas como geração de “dados sintéticos” e “autojogo”, que permitem que a IA crie seus próprios dados de treinamento. E embora os modelos de IA atualmente aprendam várias ordens de magnitude com menos eficiência do que os humanos, à medida que os modelos desenvolvem um raciocínio mais avançado, eles provavelmente serão capazes de aprimorar suas capacidades com muito menos dados.

Há questões legítimas sobre por quanto tempo o recente progresso alucinante da IA ​​pode ser sustentado. Apesar do enorme potencial de longo prazo, a bolha do mercado de curto prazo provavelmente estourará antes que a IA seja inteligente o suficiente para corresponder ao hype escaldante. Mas assim como gerações de previsões de “pico do petróleo” foram frustradas por novos métodos de extração, não devemos apostar em uma quebra da IA ​​devido à escassez de dados.



Source link

Related Articles

Deixe um comentário