ÓO cofundador da penAI, Ilya Sutskever, causou sensação em novembro, quando sugerido que os avanços na IA estão a abrandar, explicando que a simples expansão dos modelos de IA já não proporcionava ganhos de desempenho proporcionais.
Os comentários de Sutskever vieram na sequência de relatórios em A informação e Bloomberg que o Google e a Anthropic também estavam enfrentando desacelerações semelhantes. Isto levou a um aceno de artigos declarando que IA o progresso atingiu um impasse, dando mais credibilidade a um sentimento cada vez mais difundido de que as capacidades do chatbot não melhoraram significativamente desde que a OpenAI lançou o GPT-4 em março de 2023.
Em 20 de dezembro, a OpenAI anunciou o3, seu modelo mais recente, e relatado novo desempenho de última geração em vários dos benchmarks técnicos mais desafiadores existentes, em muitos casos melhorando a pontuação anterior em pontos percentuais de dois dígitos. Acredito que o3 sinaliza que estamos em um novo paradigma do progresso da IA. E François Chollet, cocriador do proeminente benchmark ARC-AGI, que alguns consideram um cético em relação ao dimensionamento da IA, escreve que o modelo representa um “avanço genuíno”.
No entanto, nas semanas após a OpenAI anunciar o3, muitos mainstream sites de notícias não fizeram menção ao novo modelo. Na época do anúncio, os leitores encontrariam manchetes no Jornal de Wall Street, COM FIOe o New York Times sugerindo que a IA estava realmente desacelerando. A resposta silenciosa da mídia sugere que há um abismo crescente entre o que os especialistas em IA estão vendo e o que é dito ao público.
Na verdade, o progresso da IA não estagnou – apenas se tornou invisível para a maioria das pessoas.
Automatizando pesquisas nos bastidores
Primeiro, os modelos de IA estão cada vez melhores na resposta a questões complexas. Por exemplo, em junho de 2023, o melhor modelo de IA mal marcou melhor que o acaso no conjunto mais difícil de “À prova do Google“Questões científicas em nível de doutorado. Em setembro, o modelo o1 da OpenAI se tornou o primeiro sistema de IA a superar as pontuações de especialistas no domínio humano. E em dezembro, o modelo o3 da OpenAI melhorou nessas pontuações em mais 10%.
No entanto, a grande maioria das pessoas não notará esse tipo de melhoria porque não estão fazendo trabalhos científicos de pós-graduação. Mas será um grande negócio se a IA começar a acelerar significativamente a investigação e o desenvolvimento nos campos científicos, e há algumas evidências de que tal aceleração já está a acontecer. Um inovador papel por Aidan Toner-Rodgers, do MIT, descobriu recentemente que cientistas de materiais auxiliados por sistemas de IA “descobrem 44% mais materiais, resultando em um aumento de 39% nos registros de patentes e em um aumento de 17% na inovação de produtos downstream”. Ainda assim, 82% dos cientistas relatam que as ferramentas de IA reduziram a sua satisfação no trabalho, citando principalmente a “subutilização de competências e a redução da criatividade”.
Mas o Santo Graal para as empresas de IA é um sistema que pode automatizar a própria investigação em IA, permitindo teoricamente uma explosão em capacidades que impulsiona o progresso em todos os outros domínios. As recentes melhorias feitas nesta frente podem ser ainda mais dramáticas do que as feitas nas ciências exatas.
Na tentativa de fornecer testes mais realistas das capacidades de programação de IA, os pesquisadores desenvolvido Banco SWEum benchmark que avalia quão bem os agentes de IA podem corrigir problemas abertos reais em softwares de código aberto populares. O pontuação máxima no valor de referência verificado há um ano era de 4,4%. A pontuação máxima hoje está mais próxima de 72%alcançado pelo modelo o3 da OpenAI.
Esta melhoria notável – desde a dificuldade até mesmo com as soluções mais simples até o tratamento bem-sucedido de quase três quartos do conjunto de tarefas de codificação do mundo real – sugere que os sistemas de IA estão ganhando rapidamente a capacidade de compreender e modificar projetos de software complexos. Isto marca um passo crucial para automatizar partes significativas da pesquisa e desenvolvimento de software. E esse processo parece estar bem encaminhado. CEO do Google recentemente contado investidores que “mais de um quarto de todo o novo código do Google é gerado por IA”.
Grande parte deste progresso foi impulsionado por melhorias no “andaime“construído em torno de modelos de IA como o GPT-4o, que aumentam sua autonomia e capacidade de interagir com o mundo. Mesmo sem melhorias adicionais nos modelos básicos, uma estrutura melhor pode tornar a IA significativamente mais capaz e agente: uma palavra que os pesquisadores usam para descrever um modelo de IA que podem agir de forma autônoma, tomar decisões e se adaptar às mudanças nas circunstâncias, são frequentemente fornecidas aos agentes de IA. a habilidade usar ferramentas e realizar ações em várias etapas em nome do usuário. Transformar chatbots passivos em agentes só tornar-se um núcleo foco da indústria no ano passado e o progresso foi rápido.
Talvez o melhor confronto direto entre engenheiros de elite e agentes de IA tenha sido publicado em novembro pelo METR, um grupo líder em avaliações de IA. Os pesquisadores criaram tarefas de aprendizado de máquina novas, realistas, desafiadoras e não convencionais para comparar especialistas humanos e agentes de IA. Enquanto os agentes de IA venceram os especialistas humanos em duas horas de trabalho equivalente, o engenheiro mediano venceu em escalas de tempo mais longas.
Mas mesmo depois de oito horas, os melhores agentes de IA ainda conseguiram derrotar bem mais de um terço dos especialistas humanos. Os pesquisadores do METR enfatizou que houve um “esforço relativamente limitado para configurar agentes de IA para terem sucesso nas tarefas, e esperamos fortemente que uma melhor elicitação resulte em um desempenho muito melhor nessas tarefas”. Eles também destacaram o quanto os agentes de IA eram mais baratos do que os seus homólogos humanos.
O problema da inovação invisível
As melhorias ocultas na IA durante o último ano podem não representar um salto tão grande no desempenho geral como o pular entre GPT-3.5 e GPT-4. E é possível que nunca mais vejamos um salto tão grande. Mas a narrativa de que não houve muito progresso desde então é minada por avanços significativos que passam despercebidos. E este progresso invisível poderá deixar-nos perigosamente despreparados para o que está por vir.
O grande risco é que os decisores políticos e o público ignorem este progresso porque não conseguem ver as melhorias em primeira mão. Os usuários comuns ainda encontrarão alucinações frequentes e falhas básicas de raciocínio, que também são amplificadas triunfantemente pelos céticos da IA. Estes erros óbvios tornam fácil descartar o rápido avanço da IA em domínios mais especializados.
Há uma visão comum no mundo da IA, partilhada tanto pelos proponentes como pelos opositores da regulamentação, de que o governo federal dos EUA não imporá barreiras de protecção à tecnologia, a menos que haja um grande incidente de galvanização. Tal incidente, muitas vezes chamado de “tiro de alerta”, pode ser inócuo, como uma demonstração confiável de capacidades perigosas de IA que não prejudica ninguém. Mas também poderá assumir a forma de um grande desastre causado ou possibilitado por um sistema de IA, ou de uma sociedade abalada por uma devastadora automatização do trabalho.
O pior cenário é que os sistemas de IA se tornem assustadoramente poderosos, mas nenhum tiro de advertência seja disparado (ou atendido) antes que um sistema escape permanentemente do controle humano e age decisivamente contra nós.
No mês passado, a Apollo Research, um grupo de avaliações que trabalha com as principais empresas de IA, publicado evidências de que, nas condições certas, os modelos de IA mais capazes foram capazes de tramar contra seus desenvolvedores e usuários. Quando recebiam instruções para seguir firmemente um objetivo, os sistemas por vezes tentavam subverter a supervisão, falsificar o alinhamento e ocultar as suas verdadeiras capacidades. Em casos raros, os sistemas envolveram-se em comportamentos enganosos sem serem cutucados pelos avaliadores. Quando os pesquisadores inspecionaram o raciocínio dos modelos, eles encontrado que os chatbots sabiam o que estavam fazendo, usando linguagem como “sabotagem, mentira, manipulação”.
Isto não quer dizer que estes modelos estejam prestes a conspirar contra a humanidade. Mas tem havido uma tendência perturbadora: à medida que os modelos de IA se tornam mais inteligentes, melhoram seguindo instruções e entendendo a intenção seguem suas diretrizes, mas também ficam melhores em enganar. Modelos mais inteligentes também podem ter maior probabilidade de se envolver em comportamentos perigosos. Por exemplo, um dos maiores do mundo mais capaz modelos, o1 da OpenAI, estava longe mais provável dobrar a mentira depois de ser pego pelos avaliadores da Apollo.
Receio que o fosso entre a face pública da IA e as suas verdadeiras capacidades esteja a aumentar. Embora os consumidores vejam chatbots que ainda não consigo contar as letras em “morango”, os pesquisadores estão documentando sistemas que podem corresponder à experiência de nível de doutorado e se envolver em fraudes sofisticadas. Esta desconexão crescente torna mais difícil para o público e os decisores políticos avaliar o progresso real da IA – progresso que eles terão de compreender para governá-la adequadamente. O risco não é que o desenvolvimento da IA tenha estagnado; é que estamos perdendo a capacidade de rastrear para onde ele está indo.