As três inovações de IA mais importantes de 2023

EUDe muitas maneiras, 2023 foi o ano em que as pessoas começaram a entender o que a IA realmente é — e o que ela pode fazer. Foi o ano em que os chatbots se tornaram verdadeiramente virais e o ano em que os governos começaram a levar a sério o risco da IA. Esses desenvolvimentos não foram tanto inovações, mas tecnologias e ideias que assumiram o centro das atenções após um longo período de gestação.

Mas também houve muitas inovações. Aqui estão três dos maiores do ano passado:

Multimodalidade

“Multimodalidade” pode parecer jargão, mas vale a pena entender o que significa: é a capacidade de um sistema de IA processar muitos tipos diferentes de dados – não apenas texto, mas também imagens, vídeo, áudio e muito mais.

Este ano foi a primeira vez que o público teve acesso a poderosos modelos de IA multimodais. O GPT-4 da OpenAI foi o primeiro deles, permitindo aos usuários fazer upload de imagens e também de texto. O GPT-4 pode “ver” o conteúdo de uma imagem, o que abre todo tipo de possibilidades, por exemplo perguntar o que fazer para o jantar a partir de uma fotografia do conteúdo da sua geladeira. Em setembro, a OpenAI lançou a capacidade de os usuários interagirem com o ChatGPT por voz e também por texto.

O modelo mais recente do Google DeepMind, Gemini, anunciado em dezembro, também pode trabalhar com imagens e áudio. Um vídeo de lançamento compartilhado pelo Google mostrou o modelo identificando um pato com base em uma linha desenhada em um post-it. No mesmo vídeo, após ver uma imagem de um fio rosa e azul e perguntar o que poderia ser usado para criar, Gêmeos gerou a imagem de um polvo de pelúcia rosa e azul. (O vídeo de marketing parecia mostrar Gemini observando imagens em movimento e respondendo a comandos de áudio em tempo real, mas em uma postagem em seu site, o Google disse que o vídeo havia sido editado por questões de brevidade – e que o modelo estava sendo solicitado usando imagens estáticas, não vídeo e prompts de texto, não de áudio, embora o modelo tenha capacidades de áudio.)

“Acho que o próximo marco no qual as pessoas vão pensar e lembrar é (os sistemas de IA) se tornarem muito mais multimodais”, disse Shane Legg, cofundador do Google DeepMind, em um comunicado. podcast em outubro. “Estamos no início desta transição e quando você realmente começar a digerir muitos vídeos e outras coisas assim, esses sistemas começarão a ter uma compreensão muito mais fundamentada do mundo.” Em entrevista à TIME em novembro, o CEO da OpenAI, Sam Altman, disse que a multimodalidade nos novos modelos da empresa seria uma das principais coisas a serem observadas no próximo ano.

Consulte Mais informação: Sam Altman é o CEO do ano de 2023 da TIME

A promessa da multimodalidade não é apenas que os modelos se tornem mais úteis. É também que os modelos podem ser treinado em novos e abundantes conjuntos de dados – imagens, vídeo, áudio – que contêm mais informações sobre o mundo do que apenas texto. A crença de muitas das principais empresas de IA é que esses novos dados de treinamento se traduzirão em modelos mais capazes ou poderosos. É um passo no caminho, esperam muitos cientistas da IA, em direcção à “inteligência artificial geral”, o tipo de sistema que pode corresponder ao intelecto humano, fazendo novas descobertas científicas e realizando trabalho economicamente valioso.

IA Constitucional

Uma das maiores questões sem resposta em IA é como alinhar isso aos valores humanos. Se estes sistemas se tornarem mais inteligentes e mais poderosos do que os humanos, poderão causar danos incalculáveis à nossa espécie – alguns até dizem extinção total – a menos que, de alguma forma, sejam limitados por regras que coloquem o florescimento humano no seu centro.

O processo que OpenAI usou para alinhar O ChatGPT (para evitar os comportamentos racistas e sexistas dos modelos anteriores) funcionou bem – mas exigiu uma grande quantidade de trabalho humano, através de uma técnica conhecida como “aprendizado por reforço com feedback humano”, ou RLHF. Os avaliadores humanos avaliariam as respostas da IA e dariam a ela o equivalente computacional de uma guloseima canina se a resposta fosse útil, inofensiva e compatível com a lista de regras de conteúdo da OpenAI. Ao recompensar a IA quando ela era boa e puni-la quando era ruim, a OpenAI desenvolveu um chatbot eficaz e relativamente inofensivo.

Mas como o processo RLHF depende fortemente do trabalho humano, há um grande ponto de interrogação sobre a sua escalabilidade. É caro. Está sujeito a preconceitos ou erros cometidos por avaliadores individuais. Torna-se mais sujeito a falhas quanto mais complicada for a lista de regras. E parece improvável que funcione para sistemas de IA que são tão poderosos que começam a fazer coisas que os humanos não conseguem compreender.

IA constitucional – descrita pela primeira vez por pesquisadores do principal laboratório de IA Antrópico em dezembro de 2022 papel—tenta resolver estes problemas, aproveitando o facto de os sistemas de IA serem agora suficientemente capazes para compreender a linguagem natural. A ideia é bastante simples. Primeiro, você escreve uma “constituição” que estabelece os valores que você gostaria que sua IA seguisse. Em seguida, você treina a IA para pontuar as respostas com base em quão alinhadas elas estão com a constituição e, em seguida, incentiva o modelo a produzir respostas com pontuação mais alta. Em vez de aprendizagem por reforço com feedback humano, é aprendizagem por reforço com Feedback de IA. “Esses métodos tornam possível controlar o comportamento da IA com mais precisão e com muito menos rótulos humanos”, escreveram os pesquisadores da Anthropic. A IA constitucional foi usada para alinhar Claude, a resposta de 2023 da Anthropic ao ChatGPT. (Os investidores na Anthropic incluem a Salesforce, onde o copresidente e proprietário da TIME, Marc Benioff, é CEO.)

“Com a IA constitucional, você escreve explicitamente as premissas normativas com as quais seu modelo deve abordar o mundo”, disse Jack Clark, chefe de política da Anthropic, à TIME em agosto. “Então o modelo está treinando nisso.” Ainda existem problemas, como a dificuldade de garantir que a IA entendeu tanto a letra quanto o espírito das regras (“você está empilhando suas fichas em um modelo de IA grande e opaco”, diz Clark), mas a técnica é uma adição promissora a um campo onde novas estratégias de alinhamento são poucas e raras.

É claro que a IA Constitucional não responde à questão de cujo os valores que a IA deve estar alinhada. Mas a Antthropic está experimentando democratizar essa questão. Em outubro, o laboratório realizou um experimento que pediu a um grupo representativo de 1.000 americanos que ajudasse a escolher regras para um chatbot e descobriu que, embora houvesse alguma polarização, ainda era possível redigir uma constituição viável com base nas declarações que o grupo chegou a um consenso sobre. Experiências como esta podem abrir a porta para um futuro onde as pessoas comuns terão muito mais voz sobre como a IA é governada, em comparação com hoje, quando um pequeno número de executivos de Silicon Valley escreve as regras.

Texto para vídeo

Um resultado notável dos bilhões de dólares investidos em IA este ano foi o rápido aumento das ferramentas de texto para vídeo. No ano passado, as ferramentas de conversão de texto em imagem mal haviam saído da infância; agora, existem várias empresas que oferecem a capacidade de transformar frases em imagens em movimento com níveis de precisão cada vez mais refinados.

Uma dessas empresas é a Runway, uma startup de vídeo de IA com sede no Brooklyn que deseja tornar a produção de filmes acessível a qualquer pessoa. Seu modelo mais recente, Gen-2, permite aos usuários não apenas gerar um vídeo a partir de texto, mas também alterar o estilo de um vídeo existente com base em um prompt de texto (por exemplo, transformar uma cena de caixas de cereal em uma mesa em uma paisagem urbana noturna ,) em um processo que ele chama de vídeo para vídeo.

“Nossa missão é construir ferramentas para a criatividade humana”, disse o CEO da Runway, Cristobal Valenzuela, à TIME em maio. Ele reconhece que isto terá um impacto nos empregos nas indústrias criativas, onde as ferramentas de IA estão rapidamente a tornar obsoletas algumas formas de conhecimento técnico, mas acredita que o mundo do outro lado vale a pena a reviravolta. “Nossa visão é um mundo onde a criatividade humana seja ampliada e aprimorada, e tem menos a ver com a arte, o orçamento, as especificações técnicas e o conhecimento que você possui, e mais com suas ideias.” (Os investidores na Runway incluem a Salesforce, onde o copresidente e proprietário da TIME, Marc Benioff, é CEO.)

Outra startup no espaço de texto para vídeo é a Pika AI, que está sendo usada para criar milhões de novos vídeos a cada semana. Administrada por dois que abandonaram Stanford, a empresa foi lançada em abril, mas já garantiu um financiamento que a avalia entre US$ 200 e US$ 300 milhões, de acordo com Forbes. Dirigidas não a cineastas profissionais, mas ao usuário em geral, ferramentas gratuitas como o Pika estão tentando transformar o cenário de conteúdo gerado pelo usuário. Isso poderá acontecer já em 2024 – mas as ferramentas de conversão de texto em vídeo são computacionalmente caras, por isso não se surpreenda se começarem a cobrar pelo acesso quando o capital de risco acabar.

Source link

inteligência artificial

As três inovações de IA mais importantes de 2023

Multimodalidade

IA Constitucional

Texto para vídeo

Os 15 melhores filmes de 2023 – e onde assisti-los

Pesquisadores trabalhando para permitir que ‘Apple GPT’ rode no iPhone

Related Articles

Deixe um comentário Cancelar resposta