Home Entretenimento Um ChatGPT para música está aqui. Por dentro da Suno, a startup que está mudando tudo

Um ChatGPT para música está aqui. Por dentro da Suno, a startup que está mudando tudo

Por Humberto Marchezini



EU
sou apenas um
alma presa neste circuito.” A voz que canta essas letras é crua e melancólica, mergulhando em notas azuis. Um violão solitário toca atrás dele, pontuando as frases vocais com execuções de bom gosto. Mas não há nenhum humano por trás da voz, nem mãos naquela guitarra. Na verdade, não há guitarra. No espaço de 15 segundos, esta canção de blues credível e até comovente foi gerada pelo mais recente modelo de IA de uma startup chamada Suno. Tudo o que foi necessário para evocá-lo do vazio foi um simples aviso de texto: “solo acústico de blues do Delta do Mississippi sobre uma IA triste”. Para ser mais preciso, a música é o trabalho de dois modelos de IA em colaboração: o de Suno modelo cria toda a música sozinho, enquanto recorre ao ChatGPT da OpenAI para gerar a letra e até um título: “Soul of the Machine”.

Online, as criações de Suno estão começando a gerar reações do tipo “Como isso é real?” Enquanto esta faixa em particular é reproduzida por um alto-falante da Sonos em uma sala de conferências na sede temporária da Suno, a poucos passos do campus de Harvard em Cambridge, Massachusetts, até mesmo algumas das pessoas por trás da tecnologia ficam um pouco nervosas. Há algumas risadas nervosas, ao lado de murmúrios de “Puta merda” e “Oh, cara”. Estamos em meados de fevereiro e estamos brincando com seu novo modelo, V3, que ainda falta algumas semanas para o lançamento público. Neste caso, foram necessárias apenas três tentativas para obter aquele resultado surpreendente. Os dois primeiros foram decentes, mas um simples ajuste na minha sugestão – o cofundador Keenan Freyberg sugeriu adicionar a palavra “Mississippi” – resultou em algo muito mais estranho.

Somente no ano passado, a IA generativa fez grandes avanços na produção de textos, imagens (por meio de serviços como Midjourney) e até vídeos confiáveis, especialmente com a nova ferramenta Sora da OpenAI. Mas o áudio, e a música em particular, ficou para trás. Suno parece estar decifrando o código da música com IA, e as ambições de seus fundadores são quase ilimitadas – eles imaginam um mundo de produção musical totalmente democratizada. O mais vocal dos cofundadores, Mikey Shulman, um jovem charmoso, de 37 anos, com mochila nas mãos e doutorado em Harvard. em física, prevê um bilhão de pessoas em todo o mundo pagando 10 dólares por mês para criar músicas com Suno. O facto de o número de ouvintes de música ser tão grandemente superior ao dos produtores de música neste momento é “tão desequilibrado”, argumenta ele, vendo Suno como alguém preparado para corrigir esse desequilíbrio percebido.

A maior parte da arte gerada por IA até agora é, na melhor das hipóteses, kitsch, como o lixo hiper-realista da ficção científica, repleto de trajes espaciais ajustados, que tantos usuários do Midjourney parecem ter a intenção de gerar. Mas “Soul of the Machine” parece algo diferente – a criação de IA mais poderosa e perturbadora que já encontrei em qualquer meio. A sua própria existência parece uma fissura na realidade, ao mesmo tempo inspiradora e vagamente profana, e continuo a pensar na citação de Arthur C. Clarke que parece feita para a era da IA ​​generativa: “Qualquer tecnologia suficientemente avançada é indistinguível da magia. ” Algumas semanas depois de voltar de Cambridge, mandei a música para o guitarrista do Living Color, Vernon Reid, que falou abertamente sobre os perigos e possibilidades da música com IA. Ele observa sua “maravilha, choque, horror” com a “verossimilhança perturbadora” da música. “O antigo ideal distópico de separar a humanidade difícil, confusa, indesejável e desprezada de sua produção criativa está próximo”, escreve ele, apontando a natureza problemática de uma IA cantando blues, “um idioma afro-americano, profundamente ligado ao trauma humano histórico e à escravidão.

Suno mal tem dois anos. Os cofundadores Shulman, Freyberg, Georg Kucsko e Martin Camacho, todos especialistas em aprendizado de máquina, trabalharam juntos até 2022 em outra empresa de Cambridge, a Kensho Technologies, que se concentrava em encontrar soluções de IA para problemas de negócios complexos. Shulman e Camacho são músicos que costumavam tocar juntos na época do Kensho. Na Kensho, os quatro trabalharam em uma tecnologia de transcrição para capturar teleconferências de lucros de empresas públicas, uma tarefa complicada dada a combinação de baixa qualidade de áudio, jargão abundante e vários sotaques.

Ao longo do caminho, Shulman e seus colegas se apaixonaram pelas possibilidades inexploradas do áudio AI. Na pesquisa de IA, diz ele, “o áudio em geral está muito atrás das imagens e do texto. Aprendemos muito com a comunidade textual e como esses modelos funcionam e como eles são escalonados.”

Os mesmos interesses poderiam ter levado os fundadores da Suno a um lugar muito diferente. Embora sempre pretendessem criar um produto musical, seu primeiro brainstorming incluiu uma ideia para um aparelho auditivo e até mesmo a possibilidade de encontrar máquinas com defeito por meio de análise de áudio. Em vez disso, seu primeiro lançamento foi um programa de conversão de texto em fala chamado Bark. Quando entrevistaram os primeiros usuários do Bark, ficou claro que o que eles realmente queriam era um gerador de música. “Então começamos a realizar alguns experimentos iniciais e eles pareciam promissores”, diz Shulman.

Suno usa a mesma abordagem geral de grandes modelos de linguagem como o ChatGPT, que divide a linguagem humana em segmentos discretos conhecidos como tokens, absorve seus milhões de usos, estilos e estruturas e depois a reconstrói sob demanda. insondavelmente mais complexo, e é por isso que, no ano passado, especialistas em música com IA disseram Pedra rolando que um serviço tão capaz como o da Suno pode levar anos para chegar. “O áudio não é algo discreto como as palavras”, diz Shulman. “É uma onda. É um sinal contínuo.” A taxa de amostragem de áudio de alta qualidade é geralmente de 44 kHz ou 48 Hz, o que significa “48.000 tokens por segundo”, acrescenta. “Isso é um grande problema, certo? E então você precisa descobrir como reduzir isso a algo mais razoável.” Mas como? “Muito trabalho, muita heurística, muitos outros tipos de truques e modelos e coisas assim. Não acho que estejamos nem perto de terminar.” Eventualmente, Suno quer encontrar alternativas para a interface de texto para música, adicionando entradas mais avançadas e intuitivas – gerar músicas baseadas no canto dos próprios usuários é uma ideia.

A OpenAI enfrenta vários processos judiciais sobre o uso de livros, artigos de notícias e outros materiais protegidos por direitos autorais pelo ChatGPT em seu vasto corpus de dados de treinamento. Os fundadores da Suno se recusam a revelar detalhes sobre quais dados estão inserindo em seu próprio modelo, além do fato de que sua capacidade de gerar vocais humanos convincentes ocorre em parte porque ele aprende com gravações de fala, além de música. “A fala nua ajudará você a aprender as características difíceis da voz humana”, diz Shulman.

Um dos primeiros investidores da Suno é Antonio Rodriguez, sócio da empresa de capital de risco Matrix. Rodriguez havia financiado apenas um empreendimento musical anterior, a empresa de categorização musical EchoNest, que foi comprada pelo Spotify para alimentar seu algoritmo. Com Suno, Rodriguez se envolveu antes mesmo de ficar claro qual seria o produto. “Apoiei a equipe”, diz Rodriguez, que exala a confiança de um homem que fez mais do que deveria em apostas bem-sucedidas. “Eu conhecia o time e conhecia especialmente Mikey, então o teria apoiado para fazer quase tudo que fosse legal. Ele é muito criativo.”

Rodriguez está investindo na Suno com pleno conhecimento de que gravadoras e editoras musicais poderiam processar, o que ele vê como “o risco que tivemos que subscrever quando investimos na empresa, porque somos a carteira gorda que será processada logo atrás desses caras .… Honestamente, se tivéssemos acordos com gravadoras quando esta empresa começou, eu provavelmente não teria investido nela. Acho que eles precisavam fazer este produto sem restrições.” (Um porta-voz do Universal Music Group, que assumiu uma postura agressiva em relação à IA, não respondeu ao pedido de comentário.)

Suno diz que está em comunicação com as principais gravadoras e professa respeito pelos artistas e pela propriedade intelectual – sua ferramenta não permite que você solicite estilos de artistas específicos em seus prompts e não usa vozes de artistas reais. Muitos funcionários da Suno são músicos; há um piano e guitarras disponíveis no escritório, e imagens emolduradas de compositores clássicos nas paredes. Os fundadores não demonstram nada da hostilidade aberta ao negócio da música que caracterizou, digamos, o Napster antes dos processos judiciais que o destruíram. “A propósito, isso não significa que não seremos processados”, acrescenta Rodriguez. “Significa apenas que não teremos uma atitude do tipo foda-se a polícia.”

Rodriguez vê o Suno como um instrumento musical radicalmente capaz e fácil de usar, e acredita que ele poderia levar a produção musical a todos, da mesma forma que os telefones com câmera e o Instagram democratizaram a fotografia. A ideia, diz ele, é mais uma vez “mover o limite do número de pessoas que podem ser criadoras de coisas, em oposição aos consumidores de coisas na Internet”. Ele e os fundadores ousam sugerir que a Suno poderia atrair uma base de usuários maior que a do Spotify. Se essa perspectiva é difícil de entender, isso é bom, diz Rodriguez: Significa apenas que é “aparentemente estúpido” exatamente da maneira que tende a atraí-lo como investidor. “Todas as nossas grandes empresas têm essa combinação de talentos excelentes”, diz ele, “e depois algo que parece estúpido até ficar tão óbvio que não é estúpido”.

Muito antes da chegada de Suno, músicos, produtores e compositores estavam manifestamente preocupados com o potencial de abalar os negócios da IA. “A música, feita por humanos impulsionados por circunstâncias extraordinárias… aqueles que sofreram e lutaram para desenvolver a sua arte, terão de lidar com a automatização em massa da arte muito cara que lutaram para alcançar”, escreve Reid. Mas os fundadores da Suno afirmam que há pouco a temer, usando a metáfora de que as pessoas ainda leem apesar de terem a capacidade de escrever. “A maneira como pensamos sobre isso é que estamos tentando fazer com que um bilhão de pessoas se envolvam muito mais com a música do que estão agora”, diz Shulman. “Se as pessoas gostam muito mais de música, muito mais focadas em criar, desenvolvendo gostos muito mais distintos, isso obviamente é bom para os artistas. A visão que temos do futuro da música é aquela que é favorável aos artistas. Não estamos tentando substituir artistas.”

Embora Suno esteja hiperfocado apenas em alcançar os fãs de música que desejam criar músicas para se divertir, isso ainda pode acabar causando interrupções significativas ao longo do caminho. No curto prazo, o segmento do mercado de criadores humanos que parece mais diretamente ameaçado é lucrativo: músicas criadas para anúncios e até programas de TV. Lucas Keller, fundador da gestora Milk and Honey, observa que o mercado de colocação de músicas conhecidas não será afetado. “Mas em termos do resto, sim, isso definitivamente poderia prejudicar seus negócios”, diz ele. “Acho que, em última análise, isso permite que muitas agências de publicidade, estúdios de cinema, redes, etc., não tenham que licenciar coisas.”

Na ausência de regras estritas contra o conteúdo criado por IA, há também a perspectiva de um mundo onde os usuários de modelos como os serviços de streaming da Suno inundam os serviços de streaming com suas criações robóticas aos milhões. “O Spotify pode um dia dizer ‘Você não pode fazer isso’”, diz Shulman, observando que até agora os usuários do Suno parecem mais interessados ​​em apenas enviar mensagens de texto com suas músicas para alguns amigos.

A Suno tem apenas cerca de 12 funcionários no momento, mas eles planejam expandir, com uma sede permanente muito maior em construção no último andar do mesmo prédio que seu atual escritório temporário. Enquanto percorremos o andar ainda inacabado, Schulman mostra uma área que se tornará um estúdio de gravação completo. Considerando o que Suno pode fazer, por que eles precisam disso? “É principalmente uma sala de audição”, ele reconhece. “Queremos um bom ambiente acústico. Mas todos nós também gostamos de fazer música – sem IA.”

O maior concorrente potencial de Suno até agora parece ser o Dream Track do Google, que obteve licenças que permitem aos usuários criar suas próprias músicas usando vozes famosas como a de Charlie Puth por meio de uma interface semelhante baseada em prompts. Mas Dream Track só foi lançado para uma pequena base de usuários de teste, e os samples lançados até agora não soam tão impressionantes quanto os de Suno, apesar das famosas vozes anexadas. “Eu simplesmente não acho que fazer novas músicas de Billy Joel seja a forma como as pessoas querem interagir com a música com a ajuda da IA ​​no futuro”, diz Shulman. “Se eu pensar em como realmente queremos que as pessoas façam música em cinco anos, é algo que não existe. São as coisas que estão na cabeça deles.”



Source link

Related Articles

Deixe um comentário