Quando chegou ao número substancial que era desconhecido, a equipe realizou mais um estudo, usando o organismo mais bem compreendido (no nível genético) de todos: Drosophila melanogaster. Essas moscas-das-frutas têm sido objeto de pesquisa há mais de um século porque são fáceis e baratas de se reproduzir, têm um ciclo de vida curto, produzem muitos filhotes e podem ser geneticamente modificadas de várias maneiras.
A equipe usou a edição de genes para diminuir o uso de cerca de 300 genes de baixa pontuação encontrados em humanos e moscas-das-frutas. “Descobrimos que um quarto desses genes desconhecidos eram letais – quando eliminados, causavam a morte das moscas, mas ninguém sabia nada sobre eles”, diz Freeman. “Outros 25% deles causaram mudanças nas moscas – fenótipos – que pudemos detectar de várias maneiras.” Esses genes estavam ligados à fertilidade, desenvolvimento, locomoção, controle da qualidade da proteína e resiliência ao estresse. “O fato de tantos genes fundamentais não serem compreendidos foi revelador”, diz Freeman. É possível que variações nesses genes possam ter impactos muito grandes na saúde humana.
Todas essas informações “unknomics” são mantidas em um banco de dados, que a equipe está disponibilizando para outros pesquisadores usarem para descobrir uma nova biologia. O próximo passo pode ser entregar os dados sobre esses genes misteriosos e as proteínas misteriosas que eles criam para a IA.
O AlphaFold da DeepMind, por exemplo, pode fornecer informações importantes sobre o que as proteínas misteriosas fazem, principalmente ao revelar como elas interagem com outras proteínas, diz Alex Bateman, do Instituto Europeu de Bioinformática, com sede perto de Cambridge, Reino Unido. O mesmo pode acontecer com o cryo-EM, que é uma forma de produzir imagens de moléculas grandes e complexas, diz ele. E um Equipe da University College London mostrou uma maneira sistemática de usar o aprendizado de máquina para descobrir o que as proteínas fazem na levedura.
O Unknome é incomum por ser um banco de dados de biologia que diminuirá conforme o entendermos melhor. O artigo mostra que, na última década, “passamos de 40% para 20% do proteoma humano com um certo nível de desconhecimento”, diz Bateman. No entanto, nas taxas de progresso atuais, descobrir a função de todos os genes codificadores de proteínas humanas pode levar mais de meio século, estima Freeman.
A descoberta de que tantos genes permanecem incompreendidos reflete o que é chamado de efeito da luz da rua, ou o princípio da busca do bêbado, um viés observacional que ocorre quando as pessoas procuram apenas por algo onde é mais fácil olhar. Nesse caso, causou o que Freeman e Munro chamam de “viés na pesquisa biológica em relação ao previamente estudado”.
O mesmo vale para os pesquisadores, que tendem a obter financiamento para pesquisas em áreas relativamente bem compreendidas, em vez de ir para o que Freeman chama de deserto. É por isso que o banco de dados é tão importante, explica Munro – ele luta contra a economia da academia, que evita coisas que são muito mal compreendidas. “Existe a necessidade de um tipo diferente de suporte para lidar com essas incógnitas”, diz Munro.
Mas mesmo com o banco de dados disponível e os pesquisadores pesquisando, ainda haverá alguns pontos cegos de conhecimento. O estudo se concentrou nos genes responsáveis pelas proteínas. Nas últimas duas décadas, áreas desconhecidas do genoma também foram encontradas para abrigar o código de pequenos RNAs – fragmentos de material genético que podem afetar outros genes e que são reguladores críticos do desenvolvimento normal e das funções corporais. Pode haver mais “incógnitas desconhecidas” à espreita no genoma humano.
Por enquanto, ainda há muito o que explorar, e Freeman espera que este trabalho encoraje outras pessoas a estudar a Terra Incognita genética: “Há Unknome mais do que suficiente para quem deseja explorar uma biologia genuinamente nova”.