Bio-IA: deep learning aplicado à pesquisa de proteínas

A IA vai conseguir curar doenças? A resposta ainda não é certa, mas não há dúvidas de que há pessoas trabalhando para alcançar isso. Para chegar lá, primeiro precisamos nos familiarizar com o mundo das proteínas e como foi revolucionado graças ao deep learning, a ponto de que no ano passado o Prêmio Nobel de Química foi concedido a dois grupos de cientistas que desenvolveram modelos de IA para a geração de proteínas. A David Baker pelo "design computacional de proteínas"; e a Demis Hassabis e John Jumper pela "predição de estruturas de proteínas".

O surpreendente também é o curto prazo em que foram alcançados resultados relevantes que impactam exponencialmente no campo da saúde. Como a maioria dos modelos de IA que conhecemos e utilizamos, tudo isso foi possível graças ao desenvolvimento da arquitetura Transformers (daí vem o T em ChatGPT) em 2017; seu mecanismo de self-attention pôde ser levado a diferentes domínios, como texto ou imagens. E três anos depois, também ao que nos interessa nesta nota: o das proteínas.

Poder desenhar proteínas com funções específicas representaria um ponto de ruptura na indústria da saúde (e em muitas outras) como a conhecemos. Ter a capacidade de desenvolver anticorpos sintéticos, vacinas em um período menor de tempo ou terapias personalizadas para cada paciente são apenas algumas das implementações que podem começar a se tornar realidade.

O que são proteínas

Podemos dizer que as proteínas são a maquinaria fundamental da vida. De uma forma menos poética, são cadeias muito longas de aminoácidos (AA) baseadas em moléculas pequenas que se unem entre si. Na natureza há apenas 20 e formam uma infinidade de proteínas; as menores têm cerca de 100AA, mas podem chegar a ser formadas por milhares e milhares de AA.

Essas macromoléculas, por serem tão diversas, cumprem diferentes funções em todo nosso corpo. Talvez as mais conhecidas sejam as que compõem os tecidos musculares (por isso falamos de "consumir proteínas" ao comer carne), mas também existem as que favorecem ou aceleram reações químicas, chamadas enzimas; ou proteínas de transporte como a hemoglobina, responsável por carregar oxigênio através do sangue.

Entre outros papéis também estão os anticorpos que fazem parte do sistema imunológico, as proteínas de sinalização e regulação e as de membrana e reconhecimento. Nesta última categoria, durante a pandemia, ficou muito conhecida a proteína Spike, localizada na membrana do vírus SARS-Cov-2 (flashbacks de guerra). A Spike tem muita afinidade com o receptor ACE2, uma enzima – sim, outra proteína – presente na membrana de células de vários órgãos, como o pulmão ou o coração. Quando essas duas moléculas se unem – com outros processos e mais proteínas envolvidas – o vírus libera seu material genético dentro da célula, causando a infecção.

Como as proteínas são estudadas

Conhecer a estrutura de uma proteína é uma peça-chave para poder compreender sua função. Por exemplo, para poder desenvolver uma vacina contra a Covid (existem diferentes tecnologias, mas neste caso será a "proteína recombinante"), a proteína Spike é produzida in vitro isolada do restante do SARS-Cov-2. Conhecendo sua estrutura, modificações específicas são implementadas para mantê-la na mesma forma em que se encontra na membrana do vírus (estado pré-fusão, antes de se unir ao receptor da célula humana). Este passo é importante pois ao administrar a vacina, o sistema imunológico responde à Spike com anticorpos que bloqueiam a união ao receptor ACE2. Esses anticorpos se ligam à Spike, aprendendo assim a resposta, caso o vírus entre no organismo.

O problema é como pesquisadores podem analisar uma proteína que tem, neste caso, ~1200AA e um comprimento de ~15nm (ou seja, 0.000015 mm, ínfimo). Claramente, isso apresentou um gargalo para o desenvolvimento biotecnológico baseado nessas moléculas, e é por isso que a implementação de modelos de IA chegou para romper toda essa lógica.

O método padrão se chama cristalografia por raios X e requer primeiro obter uma proteína que seja estável e em quantidades consideráveis. Depois tem que se purificar a amostra e modificar quimicamente o meio para poder obter cristais (que os milhares de cópias dessa proteína se organizem de maneira repetitiva e uniforme). Este passo é crucial e complicado, pois nem todas as proteínas podem formar estruturas cristalinas. O próximo é expô-las aos raios X para gerar padrões de difração que revelam como essas partículas interagiram com o cristal. Já o último estágio se torna muito complexo, utilizando transformadas de Fourier, mapas de densidade eletrônica e programas de modelagem estrutural. A saída de todo esse processo é finalmente um modelo atômico detalhado da proteína.

Baker, Hassabis e Jumper recebendo o Nobel em Química (2024)
Baker, Hassabis e Jumper recebendo o Nobel em Química (2024)

AlphaFold e RFdiffusion

Os dois modelos que fizeram eco na comunidade científica foram AlphaFold (desenvolvido por Demis Hassabis e John Jumper) e RoseTTAFold/RFdiffusion (a cargo de David Baker).

Em 2010, Hassabis junto com Shane Legg (que continua sendo parte embora já não seja tão citado) e Mustafa Suleyman (que saiu da empresa em 2019) fundaram DeepMind, empresa focada em inteligência artificial geral (AGI) e Reinforcement Learning (RL) na área de videogames. Em 2014, Google os comprou por cerca de 500 milhões de dólares. E anos depois, em 2018 e sob a direção de Jumper, lançaram AlphaFold1, o primeiro modelo que utiliza deep learning aplicado ao desenvolvimento de proteínas. Este aplicava CNNs para prever parâmetros geométricos (distâncias e ângulos) entre pares de aminoácidos e poder reconstruir a estrutura da proteína.

Embora tenha sido um marco, ainda apresentava limitações quanto à precisão com que definia as posições dos átomos. O boom aconteceu com AlphaFold2, que baseou sua arquitetura nos mecanismos de self-attention de Transformers (esse Transformer modificado o chamaram Evoformer), aplicando-os à sequência de AA, capturando relações estruturais de AA que talvez na sequência estejam distantes mas em sua estrutura 3D, pelos enovelamentos, acabam sendo "vizinhas".

Até esse momento, a estrutura de cerca de 120 mil proteínas era conhecida, fruto de anos de pesquisa e de técnicas padrão como a mencionada cristalografia. Após o surgimento de AlphaFold2, é possível acessar mais de 200 milhões de estruturas, carregadas em seu próprio banco de dados AlphaFold DB, obviamente mantido por DeepMind.

Por outro lado, os estudos iniciais de Baker remontam ao início dos anos 2000 com Rosetta, um programa que com base em modelos físicos e energéticos era utilizado para prever e desenhar proteínas in silico (ou seja, virtualmente). Sua abordagem se baseava em algoritmos computacionais clássicos, sem utilizar ferramentas de IA. Durante a década de 2010, o time continuou trabalhando e começou a incorporar machine learning clássico como random forests ou regressões, até que em 2021 lançaram RoseTTAFold, que baseia sua arquitetura em AlphaFold2 mas com uma implementação mais acessível computacionalmente, e publicada open source.

RFDiffusion apareceu em 2023 e o inovador é que permite inserir como input que a proteína final tenha certas funções. A nível de arquitetura, o modelo aplica o processo de difusão generativa, que basicamente consiste em adicionar ruído aos dados de entrada e treinar a rede para que possa remover esse ruído para, através de RoseTTAFold e seus mecanismos de atenção sobre as coordenadas 3D, obter a estrutura "limpa" da proteína. Este modelo então não apenas prediz as estruturas mas que permite desenhar proteínas com funcionalidades específicas. Assim como seu antecessor, RFdiffusion também é open source.

Em maio do ano passado foi publicado AlphaFold3, produto de DeepMind em colaboração com Isomorphic Labs, outra empresa também fundada por Hassabis e que também faz parte de Google (na verdade de Alphabet Inc, a empresa matriz de Google). O core deste novo modelo é que pode prever a interação ligando-receptor, ou seja como duas moléculas se unem entre si. Por exemplo, o ibuprofeno (fármaco ou ligando) se unindo à ciclooxigenase (uma proteína que produz moléculas que geram dor e inflamação).

Para isso foi implementada uma mudança na arquitetura do modelo, e em linha com RFdifussion, foi utilizada difusão generativa, algo mais útil para poder prever as diferentes configuraçãoes possíveis de sistemas mais complexos multimoleculares. Também inclui outras estruturas moleculares como o RNA ou anticorpo-antígeno, embora para esses casos os resultados obtidos não sejam tão destacados. O promissor desta ferramenta é que atualmente supera a técnica padrão, o docking computacional, para simular a interação ligando-proteína, já que pode capturar a flexibilidade da proteína ao se ver afetada pela incorporação do ligando.

O que vem por aí

Isomorphic Labs é uma de várias empresas que estão se dedicando a usar IA para desenhar fármacos. No início deste ano, anunciou que visa ter um primeiro medicamento desenvolvido com base em AlphaFold3 para o final de 2025 e que estão focando nas principais doenças: neurodegenerativas, cardiovasculares e oncológicas. Em abril conseguiram, em sua primeira rodada de investimento, financiamento de USD$600 milhões e recentemente, em julho, em uma entrevista para Fortune, seu presidente, Colin Murdoch, anunciou que estão no caminho para começar com testes clínicos em humanos, ao lado de grandes farmacêuticas como Eli Lilly e Novartis.

Tudo isso soa bem promissor e, se chegasse a funcionar, os processos de pesquisa e desenvolvimento de fármacos que normalmente duram entre 5 e 10 anos podem ser totalmente revolucionados, não apenas otimizando tempos e custos, mas também se poderia acessar o tratamento de doenças complexas de abordar, podendo desenhar medicamentos com base em muitas simulações e configurações até obter aquela que atue de maneira específica e mais eficiente.

Sabemos que a IA chegou para ficar, e o caso das proteínas é uma das muitas áreas em que está potenciando a área da saúde. Já há casos em que sua aplicação otimizou o diagnóstico, por exemplo uma detecção precoce de câncer de pulmão ao implementar um modelo para analisar tomografias. Na Argentina, inclusive, existe Entelai, uma empresa fundada em 2018 que está na vanguarda do diagnóstico por imagem assistido por IA na região.

Não quero deixar de mencionar que é impossível pensar no avanço da IA sem que o desenvolvimento do hardware e da eletrônica acompanhem, por isso é que a computação quântica (com sua otimização na capacidade de processamento) está ressoando cada vez mais, com grandes empresas como Google ou Microsoft começando a lançar processadores quânticos.

Related posts

Suscribite