O futuro da computação genômica na medicina

Nenhum especialista hoje duvida que o futuro da medicina reside na genômica humana e nas suas consequências e desfrutes. É simplesmente fantástico o progresso conseguido desde 2001, quando o Projeto Genoma Humano, ao custo de 3 bilhões de dólares (aproximadamente 16 bilhões de reais), envolvendo 18 países, conseguiu decodificar os 22.000 genes humanos.

E isso vai continuar a crescer, em uma progressão geométrica, com o número de genomas duplicando a cada 18 meses. Estima-se quem em 2025 cerca de 2 bilhões de genomas humanos individuais terão sido decodificados.

Hoje o custo disso é de menos de 1.000 dólares por genoma, que é decodificado em apenas algumas horas, utilizando máquinas robóticas superpoderosas, computação altamente paralela, e softwares complexos de inteligência artificial e aprendizado de máquina.

Essa área tecnológica também progride a passos de gigante, e certamente teremos no futuro equipamentos altamente miniaturizados, que identificarão genes específicos a um custo muito baixo. Esses progressos tornarão cada vez mais realidade a chamada medicina de precisão, em que os diagnósticos e tratamentos terão como foco as diferenças individuais entre os pacientes, e como eles poderão ser tornados mais precisos e individualizados, aperfeiçoando os desfechos.

Além disso, já está avançando muito a engenharia genética, através dos métodos como o CRISPR, que permitem a edição de genes altamente específicos do genoma de pacientes com doenças genéticas e outras. Estima-se que por volta de 2030 cerca de 60 a 70% das doenças genéticas, cânceres etc., poderão ser curados definitivamente utilizando esses métodos. Tudo isso será baseado em avanços em bioinformática, que é o nome que se dá à área interdisciplinar abrangendo computação, matemática, estatística, genética molecular, tecnologias de sequenciamento e síntese de ácidos nucleicos e proteínas.

Mas alguns problemas precisam ser resolvidos para que tudo isso dê certo, e as soluções propostas ainda estão no domínio do futuro da computação genômica.

O primeiro deles é um problema de bancos de dados, um dos temas do nosso curso de Saúde Digital: como coletar, contribuir, armazenar, para processar e distribuir esse gigantesco volume de dados.

Um único genoma humano completo, com todos os dados ligados aos genes, ocupa cerca de 100 gigabytes, ou bilhões de bytes. Para processar uma simples investigação de comparação de sequências, ou seja, procurar nos dados do genoma um gene específico que pode estar alterado, ou mutado, são necessárias horas em um computador comum, com 9 CPUS ou unidades de processamento central.

Por isso, só dá para fazer isso em larga escala usando computadores de alto desempenho, que operam com base em centenas ou milhares de CPUs em paralelo, ao custo de milhões de dólares por unidade.

Hoje, estima-se que existam mais de 2.500 dessas máquinas de sequenciamento altamente robotizadas e de alto desempenho, em mais de 100 laboratórios ao redor do mundo, mas esse número precisará aumentar nos próximos cinco anos em mais de 10 vezes!

Isso significa que até 40 exabytes de capacidade de armazenamento serão necessários até 2025 apenas para os genomas humanos. Um exabyte corresponde a um bilhão de gigabytes, ou aproximadamente a um quintilhão de bytes.

A computação em nuvem parece ser o único modelo de armazenamento que pode fornecer a escala elástica necessária para armazenar os sequenciamentos de DNA, apenas. Além disso, teremos que ter uma quantidade similar de memória disponível na nuvem para os sequenciamentos de outros polímeros biológicos, como os vários tipos de RNA, polipeptídeos e proteínas.

Os gigantes da tecnologia mundial já oferecem recursos de distribuição da computação em nuvem para isso, e esperam lucrar bastante. Existe o Google Genomics e o Microsoft Genomics, entre outros, e a gigante do sequenciamento do genoma, a Illumina, usa os Amazon Web Services.

Quantidades crescentes de dados genômicos estarão disponíveis em breve por meio dessas plataformas – e as questões de quem e como terá acesso se colocam quase que automaticamente. Os datacenters serão cada vez mais gigantescos, e terão que ser distribuídos por todo o mundo, para poder dar acesso rápido aos seus usuários.

O futuro da computação genômica aponta para uma situação que já é estudada na medicina de precisão, que é como armazenar esses dados no prontuário eletrônico do paciente. Ainda estão sendo desenvolvidos tecnologias para como fazer isso.

O armazenamento é fácil, embora seja extremamente volumoso, mas o problema será como, e de que forma, esses dados poderão ser processados e disponibilizados por interfaces e funcionalidades específicas para a medicina de precisão poder ser praticada.

Um exemplo ilustraria esse problema. Alguns seres humanos metabolizam determinadas drogas muito mais rapidamente do que outros, e, portanto, as doses preconizadas nas bulas fazem menos efeito.

Outros apresentam uma quantidade de receptores celulares para a droga em muito menor quantidade, e certas quimioterapias de câncer são ineficazes nesse grupo, sendo necessário investigar outras drogas.

Enzimas de metabolização e receptores de membrana são proteínas comandadas por genes específicos, então é necessário pesquisar o genoma individual por esses genes, antes de prescrever o tratamento.

Bancos de dados convencionais, como as famosas tabelas relacionais do SQL, não são adequadas para essas espantosas quantidades de informação e velocidades de processamento. Então estão surgindo novos tipos de bancos de dados, chamados genericamente de NO-SQL (Not Only SQL). Além disso, alguns processamentos por software são tão lentos frente à necessidade, que novos hardwares serão desenvolvidos.

Outro problema técnico é a proteção desses dados. Eles são dados pessoais, portanto os sistemas devem garantir sua confidencialidade por meio de tecnologias como criptografia forte, blockchain e identidade digital.

Esses métodos geram também um custo computacional absolutamente extraordinário, que certamente passarão a utilizar novos hardwares, como a prometida computação quântica, que será milhares de vezes mais rápida que a computação paralela mais rápida existentes.

Concluindo, certamente o cenário da informática biomédica, que combina as aplicações biológicas às médicas, passará por grandes progressos e modificações nos próximos anos. Os usuários da área de saúde terão que aprender como utilizar essas novas aplicações e recursos, de modo a implementar cada vez mais a medicina genômica e de precisão.

Referências Adicionais

Sabbatini, RME: Brincando de Deus I. A Nova Convergência entre Biologia Molecular, Medicina e Tecnologia da Informação. Revista de Genômica, Medicina e Tecnologia da Informação. Publicado originalmente em Saúde Digital Tech. Disponível na Internet. URL: https://link.medium.com/tuSQXnz8ddb
RME: Brincando de Deus II: Os Benefícios e os Riscos das Tecnologias Genômicas. Revista de Genômica, Medicina e Tecnologia da Informação. Medium. Publicado originalmente em Saúde Digital Tech. Disponível na Internet. URL: https://link.medium.com/ziCU44Q8ddb
Khan Academy: Sequenciamento de DNA. URL: https://pt.khanacademy.org/science/biology/biotech-dna-technology/dna-sequencing-pcr-electrophoresis/a/dna-sequencing
Dias, R., Torkamani, A. Artificial intelligence in clinical and genomic diagnostics. Genome Med 11, 70 (2019). https://doi.org/10.1186/s13073-019-0689-8

Sobre o Autor

O Prof. Renato Marcos Endrizzi Sabbatini, graduado e doutorado pela Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo, em fisiologia humana, neurociências e computação aplicada à medicina, é um dos pioneiros latinoamericanos nessa área, tendo completado 50 anos de atividade profissional, a maior parte dedicado à pesquisa cientifica e ensino na USP e também na Universidade Estadual de Campinas (UNICAMP), onde fundou, em 1983, um dos primeiros e maiores centros de pesquisa em TI em saúde, o Núcleo de Informática Biomédica e foi docente do Departamento de Genética Médica. O Prof. Sabbatini é um dos 100 acadêmicos mais influentes do mundo, como membro eleito fundador da International Academy of Health Sciences Informatics (IAHSI) e do American College of Medical Informatics, e atua como renomado consultor técnico-científico para empresas altamente inovadoras em tecnologias em saúde. Homepage: www.renato.sabbatini.com

Tags: genômica