Um estudo nacional recente propôs uma solução computacional para comparação de sequências de DNA de cadeia longa. O resultado foi a mais rápida comparação de cromossomos entre um ser humano e um chimpanzé, em apenas 11 minutos, um recorde para o sequenciamento genético. Isso só foi possível pelo uso de placas de vídeo de maior desempenho e, claro, a habilidade dos cientistas brasileiros.
LEIA MAIS: Inteligência artificial ajuda pesquisadores e hospitais na luta contra o câncer
Os pesquisadores queriam comparar, especificamente, o cromossomo-1 humano com o cromossomo-1 do chimpanzé. Esse novo código desenvolvido poderá auxiliar pesquisas na área de saúde e medicamentos a encontrar respostas assertivas no diagnóstico de patologias e desenvolvimento de tratamentos em menos tempo.
Quem está à frente da empreitada são os pesquisadores Marco Figueiredo Jr., da Universidade de Brasília (UnB), Edans Sandes (UnB), João Paulo Navarro, da Nvidia, e George Teodoro, da Universidade Federal de Minas Gerais (UFMG), assinam o estudo coordenado pela pesquisadora Alba Cristina Magalhães Alves de Melo (UnB), pioneira nos estudos sobre o assunto no Brasil.
Com a solução brasileira, leva apenas 11 minutos para obter a impressionante taxa de 82.822 GCUPS (bilhões de células atualizadas por segundo). Esse resultado é, até o momento, o melhor desempenho em sequenciamento genético já registrado. Para alcançar essa façanha, os pesquisadores utilizaram um cluster com 512 GPUs Nvidia V100. O estudo foi apresentado na edição de 2020 da conferência PDP (Euromicro Conference on Parallel, Distributed and Network-Based Processing) em Västerås, Suécia, e publicado na prestigiada revista IEEE Transactions on Parallel and Distributed Systems.
Como a pesquisa teve tanto sucesso
Figueiredo explica que a pesquisa conseguiu aliar dois aspectos da bioinformática: algoritmos paralelos e dispositivos com alto poder computacional. Foi isso que permitiu um desempenho expressivo na comparação dos DNAs em placas gráficas. “Os resultados obtidos mostram que ainda é possível avançar nas pesquisas neste tópico, visando projetar soluções compatíveis com ambientes de diferentes portes, mas sempre buscando aprimorar o desempenho em cada cenário”, explica.
A análise genômica é o ponto de encontro entre a biologia, a ciência da computação e a ciência de dados. Nos últimos anos, empresas do setor de bioinformática e instituições de pesquisa ao redor do mundo estão apostando em placas de vídeo, como as da Nvidia, para processar gráficos 3D. Essa tecnologia tem impulsionado a identificação de variantes genéticas que podem revelar novas descobertas sobre a saúde humana.
Para a Nvidia, ajudar uma pesquisa brasileira a quebrar barreiras científicas é uma alegria e mostra o potencial do País na inovação e na saúde. A fornecedora de placas de vídeo diz que sua tecnologia é essencial para que pesquisadores de todo mundo alcancem melhores resultados na comparação entre sequências de DNA.
Sequenciamento genético
Além das GPUs Nvidia, outra tecnologia utilizada foram os algoritmos Smith-Waterman (SW), que permitem obter um resultado ótimo na comparação entre as sequências. Para comparar o cromossomo-1 humano com o cromossomo-1 de um chimpanzé (249 milhões de pares de bases – MBP x 228 MBP), são necessários pelo menos 240 petabytes de memória. Esta comparação SW foi considerada inviável em 2008 por conta da tecnologia utilizada até então.
No estudo brasileiro, duas estratégias MultiBP são propostas. Na abordagem estática com compartilhamento de pontuação, a carga de trabalho é distribuída estaticamente para as GPUs e a melhor pontuação é enviada para GPUs vizinhas para simular uma visão global. Na estratégia dinâmica, a execução é dividida em ciclos e a carga de trabalho é atribuída dinamicamente, de acordo com a taxa de processamento das GPUs.
O MultiBP foi testado em diferentes plataformas, com arquiteturas variadas de placas de vídeo. Os melhores resultados foram obtidos principalmente pelas abordagens estática e dinâmica, respectivamente. O estudo também mostrou que o módulo de decisão é capaz de selecionar a melhor estratégia na maioria dos casos.
Figueiredo diz que o código desenvolvido já foi compartilhado publicamente para que possa auxiliar pesquisas relevantes para a saúde humana em todo o mundo. “Como desafio futuro, pretendemos melhorar nossas estratégias MultiBP identificando quais características têm mais impacto nas abordagens estáticas e dinâmicas. Também investigaremos se há cenários em que seja benéfico para que o modo dinâmico seja revertido para estático”, conclui o pesquisador.