Cientistas finalmente sequenciaram todo o genoma humano
Em seis robustos estudos publicados em conjunto no periódico Science (Ref.1), um time internacional de pesquisadores - Consórcio Telômero-a-Telômero (T2T), nome dado em homenagem às terminações finais dos cromossomos - finalmente completou o sequenciamento do genoma humano (no caso, nossa espécie, Homo sapiens), cobrindo cada cromossomo de ponta a ponta sem nenhuma lacuna e com uma acuracidade sem precedentes. Apenas 5 das centenas de problemáticas regiões genômicas antes não possíveis de serem corretamente sequenciados por causa de limitações tecnológicas agora persistem não totalmente decifradas, incluindo cerca de 10 milhões de bases (letras do DNA). Ainda não publicado pós-revisão por pares, os pesquisadores anunciaram também nas redes sociais que depositaram o sequenciamento detalhado que faltava associado ao cromossomo Y (Ref.2).
Desde seu lançamento inicial em 2000, o genoma humano de referência - associado ao Projeto Genoma Humano - tem coberto apenas a fração eucromática do nosso genoma (regiões de transcrição ativa, ou seja, de síntese proteica), deixando importantes regiões heterocromáticas (material genético não envolvido com transcrição) sem sequenciamento completo (!). O atual genoma humano de referência foi liberado pelo Consórcio do Genoma de Referência (GRC) em 2013, recebendo uma mais recente atualização em 2019 (GRCh38.p13). Ao contrário de sequenciamentos modernos prévios usando o método de "shotgun", o GRC realizou o sequenciamento genômico através de cromossomos artificiais bacterianos (BACs), os quais são ordenados e orientados ao longo do genoma humano via radiação híbrida, vínculo genético e mapas de impressão digital. No entanto, limitações do sequenciamento BAC deixaram sub-representadas sequências repetitivas e regiões polimórficas.
-------------
(!) Para mais informações sobre os elementos do DNA e os processos de transcrição, acesse: Cientistas "brincando de Deus": Letras artificiais no DNA
--------------
Nesse sentido, o genoma de referência GRCh38 contém 151 milhões de pares de bases (Mbp) de sequências desconhecidas distribuídas ao longo da estrutura genômica humana, incluindo regiões peri-centroméricas e sub-teloméricas, recentes duplicações segmentais, ordenamentos de genes amplicônicos, e ordenamentos de DNA ribossômico (rDNA). Todas esses elementos genômicos com limitado sequenciamento prévio são necessários para processos celulares fundamentais, e algumas das maiores lacunas incluem ordenamentos repetitivos de satélites humanos (HSat) e os braços curtos de todos os cinco cromossomos acrocêntricos (identificados no GRCh38 como faixas de multi-megabases sem correta identificação das bases constituintes).
Na série de novos estudos publicados na Science, os pesquisadores do T2T buscaram preencher as lacunas deixadas pelo GRCh38 combinando as mais modernas tecnologias de sequenciamento genômico, incluindo uma versão otimizada do método laboratorial de shotgun (chamada de sequenciamento de leitura longa) e novos sistemas computacionais de alta performance. A análise genômica visou uma linhagem celular anonimizada e derivada há mais de 20 anos de um anômalo crescimento removido do útero de uma mulher - um falho processo de gravidez produzido quando um espermatozoide entra em um óvulo que não possui seu próprio conjunto de cromossomos. Com apenas o material genético do espermatozoide, a célula-ovo resultante não pode se desenvolver em um embrião, mas pode ainda replicar em uma massa sem forma ("verruga"), especialmente se o espermatozoide estiver carregando um cromossomo sexual X ao invés de um Y. Sem real diferenciação, as células resultantes com 23 pares de cromossomos (no caso, cariótipo 46XX) e praticamente idênticas tornam a tarefa de sequenciamento muito mais fácil, já que não é preciso se preocupar com diferenças genéticas oriundas de ambos os pais.
O resultado final da robusta análise genômica conseguiu resolver quase todo o restante do genoma deixado incompleto (8% do genoma), correspondendo a aproximadamente 200 milhões de bases corretamente ordenadas e no lugar certo, incluindo 1956 genes (a maioria deles cópias de genes conhecidos, ou seja, regiões duplicadas), todos os braços curtos dos cinco cromossomos acrocêntricos e também regiões de elementos móveis - material genético herdado de vírus que se tornaram incorporados no genoma humano (!). Do total de novos genes caracterizados, 99 são preditos de codificarem proteínas. O novo genoma de referência - chamado de T2T-CHM13 e englobando 3,055 bilhões de pares de bases - também corrigiu milhares de erros estruturais presentes no genoma de referência prévio, e revelou duplicações segmentais previamente sem identificação, conhecidas de atuarem de forma importante no processo evolutivo e no desenvolvimento de doenças.
-----------
(!) Para mais informações sobre esses elementos de transposição, acesse: Como nova informação genética é gerada durante o processo evolutivo?
------------
No sequenciamento de cada centrômero, os pesquisadores também encontraram que as regiões duplicadas variam enormemente em tamanho, algo inesperado considerando que esses locais servem para o mesmo propósito em cada cromossomo. Além disso, os braços curtos sequenciados mostraram englobar múltiplas cópias, 400 no total, nos genes codificando para o RNA que é usado para a produção de ribossomos (genes rDNA); representaram a parte mais difícil de sequenciar. No geral, várias das novas regiões reveladas possuem importantes funções no genoma, mesmo aquelas que não incluem genes ativos (regiões regulatórias).
O T2T-CHM13 foi complementado mais recentemente com o sequenciamento do cromossomo sexual Y (não incluído nos estudos divulgados, estes baseados em 22 cromossomos autossômicos e um par de cromossomos X), e é agora o novo genoma de referência do UCSC Genome Browser (um navegador genômico online, disponível para download, e hospedado pela Universidade da Califórnia, Santa Cruz, EUA). Em outras palavras, cientistas do mundo inteiro já podem baixar um amplo novo leque de informações genômicas do H. sapiens, abrindo novas portas e janelas para avanços em diferentes campos biológicos do estudo humano, especialmente na medicina.
Apesar da vasta extensão e robusto destrinchamento do DNA humano, o novo genoma de referência ainda é limitado no sentido de não capturar as variações genéticas inter-populacionais e mesmo intra-populacionais ao longo de diferentes grupos geográficos. Para isso, o time de pesquisa T2T pretende como próximo passo sequenciar o genoma completo de 350 indivíduos com distintas ancestralidades; 70 indivíduos já estão sendo sequenciados, usando o mesmo sistema otimizado de sequenciamento genômico usado para o T2T-CHM13+Y (Ref.3).
REFERÊNCIAS
- Nurk et al. (2022). The complete sequence of a human genome [T2T Consortium]. Science, Vol. 376, No. 6588, pp. 44-53. https://doi.org/10.1126/science.abj6987
- https://www.science.org/content/article/most-complete-human-genome-yet-reveals-previously-indecipherable-dna
- https://www.universityofcalifornia.edu/news/first-complete-gapless-sequence-human-genome-reveals-hidden-regions