Vídeo 3 Bioinfo Lucas Santana
Introdução à Bioinformática e Processamento de Dados Genômicos
Apresentação do Palestrante
- Lucas Santana, geneticista e bioinformata pós-doutorando na FM USP, introduz o tema da palestra.
- O foco é no processamento de dados gerados por plataformas de sequenciamento em larga escala.
Estrutura da Apresentação
- A apresentação faz parte do curso de capacitação para análise promovido pelo CEN FMUSP.
- Serão abordadas definições importantes, tipos de arquivos e etapas cruciais no fluxo de processamento de dados genômicos.
Definição e Importância da Bioinformática
O que é Bioinformática?
- Bioinformática é um campo interdisciplinar que desenvolve métodos analíticos para processar dados biológicos.
- Integra biologia, ciência da computação, engenharia de dados, matemática e estatística.
Papel do Bioinformata
- O bioinformata atua tanto no desenvolvimento quanto na aplicação de algoritmos para análise dos dados biológicos.
- Existe um ciclo contínuo entre a prática das ferramentas e a geração de novas ideias para otimização.
Fases do Processamento de Dados Genômicos
Fase Molhada
- Inicia com a fragmentação do conteúdo genômico seguida por enriquecimento das regiões de interesse.
Fase Seca
- Após o sequenciamento, os dados são processados em computadores com alta capacidade (memória RAM, armazenamento).
- Plataformas como Illumina HighSeq podem gerar até 1 TB de dados por flow cell.
Etapas Cruciais na Fase Seca
Controle de Qualidade
- Os dados brutos passam por controle rigoroso para garantir integridade e confiabilidade antes do mapeamento.
Mapeamento e Análise
- Fragmentos sequenciados são mapeados em um genoma referência; variantes são identificadas através da chamada variante (variant call).
Formato dos Arquivos Fastq
Estrutura do Arquivo Fastq
- O arquivo Fastq contém duas informações principais: sequência nucleotídica e qualidade da leitura.
Composição do Arquivo Fastq
Qualidade e Análise de Dados em Sequenciamento
Importância da Qualidade dos Dados
- Os valores de qualidade são essenciais para avaliar a confiabilidade das bases, permitindo determinar com segurança as variantes detectadas. O nucleotídeo é representado pelo símbolo dois pontos, que corresponde a um valor codificado em ASCII de 25 na escala de qualidade.
- A tabela correlaciona elementos principais como o Fred score e a codificação A2 com a taxa de erro e confiança correspondente. O Fred score indica a probabilidade de uma base estar incorreta; quanto maior o valor, maior a confiança.
- Um Fred score de 10 representa 90% de confiança e uma taxa de erro de 10%, enquanto um score de 20 indica 99% de confiança, facilitando o armazenamento e processamento das informações nos arquivos.
Análise Secundária: Conceito Fundamental
- A análise secundária utiliza pipelines, definidos como uma cadeia contínua onde o output é usado como input para a próxima etapa. Isso permite um fluxo organizado e eficiente no processamento dos dados.
- As etapas do pipeline estão interconectadas, ligando leituras brutas até o arquivo final VCF. Cada etapa segue diretrizes específicas desenvolvidas por instituições renomadas.
Controle de Qualidade
- O controle de qualidade é fundamental para garantir integridade e precisão dos dados. Inicialmente, verifica-se se o arquivo está desorganizado ou sujo, identificando problemas como scores mal calculados ou sequências baixas.
- Após identificar problemas, realiza-se edições e filtragens para remover sequências indesejadas, artefatos e duplicatas. Relatórios são gerados antes e depois das edições para monitorar a qualidade.
Alinhamento dos Dados
- Após limpeza do arquivo FASTQ, os dados passam pela fase chamada alinhamento. Softwares especializados mapeiam fragmentos DNA às suas regiões correspondentes em um genoma humano referência.
- A eficiência do alinhamento é acompanhada por relatórios que medem cobertura da região alvo e taxa percentual de duplicatas entre outros fatores importantes.
Sequência Referência do Genoma Humano
- A sequência referência não representa um único genoma humano real; é uma montagem consensual construída com dados sequenciais variados ao longo do tempo desde os anos 90.
- Refinamentos dessa sequência foram lançados ao longo dos anos para corrigir erros e melhorar cobertura em regiões complexas. A versão mais recente mantida está pausada devido à necessidade de novos projetos que buscam superar limitações atuais.
Visualização do Processo
- Uma representação esquemática ilustra os reads sendo alinhados à sequência referência do genoma humano. O objetivo é posicionar corretamente cada fragmento na sequência conhecida para comparações analíticas eficazes.
Processamento e Análise de Dados Genômicos
Mapeamento e Arquivos de Alinhamento
- O arquivo Ban é gerado após a etapa de mapeamento, contendo o alinhamento dos fragmentos do arquivo fq com uma sequência referência do Genoma Humano.
- O arquivo Ban não é legível por humanos; sua visualização requer softwares especializados como IGV ou ferramentas de linha de comando para manipulação.
- Um índice secundário chamado "by" auxilia na navegação do arquivo Ban, que pode ser comprimido em um formato denominado Cram para facilitar armazenamento e transferência.
Geno Tipagem e Variantes Alélicas
- Após o alinhamento, é possível listar as diferenças entre os fragmentos sequenciados e a sequência modelo, conhecidas como variantes alélicas.
- Chamadores são softwares que realizam comparações para identificar variantes com alta confiabilidade, influenciadas por fatores como origem somática ou germinativa do material genômico.
- A arquitetura gênica e características fenotípicas guiam a chamada de variantes utilizando programas específicos adaptados para diferentes tipos de amostras.
Estrutura do Arquivo VCF
- O arquivo VCF armazena informações sobre variantes alélicas em uma estrutura padronizada, facilitando sua manipulação em programas subsequentes.
- Cada linha no arquivo VCF representa uma variante, enquanto as colunas contêm atributos como coordenadas genômicas e genótipos observados.
- O cabeçalho do arquivo VCF contém definições importantes que são consultadas por programas que utilizam este formato como input.
Anotação e Priorização das Variantes
- A anotação das variantes envolve adicionar contexto biológico e molecular usando programas especializados para detalhar suas características.
- As variantes recebem atributos como região gênica, consequência molecular e frequência populacional, formando um perfil único para cada variante.
- O processo de priorização busca identificar quais variantes podem comprometer a função gênica relacionada ao fenótipo investigado.
Desafios na Análise Genômica
- A interpretação das variantes adiciona complexidade à análise devido à necessidade de identificar aquelas que explicam o fenótipo estudado.
- A análise secundária dos dados genômicos exige mão-de-obra especializada; etapas podem ser otimizadas com soluções comerciais disponíveis atualmente.
Análise de Variantes Alélicas e Ferramentas de Processamento
Características das Ferramentas Disponíveis
- As variantes alélicas e outras ferramentas no mercado possuem características distintas, cada uma com seus pontos fortes e fracos em relação às etapas do fluxo de processamento.
- Essas ferramentas indiscutivelmente aumentam a agilidade nos processos automatizados de tratamento de dados, facilitando a análise.
Importância da Curadoria Humana
- É crucial utilizar essas ferramentas com cautela, especialmente na integração de informações clínicas e na classificação das variantes alélicas.
- A curadoria humana ainda é necessária para garantir a precisão e relevância dos dados analisados, destacando a importância do envolvimento humano no processo.