Vídeo 3   Bioinfo   Lucas Santana

Vídeo 3 Bioinfo Lucas Santana

Introdução à Bioinformática e Processamento de Dados Genômicos

Apresentação do Palestrante

  • Lucas Santana, geneticista e bioinformata pós-doutorando na FM USP, introduz o tema da palestra.
  • O foco é no processamento de dados gerados por plataformas de sequenciamento em larga escala.

Estrutura da Apresentação

  • A apresentação faz parte do curso de capacitação para análise promovido pelo CEN FMUSP.
  • Serão abordadas definições importantes, tipos de arquivos e etapas cruciais no fluxo de processamento de dados genômicos.

Definição e Importância da Bioinformática

O que é Bioinformática?

  • Bioinformática é um campo interdisciplinar que desenvolve métodos analíticos para processar dados biológicos.
  • Integra biologia, ciência da computação, engenharia de dados, matemática e estatística.

Papel do Bioinformata

  • O bioinformata atua tanto no desenvolvimento quanto na aplicação de algoritmos para análise dos dados biológicos.
  • Existe um ciclo contínuo entre a prática das ferramentas e a geração de novas ideias para otimização.

Fases do Processamento de Dados Genômicos

Fase Molhada

  • Inicia com a fragmentação do conteúdo genômico seguida por enriquecimento das regiões de interesse.

Fase Seca

  • Após o sequenciamento, os dados são processados em computadores com alta capacidade (memória RAM, armazenamento).
  • Plataformas como Illumina HighSeq podem gerar até 1 TB de dados por flow cell.

Etapas Cruciais na Fase Seca

Controle de Qualidade

  • Os dados brutos passam por controle rigoroso para garantir integridade e confiabilidade antes do mapeamento.

Mapeamento e Análise

  • Fragmentos sequenciados são mapeados em um genoma referência; variantes são identificadas através da chamada variante (variant call).

Formato dos Arquivos Fastq

Estrutura do Arquivo Fastq

  • O arquivo Fastq contém duas informações principais: sequência nucleotídica e qualidade da leitura.

Composição do Arquivo Fastq

Qualidade e Análise de Dados em Sequenciamento

Importância da Qualidade dos Dados

  • Os valores de qualidade são essenciais para avaliar a confiabilidade das bases, permitindo determinar com segurança as variantes detectadas. O nucleotídeo é representado pelo símbolo dois pontos, que corresponde a um valor codificado em ASCII de 25 na escala de qualidade.
  • A tabela correlaciona elementos principais como o Fred score e a codificação A2 com a taxa de erro e confiança correspondente. O Fred score indica a probabilidade de uma base estar incorreta; quanto maior o valor, maior a confiança.
  • Um Fred score de 10 representa 90% de confiança e uma taxa de erro de 10%, enquanto um score de 20 indica 99% de confiança, facilitando o armazenamento e processamento das informações nos arquivos.

Análise Secundária: Conceito Fundamental

  • A análise secundária utiliza pipelines, definidos como uma cadeia contínua onde o output é usado como input para a próxima etapa. Isso permite um fluxo organizado e eficiente no processamento dos dados.
  • As etapas do pipeline estão interconectadas, ligando leituras brutas até o arquivo final VCF. Cada etapa segue diretrizes específicas desenvolvidas por instituições renomadas.

Controle de Qualidade

  • O controle de qualidade é fundamental para garantir integridade e precisão dos dados. Inicialmente, verifica-se se o arquivo está desorganizado ou sujo, identificando problemas como scores mal calculados ou sequências baixas.
  • Após identificar problemas, realiza-se edições e filtragens para remover sequências indesejadas, artefatos e duplicatas. Relatórios são gerados antes e depois das edições para monitorar a qualidade.

Alinhamento dos Dados

  • Após limpeza do arquivo FASTQ, os dados passam pela fase chamada alinhamento. Softwares especializados mapeiam fragmentos DNA às suas regiões correspondentes em um genoma humano referência.
  • A eficiência do alinhamento é acompanhada por relatórios que medem cobertura da região alvo e taxa percentual de duplicatas entre outros fatores importantes.

Sequência Referência do Genoma Humano

  • A sequência referência não representa um único genoma humano real; é uma montagem consensual construída com dados sequenciais variados ao longo do tempo desde os anos 90.
  • Refinamentos dessa sequência foram lançados ao longo dos anos para corrigir erros e melhorar cobertura em regiões complexas. A versão mais recente mantida está pausada devido à necessidade de novos projetos que buscam superar limitações atuais.

Visualização do Processo

  • Uma representação esquemática ilustra os reads sendo alinhados à sequência referência do genoma humano. O objetivo é posicionar corretamente cada fragmento na sequência conhecida para comparações analíticas eficazes.

Processamento e Análise de Dados Genômicos

Mapeamento e Arquivos de Alinhamento

  • O arquivo Ban é gerado após a etapa de mapeamento, contendo o alinhamento dos fragmentos do arquivo fq com uma sequência referência do Genoma Humano.
  • O arquivo Ban não é legível por humanos; sua visualização requer softwares especializados como IGV ou ferramentas de linha de comando para manipulação.
  • Um índice secundário chamado "by" auxilia na navegação do arquivo Ban, que pode ser comprimido em um formato denominado Cram para facilitar armazenamento e transferência.

Geno Tipagem e Variantes Alélicas

  • Após o alinhamento, é possível listar as diferenças entre os fragmentos sequenciados e a sequência modelo, conhecidas como variantes alélicas.
  • Chamadores são softwares que realizam comparações para identificar variantes com alta confiabilidade, influenciadas por fatores como origem somática ou germinativa do material genômico.
  • A arquitetura gênica e características fenotípicas guiam a chamada de variantes utilizando programas específicos adaptados para diferentes tipos de amostras.

Estrutura do Arquivo VCF

  • O arquivo VCF armazena informações sobre variantes alélicas em uma estrutura padronizada, facilitando sua manipulação em programas subsequentes.
  • Cada linha no arquivo VCF representa uma variante, enquanto as colunas contêm atributos como coordenadas genômicas e genótipos observados.
  • O cabeçalho do arquivo VCF contém definições importantes que são consultadas por programas que utilizam este formato como input.

Anotação e Priorização das Variantes

  • A anotação das variantes envolve adicionar contexto biológico e molecular usando programas especializados para detalhar suas características.
  • As variantes recebem atributos como região gênica, consequência molecular e frequência populacional, formando um perfil único para cada variante.
  • O processo de priorização busca identificar quais variantes podem comprometer a função gênica relacionada ao fenótipo investigado.

Desafios na Análise Genômica

  • A interpretação das variantes adiciona complexidade à análise devido à necessidade de identificar aquelas que explicam o fenótipo estudado.
  • A análise secundária dos dados genômicos exige mão-de-obra especializada; etapas podem ser otimizadas com soluções comerciais disponíveis atualmente.

Análise de Variantes Alélicas e Ferramentas de Processamento

Características das Ferramentas Disponíveis

  • As variantes alélicas e outras ferramentas no mercado possuem características distintas, cada uma com seus pontos fortes e fracos em relação às etapas do fluxo de processamento.
  • Essas ferramentas indiscutivelmente aumentam a agilidade nos processos automatizados de tratamento de dados, facilitando a análise.

Importância da Curadoria Humana

  • É crucial utilizar essas ferramentas com cautela, especialmente na integração de informações clínicas e na classificação das variantes alélicas.
  • A curadoria humana ainda é necessária para garantir a precisão e relevância dos dados analisados, destacando a importância do envolvimento humano no processo.