Vídeo 3 Bioinfo Lucas Santana

Name: Vídeo 3 Bioinfo Lucas Santana
Uploaded: 2024-10-04T18:36:03.000Z
Duration: 58 min 51 s

Introdução à Bioinformática e Processamento de Dados Genômicos

Apresentação do Palestrante

Lucas Santana, geneticista e bioinformata pós-doutorando na FM USP, introduz o tema da palestra.

O foco é no processamento de dados gerados por plataformas de sequenciamento em larga escala.

Estrutura da Apresentação

A apresentação faz parte do curso de capacitação para análise promovido pelo CEN FMUSP.

Serão abordadas definições importantes, tipos de arquivos e etapas cruciais no fluxo de processamento de dados genômicos.

Definição e Importância da Bioinformática

O que é Bioinformática?

Bioinformática é um campo interdisciplinar que desenvolve métodos analíticos para processar dados biológicos.

Integra biologia, ciência da computação, engenharia de dados, matemática e estatística.

Papel do Bioinformata

O bioinformata atua tanto no desenvolvimento quanto na aplicação de algoritmos para análise dos dados biológicos.

Existe um ciclo contínuo entre a prática das ferramentas e a geração de novas ideias para otimização.

Fases do Processamento de Dados Genômicos

Fase Molhada

Inicia com a fragmentação do conteúdo genômico seguida por enriquecimento das regiões de interesse.

Fase Seca

Após o sequenciamento, os dados são processados em computadores com alta capacidade (memória RAM, armazenamento).

Plataformas como Illumina HighSeq podem gerar até 1 TB de dados por flow cell.

Etapas Cruciais na Fase Seca

Controle de Qualidade

Os dados brutos passam por controle rigoroso para garantir integridade e confiabilidade antes do mapeamento.

Mapeamento e Análise

Fragmentos sequenciados são mapeados em um genoma referência; variantes são identificadas através da chamada variante (variant call).

Formato dos Arquivos Fastq

Estrutura do Arquivo Fastq

O arquivo Fastq contém duas informações principais: sequência nucleotídica e qualidade da leitura.

Composição do Arquivo Fastq

Qualidade e Análise de Dados em Sequenciamento

Importância da Qualidade dos Dados

Os valores de qualidade são essenciais para avaliar a confiabilidade das bases, permitindo determinar com segurança as variantes detectadas. O nucleotídeo é representado pelo símbolo dois pontos, que corresponde a um valor codificado em ASCII de 25 na escala de qualidade.

A tabela correlaciona elementos principais como o Fred score e a codificação A2 com a taxa de erro e confiança correspondente. O Fred score indica a probabilidade de uma base estar incorreta; quanto maior o valor, maior a confiança.

Um Fred score de 10 representa 90% de confiança e uma taxa de erro de 10%, enquanto um score de 20 indica 99% de confiança, facilitando o armazenamento e processamento das informações nos arquivos.

Análise Secundária: Conceito Fundamental

A análise secundária utiliza pipelines, definidos como uma cadeia contínua onde o output é usado como input para a próxima etapa. Isso permite um fluxo organizado e eficiente no processamento dos dados.

As etapas do pipeline estão interconectadas, ligando leituras brutas até o arquivo final VCF. Cada etapa segue diretrizes específicas desenvolvidas por instituições renomadas.

Controle de Qualidade

O controle de qualidade é fundamental para garantir integridade e precisão dos dados. Inicialmente, verifica-se se o arquivo está desorganizado ou sujo, identificando problemas como scores mal calculados ou sequências baixas.

Após identificar problemas, realiza-se edições e filtragens para remover sequências indesejadas, artefatos e duplicatas. Relatórios são gerados antes e depois das edições para monitorar a qualidade.

Alinhamento dos Dados

Após limpeza do arquivo FASTQ, os dados passam pela fase chamada alinhamento. Softwares especializados mapeiam fragmentos DNA às suas regiões correspondentes em um genoma humano referência.

A eficiência do alinhamento é acompanhada por relatórios que medem cobertura da região alvo e taxa percentual de duplicatas entre outros fatores importantes.

Sequência Referência do Genoma Humano

A sequência referência não representa um único genoma humano real; é uma montagem consensual construída com dados sequenciais variados ao longo do tempo desde os anos 90.

Refinamentos dessa sequência foram lançados ao longo dos anos para corrigir erros e melhorar cobertura em regiões complexas. A versão mais recente mantida está pausada devido à necessidade de novos projetos que buscam superar limitações atuais.

Visualização do Processo

Uma representação esquemática ilustra os reads sendo alinhados à sequência referência do genoma humano. O objetivo é posicionar corretamente cada fragmento na sequência conhecida para comparações analíticas eficazes.

Processamento e Análise de Dados Genômicos

Mapeamento e Arquivos de Alinhamento

O arquivo Ban é gerado após a etapa de mapeamento, contendo o alinhamento dos fragmentos do arquivo fq com uma sequência referência do Genoma Humano.

O arquivo Ban não é legível por humanos; sua visualização requer softwares especializados como IGV ou ferramentas de linha de comando para manipulação.

Um índice secundário chamado "by" auxilia na navegação do arquivo Ban, que pode ser comprimido em um formato denominado Cram para facilitar armazenamento e transferência.

Geno Tipagem e Variantes Alélicas

Após o alinhamento, é possível listar as diferenças entre os fragmentos sequenciados e a sequência modelo, conhecidas como variantes alélicas.

Chamadores são softwares que realizam comparações para identificar variantes com alta confiabilidade, influenciadas por fatores como origem somática ou germinativa do material genômico.

A arquitetura gênica e características fenotípicas guiam a chamada de variantes utilizando programas específicos adaptados para diferentes tipos de amostras.

Estrutura do Arquivo VCF

O arquivo VCF armazena informações sobre variantes alélicas em uma estrutura padronizada, facilitando sua manipulação em programas subsequentes.

Cada linha no arquivo VCF representa uma variante, enquanto as colunas contêm atributos como coordenadas genômicas e genótipos observados.

O cabeçalho do arquivo VCF contém definições importantes que são consultadas por programas que utilizam este formato como input.

Anotação e Priorização das Variantes

A anotação das variantes envolve adicionar contexto biológico e molecular usando programas especializados para detalhar suas características.

As variantes recebem atributos como região gênica, consequência molecular e frequência populacional, formando um perfil único para cada variante.

O processo de priorização busca identificar quais variantes podem comprometer a função gênica relacionada ao fenótipo investigado.

Desafios na Análise Genômica

A interpretação das variantes adiciona complexidade à análise devido à necessidade de identificar aquelas que explicam o fenótipo estudado.

A análise secundária dos dados genômicos exige mão-de-obra especializada; etapas podem ser otimizadas com soluções comerciais disponíveis atualmente.

Análise de Variantes Alélicas e Ferramentas de Processamento

Características das Ferramentas Disponíveis

As variantes alélicas e outras ferramentas no mercado possuem características distintas, cada uma com seus pontos fortes e fracos em relação às etapas do fluxo de processamento.

Essas ferramentas indiscutivelmente aumentam a agilidade nos processos automatizados de tratamento de dados, facilitando a análise.

Importância da Curadoria Humana

É crucial utilizar essas ferramentas com cautela, especialmente na integração de informações clínicas e na classificação das variantes alélicas.

A curadoria humana ainda é necessária para garantir a precisão e relevância dos dados analisados, destacando a importância do envolvimento humano no processo.