DSCBC REM 2022 4   Testes de hipóteses e cálculo de amostr

DSCBC REM 2022 4 Testes de hipóteses e cálculo de amostr

Introdução

Visão geral da seção: Nesta seção, o professor introduz o conteúdo que será abordado na aula de hoje e faz uma breve revisão dos conceitos de população e amostra.

População vs Amostra

  • População é o conjunto de todos os elementos, enquanto amostra é uma parte dessa população.
  • Inferência estatística só faz sentido quando trabalhamos com amostras.
  • Estatísticas são características da amostra, enquanto parâmetros são características da população.

Estimadores

  • Estimadores são cálculos baseados na amostra que estimam um valor do parâmetro populacional correspondente.
  • A média amostral é um bom estimador para a média populacional.

Intervalos de Confiança

Visão geral da seção: Nesta seção, o professor explica como construir intervalos de confiança para estimar um parâmetro populacional desconhecido.

Construção do Intervalo de Confiança

  • O intervalo de confiança é uma faixa de valores em torno do valor estimado do parâmetro populacional.
  • O nível de confiança indica a probabilidade do intervalo conter o verdadeiro valor do parâmetro populacional.
  • O tamanho da amostra afeta a largura do intervalo de confiança.

Testes de Hipóteses

Visão geral da seção: Nesta seção, o professor explica como realizar testes de hipóteses para avaliar a significância estatística de um resultado.

Etapas do Teste de Hipóteses

  • O teste de hipóteses envolve a formulação de uma hipótese nula e uma hipótese alternativa.
  • O valor-p é a probabilidade de obter um resultado tão extremo quanto o observado, assumindo que a hipótese nula seja verdadeira.
  • Se o valor-p for menor que o nível de significância escolhido, rejeitamos a hipótese nula em favor da hipótese alternativa.

Comparação Múltipla

Visão geral da seção: Nesta seção, o professor explica como realizar comparações múltiplas entre várias amostras.

Teste ANOVA

  • O teste ANOVA é usado para comparar as médias entre três ou mais grupos independentes.
  • Se houver diferenças significativas nas médias, podemos usar testes post-hoc para identificar quais grupos são diferentes entre si.

Conclusão

Visão geral da seção: Nesta seção, o professor faz uma revisão dos principais conceitos abordados na aula de hoje.

Principais Conceitos

  • População vs Amostra
  • Estimadores
  • Intervalos de Confiança
  • Testes de Hipóteses
  • Comparação Múltipla

Estimativa e Variância

Visão geral da seção: Nesta seção, a professora explica o conceito de estimativa e variância na inferência estatística.

Estimativa

  • Quando atribuímos valores aos estimadores, chamamos de estimativa.
  • A estimativa é um valor numérico aplicado aos dados observados na amostra.

Variância

  • A variância é uma medida de dispersão que mostra o quão distantes os nossos dados estão da média.
  • Quanto menor a variância, mais próximos os valores estão da média e quanto mais distante, mais longe eles estão da média.
  • Existe uma letra para representar a variância populacional que é o Sigma. Já para falar sobre a variância da amostra usamos a letra s.

Diferença entre população e amostra

  • É importante diferenciar o que é população e o que é amostra na inferência estatística.
  • Para representar a população utilizamos letras como Mi (média populacional) e n (tamanho populacional).
  • Já para representar a amostra utilizamos letras como x/ (média amostral) e s (desvio padrão amostral).

Erro associado à coleta de dados

Visão geral da seção: Nesta seção, a professora explica sobre o erro associado à coleta de dados em processos de amostragem.

Erro associado à coleta de dados

  • Por mais que a coleta de dados seja bem planejada e executada, sempre haverá um erro associado.
  • Esse erro é mostrado através da metodologia de amostragem correta.
  • Quando utilizamos os métodos de amostragem corretamente, conseguimos mensurar o erro associado à coleta de dados.

Intervalo de confiança

  • Um dos métodos que considera o erro ao fazer a inferência sobre a população é o intervalo de confiança.
  • O intervalo de confiança mostra a diferença entre o resultado coletado na amostra e o verdadeiro resultado da população.

Estimação pontual e estimação intervalar

Visão geral da seção: Nesta seção, a professora explica sobre estimação pontual e estimação intervalar na inferência estatística.

Estimação pontual

  • A estimação pontual é quando usamos estimadores para atribuir valores aos parâmetros populacionais.
  • Por exemplo, podemos usar a proporção amostral de eleitores para estimar a proporção populacional de intenção de votos em um candidato.

Estimação intervalar

  • A estimação intervalar leva em consideração uma margem de erro ao fazer a inferência sobre a população.
  • Por exemplo, podemos calcular um intervalo de confiança para mostrar uma faixa possível do valor real do parâmetro populacional.

Intervalo de Confiança

Visão geral da seção: Nesta seção, o professor explica o conceito de intervalo de confiança e como ele é usado para estimar um parâmetro populacional com base em uma amostra.

O que é um intervalo de confiança?

  • Um intervalo de confiança é uma faixa de valores usada para estimar o verdadeiro valor do parâmetro populacional com base em uma amostra.
  • Ele inclui uma estimativa pontual do parâmetro e uma margem de erro que leva em consideração o erro amostral.
  • Quando bilateral, ele tem um limite inferior e um limite superior.

Como calcular a margem de erro?

  • A margem de erro depende do tamanho da amostra e do contexto do estudo.
  • Quanto maior a amostra, menor será a margem de erro.
  • Para calcular a margem de erro, é necessário estudar a distribuição amostral.

O que é distribuição amostral?

  • Distribuição amostral é a média das estatísticas calculadas em várias amostras diferentes da mesma população.
  • É usada para analisar as variações nas estatísticas calculadas em diferentes amostras.
  • É importante para determinar a margem de erro e calcular o intervalo de confiança.

Como usar o intervalo de confiança na prática?

  • O intervalo de confiança pode ser usado para estimar um parâmetro populacional com base em uma amostra.
  • Ele fornece uma faixa mais precisa do valor real do parâmetro, levando em consideração o erro amostral.
  • Quanto maior a amostra, menor será a margem de erro e mais precisa será a estimativa do parâmetro populacional.

Distribuição Amostral e Intervalos de Confiança

Visão geral da seção: Nesta seção, a professora explica a importância de entender a distribuição amostral para definir margem de erro e como a distribuição normal é frequentemente usada em intervalos de confiança para médias.

Distribuição Normal

  • A distribuição normal é uma das atribuições de probabilidades mais usadas porque muitos fenômenos naturais apresentam um comportamento semelhante à distribuição normal.
  • Quando estamos interessados em fazer intervalos de confiança ou estimar um parâmetro populacional, como a média, geralmente usamos a distribuição normal.
  • Se uma variável tem uma distribuição normal com média mi e variância sigma ao quadrado na população inteira, então a média amostral também terá uma distribuição normal com média mi e variância sigma ao quadrado sobre n, onde n é o tamanho da amostra coletada.

Exemplo Prático

  • A professora gerou aleatoriamente uma amostra de tamanho 100 com uma população que tem média 1.7 e variância 0.1.
  • Ao calcular a média da amostra gerada aleatoriamente, ela conseguiu voltar à média populacional.
  • Sabendo qual é essa distribuição amostral, podemos inferir sobre a população que estamos estudando.

Teorema do Limite Central

Visão geral da seção: Nesta seção, a professora explica o teorema do limite central e como ele pode ser usado para inferir sobre parâmetros populacionais usando estatísticas calculadas em amostras.

  • Quando temos uma variável com distribuição normal na população inteira e coletamos uma amostra, a média amostral também terá uma distribuição normal com média mi e variância sigma ao quadrado sobre n.
  • Podemos usar a média amostral para inferir sobre a média populacional e a variância amostral para inferir sobre a variância populacional.
  • O teorema do limite central afirma que, à medida que o tamanho da amostra aumenta, a distribuição das médias amostrais se aproxima de uma distribuição normal.

Distribuição Normal e Teorema do Limite Central

Visão Geral da Seção: Nesta seção, o palestrante explica a distribuição normal e o teorema do limite central.

Distribuição Normal

  • A distribuição normal é uma distribuição importante quando se trata de inferência estatística.
  • Quando uma amostra é grande o suficiente, a média dessa variável que está sendo estudada converge para uma distribuição normal.
  • Independentemente da forma original dos dados, se muitas amostras forem tomadas nessa distribuição e um histograma for feito da média amostral, isso convergirá para uma curva normal.

Teorema do Limite Central

  • O teorema do limite central afirma que, independentemente da distribuição original da variável que está sendo estudada, quando a amostra é grande o suficiente, a distribuição amostral da média será sempre uma distribuição normal.
  • Através das propriedades da distribuição normal, é possível fazer inferências sobre a população em estudo.
  • O palestrante mostra exemplos de como diferentes formas originais de dados convergem para uma curva normal à medida que o tamanho da amostra aumenta.

Exemplo Prático

  • O palestrante apresenta um exemplo prático em que ele gera uma distribuição normal com base na altura populacional média e no desvio padrão.
  • Ele então pega aleatoriamente uma amostra e calcula sua média amostral e variância amostral.
  • Através dos valores da amostra, ele consegue voltar aos valores populacionais.

Distribuição das médias de várias amostras

Visão geral da seção: Nesta seção, o palestrante fala sobre a distribuição das médias de várias amostras de tamanho 25 e como isso é usado para construir intervalos de confiança.

Intervalo de confiança

  • O intervalo de confiança é construído com um determinado nível de confiança que pode ser 90%, 95% ou 99%.
  • O nível de confiança refere-se à taxa de sucesso do método usado para fazer os intervalos de confiança.
  • O nível de confiança é uma probabilidade e geralmente está associado ao nível de significância.
  • O nível de significância é um valor pré-definido que ajuda a calcular o intervalo.

Exemplo prático

  • Para entender melhor o conceito, o palestrante usa o exemplo da altura média da população brasileira.
  • Várias amostras são coletadas e usadas para calcular os intervalos de confiança.
  • A distribuição da altura média da população brasileira é normal.

Níveis de confiança e significância

Visão geral da seção: Nesta seção, o palestrante explica a diferença entre níveis de confiança e significância e como eles são usados para escolher os valores adequados para um método.

Compreendendo níveis de confiança e significância

  • O nível de confiança é a quantidade de vezes que o intervalo contém o verdadeiro valor do parâmetro populacional.
  • O nível de significância é a quantidade de vezes que o intervalo não contém o verdadeiro valor do parâmetro populacional.
  • Os valores mais comuns para os níveis de confiança são 95%, 99% ou no máximo 90%.

Exemplo prático: proporção de intenção de votos

Visão geral da seção: Nesta seção, o palestrante usa um exemplo prático para explicar como calcular um intervalo de confiança.

Calculando uma estimativa pontual

  • Para estimar a proporção de intenção de votos em um candidato, é necessário coletar uma amostra aleatória e calcular a proporção através dessa amostra.
  • A proporção é calculada dividindo-se o número total das pessoas entrevistadas que votaram no candidato pelo número total das pessoas entrevistadas.

Calculando um intervalo de confiança

  • Um intervalo de confiança pode ser usado para determinar qual erro pode ser cometido na estimativa pontual.
  • Um exemplo prático foi dado onde uma margem de erro foi calculada como sendo igual a 4%.
  • Um intervalo com 95% de confiança foi calculado para a proporção de intenção de votos, com um limite inferior de 45% e um limite superior de 53%.

Interpretando o intervalo de confiança

  • O nível de confiança é a quantidade de vezes que o intervalo contém o verdadeiro valor do parâmetro populacional.
  • Se várias amostras do mesmo tamanho forem coletadas aleatoriamente, dos 20 intervalos calculados, 19 conterão o verdadeiro valor da proporção de intenção de votos.
  • A margem de erro é a flutuação na estimativa pontual.

Interpretação correta do intervalo

Visão geral da seção: Nesta seção, o palestrante explica como interpretar corretamente um intervalo de confiança.

Entendendo a taxa de confiança

  • A taxa ou nível de confiança é a quantidade de vezes que o intervalo vai conter o valor real do parâmetro populacional.
  • Um exemplo prático foi dado onde um intervalo com 95% de confiança foi calculado para a proporção de intenção de votos.

Exemplo prático: interpretação do intervalo

  • Suponha que uma amostra aleatória tenha sido coletada e que a proporção calculada seja em torno de 49%.
  • Um intervalo com 95% foi calculado para essa proporção, com um limite inferior igual a 45% e um limite superior igual a 53%.
  • Isso significa que se várias amostras forem coletadas aleatoriamente, dos 20 intervalos calculados, 19 conterão o verdadeiro valor da proporção.

Nível de Confiança

Visão Geral da Seção: Nesta seção, o palestrante explica o que é nível de confiança e como interpretá-lo.

Interpretação do Nível de Confiança

  • O nível de confiança é a taxa de sucesso do procedimento quando várias amostras diferentes são tomadas.
  • É um pouco complexo, mas geralmente 500 amostras são suficientemente grandes para considerar uma grande amostra.
  • Em certas áreas, como na medicina, é necessário ter mais cuidado ao determinar o tamanho da amostra.
  • Não há um número mágico que determine o tamanho da amostra necessária para aplicar uma teoria específica.

Intervalos de Confiança para Médias Populacionais

Visão Geral da Seção: Nesta seção, o palestrante explica como construir intervalos de confiança para médias populacionais.

Construindo Intervalos de Confiança

  • Para construir um intervalo de confiança, é necessário saber qual parâmetro populacional está sendo estudado (média, variância ou proporção).
  • Quando a variância populacional é conhecida, usa-se a tabela Z.
  • Quando a variância populacional é desconhecida, usa-se a tabela T.
  • A margem de erro pode ser calculada usando a fórmula: E = z*(sigma/sqrt(n)), onde z é o valor tabelado, sigma é o desvio padrão populacional e n é o tamanho da amostra.

Intervalo de Confiança para Média Populacional

Visão Geral da Seção: Nesta seção, o palestrante explica como construir um intervalo de confiança para a média populacional quando a variância populacional é conhecida. Ele também discute a importância da distribuição amostral e do nível de confiança na construção do intervalo.

Construindo o Intervalo de Confiança

  • Para construir o intervalo de confiança para a média populacional com 100(1 - Alfa)% de confiança, é necessário usar tabelas.
  • O nível de confiança pode ser definido pelo usuário (geralmente 90%, 95% ou 99%) e o Alfa é determinado pelo nível de confiança escolhido (por exemplo, Alfa = 5% para um nível de confiança de 95%).
  • A estimativa pontual usada na fórmula é a média amostral.
  • A margem de erro é um valor tabelado que deve ser buscado na tabela normal usando o valor do Alfa escolhido.
  • É necessário saber qual é a variância populacional (Sigma) dividida pelo tamanho da amostra coletada (raiz quadrada do tamanho da amostra) para calcular a fórmula.

Importância da Distribuição Amostral e do Nível de Confiança

  • É importante conhecer a distribuição amostral porque os valores tabelados necessários para calcular o intervalo são encontrados na distribuição normal.
  • O desvio padrão usado na fórmula é basicamente o desvio padrão dessa distribuição amostral.
  • O nível de confiança é determinado pelo usuário e afeta o valor tabelado necessário para calcular o intervalo.

Exemplo Prático

  • O palestrante apresenta um exemplo prático em que a variância populacional é conhecida (100 gramas ao quadrado) e uma máquina de café se desregulou, então uma amostra de 25 pacotes foi coletada para estimar a nova média dos pacotes.
  • A média amostral encontrada foi 485 gramas.
  • Foi solicitado um intervalo de confiança com 95% de confiança para a nova média dos pacotes.
  • O valor tabelado necessário para calcular o intervalo foi encontrado usando o comando norm.ppf do Python.

Intervalo de Confiança

Visão Geral da Seção: Nesta seção, o palestrante explica como calcular o intervalo de confiança para a média populacional com base em uma amostra.

Cálculo do Intervalo de Confiança

  • O intervalo de confiança pode ser calculado usando a fórmula: média amostral +/- Z * (desvio padrão amostral / raiz quadrada do tamanho da amostra).
  • Para obter o valor de Z, é necessário buscar na tabela correspondente ao nível de confiança escolhido.
  • Um exemplo é apresentado para ilustrar o cálculo do intervalo de confiança.
  • Tamanho da amostra: 25
  • Média amostral: 485
  • Variância: 100
  • Nível de confiança: 95%
  • Valor tabelado para alfa/2 = 0.025: Z = 1.96
  • O intervalo de confiança encontrado foi entre 481 e 489 gramas.
  • Esse resultado indica que há uma probabilidade de 95% que o verdadeiro valor médio dos pacotes esteja dentro desse intervalo.

Distribuição Normal e Tamanho da Amostra

Visão Geral da Seção: Nesta seção, o palestrante discute a relação entre distribuição normal e tamanho da amostra.

  • Se a variável em questão tem distribuição normal, é possível usar a fórmula do intervalo de confiança mesmo com uma pequena amostra.
  • Caso contrário, é necessário ter uma grande amostra para poder aplicar essa fórmula.
  • O teorema central do limite afirma que, para amostras grandes, a distribuição da média amostral se aproxima de uma distribuição normal.
  • Portanto, mesmo que a variável original não tenha distribuição normal, é possível usar a fórmula do intervalo de confiança com uma grande amostra.

Distribuição do Processo da Máquina

Visão Geral da Seção: Nesta seção, o palestrante responde a perguntas sobre a relação entre o processo da máquina e a distribuição dos dados.

  • A análise do intervalo de confiança não leva em consideração como o processo da máquina funciona ou como ele pode mudar ao longo do tempo.
  • O objetivo é avaliar se o valor médio dos pacotes está dentro de um intervalo específico ou não.
  • Mesmo que os dados coletados não sigam uma distribuição normal, é possível usar a fórmula do intervalo de confiança com uma grande amostra.

Distribuição Normal e Intervalo de Confiança

Visão geral da seção: Nesta seção, o palestrante explica como a distribuição normal é obtida através da média de várias amostras e como isso pode ser usado para calcular intervalos de confiança.

Distribuição Normal

  • A distribuição normal é obtida através da média de várias amostras.
  • Quanto maior o tamanho das amostras, mais próxima a distribuição fica da normal.
  • O método de bootstraping pode ser usado para obter uma noção melhor dentro da amostra.

Intervalo de Confiança

  • O intervalo de confiança é uma estimativa pontual com margem de erro.
  • A tabela Z é usada para reduzir a margem de erro.
  • Quanto maior a margem de erro, mais incerteza há sobre o parâmetro da população.

Tamanho da amostra para intervalo de confiança

Visão geral da seção: Nesta seção, o palestrante explica como determinar o tamanho mínimo de uma amostra para um intervalo de confiança com margem de erro específica.

Determinando o tamanho mínimo da amostra

  • A margem de erro é determinada pela fórmula: margem de erro = valor tabelado * (desvio padrão / raiz quadrada do tamanho da amostra).
  • Quanto maior a amostra, menor será a margem de erro e maior será a certeza na inferência.
  • Para determinar o tamanho mínimo da amostra necessário para uma margem de erro específica, é preciso isolar o tamanho da amostra na fórmula.
  • É possível usar essa fórmula para calcular o tamanho mínimo da amostra necessária para um intervalo de confiança com uma margem de erro específica e um nível de confiança especificado.

Exemplo prático

  • O palestrante apresenta um exemplo em que é necessário determinar o tamanho mínimo da amostra necessária para construir um intervalo de 95% de confiança com uma margem de erro máxima igual a 1, considerando uma população com distribuição normal e desvio padrão populacional igual a 10.
  • Usando a fórmula mencionada anteriormente, é possível determinar que são necessárias pelo menos 384 observações na amostra.

Intervalo onde não se sabe qual é a variância populacional

Visão geral da seção: Nesta seção, o palestrante explica como calcular um intervalo quando não se sabe qual é a variância populacional.

Intervalo de confiança com variância desconhecida

  • Quando não se sabe qual é a variância populacional, é possível usar o intervalo de confiança t-Student.
  • O intervalo de confiança t-Student é semelhante ao intervalo de confiança Z, mas usa a distribuição t-Student em vez da distribuição normal padrão.
  • A fórmula para calcular o intervalo de confiança t-Student inclui um grau de liberdade adicional para levar em conta a incerteza na estimativa da variância populacional.

Exemplo prático

  • O palestrante apresenta um exemplo em que é necessário determinar um intervalo de 95% de confiança para a média populacional quando não se sabe qual é a variância populacional.
  • Usando o intervalo de confiança t-Student e os dados amostrais fornecidos, é possível determinar o limite inferior e superior do intervalo.

Distribuição t de Student

Nesta seção, o palestrante explica a distribuição t de Student e como ela é usada para construir intervalos de confiança quando a variância populacional é desconhecida.

Distribuição t de Student

  • A distribuição t de Student é semelhante à distribuição normal, mas é usada quando a variância populacional é desconhecida.
  • O valor tabelado usado na distribuição t é chamado de valor T e é procurado em uma tabela.
  • À medida que o tamanho da amostra aumenta, a distribuição t se aproxima da distribuição normal.
  • Além do nível de significância alfa, outro parâmetro importante na distribuição t é o grau de liberdade (n - 1).

Intervalo de Confiança com Distribuição t

  • Quando queremos construir um intervalo de confiança para a média populacional e não conhecemos a variância populacional, usamos a notação do intervalo de confiança para média com nível de confiança alfa.
  • Em vez do valor Z tabelado usado na distribuição normal, usamos o valor T tabelado encontrado na tabela T.
  • O desvio padrão calculado na amostra (S) substitui o desvio padrão populacional (sigma) desconhecido.

Exemplo Prático

  • Suponha que estamos interessados em estudar qual é a idade média das crianças que começam a falar. Tiramos uma amostra aleatória simples com 20 crianças e descobrimos que elas começaram a falar em média aos 10 meses.
  • Calculamos o desvio padrão da amostra e usamos a tabela T para encontrar o valor tabelado correspondente ao nível de confiança alfa e grau de liberdade (n - 1).
  • Substituímos os valores na fórmula do intervalo de confiança para média com nível de confiança alfa usando a distribuição t.

Intervalo de Confiança

Visão Geral da Seção: Nesta seção, o instrutor explica como calcular o intervalo de confiança usando a fórmula do intervalo de confiança para uma média populacional com base em uma amostra.

Cálculo do Intervalo de Confiança

  • O tamanho da amostra é igual a 20.
  • Para calcular o intervalo de confiança, é necessário definir o nível de confiança e os graus de liberdade (tamanho da amostra menos um).
  • Ao calcular o intervalo manualmente, é necessário usar a tabela T.
  • No mundo real, geralmente usa-se a fórmula que usa a tabela T porque não se sabe qual é a variância populacional.

Prática do Intervalo de Confiança

  • Não há conhecimento sobre algum site onde possa ser encontrado exercícios para praticar por conta própria.
  • O instrutor compartilha um código que ele estruturou para mentoria dessa aula que tem uma base de dados real e na qual calcula os intervalos para o normal com todos os passos.
  • O instrutor sugere um livro que contém respostas aos exercícios sobre intervalos de confiança.

Dificuldades no Conteúdo

  • O conteúdo sobre intervalos de confiança pode ser difícil e conceitual.
  • É importante conectar esses conceitos com a vida prática.
  • A próxima aula será uma mentoria, onde os alunos terão a oportunidade de ver mais na prática como funciona o intervalo de confiança.

Intervalos de Confiança

Visão Geral da Seção: Nesta seção, o professor explica como obter limites bilaterais e unilaterais para intervalos de confiança. Ele também mostra como usar tabelas Z ou T para encontrar valores Alfa e como calcular os limites inferior e superior.

  • Os intervalos podem ter limites bilaterais ou unilaterais. As fórmulas são diferentes na hora de procurar um valor.
  • É possível usar tabelas Z ou T para encontrar valores Alfa em vez de procurar por Alfa sobre dois.
  • Para encontrar o limite inferior, use menos na fórmula. Para encontrar o limite superior, use mais na fórmula.
  • Existem intervalos de confiança para outros parâmetros populacionais, como a variância populacional e a proporção.

Grau de Liberdade

Visão Geral da Seção: Nesta seção, o professor explica a definição teórica do grau de liberdade e como calculá-lo na prática.

  • O grau de liberdade é o número de parâmetros que estamos estimando subtraído do tamanho da amostra.
  • No exemplo do intervalo de confiança com uma média populacional conhecida, usamos n - 1 para calcular o grau de liberdade.
  • Quando estamos comparando duas populações diferentes em um teste de hipótese, usamos n - 2 em vez disso.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o professor explica a metodologia do teste de hipóteses e como decidir entre a hipótese nula e alternativa.

  • O teste de hipóteses é um processo de decisão entre duas hipóteses: a nula e a alternativa.
  • A hipótese nula é geralmente a afirmação que estamos tentando rejeitar, enquanto a alternativa é o contrário da hipótese nula.
  • Temos duas opções: rejeitar ou não rejeitar a hipótese nula.
  • O grau de liberdade é usado para calcular o valor-p, que nos ajuda a decidir se devemos rejeitar ou não rejeitar a hipótese nula.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, a professora explica o conceito de teste de hipóteses e como ele é usado para verificar a eficácia de um produto.

Hipóteses Exclusivas

  • As hipóteses são exclusivas e formam 100% das opções possíveis.
  • A hipótese nula é igual a um valor específico, enquanto a alternativa é diferente desse valor ou igual a outro valor.
  • As hipóteses devem contemplar todas as opções possíveis: igual ou diferente.

Exemplo Prático: Produto Jenner Choice

  • O produto Jenner Choice permite aos casais escolherem aumentarem a chance de ter um bebê do sexo feminino se usasse embalagem rosa ou do sexo masculino se usasse a embalagem Azul.
  • Levantamento das hipóteses: na hipótese nula, o produto não funciona; na alternativa, o produto funciona.

Testando as Hipóteses

  • Parâmetro populacional estudado no exemplo: probabilidade de uma menina no nascimento quando os casais não estão esperando gêmeos ou mais de um bebê.
  • Valor esperado da variável aleatória: número esperado de meninas em torno de 50 meninas.
  • Parâmetro populacional testado no exemplo: proporção de nascimentos femininos com o uso do produto Jenner Choice.
  • Probabilidade de vir um bebê do sexo feminino é de 50% se o produto não funciona.

Hipóteses e Teste de Significância

Visão geral da seção: Nesta seção, o palestrante explica a importância das hipóteses e do teste de significância em estatística.

Importância das hipóteses

  • As hipóteses são afirmações sobre um parâmetro da população.
  • A hipótese nula é a afirmação que queremos testar.
  • A hipótese alternativa é a afirmação oposta à hipótese nula.
  • As duas hipóteses devem cobrir todas as possibilidades (100%).
  • É importante definir corretamente as hipóteses para realizar um teste de significância válido.

Teste de significância

  • O teste de significância é uma ferramenta estatística usada para avaliar se os resultados observados em uma amostra são consistentes com a hipótese nula.
  • O objetivo do teste é determinar se há evidências suficientes para rejeitar ou não a hipótese nula.
  • O resultado do teste é expresso como um valor p, que representa a probabilidade de obter os resultados observados ou mais extremos, assumindo que a hipótese nula seja verdadeira.
  • Se o valor p for menor que o nível de significância escolhido (geralmente 0,05), então rejeitamos a hipótese nula. Caso contrário, não temos evidências suficientes para rejeitá-la.

Exemplo prático: Probabilidade de nascer meninas

Visão geral da seção: Nesta seção, o palestrante apresenta um exemplo prático de como aplicar hipóteses e teste de significância em um problema real.

Definição das hipóteses

  • A hipótese nula é que a probabilidade de nascer uma menina é menor ou igual a 50%.
  • A hipótese alternativa é que a probabilidade de nascer uma menina é maior do que 50%.
  • As duas hipóteses cobrem todas as possibilidades (100%).

Análise dos resultados

  • Se observarmos um resultado com 52 meninas em 100 nascimentos, isso não seria suficiente para rejeitar a hipótese nula, pois esse resultado ainda está dentro do esperado pela probabilidade natural.
  • No entanto, se observarmos um resultado com 98 meninas em 100 nascimentos, isso seria muito improvável de acontecer naturalmente e poderia ser considerado evidência suficiente para rejeitar a hipótese nula.

Limitações do teste de significância

Visão geral da seção: Nesta seção, o palestrante discute algumas limitações do teste de significância.

Tamanho da amostra

  • O tamanho da amostra pode afetar os resultados do teste de significância.
  • É importante ter uma amostra grande o suficiente para detectar diferenças estatisticamente significativas.

Interpretação dos resultados

  • Os resultados do teste de significância devem ser interpretados com cuidado.
  • Um valor p menor que o nível de significância escolhido não significa necessariamente que a hipótese alternativa seja verdadeira.
  • É importante considerar outros fatores e evidências antes de tirar conclusões.

Conclusão

  • O teste de significância é uma ferramenta útil para avaliar se os resultados observados em uma amostra são consistentes com a hipótese nula.
  • No entanto, é importante definir corretamente as hipóteses, interpretar os resultados com cuidado e considerar outras evidências antes de tirar conclusões.

Testes de Hipóteses

Visão geral da seção: Nesta seção, o palestrante explica como os testes de hipóteses funcionam e como eles podem ser usados para rejeitar explicações baseadas em probabilidades muito pequenas.

Hipótese nula e alternativa

  • A hipótese nula é a suposição de que um produto não funciona.
  • A hipótese alternativa é a suposição oposta à hipótese nula.
  • O valor P é a probabilidade de ver um resultado considerando que a hipótese nula é verdadeira.

Regra do evento raro

  • A regra do evento raro afirma que, se a probabilidade de um evento for excepcionalmente pequena, então provavelmente aquela suposição não é correta.

Comparação de probabilidades

  • Ao comparar duas probabilidades, deve-se escolher aquela com menor probabilidade para evitar erros.
  • Uma probabilidade alta pode levar a uma maior chance de erro ao afirmar que o produto funciona quando ele na verdade não funciona.

Rejeição da hipótese nula

  • Deve-se escolher a probabilidade mais baixa para rejeitar a hipótese nula e afirmar que o produto não funciona.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o palestrante explica o que é um teste de hipóteses e como ele é usado para rejeitar ou não uma hipótese nula.

O que é um teste de hipóteses?

  • Um teste de hipóteses é usado para rejeitar ou não uma hipótese nula.
  • O nível de significância é o limite crítico estabelecido no teste de hipóteses para rejeitar ou não a nossa hipótese nula.
  • A probabilidade de cometer um erro ao rejeitar a hipótese nula é menor quando estamos mais confortáveis em afirmar que o produto não funciona do que quando afirmamos que ele funciona.
  • Rejeitar uma opção não significa necessariamente aceitar a outra. Os estatísticos geralmente evitam usar a palavra "aceitação" porque pode haver falta de evidências suficientes para justificar essa afirmação.

Como funciona um teste de hipóteses?

  • Para realizar um teste de hipóteses, comparamos o valor P com o nosso nível de significância. Se o valor P for menor que o nosso nível de significância, rejeitamos a nossa hipótese nula. Caso contrário, não a rejeitamos.
  • O valor b representa a chance de cometer um erro ao afirmar que algo funciona quando na verdade não funciona.
  • Ao realizar um teste de hipóteses, construímos o teste com o objetivo de rejeitar a nossa hipótese nula.

Conclusão

  • O palestrante apresentou dois exemplos práticos para ilustrar como funciona um teste de hipóteses. Ele explicou que é importante comparar o valor P com o nosso nível de significância e que devemos estar cientes do erro que podemos cometer ao afirmar que algo funciona quando na verdade não funciona.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o professor explica como funciona um teste de hipóteses e como definir o nível de significância.

Rejeição da Hipótese Nula

  • O valor P é comparado com o nível de significância para rejeitar ou não a hipótese nula.
  • Quanto mais próximo de zero for o valor P, maior a chance de rejeitar a hipótese nula.

Significância e Confiança

  • O nível de significância é definido pelo pesquisador antes do experimento e representa o erro máximo que ele pode cometer.
  • Geralmente, se o nível de significância for 5%, então o nível de confiança será 95%.

Aceitação da Hipótese Alternativa

  • Rejeitar a hipótese nula não significa necessariamente aceitar a hipótese alternativa.
  • Em alguns casos, não há evidências suficientes para rejeitar uma hipótese.

Tipos de Testes

  • Existem três tipos de testes: unilateral direito, unilateral esquerdo e bilateral.
  • O Alfa é um limite crítico estabelecido pelo pesquisador para decidir se deve ou não rejeitar a hipótese nula.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o palestrante explica como funciona um teste de hipóteses e as diferentes formas de tomar decisões com base na hipótese nula.

Cálculo do valor da estatística de teste

  • A estatística de teste mede a distância entre o que foi observado na amostra e o que seria esperado se a nossa hipótese nula fosse verdadeira.
  • O valor da estatística de teste é calculado a partir da amostra e é usado para tomar decisões no teste de hipóteses.

Região crítica

  • A região crítica é uma faixa definida com base no alfa escolhido, que leva à rejeição da hipótese nula.
  • Se a estatística de teste cair dentro da região crítica, rejeitamos a hipótese nula.

Erros associados aos testes de hipóteses

  • Existem dois tipos principais de erros associados aos testes de hipóteses - erro tipo I (falso positivo) e erro tipo II (falso negativo).
  • Um falso positivo ocorre quando rejeitamos a hipótese nula quando ela é verdadeira.
  • Um falso negativo ocorre quando não rejeitamos a hipótese nula quando ela é falsa.

Exemplo de falso positivo e falso negativo

  • Um exemplo de falso positivo é quando um homem é informado pelo médico que está grávido.
  • Um exemplo de falso negativo é quando uma mulher grávida é informada pelo médico que não está grávida.

Erros Tipo 1 e Tipo 2

Visão geral da seção: Nesta seção, o palestrante explica os conceitos de erros tipo 1 e tipo 2 em testes de hipóteses.

Erro Tipo 1 e Erro Tipo 2

  • O erro tipo 1 é rejeitar a hipótese nula quando ela é verdadeira, enquanto o erro tipo 2 é não rejeitar a hipótese nula quando ela é falsa.
  • Os exemplos apresentados na seção são considerados situações diferentes para ilustrar como os termos "erro tipo 1" e "erro tipo 2" funcionam na prática.
  • Quando construímos um teste de hipóteses, geralmente avaliamos com relação à hipótese nula. Os testes foram construídos para controlar o erro mais grave possível (o erro tipo 2), fixando-o em um valor pequeno.
  • A probabilidade de cometer um erro tipo 1 é determinada previamente pelo nível de significância (alfa), que geralmente é definido em torno de 5% ou 10%.
  • O exemplo dado sobre justiça ilustra como o erro tipo um pode levar à condenação injusta de uma pessoa inocente, enquanto o erro tipo dois pode levar à absolvição injusta de uma pessoa culpada.

Probabilidade de erro tipo 2 e testes de hipóteses paramétricos

Seção: Nesta seção, o palestrante discute a probabilidade de erro tipo 2 e testes de hipóteses paramétricos.

Probabilidade de erro tipo 2

  • A probabilidade de erro tipo 2 é uma prioridade chamada Beta.
  • A probabilidade do erro tipo 1 só pode ser reduzida aumentando o tamanho da amostra.

Testes de hipóteses paramétricos

  • Os testes de hipóteses paramétricos são usados quando os dados seguem uma distribuição normal.
  • É importante verificar se os dados seguem uma distribuição normal antes de aplicar um teste.
  • Quando os dados não seguem uma distribuição normal, podem ser usados testes não paramétricos.
  • A distribuição normal padrão é usada para padronizar qualquer distribuição normal com qualquer média e variância possível.
  • A tabela Z é usada para fazer cálculos em todas as distribuições normais.

Teste de hipótese para uma amostra

  • Os testes de hipótese são usados quando queremos testar uma hipótese com relação a uma variável disponível no banco de dados, como altura média da população brasileira.
  • Existem vários tipos diferentes de testes dependendo do parâmetro populacional que estamos interessados em analisar.

Testes de Hipótese

Visão Geral da Seção: Nesta seção, o palestrante discute os testes de hipótese e como eles são usados para determinar se uma amostra é representativa da população.

Construindo Hipóteses para a Média Populacional

  • Existem três opções possíveis ao construir hipóteses para a média populacional: maior ou igual, menor ou igual, ou diferente.
  • O teste Z é usado quando a variância populacional é conhecida e a tabela Z é usada. O teste t é usado quando a variância populacional é desconhecida e a tabela T é usada.
  • Quando temos uma amostra grande, podemos considerar que nossa distribuição será normal e seguir com o teste.

Cálculo do Teste de Hipótese

  • Para calcular o teste de hipótese usando o teste Z, subtraímos o valor que estamos testando (mi 0) da média da amostra e dividimos pelo desvio padrão raiz de n.
  • Para calcular o teste de hipótese usando o teste t, usamos a mesma fórmula que no intervalo de confiança: subtraímos o valor que estamos testando (mi 0) da média amostral calculada a partir dos dados e dividimos pelo desvio padrão raiz de n.

Escolhendo entre Teste Z e Teste T

  • A escolha entre usar um teste Z ou um teste T depende se você sabe ou não qual é sua variância populacional. Se você não sabe qual é sua variância populacional, use o teste T.
  • Se você tem uma amostra grande ou seus dados têm distribuição normal, pode usar qualquer um dos testes.

Desculpe, mas não recebi o arquivo de transcrição para criar as notas. Por favor, envie o arquivo de transcrição para que eu possa começar a trabalhar nas notas.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o palestrante explica como realizar um teste de hipóteses e apresenta um exemplo prático.

Realizando um Teste de Hipóteses

  • Para realizar um teste de hipóteses, é necessário estabelecer uma hipótese nula (H0) e uma hipótese alternativa (Ha).
  • É preciso calcular a estatística de teste usando a fórmula adequada.
  • Com base no valor da estatística de teste, é possível determinar se a hipótese nula deve ser rejeitada ou não.
  • O valor tabelado na tabela Z pode ser usado para determinar a região crítica do teste.

Exemplo Prático: Testando a Quantidade Média de Café em Pacotes

  • O exemplo envolve testar se a quantidade média de café em pacotes é igual a 500 gramas.
  • A amostra consistiu em 16 pacotes, com uma média amostral calculada em 498.4 gramas e variância populacional conhecida igual a 400.
  • Usando um nível de significância α = 1%, o valor da estatística de teste foi -1.6, que não caiu na região crítica do teste.
  • Portanto, não há evidências suficientes para rejeitar H0 ao nível de significância de 1%, o que significa que não há evidências suficientes para afirmar que a quantidade média de café em pacotes é diferente de 500 gramas.

Exemplo Prático: Testando a Quantidade Média de Nicotina em Cigarros

  • O exemplo envolve testar se a quantidade média de nicotina em cigarros é maior do que 30 mg.
  • A amostra consistiu em 25 cigarros, com uma média amostral calculada em 31.5 mg e desvio padrão amostral igual a 3.
  • Como a variância populacional não é conhecida, ela precisa ser estimada usando os dados da amostra.
  • Usando um nível de significância α = 5%, o valor da estatística de teste foi 2.12, que caiu na região crítica do teste.
  • Portanto, há evidências suficientes para rejeitar H0 ao nível de significância de 5%, o que significa que há evidências suficientes para afirmar que a quantidade média de nicotina em cigarros é maior do que 30 mg.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o palestrante explica como realizar um teste de hipóteses e como interpretar os resultados.

Teste T Unilateral

  • O teste T é usado para determinar se a média amostral é significativamente diferente do valor que está sendo testado.
  • A estatística de teste é calculada subtraindo a média amostral pelo valor testado e dividindo pelo desvio padrão amostral dividido pela raiz quadrada do tamanho da amostra.
  • A região de rejeição é baseada na hipótese alternativa e no nível de significância escolhido.
  • No exemplo dado, a hipótese alternativa era que a média era maior que o valor testado e o nível de significância era 5%.
  • Se a estatística de teste for maior que o valor tabelado, então rejeitamos a hipótese nula.

Teste T Bilateral

  • O teste T bilateral é usado quando queremos determinar se a média amostral é significativamente diferente do valor testado em ambas as direções.
  • A região crítica é dividida em duas partes iguais, uma para cada cauda da distribuição normal.
  • O nível de significância também deve ser dividido por dois.

Diferença entre Teste T e Teste Z

  • O teste Z pode ser usado quando conhecemos o desvio padrão populacional ou quando temos uma grande amostra (n > 30).
  • O teste T deve ser usado quando não conhecemos o desvio padrão populacional ou quando temos uma pequena amostra (n < 30).

Tamanho da Amostra

  • Se o tamanho da amostra for grande o suficiente e coletado corretamente, aumentar a amostra não afetará significativamente os resultados do teste de hipóteses.
  • Aumentar a amostra é recomendado se houver dúvida sobre se o tamanho atual é suficiente ou não.

Conclusão

Nesta seção, aprendemos como realizar um teste de hipóteses usando o teste T e como interpretar os resultados. Também aprendemos a diferença entre testes unilaterais e bilaterais, bem como quando usar o teste Z em vez do teste T. Por fim, discutimos a importância do tamanho da amostra na realização de um teste de hipóteses.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o instrutor explica os métodos tradicionais para rejeitar ou não uma hipótese nula em um teste de hipóteses. Ele apresenta três métodos: estatística de teste, intervalo de confiança e valor P.

Estatística de Teste

  • O método tradicional para rejeitar uma hipótese nula é através da estatística de teste.
  • Para rejeitar a hipótese nula usando a estatística de teste, o valor observado da estatística deve pertencer à região de rejeição.
  • Caso contrário, se o valor observado cair dentro da região crítica, a hipótese nula não é rejeitada.

Intervalo de Confiança

  • O segundo método é através do intervalo de confiança. Se o intervalo calculado não contém o valor testado, a hipótese nula é rejeitada.
  • Este método também pode ser usado para testes unilaterais.

Valor P

  • O terceiro método mais utilizado na prática é a fórmula do valor P.
  • O valor P calcula a probabilidade da hipótese nula ser verdadeira com base nos dados disponíveis.
  • Se o valor P for menor que o alfa definido pelo pesquisador (geralmente 5%), a hipótese nula é rejeitada.
  • Se o valor P for maior que o alfa, a hipótese nula não é rejeitada.

Conclusão

  • O método do valor P depende menos da escolha do pesquisador em relação ao alfa e é mais utilizado na prática.
  • O valor P calcula a probabilidade de errar ao rejeitar a hipótese nula com base nos dados disponíveis.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o palestrante explica como realizar um teste de hipóteses em uma indústria farmacêutica para verificar se a quantidade média de ácido em um remédio está dentro das especificações.

Realizando um Teste de Hipóteses

  • Uma indústria farmacêutica precisa garantir que a quantidade média de ácido em um remédio esteja dentro das especificações.
  • Para verificar se há problemas na produção, é selecionada uma amostra de comprimidos e é calculada a quantidade média de ácido nessa amostra.
  • É realizado um teste de hipóteses com base nos dados da amostra para confirmar ou não a suspeita da indústria.
  • A hipótese alternativa é que a quantidade média de ácido no comprimido é diferente da especificada pelo fabricante.
  • O nível de significância (alfa) utilizado no teste é 2%.
  • A estatística t é utilizada porque não se sabe qual é a variância populacional.
  • Considerando o nível de significância, uma região crítica é definida para rejeitar ou não a hipótese nula.
  • O valor P também pode ser utilizado para rejeitar ou não a hipótese nula. Ele representa a probabilidade dos valores observados serem iguais ou mais extremos do que o valor calculado.
  • O valor P é calculado com base na estatística de teste e pode ser encontrado em tabelas. Ele é utilizado para determinar se a hipótese nula deve ser rejeitada ou não.
  • O método do valor P é amplamente utilizado na prática para testes de hipóteses.

Mudando o Nível de Significância

  • Mudar o nível de significância (alfa) pode afetar a decisão final do teste de hipóteses.
  • Quando o alfa é mudado para 1%, a afirmação do fabricante se torna correta e não há evidências suficientes para rejeitar a hipótese nula.
  • É importante utilizar o método do valor P para evitar depender da escolha subjetiva do alfa pelo pesquisador.

Testes de Hipótese

Visão geral da seção: Nesta seção, o professor explica como realizar testes de hipótese e sua importância.

Método do Valor P

  • O valor p é menor que o nível de significância: rejeita-se a hipótese nula.
  • O valor p não é menor que o nível de significância: não se rejeita a hipótese nula.

Importância do Método do Valor P

  • O método do valor P é usado em todos os testes estatísticos.
  • É utilizado para verificar quais parâmetros são significativos ou não em modelos de regressão linear simples e múltipla.

Passos para Realizar Testes de Hipótese

  • Formular as hipóteses (nula e alternativa).
  • Identificar o teste apropriado (média, variância ou proporção).
  • Escolher o nível de significância alfa.
  • Definir a regra de decisão (intervalo de confiança, estatística de teste ou valor P).
  • Tomar uma decisão com base no resultado do teste.

Outros Tipos de Testes Estatísticos

  • Testes para proporção e variância.
  • Testes estatísticos não paramétricos que não dependem da distribuição dos dados.

Dúvidas dos Alunos

Os alunos perguntam sobre como realizar testes controlando outras variáveis. O professor responde que isso pode ser feito com modelos mais complexos, como modelos de regressão linear e modelos logísticos.

Teste de Hipótese de Normalidade

Visão Geral da Seção: Nesta seção, o palestrante explica que, ao trabalhar com dados, a primeira coisa a ser feita é um teste de hipótese de normalidade. Se os dados forem normais, pode-se fazer o teste direto. Caso contrário, existem duas alternativas: usar um teste estatístico não paramétrico ou aumentar o tamanho da amostra.

Valor P e Nível de Significância

  • O valor P é uma medida precisa para calcular qual erro pode ser cometido ao rejeitar ou não uma hipótese nula.
  • O nível de significância padrão é 5%, mas outros valores podem ser usados.
  • Comparar o valor P com o alfa (nível de significância) estabelecido permite avaliar a vontade de cometer um erro em relação ao limite crítico definido.

Influência do Valor Alfa no Teste

  • Aumentar o alfa torna o teste mais flexível e diminui a certeza sobre sua validade.
  • Diminuir o alfa pode levar à aceitação da hipótese nula.

Vantagens do Uso do Valor P

  • Usar o valor P evita a necessidade de consultar tabelas adicionais para tomar decisões.
  • Os comandos Python e R geralmente soltam apenas a estatística do teste, sem fornecer informações sobre regiões críticas que dependem das tabelas dos valores tabelados.

Diferença entre valores iguais e diferentes

Visão geral da seção: Nesta seção, o palestrante explica a diferença entre usar valores iguais e diferentes em um problema.

Valores específicos para tratar uma doença

  • Usar valores diferentes dos especificados pode causar problemas tanto para mais quanto para menos.
  • Exemplo: determinado remédio trata uma doença com valores específicos. Se os valores forem diferentes, pode não tratar ou causar overdose.

Abordagem depende do problema

  • Depende da abordagem e conclusão desejada no problema.
  • Em casos como o exemplo da nicotina, onde ser maior é o problema e ser menor não é, pode-se usar valores maiores ou menores.

Disponibilização de código e slides

Visão geral da seção: Nesta seção, o palestrante informa que irá disponibilizar seu código e slides para os alunos testarem.

  • O palestrante irá liberar seu código usado na mentoria para que os alunos possam testá-lo.
  • Os testes também foram usados em um banco de dados real fazendo teste de normalidade dos dados.
  • Os slides também serão compartilhados com os alunos.
  • Os alunos podem treinar depois e procurar ajuda caso tenham dúvidas.