DSCBC REM 2022 4 Testes de hipóteses e cálculo de amostr
Introdução
Visão geral da seção: Nesta seção, o professor introduz o conteúdo que será abordado na aula de hoje e faz uma breve revisão dos conceitos de população e amostra.
População vs Amostra
- População é o conjunto de todos os elementos, enquanto amostra é uma parte dessa população.
- Inferência estatística só faz sentido quando trabalhamos com amostras.
- Estatísticas são características da amostra, enquanto parâmetros são características da população.
Estimadores
- Estimadores são cálculos baseados na amostra que estimam um valor do parâmetro populacional correspondente.
- A média amostral é um bom estimador para a média populacional.
Intervalos de Confiança
Visão geral da seção: Nesta seção, o professor explica como construir intervalos de confiança para estimar um parâmetro populacional desconhecido.
Construção do Intervalo de Confiança
- O intervalo de confiança é uma faixa de valores em torno do valor estimado do parâmetro populacional.
- O nível de confiança indica a probabilidade do intervalo conter o verdadeiro valor do parâmetro populacional.
- O tamanho da amostra afeta a largura do intervalo de confiança.
Testes de Hipóteses
Visão geral da seção: Nesta seção, o professor explica como realizar testes de hipóteses para avaliar a significância estatística de um resultado.
Etapas do Teste de Hipóteses
- O teste de hipóteses envolve a formulação de uma hipótese nula e uma hipótese alternativa.
- O valor-p é a probabilidade de obter um resultado tão extremo quanto o observado, assumindo que a hipótese nula seja verdadeira.
- Se o valor-p for menor que o nível de significância escolhido, rejeitamos a hipótese nula em favor da hipótese alternativa.
Comparação Múltipla
Visão geral da seção: Nesta seção, o professor explica como realizar comparações múltiplas entre várias amostras.
Teste ANOVA
- O teste ANOVA é usado para comparar as médias entre três ou mais grupos independentes.
- Se houver diferenças significativas nas médias, podemos usar testes post-hoc para identificar quais grupos são diferentes entre si.
Conclusão
Visão geral da seção: Nesta seção, o professor faz uma revisão dos principais conceitos abordados na aula de hoje.
Principais Conceitos
- População vs Amostra
- Estimadores
- Intervalos de Confiança
- Testes de Hipóteses
- Comparação Múltipla
Estimativa e Variância
Visão geral da seção: Nesta seção, a professora explica o conceito de estimativa e variância na inferência estatística.
Estimativa
- Quando atribuímos valores aos estimadores, chamamos de estimativa.
- A estimativa é um valor numérico aplicado aos dados observados na amostra.
Variância
- A variância é uma medida de dispersão que mostra o quão distantes os nossos dados estão da média.
- Quanto menor a variância, mais próximos os valores estão da média e quanto mais distante, mais longe eles estão da média.
- Existe uma letra para representar a variância populacional que é o Sigma. Já para falar sobre a variância da amostra usamos a letra s.
Diferença entre população e amostra
- É importante diferenciar o que é população e o que é amostra na inferência estatística.
- Para representar a população utilizamos letras como Mi (média populacional) e n (tamanho populacional).
- Já para representar a amostra utilizamos letras como x/ (média amostral) e s (desvio padrão amostral).
Erro associado à coleta de dados
Visão geral da seção: Nesta seção, a professora explica sobre o erro associado à coleta de dados em processos de amostragem.
Erro associado à coleta de dados
- Por mais que a coleta de dados seja bem planejada e executada, sempre haverá um erro associado.
- Esse erro é mostrado através da metodologia de amostragem correta.
- Quando utilizamos os métodos de amostragem corretamente, conseguimos mensurar o erro associado à coleta de dados.
Intervalo de confiança
- Um dos métodos que considera o erro ao fazer a inferência sobre a população é o intervalo de confiança.
- O intervalo de confiança mostra a diferença entre o resultado coletado na amostra e o verdadeiro resultado da população.
Estimação pontual e estimação intervalar
Visão geral da seção: Nesta seção, a professora explica sobre estimação pontual e estimação intervalar na inferência estatística.
Estimação pontual
- A estimação pontual é quando usamos estimadores para atribuir valores aos parâmetros populacionais.
- Por exemplo, podemos usar a proporção amostral de eleitores para estimar a proporção populacional de intenção de votos em um candidato.
Estimação intervalar
- A estimação intervalar leva em consideração uma margem de erro ao fazer a inferência sobre a população.
- Por exemplo, podemos calcular um intervalo de confiança para mostrar uma faixa possível do valor real do parâmetro populacional.
Intervalo de Confiança
Visão geral da seção: Nesta seção, o professor explica o conceito de intervalo de confiança e como ele é usado para estimar um parâmetro populacional com base em uma amostra.
O que é um intervalo de confiança?
- Um intervalo de confiança é uma faixa de valores usada para estimar o verdadeiro valor do parâmetro populacional com base em uma amostra.
- Ele inclui uma estimativa pontual do parâmetro e uma margem de erro que leva em consideração o erro amostral.
- Quando bilateral, ele tem um limite inferior e um limite superior.
Como calcular a margem de erro?
- A margem de erro depende do tamanho da amostra e do contexto do estudo.
- Quanto maior a amostra, menor será a margem de erro.
- Para calcular a margem de erro, é necessário estudar a distribuição amostral.
O que é distribuição amostral?
- Distribuição amostral é a média das estatísticas calculadas em várias amostras diferentes da mesma população.
- É usada para analisar as variações nas estatísticas calculadas em diferentes amostras.
- É importante para determinar a margem de erro e calcular o intervalo de confiança.
Como usar o intervalo de confiança na prática?
- O intervalo de confiança pode ser usado para estimar um parâmetro populacional com base em uma amostra.
- Ele fornece uma faixa mais precisa do valor real do parâmetro, levando em consideração o erro amostral.
- Quanto maior a amostra, menor será a margem de erro e mais precisa será a estimativa do parâmetro populacional.
Distribuição Amostral e Intervalos de Confiança
Visão geral da seção: Nesta seção, a professora explica a importância de entender a distribuição amostral para definir margem de erro e como a distribuição normal é frequentemente usada em intervalos de confiança para médias.
Distribuição Normal
- A distribuição normal é uma das atribuições de probabilidades mais usadas porque muitos fenômenos naturais apresentam um comportamento semelhante à distribuição normal.
- Quando estamos interessados em fazer intervalos de confiança ou estimar um parâmetro populacional, como a média, geralmente usamos a distribuição normal.
- Se uma variável tem uma distribuição normal com média mi e variância sigma ao quadrado na população inteira, então a média amostral também terá uma distribuição normal com média mi e variância sigma ao quadrado sobre n, onde n é o tamanho da amostra coletada.
Exemplo Prático
- A professora gerou aleatoriamente uma amostra de tamanho 100 com uma população que tem média 1.7 e variância 0.1.
- Ao calcular a média da amostra gerada aleatoriamente, ela conseguiu voltar à média populacional.
- Sabendo qual é essa distribuição amostral, podemos inferir sobre a população que estamos estudando.
Teorema do Limite Central
Visão geral da seção: Nesta seção, a professora explica o teorema do limite central e como ele pode ser usado para inferir sobre parâmetros populacionais usando estatísticas calculadas em amostras.
- Quando temos uma variável com distribuição normal na população inteira e coletamos uma amostra, a média amostral também terá uma distribuição normal com média mi e variância sigma ao quadrado sobre n.
- Podemos usar a média amostral para inferir sobre a média populacional e a variância amostral para inferir sobre a variância populacional.
- O teorema do limite central afirma que, à medida que o tamanho da amostra aumenta, a distribuição das médias amostrais se aproxima de uma distribuição normal.
Distribuição Normal e Teorema do Limite Central
Visão Geral da Seção: Nesta seção, o palestrante explica a distribuição normal e o teorema do limite central.
Distribuição Normal
- A distribuição normal é uma distribuição importante quando se trata de inferência estatística.
- Quando uma amostra é grande o suficiente, a média dessa variável que está sendo estudada converge para uma distribuição normal.
- Independentemente da forma original dos dados, se muitas amostras forem tomadas nessa distribuição e um histograma for feito da média amostral, isso convergirá para uma curva normal.
Teorema do Limite Central
- O teorema do limite central afirma que, independentemente da distribuição original da variável que está sendo estudada, quando a amostra é grande o suficiente, a distribuição amostral da média será sempre uma distribuição normal.
- Através das propriedades da distribuição normal, é possível fazer inferências sobre a população em estudo.
- O palestrante mostra exemplos de como diferentes formas originais de dados convergem para uma curva normal à medida que o tamanho da amostra aumenta.
Exemplo Prático
- O palestrante apresenta um exemplo prático em que ele gera uma distribuição normal com base na altura populacional média e no desvio padrão.
- Ele então pega aleatoriamente uma amostra e calcula sua média amostral e variância amostral.
- Através dos valores da amostra, ele consegue voltar aos valores populacionais.
Distribuição das médias de várias amostras
Visão geral da seção: Nesta seção, o palestrante fala sobre a distribuição das médias de várias amostras de tamanho 25 e como isso é usado para construir intervalos de confiança.
Intervalo de confiança
- O intervalo de confiança é construído com um determinado nível de confiança que pode ser 90%, 95% ou 99%.
- O nível de confiança refere-se à taxa de sucesso do método usado para fazer os intervalos de confiança.
- O nível de confiança é uma probabilidade e geralmente está associado ao nível de significância.
- O nível de significância é um valor pré-definido que ajuda a calcular o intervalo.
Exemplo prático
- Para entender melhor o conceito, o palestrante usa o exemplo da altura média da população brasileira.
- Várias amostras são coletadas e usadas para calcular os intervalos de confiança.
- A distribuição da altura média da população brasileira é normal.
Níveis de confiança e significância
Visão geral da seção: Nesta seção, o palestrante explica a diferença entre níveis de confiança e significância e como eles são usados para escolher os valores adequados para um método.
Compreendendo níveis de confiança e significância
- O nível de confiança é a quantidade de vezes que o intervalo contém o verdadeiro valor do parâmetro populacional.
- O nível de significância é a quantidade de vezes que o intervalo não contém o verdadeiro valor do parâmetro populacional.
- Os valores mais comuns para os níveis de confiança são 95%, 99% ou no máximo 90%.
Exemplo prático: proporção de intenção de votos
Visão geral da seção: Nesta seção, o palestrante usa um exemplo prático para explicar como calcular um intervalo de confiança.
Calculando uma estimativa pontual
- Para estimar a proporção de intenção de votos em um candidato, é necessário coletar uma amostra aleatória e calcular a proporção através dessa amostra.
- A proporção é calculada dividindo-se o número total das pessoas entrevistadas que votaram no candidato pelo número total das pessoas entrevistadas.
Calculando um intervalo de confiança
- Um intervalo de confiança pode ser usado para determinar qual erro pode ser cometido na estimativa pontual.
- Um exemplo prático foi dado onde uma margem de erro foi calculada como sendo igual a 4%.
- Um intervalo com 95% de confiança foi calculado para a proporção de intenção de votos, com um limite inferior de 45% e um limite superior de 53%.
Interpretando o intervalo de confiança
- O nível de confiança é a quantidade de vezes que o intervalo contém o verdadeiro valor do parâmetro populacional.
- Se várias amostras do mesmo tamanho forem coletadas aleatoriamente, dos 20 intervalos calculados, 19 conterão o verdadeiro valor da proporção de intenção de votos.
- A margem de erro é a flutuação na estimativa pontual.
Interpretação correta do intervalo
Visão geral da seção: Nesta seção, o palestrante explica como interpretar corretamente um intervalo de confiança.
Entendendo a taxa de confiança
- A taxa ou nível de confiança é a quantidade de vezes que o intervalo vai conter o valor real do parâmetro populacional.
- Um exemplo prático foi dado onde um intervalo com 95% de confiança foi calculado para a proporção de intenção de votos.
Exemplo prático: interpretação do intervalo
- Suponha que uma amostra aleatória tenha sido coletada e que a proporção calculada seja em torno de 49%.
- Um intervalo com 95% foi calculado para essa proporção, com um limite inferior igual a 45% e um limite superior igual a 53%.
- Isso significa que se várias amostras forem coletadas aleatoriamente, dos 20 intervalos calculados, 19 conterão o verdadeiro valor da proporção.
Nível de Confiança
Visão Geral da Seção: Nesta seção, o palestrante explica o que é nível de confiança e como interpretá-lo.
Interpretação do Nível de Confiança
- O nível de confiança é a taxa de sucesso do procedimento quando várias amostras diferentes são tomadas.
- É um pouco complexo, mas geralmente 500 amostras são suficientemente grandes para considerar uma grande amostra.
- Em certas áreas, como na medicina, é necessário ter mais cuidado ao determinar o tamanho da amostra.
- Não há um número mágico que determine o tamanho da amostra necessária para aplicar uma teoria específica.
Intervalos de Confiança para Médias Populacionais
Visão Geral da Seção: Nesta seção, o palestrante explica como construir intervalos de confiança para médias populacionais.
Construindo Intervalos de Confiança
- Para construir um intervalo de confiança, é necessário saber qual parâmetro populacional está sendo estudado (média, variância ou proporção).
- Quando a variância populacional é conhecida, usa-se a tabela Z.
- Quando a variância populacional é desconhecida, usa-se a tabela T.
- A margem de erro pode ser calculada usando a fórmula: E = z*(sigma/sqrt(n)), onde z é o valor tabelado, sigma é o desvio padrão populacional e n é o tamanho da amostra.
Intervalo de Confiança para Média Populacional
Visão Geral da Seção: Nesta seção, o palestrante explica como construir um intervalo de confiança para a média populacional quando a variância populacional é conhecida. Ele também discute a importância da distribuição amostral e do nível de confiança na construção do intervalo.
Construindo o Intervalo de Confiança
- Para construir o intervalo de confiança para a média populacional com 100(1 - Alfa)% de confiança, é necessário usar tabelas.
- O nível de confiança pode ser definido pelo usuário (geralmente 90%, 95% ou 99%) e o Alfa é determinado pelo nível de confiança escolhido (por exemplo, Alfa = 5% para um nível de confiança de 95%).
- A estimativa pontual usada na fórmula é a média amostral.
- A margem de erro é um valor tabelado que deve ser buscado na tabela normal usando o valor do Alfa escolhido.
- É necessário saber qual é a variância populacional (Sigma) dividida pelo tamanho da amostra coletada (raiz quadrada do tamanho da amostra) para calcular a fórmula.
Importância da Distribuição Amostral e do Nível de Confiança
- É importante conhecer a distribuição amostral porque os valores tabelados necessários para calcular o intervalo são encontrados na distribuição normal.
- O desvio padrão usado na fórmula é basicamente o desvio padrão dessa distribuição amostral.
- O nível de confiança é determinado pelo usuário e afeta o valor tabelado necessário para calcular o intervalo.
Exemplo Prático
- O palestrante apresenta um exemplo prático em que a variância populacional é conhecida (100 gramas ao quadrado) e uma máquina de café se desregulou, então uma amostra de 25 pacotes foi coletada para estimar a nova média dos pacotes.
- A média amostral encontrada foi 485 gramas.
- Foi solicitado um intervalo de confiança com 95% de confiança para a nova média dos pacotes.
- O valor tabelado necessário para calcular o intervalo foi encontrado usando o comando norm.ppf do Python.
Intervalo de Confiança
Visão Geral da Seção: Nesta seção, o palestrante explica como calcular o intervalo de confiança para a média populacional com base em uma amostra.
Cálculo do Intervalo de Confiança
- O intervalo de confiança pode ser calculado usando a fórmula: média amostral +/- Z * (desvio padrão amostral / raiz quadrada do tamanho da amostra).
- Para obter o valor de Z, é necessário buscar na tabela correspondente ao nível de confiança escolhido.
- Um exemplo é apresentado para ilustrar o cálculo do intervalo de confiança.
- Tamanho da amostra: 25
- Média amostral: 485
- Variância: 100
- Nível de confiança: 95%
- Valor tabelado para alfa/2 = 0.025: Z = 1.96
- O intervalo de confiança encontrado foi entre 481 e 489 gramas.
- Esse resultado indica que há uma probabilidade de 95% que o verdadeiro valor médio dos pacotes esteja dentro desse intervalo.
Distribuição Normal e Tamanho da Amostra
Visão Geral da Seção: Nesta seção, o palestrante discute a relação entre distribuição normal e tamanho da amostra.
- Se a variável em questão tem distribuição normal, é possível usar a fórmula do intervalo de confiança mesmo com uma pequena amostra.
- Caso contrário, é necessário ter uma grande amostra para poder aplicar essa fórmula.
- O teorema central do limite afirma que, para amostras grandes, a distribuição da média amostral se aproxima de uma distribuição normal.
- Portanto, mesmo que a variável original não tenha distribuição normal, é possível usar a fórmula do intervalo de confiança com uma grande amostra.
Distribuição do Processo da Máquina
Visão Geral da Seção: Nesta seção, o palestrante responde a perguntas sobre a relação entre o processo da máquina e a distribuição dos dados.
- A análise do intervalo de confiança não leva em consideração como o processo da máquina funciona ou como ele pode mudar ao longo do tempo.
- O objetivo é avaliar se o valor médio dos pacotes está dentro de um intervalo específico ou não.
- Mesmo que os dados coletados não sigam uma distribuição normal, é possível usar a fórmula do intervalo de confiança com uma grande amostra.
Distribuição Normal e Intervalo de Confiança
Visão geral da seção: Nesta seção, o palestrante explica como a distribuição normal é obtida através da média de várias amostras e como isso pode ser usado para calcular intervalos de confiança.
Distribuição Normal
- A distribuição normal é obtida através da média de várias amostras.
- Quanto maior o tamanho das amostras, mais próxima a distribuição fica da normal.
- O método de bootstraping pode ser usado para obter uma noção melhor dentro da amostra.
Intervalo de Confiança
- O intervalo de confiança é uma estimativa pontual com margem de erro.
- A tabela Z é usada para reduzir a margem de erro.
- Quanto maior a margem de erro, mais incerteza há sobre o parâmetro da população.
Tamanho da amostra para intervalo de confiança
Visão geral da seção: Nesta seção, o palestrante explica como determinar o tamanho mínimo de uma amostra para um intervalo de confiança com margem de erro específica.
Determinando o tamanho mínimo da amostra
- A margem de erro é determinada pela fórmula: margem de erro = valor tabelado * (desvio padrão / raiz quadrada do tamanho da amostra).
- Quanto maior a amostra, menor será a margem de erro e maior será a certeza na inferência.
- Para determinar o tamanho mínimo da amostra necessário para uma margem de erro específica, é preciso isolar o tamanho da amostra na fórmula.
- É possível usar essa fórmula para calcular o tamanho mínimo da amostra necessária para um intervalo de confiança com uma margem de erro específica e um nível de confiança especificado.
Exemplo prático
- O palestrante apresenta um exemplo em que é necessário determinar o tamanho mínimo da amostra necessária para construir um intervalo de 95% de confiança com uma margem de erro máxima igual a 1, considerando uma população com distribuição normal e desvio padrão populacional igual a 10.
- Usando a fórmula mencionada anteriormente, é possível determinar que são necessárias pelo menos 384 observações na amostra.
Intervalo onde não se sabe qual é a variância populacional
Visão geral da seção: Nesta seção, o palestrante explica como calcular um intervalo quando não se sabe qual é a variância populacional.
Intervalo de confiança com variância desconhecida
- Quando não se sabe qual é a variância populacional, é possível usar o intervalo de confiança t-Student.
- O intervalo de confiança t-Student é semelhante ao intervalo de confiança Z, mas usa a distribuição t-Student em vez da distribuição normal padrão.
- A fórmula para calcular o intervalo de confiança t-Student inclui um grau de liberdade adicional para levar em conta a incerteza na estimativa da variância populacional.
Exemplo prático
- O palestrante apresenta um exemplo em que é necessário determinar um intervalo de 95% de confiança para a média populacional quando não se sabe qual é a variância populacional.
- Usando o intervalo de confiança t-Student e os dados amostrais fornecidos, é possível determinar o limite inferior e superior do intervalo.
Distribuição t de Student
Nesta seção, o palestrante explica a distribuição t de Student e como ela é usada para construir intervalos de confiança quando a variância populacional é desconhecida.
Distribuição t de Student
- A distribuição t de Student é semelhante à distribuição normal, mas é usada quando a variância populacional é desconhecida.
- O valor tabelado usado na distribuição t é chamado de valor T e é procurado em uma tabela.
- À medida que o tamanho da amostra aumenta, a distribuição t se aproxima da distribuição normal.
- Além do nível de significância alfa, outro parâmetro importante na distribuição t é o grau de liberdade (n - 1).
Intervalo de Confiança com Distribuição t
- Quando queremos construir um intervalo de confiança para a média populacional e não conhecemos a variância populacional, usamos a notação do intervalo de confiança para média com nível de confiança alfa.
- Em vez do valor Z tabelado usado na distribuição normal, usamos o valor T tabelado encontrado na tabela T.
- O desvio padrão calculado na amostra (S) substitui o desvio padrão populacional (sigma) desconhecido.
Exemplo Prático
- Suponha que estamos interessados em estudar qual é a idade média das crianças que começam a falar. Tiramos uma amostra aleatória simples com 20 crianças e descobrimos que elas começaram a falar em média aos 10 meses.
- Calculamos o desvio padrão da amostra e usamos a tabela T para encontrar o valor tabelado correspondente ao nível de confiança alfa e grau de liberdade (n - 1).
- Substituímos os valores na fórmula do intervalo de confiança para média com nível de confiança alfa usando a distribuição t.
Intervalo de Confiança
Visão Geral da Seção: Nesta seção, o instrutor explica como calcular o intervalo de confiança usando a fórmula do intervalo de confiança para uma média populacional com base em uma amostra.
Cálculo do Intervalo de Confiança
- O tamanho da amostra é igual a 20.
- Para calcular o intervalo de confiança, é necessário definir o nível de confiança e os graus de liberdade (tamanho da amostra menos um).
- Ao calcular o intervalo manualmente, é necessário usar a tabela T.
- No mundo real, geralmente usa-se a fórmula que usa a tabela T porque não se sabe qual é a variância populacional.
Prática do Intervalo de Confiança
- Não há conhecimento sobre algum site onde possa ser encontrado exercícios para praticar por conta própria.
- O instrutor compartilha um código que ele estruturou para mentoria dessa aula que tem uma base de dados real e na qual calcula os intervalos para o normal com todos os passos.
- O instrutor sugere um livro que contém respostas aos exercícios sobre intervalos de confiança.
Dificuldades no Conteúdo
- O conteúdo sobre intervalos de confiança pode ser difícil e conceitual.
- É importante conectar esses conceitos com a vida prática.
- A próxima aula será uma mentoria, onde os alunos terão a oportunidade de ver mais na prática como funciona o intervalo de confiança.
Intervalos de Confiança
Visão Geral da Seção: Nesta seção, o professor explica como obter limites bilaterais e unilaterais para intervalos de confiança. Ele também mostra como usar tabelas Z ou T para encontrar valores Alfa e como calcular os limites inferior e superior.
- Os intervalos podem ter limites bilaterais ou unilaterais. As fórmulas são diferentes na hora de procurar um valor.
- É possível usar tabelas Z ou T para encontrar valores Alfa em vez de procurar por Alfa sobre dois.
- Para encontrar o limite inferior, use menos na fórmula. Para encontrar o limite superior, use mais na fórmula.
- Existem intervalos de confiança para outros parâmetros populacionais, como a variância populacional e a proporção.
Grau de Liberdade
Visão Geral da Seção: Nesta seção, o professor explica a definição teórica do grau de liberdade e como calculá-lo na prática.
- O grau de liberdade é o número de parâmetros que estamos estimando subtraído do tamanho da amostra.
- No exemplo do intervalo de confiança com uma média populacional conhecida, usamos n - 1 para calcular o grau de liberdade.
- Quando estamos comparando duas populações diferentes em um teste de hipótese, usamos n - 2 em vez disso.
Teste de Hipóteses
Visão Geral da Seção: Nesta seção, o professor explica a metodologia do teste de hipóteses e como decidir entre a hipótese nula e alternativa.
- O teste de hipóteses é um processo de decisão entre duas hipóteses: a nula e a alternativa.
- A hipótese nula é geralmente a afirmação que estamos tentando rejeitar, enquanto a alternativa é o contrário da hipótese nula.
- Temos duas opções: rejeitar ou não rejeitar a hipótese nula.
- O grau de liberdade é usado para calcular o valor-p, que nos ajuda a decidir se devemos rejeitar ou não rejeitar a hipótese nula.
Teste de Hipóteses
Visão Geral da Seção: Nesta seção, a professora explica o conceito de teste de hipóteses e como ele é usado para verificar a eficácia de um produto.
Hipóteses Exclusivas
- As hipóteses são exclusivas e formam 100% das opções possíveis.
- A hipótese nula é igual a um valor específico, enquanto a alternativa é diferente desse valor ou igual a outro valor.
- As hipóteses devem contemplar todas as opções possíveis: igual ou diferente.
Exemplo Prático: Produto Jenner Choice
- O produto Jenner Choice permite aos casais escolherem aumentarem a chance de ter um bebê do sexo feminino se usasse embalagem rosa ou do sexo masculino se usasse a embalagem Azul.
- Levantamento das hipóteses: na hipótese nula, o produto não funciona; na alternativa, o produto funciona.
Testando as Hipóteses
- Parâmetro populacional estudado no exemplo: probabilidade de uma menina no nascimento quando os casais não estão esperando gêmeos ou mais de um bebê.
- Valor esperado da variável aleatória: número esperado de meninas em torno de 50 meninas.
- Parâmetro populacional testado no exemplo: proporção de nascimentos femininos com o uso do produto Jenner Choice.
- Probabilidade de vir um bebê do sexo feminino é de 50% se o produto não funciona.
Hipóteses e Teste de Significância
Visão geral da seção: Nesta seção, o palestrante explica a importância das hipóteses e do teste de significância em estatística.
Importância das hipóteses
- As hipóteses são afirmações sobre um parâmetro da população.
- A hipótese nula é a afirmação que queremos testar.
- A hipótese alternativa é a afirmação oposta à hipótese nula.
- As duas hipóteses devem cobrir todas as possibilidades (100%).
- É importante definir corretamente as hipóteses para realizar um teste de significância válido.
Teste de significância
- O teste de significância é uma ferramenta estatística usada para avaliar se os resultados observados em uma amostra são consistentes com a hipótese nula.
- O objetivo do teste é determinar se há evidências suficientes para rejeitar ou não a hipótese nula.
- O resultado do teste é expresso como um valor p, que representa a probabilidade de obter os resultados observados ou mais extremos, assumindo que a hipótese nula seja verdadeira.
- Se o valor p for menor que o nível de significância escolhido (geralmente 0,05), então rejeitamos a hipótese nula. Caso contrário, não temos evidências suficientes para rejeitá-la.
Exemplo prático: Probabilidade de nascer meninas
Visão geral da seção: Nesta seção, o palestrante apresenta um exemplo prático de como aplicar hipóteses e teste de significância em um problema real.
Definição das hipóteses
- A hipótese nula é que a probabilidade de nascer uma menina é menor ou igual a 50%.
- A hipótese alternativa é que a probabilidade de nascer uma menina é maior do que 50%.
- As duas hipóteses cobrem todas as possibilidades (100%).
Análise dos resultados
- Se observarmos um resultado com 52 meninas em 100 nascimentos, isso não seria suficiente para rejeitar a hipótese nula, pois esse resultado ainda está dentro do esperado pela probabilidade natural.
- No entanto, se observarmos um resultado com 98 meninas em 100 nascimentos, isso seria muito improvável de acontecer naturalmente e poderia ser considerado evidência suficiente para rejeitar a hipótese nula.
Limitações do teste de significância
Visão geral da seção: Nesta seção, o palestrante discute algumas limitações do teste de significância.
Tamanho da amostra
- O tamanho da amostra pode afetar os resultados do teste de significância.
- É importante ter uma amostra grande o suficiente para detectar diferenças estatisticamente significativas.
Interpretação dos resultados
- Os resultados do teste de significância devem ser interpretados com cuidado.
- Um valor p menor que o nível de significância escolhido não significa necessariamente que a hipótese alternativa seja verdadeira.
- É importante considerar outros fatores e evidências antes de tirar conclusões.
Conclusão
- O teste de significância é uma ferramenta útil para avaliar se os resultados observados em uma amostra são consistentes com a hipótese nula.
- No entanto, é importante definir corretamente as hipóteses, interpretar os resultados com cuidado e considerar outras evidências antes de tirar conclusões.
Testes de Hipóteses
Visão geral da seção: Nesta seção, o palestrante explica como os testes de hipóteses funcionam e como eles podem ser usados para rejeitar explicações baseadas em probabilidades muito pequenas.
Hipótese nula e alternativa
- A hipótese nula é a suposição de que um produto não funciona.
- A hipótese alternativa é a suposição oposta à hipótese nula.
- O valor P é a probabilidade de ver um resultado considerando que a hipótese nula é verdadeira.
Regra do evento raro
- A regra do evento raro afirma que, se a probabilidade de um evento for excepcionalmente pequena, então provavelmente aquela suposição não é correta.
Comparação de probabilidades
- Ao comparar duas probabilidades, deve-se escolher aquela com menor probabilidade para evitar erros.
- Uma probabilidade alta pode levar a uma maior chance de erro ao afirmar que o produto funciona quando ele na verdade não funciona.
Rejeição da hipótese nula
- Deve-se escolher a probabilidade mais baixa para rejeitar a hipótese nula e afirmar que o produto não funciona.
Teste de Hipóteses
Visão Geral da Seção: Nesta seção, o palestrante explica o que é um teste de hipóteses e como ele é usado para rejeitar ou não uma hipótese nula.
O que é um teste de hipóteses?
- Um teste de hipóteses é usado para rejeitar ou não uma hipótese nula.
- O nível de significância é o limite crítico estabelecido no teste de hipóteses para rejeitar ou não a nossa hipótese nula.
- A probabilidade de cometer um erro ao rejeitar a hipótese nula é menor quando estamos mais confortáveis em afirmar que o produto não funciona do que quando afirmamos que ele funciona.
- Rejeitar uma opção não significa necessariamente aceitar a outra. Os estatísticos geralmente evitam usar a palavra "aceitação" porque pode haver falta de evidências suficientes para justificar essa afirmação.
Como funciona um teste de hipóteses?
- Para realizar um teste de hipóteses, comparamos o valor P com o nosso nível de significância. Se o valor P for menor que o nosso nível de significância, rejeitamos a nossa hipótese nula. Caso contrário, não a rejeitamos.
- O valor b representa a chance de cometer um erro ao afirmar que algo funciona quando na verdade não funciona.
- Ao realizar um teste de hipóteses, construímos o teste com o objetivo de rejeitar a nossa hipótese nula.
Conclusão
- O palestrante apresentou dois exemplos práticos para ilustrar como funciona um teste de hipóteses. Ele explicou que é importante comparar o valor P com o nosso nível de significância e que devemos estar cientes do erro que podemos cometer ao afirmar que algo funciona quando na verdade não funciona.
Teste de Hipóteses
Visão Geral da Seção: Nesta seção, o professor explica como funciona um teste de hipóteses e como definir o nível de significância.
Rejeição da Hipótese Nula
- O valor P é comparado com o nível de significância para rejeitar ou não a hipótese nula.
- Quanto mais próximo de zero for o valor P, maior a chance de rejeitar a hipótese nula.
Significância e Confiança
- O nível de significância é definido pelo pesquisador antes do experimento e representa o erro máximo que ele pode cometer.
- Geralmente, se o nível de significância for 5%, então o nível de confiança será 95%.
Aceitação da Hipótese Alternativa
- Rejeitar a hipótese nula não significa necessariamente aceitar a hipótese alternativa.
- Em alguns casos, não há evidências suficientes para rejeitar uma hipótese.
Tipos de Testes
- Existem três tipos de testes: unilateral direito, unilateral esquerdo e bilateral.
- O Alfa é um limite crítico estabelecido pelo pesquisador para decidir se deve ou não rejeitar a hipótese nula.
Teste de Hipóteses
Visão Geral da Seção: Nesta seção, o palestrante explica como funciona um teste de hipóteses e as diferentes formas de tomar decisões com base na hipótese nula.
Cálculo do valor da estatística de teste
- A estatística de teste mede a distância entre o que foi observado na amostra e o que seria esperado se a nossa hipótese nula fosse verdadeira.
- O valor da estatística de teste é calculado a partir da amostra e é usado para tomar decisões no teste de hipóteses.
Região crítica
- A região crítica é uma faixa definida com base no alfa escolhido, que leva à rejeição da hipótese nula.
- Se a estatística de teste cair dentro da região crítica, rejeitamos a hipótese nula.
Erros associados aos testes de hipóteses
- Existem dois tipos principais de erros associados aos testes de hipóteses - erro tipo I (falso positivo) e erro tipo II (falso negativo).
- Um falso positivo ocorre quando rejeitamos a hipótese nula quando ela é verdadeira.
- Um falso negativo ocorre quando não rejeitamos a hipótese nula quando ela é falsa.
Exemplo de falso positivo e falso negativo
- Um exemplo de falso positivo é quando um homem é informado pelo médico que está grávido.
- Um exemplo de falso negativo é quando uma mulher grávida é informada pelo médico que não está grávida.
Erros Tipo 1 e Tipo 2
Visão geral da seção: Nesta seção, o palestrante explica os conceitos de erros tipo 1 e tipo 2 em testes de hipóteses.
Erro Tipo 1 e Erro Tipo 2
- O erro tipo 1 é rejeitar a hipótese nula quando ela é verdadeira, enquanto o erro tipo 2 é não rejeitar a hipótese nula quando ela é falsa.
- Os exemplos apresentados na seção são considerados situações diferentes para ilustrar como os termos "erro tipo 1" e "erro tipo 2" funcionam na prática.
- Quando construímos um teste de hipóteses, geralmente avaliamos com relação à hipótese nula. Os testes foram construídos para controlar o erro mais grave possível (o erro tipo 2), fixando-o em um valor pequeno.
- A probabilidade de cometer um erro tipo 1 é determinada previamente pelo nível de significância (alfa), que geralmente é definido em torno de 5% ou 10%.
- O exemplo dado sobre justiça ilustra como o erro tipo um pode levar à condenação injusta de uma pessoa inocente, enquanto o erro tipo dois pode levar à absolvição injusta de uma pessoa culpada.
Probabilidade de erro tipo 2 e testes de hipóteses paramétricos
Seção: Nesta seção, o palestrante discute a probabilidade de erro tipo 2 e testes de hipóteses paramétricos.
Probabilidade de erro tipo 2
- A probabilidade de erro tipo 2 é uma prioridade chamada Beta.
- A probabilidade do erro tipo 1 só pode ser reduzida aumentando o tamanho da amostra.
Testes de hipóteses paramétricos
- Os testes de hipóteses paramétricos são usados quando os dados seguem uma distribuição normal.
- É importante verificar se os dados seguem uma distribuição normal antes de aplicar um teste.
- Quando os dados não seguem uma distribuição normal, podem ser usados testes não paramétricos.
- A distribuição normal padrão é usada para padronizar qualquer distribuição normal com qualquer média e variância possível.
- A tabela Z é usada para fazer cálculos em todas as distribuições normais.
Teste de hipótese para uma amostra
- Os testes de hipótese são usados quando queremos testar uma hipótese com relação a uma variável disponível no banco de dados, como altura média da população brasileira.
- Existem vários tipos diferentes de testes dependendo do parâmetro populacional que estamos interessados em analisar.
Testes de Hipótese
Visão Geral da Seção: Nesta seção, o palestrante discute os testes de hipótese e como eles são usados para determinar se uma amostra é representativa da população.
Construindo Hipóteses para a Média Populacional
- Existem três opções possíveis ao construir hipóteses para a média populacional: maior ou igual, menor ou igual, ou diferente.
- O teste Z é usado quando a variância populacional é conhecida e a tabela Z é usada. O teste t é usado quando a variância populacional é desconhecida e a tabela T é usada.
- Quando temos uma amostra grande, podemos considerar que nossa distribuição será normal e seguir com o teste.
Cálculo do Teste de Hipótese
- Para calcular o teste de hipótese usando o teste Z, subtraímos o valor que estamos testando (mi 0) da média da amostra e dividimos pelo desvio padrão raiz de n.
- Para calcular o teste de hipótese usando o teste t, usamos a mesma fórmula que no intervalo de confiança: subtraímos o valor que estamos testando (mi 0) da média amostral calculada a partir dos dados e dividimos pelo desvio padrão raiz de n.
Escolhendo entre Teste Z e Teste T
- A escolha entre usar um teste Z ou um teste T depende se você sabe ou não qual é sua variância populacional. Se você não sabe qual é sua variância populacional, use o teste T.
- Se você tem uma amostra grande ou seus dados têm distribuição normal, pode usar qualquer um dos testes.
Desculpe, mas não recebi o arquivo de transcrição para criar as notas. Por favor, envie o arquivo de transcrição para que eu possa começar a trabalhar nas notas.
Teste de Hipóteses
Visão Geral da Seção: Nesta seção, o palestrante explica como realizar um teste de hipóteses e apresenta um exemplo prático.
Realizando um Teste de Hipóteses
- Para realizar um teste de hipóteses, é necessário estabelecer uma hipótese nula (H0) e uma hipótese alternativa (Ha).
- É preciso calcular a estatística de teste usando a fórmula adequada.
- Com base no valor da estatística de teste, é possível determinar se a hipótese nula deve ser rejeitada ou não.
- O valor tabelado na tabela Z pode ser usado para determinar a região crítica do teste.
Exemplo Prático: Testando a Quantidade Média de Café em Pacotes
- O exemplo envolve testar se a quantidade média de café em pacotes é igual a 500 gramas.
- A amostra consistiu em 16 pacotes, com uma média amostral calculada em 498.4 gramas e variância populacional conhecida igual a 400.
- Usando um nível de significância α = 1%, o valor da estatística de teste foi -1.6, que não caiu na região crítica do teste.
- Portanto, não há evidências suficientes para rejeitar H0 ao nível de significância de 1%, o que significa que não há evidências suficientes para afirmar que a quantidade média de café em pacotes é diferente de 500 gramas.
Exemplo Prático: Testando a Quantidade Média de Nicotina em Cigarros
- O exemplo envolve testar se a quantidade média de nicotina em cigarros é maior do que 30 mg.
- A amostra consistiu em 25 cigarros, com uma média amostral calculada em 31.5 mg e desvio padrão amostral igual a 3.
- Como a variância populacional não é conhecida, ela precisa ser estimada usando os dados da amostra.
- Usando um nível de significância α = 5%, o valor da estatística de teste foi 2.12, que caiu na região crítica do teste.
- Portanto, há evidências suficientes para rejeitar H0 ao nível de significância de 5%, o que significa que há evidências suficientes para afirmar que a quantidade média de nicotina em cigarros é maior do que 30 mg.
Teste de Hipóteses
Visão Geral da Seção: Nesta seção, o palestrante explica como realizar um teste de hipóteses e como interpretar os resultados.
Teste T Unilateral
- O teste T é usado para determinar se a média amostral é significativamente diferente do valor que está sendo testado.
- A estatística de teste é calculada subtraindo a média amostral pelo valor testado e dividindo pelo desvio padrão amostral dividido pela raiz quadrada do tamanho da amostra.
- A região de rejeição é baseada na hipótese alternativa e no nível de significância escolhido.
- No exemplo dado, a hipótese alternativa era que a média era maior que o valor testado e o nível de significância era 5%.
- Se a estatística de teste for maior que o valor tabelado, então rejeitamos a hipótese nula.
Teste T Bilateral
- O teste T bilateral é usado quando queremos determinar se a média amostral é significativamente diferente do valor testado em ambas as direções.
- A região crítica é dividida em duas partes iguais, uma para cada cauda da distribuição normal.
- O nível de significância também deve ser dividido por dois.
Diferença entre Teste T e Teste Z
- O teste Z pode ser usado quando conhecemos o desvio padrão populacional ou quando temos uma grande amostra (n > 30).
- O teste T deve ser usado quando não conhecemos o desvio padrão populacional ou quando temos uma pequena amostra (n < 30).
Tamanho da Amostra
- Se o tamanho da amostra for grande o suficiente e coletado corretamente, aumentar a amostra não afetará significativamente os resultados do teste de hipóteses.
- Aumentar a amostra é recomendado se houver dúvida sobre se o tamanho atual é suficiente ou não.
Conclusão
Nesta seção, aprendemos como realizar um teste de hipóteses usando o teste T e como interpretar os resultados. Também aprendemos a diferença entre testes unilaterais e bilaterais, bem como quando usar o teste Z em vez do teste T. Por fim, discutimos a importância do tamanho da amostra na realização de um teste de hipóteses.
Teste de Hipóteses
Visão Geral da Seção: Nesta seção, o instrutor explica os métodos tradicionais para rejeitar ou não uma hipótese nula em um teste de hipóteses. Ele apresenta três métodos: estatística de teste, intervalo de confiança e valor P.
Estatística de Teste
- O método tradicional para rejeitar uma hipótese nula é através da estatística de teste.
- Para rejeitar a hipótese nula usando a estatística de teste, o valor observado da estatística deve pertencer à região de rejeição.
- Caso contrário, se o valor observado cair dentro da região crítica, a hipótese nula não é rejeitada.
Intervalo de Confiança
- O segundo método é através do intervalo de confiança. Se o intervalo calculado não contém o valor testado, a hipótese nula é rejeitada.
- Este método também pode ser usado para testes unilaterais.
Valor P
- O terceiro método mais utilizado na prática é a fórmula do valor P.
- O valor P calcula a probabilidade da hipótese nula ser verdadeira com base nos dados disponíveis.
- Se o valor P for menor que o alfa definido pelo pesquisador (geralmente 5%), a hipótese nula é rejeitada.
- Se o valor P for maior que o alfa, a hipótese nula não é rejeitada.
Conclusão
- O método do valor P depende menos da escolha do pesquisador em relação ao alfa e é mais utilizado na prática.
- O valor P calcula a probabilidade de errar ao rejeitar a hipótese nula com base nos dados disponíveis.
Teste de Hipóteses
Visão Geral da Seção: Nesta seção, o palestrante explica como realizar um teste de hipóteses em uma indústria farmacêutica para verificar se a quantidade média de ácido em um remédio está dentro das especificações.
Realizando um Teste de Hipóteses
- Uma indústria farmacêutica precisa garantir que a quantidade média de ácido em um remédio esteja dentro das especificações.
- Para verificar se há problemas na produção, é selecionada uma amostra de comprimidos e é calculada a quantidade média de ácido nessa amostra.
- É realizado um teste de hipóteses com base nos dados da amostra para confirmar ou não a suspeita da indústria.
- A hipótese alternativa é que a quantidade média de ácido no comprimido é diferente da especificada pelo fabricante.
- O nível de significância (alfa) utilizado no teste é 2%.
- A estatística t é utilizada porque não se sabe qual é a variância populacional.
- Considerando o nível de significância, uma região crítica é definida para rejeitar ou não a hipótese nula.
- O valor P também pode ser utilizado para rejeitar ou não a hipótese nula. Ele representa a probabilidade dos valores observados serem iguais ou mais extremos do que o valor calculado.
- O valor P é calculado com base na estatística de teste e pode ser encontrado em tabelas. Ele é utilizado para determinar se a hipótese nula deve ser rejeitada ou não.
- O método do valor P é amplamente utilizado na prática para testes de hipóteses.
Mudando o Nível de Significância
- Mudar o nível de significância (alfa) pode afetar a decisão final do teste de hipóteses.
- Quando o alfa é mudado para 1%, a afirmação do fabricante se torna correta e não há evidências suficientes para rejeitar a hipótese nula.
- É importante utilizar o método do valor P para evitar depender da escolha subjetiva do alfa pelo pesquisador.
Testes de Hipótese
Visão geral da seção: Nesta seção, o professor explica como realizar testes de hipótese e sua importância.
Método do Valor P
- O valor p é menor que o nível de significância: rejeita-se a hipótese nula.
- O valor p não é menor que o nível de significância: não se rejeita a hipótese nula.
Importância do Método do Valor P
- O método do valor P é usado em todos os testes estatísticos.
- É utilizado para verificar quais parâmetros são significativos ou não em modelos de regressão linear simples e múltipla.
Passos para Realizar Testes de Hipótese
- Formular as hipóteses (nula e alternativa).
- Identificar o teste apropriado (média, variância ou proporção).
- Escolher o nível de significância alfa.
- Definir a regra de decisão (intervalo de confiança, estatística de teste ou valor P).
- Tomar uma decisão com base no resultado do teste.
Outros Tipos de Testes Estatísticos
- Testes para proporção e variância.
- Testes estatísticos não paramétricos que não dependem da distribuição dos dados.
Dúvidas dos Alunos
Os alunos perguntam sobre como realizar testes controlando outras variáveis. O professor responde que isso pode ser feito com modelos mais complexos, como modelos de regressão linear e modelos logísticos.
Teste de Hipótese de Normalidade
Visão Geral da Seção: Nesta seção, o palestrante explica que, ao trabalhar com dados, a primeira coisa a ser feita é um teste de hipótese de normalidade. Se os dados forem normais, pode-se fazer o teste direto. Caso contrário, existem duas alternativas: usar um teste estatístico não paramétrico ou aumentar o tamanho da amostra.
Valor P e Nível de Significância
- O valor P é uma medida precisa para calcular qual erro pode ser cometido ao rejeitar ou não uma hipótese nula.
- O nível de significância padrão é 5%, mas outros valores podem ser usados.
- Comparar o valor P com o alfa (nível de significância) estabelecido permite avaliar a vontade de cometer um erro em relação ao limite crítico definido.
Influência do Valor Alfa no Teste
- Aumentar o alfa torna o teste mais flexível e diminui a certeza sobre sua validade.
- Diminuir o alfa pode levar à aceitação da hipótese nula.
Vantagens do Uso do Valor P
- Usar o valor P evita a necessidade de consultar tabelas adicionais para tomar decisões.
- Os comandos Python e R geralmente soltam apenas a estatística do teste, sem fornecer informações sobre regiões críticas que dependem das tabelas dos valores tabelados.
Diferença entre valores iguais e diferentes
Visão geral da seção: Nesta seção, o palestrante explica a diferença entre usar valores iguais e diferentes em um problema.
Valores específicos para tratar uma doença
- Usar valores diferentes dos especificados pode causar problemas tanto para mais quanto para menos.
- Exemplo: determinado remédio trata uma doença com valores específicos. Se os valores forem diferentes, pode não tratar ou causar overdose.
Abordagem depende do problema
- Depende da abordagem e conclusão desejada no problema.
- Em casos como o exemplo da nicotina, onde ser maior é o problema e ser menor não é, pode-se usar valores maiores ou menores.
Disponibilização de código e slides
Visão geral da seção: Nesta seção, o palestrante informa que irá disponibilizar seu código e slides para os alunos testarem.
- O palestrante irá liberar seu código usado na mentoria para que os alunos possam testá-lo.
- Os testes também foram usados em um banco de dados real fazendo teste de normalidade dos dados.
- Os slides também serão compartilhados com os alunos.
- Os alunos podem treinar depois e procurar ajuda caso tenham dúvidas.