DSCBC REM 2022 4 Testes de hipóteses e cálculo de amostr

Name: DSCBC REM 2022 4 Testes de hipóteses e cálculo de amostr
Uploaded: 2023-05-26T00:21:28.000Z
Duration: 5 h 58 min 59 s

Introdução

Visão geral da seção: Nesta seção, o professor introduz o conteúdo que será abordado na aula de hoje e faz uma breve revisão dos conceitos de população e amostra.

População vs Amostra

População é o conjunto de todos os elementos, enquanto amostra é uma parte dessa população.

Inferência estatística só faz sentido quando trabalhamos com amostras.

Estatísticas são características da amostra, enquanto parâmetros são características da população.

Estimadores

Estimadores são cálculos baseados na amostra que estimam um valor do parâmetro populacional correspondente.

A média amostral é um bom estimador para a média populacional.

Intervalos de Confiança

Visão geral da seção: Nesta seção, o professor explica como construir intervalos de confiança para estimar um parâmetro populacional desconhecido.

Construção do Intervalo de Confiança

O intervalo de confiança é uma faixa de valores em torno do valor estimado do parâmetro populacional.

O nível de confiança indica a probabilidade do intervalo conter o verdadeiro valor do parâmetro populacional.

O tamanho da amostra afeta a largura do intervalo de confiança.

Testes de Hipóteses

Visão geral da seção: Nesta seção, o professor explica como realizar testes de hipóteses para avaliar a significância estatística de um resultado.

Etapas do Teste de Hipóteses

O teste de hipóteses envolve a formulação de uma hipótese nula e uma hipótese alternativa.

O valor-p é a probabilidade de obter um resultado tão extremo quanto o observado, assumindo que a hipótese nula seja verdadeira.

Se o valor-p for menor que o nível de significância escolhido, rejeitamos a hipótese nula em favor da hipótese alternativa.

Comparação Múltipla

Visão geral da seção: Nesta seção, o professor explica como realizar comparações múltiplas entre várias amostras.

Teste ANOVA

O teste ANOVA é usado para comparar as médias entre três ou mais grupos independentes.

Se houver diferenças significativas nas médias, podemos usar testes post-hoc para identificar quais grupos são diferentes entre si.

Conclusão

Visão geral da seção: Nesta seção, o professor faz uma revisão dos principais conceitos abordados na aula de hoje.

Principais Conceitos

População vs Amostra

Estimadores

Intervalos de Confiança

Testes de Hipóteses

Comparação Múltipla

Estimativa e Variância

Visão geral da seção: Nesta seção, a professora explica o conceito de estimativa e variância na inferência estatística.

Estimativa

Quando atribuímos valores aos estimadores, chamamos de estimativa.

A estimativa é um valor numérico aplicado aos dados observados na amostra.

Variância

A variância é uma medida de dispersão que mostra o quão distantes os nossos dados estão da média.

Quanto menor a variância, mais próximos os valores estão da média e quanto mais distante, mais longe eles estão da média.

Existe uma letra para representar a variância populacional que é o Sigma. Já para falar sobre a variância da amostra usamos a letra s.

Diferença entre população e amostra

É importante diferenciar o que é população e o que é amostra na inferência estatística.

Para representar a população utilizamos letras como Mi (média populacional) e n (tamanho populacional).

Já para representar a amostra utilizamos letras como x/ (média amostral) e s (desvio padrão amostral).

Erro associado à coleta de dados

Visão geral da seção: Nesta seção, a professora explica sobre o erro associado à coleta de dados em processos de amostragem.

Erro associado à coleta de dados

Por mais que a coleta de dados seja bem planejada e executada, sempre haverá um erro associado.

Esse erro é mostrado através da metodologia de amostragem correta.

Quando utilizamos os métodos de amostragem corretamente, conseguimos mensurar o erro associado à coleta de dados.

Intervalo de confiança

Um dos métodos que considera o erro ao fazer a inferência sobre a população é o intervalo de confiança.

O intervalo de confiança mostra a diferença entre o resultado coletado na amostra e o verdadeiro resultado da população.

Estimação pontual e estimação intervalar

Visão geral da seção: Nesta seção, a professora explica sobre estimação pontual e estimação intervalar na inferência estatística.

Estimação pontual

A estimação pontual é quando usamos estimadores para atribuir valores aos parâmetros populacionais.

Por exemplo, podemos usar a proporção amostral de eleitores para estimar a proporção populacional de intenção de votos em um candidato.

Estimação intervalar

A estimação intervalar leva em consideração uma margem de erro ao fazer a inferência sobre a população.

Por exemplo, podemos calcular um intervalo de confiança para mostrar uma faixa possível do valor real do parâmetro populacional.

Intervalo de Confiança

Visão geral da seção: Nesta seção, o professor explica o conceito de intervalo de confiança e como ele é usado para estimar um parâmetro populacional com base em uma amostra.

O que é um intervalo de confiança?

Um intervalo de confiança é uma faixa de valores usada para estimar o verdadeiro valor do parâmetro populacional com base em uma amostra.

Ele inclui uma estimativa pontual do parâmetro e uma margem de erro que leva em consideração o erro amostral.

Quando bilateral, ele tem um limite inferior e um limite superior.

Como calcular a margem de erro?

A margem de erro depende do tamanho da amostra e do contexto do estudo.

Quanto maior a amostra, menor será a margem de erro.

Para calcular a margem de erro, é necessário estudar a distribuição amostral.

O que é distribuição amostral?

Distribuição amostral é a média das estatísticas calculadas em várias amostras diferentes da mesma população.

É usada para analisar as variações nas estatísticas calculadas em diferentes amostras.

É importante para determinar a margem de erro e calcular o intervalo de confiança.

Como usar o intervalo de confiança na prática?

O intervalo de confiança pode ser usado para estimar um parâmetro populacional com base em uma amostra.

Ele fornece uma faixa mais precisa do valor real do parâmetro, levando em consideração o erro amostral.

Quanto maior a amostra, menor será a margem de erro e mais precisa será a estimativa do parâmetro populacional.

Distribuição Amostral e Intervalos de Confiança

Visão geral da seção: Nesta seção, a professora explica a importância de entender a distribuição amostral para definir margem de erro e como a distribuição normal é frequentemente usada em intervalos de confiança para médias.

Distribuição Normal

A distribuição normal é uma das atribuições de probabilidades mais usadas porque muitos fenômenos naturais apresentam um comportamento semelhante à distribuição normal.

Quando estamos interessados em fazer intervalos de confiança ou estimar um parâmetro populacional, como a média, geralmente usamos a distribuição normal.

Se uma variável tem uma distribuição normal com média mi e variância sigma ao quadrado na população inteira, então a média amostral também terá uma distribuição normal com média mi e variância sigma ao quadrado sobre n, onde n é o tamanho da amostra coletada.

Exemplo Prático

A professora gerou aleatoriamente uma amostra de tamanho 100 com uma população que tem média 1.7 e variância 0.1.

Ao calcular a média da amostra gerada aleatoriamente, ela conseguiu voltar à média populacional.

Sabendo qual é essa distribuição amostral, podemos inferir sobre a população que estamos estudando.

Teorema do Limite Central

Visão geral da seção: Nesta seção, a professora explica o teorema do limite central e como ele pode ser usado para inferir sobre parâmetros populacionais usando estatísticas calculadas em amostras.

Quando temos uma variável com distribuição normal na população inteira e coletamos uma amostra, a média amostral também terá uma distribuição normal com média mi e variância sigma ao quadrado sobre n.

Podemos usar a média amostral para inferir sobre a média populacional e a variância amostral para inferir sobre a variância populacional.

O teorema do limite central afirma que, à medida que o tamanho da amostra aumenta, a distribuição das médias amostrais se aproxima de uma distribuição normal.

Distribuição Normal e Teorema do Limite Central

Visão Geral da Seção: Nesta seção, o palestrante explica a distribuição normal e o teorema do limite central.

Distribuição Normal

A distribuição normal é uma distribuição importante quando se trata de inferência estatística.

Quando uma amostra é grande o suficiente, a média dessa variável que está sendo estudada converge para uma distribuição normal.

Independentemente da forma original dos dados, se muitas amostras forem tomadas nessa distribuição e um histograma for feito da média amostral, isso convergirá para uma curva normal.

Teorema do Limite Central

O teorema do limite central afirma que, independentemente da distribuição original da variável que está sendo estudada, quando a amostra é grande o suficiente, a distribuição amostral da média será sempre uma distribuição normal.

Através das propriedades da distribuição normal, é possível fazer inferências sobre a população em estudo.

O palestrante mostra exemplos de como diferentes formas originais de dados convergem para uma curva normal à medida que o tamanho da amostra aumenta.

Exemplo Prático

O palestrante apresenta um exemplo prático em que ele gera uma distribuição normal com base na altura populacional média e no desvio padrão.

Ele então pega aleatoriamente uma amostra e calcula sua média amostral e variância amostral.

Através dos valores da amostra, ele consegue voltar aos valores populacionais.

Distribuição das médias de várias amostras

Visão geral da seção: Nesta seção, o palestrante fala sobre a distribuição das médias de várias amostras de tamanho 25 e como isso é usado para construir intervalos de confiança.

Intervalo de confiança

O intervalo de confiança é construído com um determinado nível de confiança que pode ser 90%, 95% ou 99%.

O nível de confiança refere-se à taxa de sucesso do método usado para fazer os intervalos de confiança.

O nível de confiança é uma probabilidade e geralmente está associado ao nível de significância.

O nível de significância é um valor pré-definido que ajuda a calcular o intervalo.

Exemplo prático

Para entender melhor o conceito, o palestrante usa o exemplo da altura média da população brasileira.

Várias amostras são coletadas e usadas para calcular os intervalos de confiança.

A distribuição da altura média da população brasileira é normal.

Níveis de confiança e significância

Visão geral da seção: Nesta seção, o palestrante explica a diferença entre níveis de confiança e significância e como eles são usados para escolher os valores adequados para um método.

Compreendendo níveis de confiança e significância

O nível de confiança é a quantidade de vezes que o intervalo contém o verdadeiro valor do parâmetro populacional.

O nível de significância é a quantidade de vezes que o intervalo não contém o verdadeiro valor do parâmetro populacional.

Os valores mais comuns para os níveis de confiança são 95%, 99% ou no máximo 90%.

Exemplo prático: proporção de intenção de votos

Visão geral da seção: Nesta seção, o palestrante usa um exemplo prático para explicar como calcular um intervalo de confiança.

Calculando uma estimativa pontual

Para estimar a proporção de intenção de votos em um candidato, é necessário coletar uma amostra aleatória e calcular a proporção através dessa amostra.

A proporção é calculada dividindo-se o número total das pessoas entrevistadas que votaram no candidato pelo número total das pessoas entrevistadas.

Calculando um intervalo de confiança

Um intervalo de confiança pode ser usado para determinar qual erro pode ser cometido na estimativa pontual.

Um exemplo prático foi dado onde uma margem de erro foi calculada como sendo igual a 4%.

Um intervalo com 95% de confiança foi calculado para a proporção de intenção de votos, com um limite inferior de 45% e um limite superior de 53%.

Interpretando o intervalo de confiança

O nível de confiança é a quantidade de vezes que o intervalo contém o verdadeiro valor do parâmetro populacional.

Se várias amostras do mesmo tamanho forem coletadas aleatoriamente, dos 20 intervalos calculados, 19 conterão o verdadeiro valor da proporção de intenção de votos.

A margem de erro é a flutuação na estimativa pontual.

Interpretação correta do intervalo

Visão geral da seção: Nesta seção, o palestrante explica como interpretar corretamente um intervalo de confiança.

Entendendo a taxa de confiança

A taxa ou nível de confiança é a quantidade de vezes que o intervalo vai conter o valor real do parâmetro populacional.

Um exemplo prático foi dado onde um intervalo com 95% de confiança foi calculado para a proporção de intenção de votos.

Exemplo prático: interpretação do intervalo

Suponha que uma amostra aleatória tenha sido coletada e que a proporção calculada seja em torno de 49%.

Um intervalo com 95% foi calculado para essa proporção, com um limite inferior igual a 45% e um limite superior igual a 53%.

Isso significa que se várias amostras forem coletadas aleatoriamente, dos 20 intervalos calculados, 19 conterão o verdadeiro valor da proporção.

Nível de Confiança

Visão Geral da Seção: Nesta seção, o palestrante explica o que é nível de confiança e como interpretá-lo.

Interpretação do Nível de Confiança

O nível de confiança é a taxa de sucesso do procedimento quando várias amostras diferentes são tomadas.

É um pouco complexo, mas geralmente 500 amostras são suficientemente grandes para considerar uma grande amostra.

Em certas áreas, como na medicina, é necessário ter mais cuidado ao determinar o tamanho da amostra.

Não há um número mágico que determine o tamanho da amostra necessária para aplicar uma teoria específica.

Intervalos de Confiança para Médias Populacionais

Visão Geral da Seção: Nesta seção, o palestrante explica como construir intervalos de confiança para médias populacionais.

Construindo Intervalos de Confiança

Para construir um intervalo de confiança, é necessário saber qual parâmetro populacional está sendo estudado (média, variância ou proporção).

Quando a variância populacional é conhecida, usa-se a tabela Z.

Quando a variância populacional é desconhecida, usa-se a tabela T.

A margem de erro pode ser calculada usando a fórmula: E = z*(sigma/sqrt(n)), onde z é o valor tabelado, sigma é o desvio padrão populacional e n é o tamanho da amostra.

Intervalo de Confiança para Média Populacional

Visão Geral da Seção: Nesta seção, o palestrante explica como construir um intervalo de confiança para a média populacional quando a variância populacional é conhecida. Ele também discute a importância da distribuição amostral e do nível de confiança na construção do intervalo.

Construindo o Intervalo de Confiança

Para construir o intervalo de confiança para a média populacional com 100(1 - Alfa)% de confiança, é necessário usar tabelas.

O nível de confiança pode ser definido pelo usuário (geralmente 90%, 95% ou 99%) e o Alfa é determinado pelo nível de confiança escolhido (por exemplo, Alfa = 5% para um nível de confiança de 95%).

A estimativa pontual usada na fórmula é a média amostral.

A margem de erro é um valor tabelado que deve ser buscado na tabela normal usando o valor do Alfa escolhido.

É necessário saber qual é a variância populacional (Sigma) dividida pelo tamanho da amostra coletada (raiz quadrada do tamanho da amostra) para calcular a fórmula.

Importância da Distribuição Amostral e do Nível de Confiança

É importante conhecer a distribuição amostral porque os valores tabelados necessários para calcular o intervalo são encontrados na distribuição normal.

O desvio padrão usado na fórmula é basicamente o desvio padrão dessa distribuição amostral.

O nível de confiança é determinado pelo usuário e afeta o valor tabelado necessário para calcular o intervalo.

Exemplo Prático

O palestrante apresenta um exemplo prático em que a variância populacional é conhecida (100 gramas ao quadrado) e uma máquina de café se desregulou, então uma amostra de 25 pacotes foi coletada para estimar a nova média dos pacotes.

A média amostral encontrada foi 485 gramas.

Foi solicitado um intervalo de confiança com 95% de confiança para a nova média dos pacotes.

O valor tabelado necessário para calcular o intervalo foi encontrado usando o comando norm.ppf do Python.

Intervalo de Confiança

Visão Geral da Seção: Nesta seção, o palestrante explica como calcular o intervalo de confiança para a média populacional com base em uma amostra.

Cálculo do Intervalo de Confiança

O intervalo de confiança pode ser calculado usando a fórmula: média amostral +/- Z * (desvio padrão amostral / raiz quadrada do tamanho da amostra).

Para obter o valor de Z, é necessário buscar na tabela correspondente ao nível de confiança escolhido.

Um exemplo é apresentado para ilustrar o cálculo do intervalo de confiança.

Tamanho da amostra: 25

Média amostral: 485

Variância: 100

Nível de confiança: 95%

Valor tabelado para alfa/2 = 0.025: Z = 1.96

O intervalo de confiança encontrado foi entre 481 e 489 gramas.

Esse resultado indica que há uma probabilidade de 95% que o verdadeiro valor médio dos pacotes esteja dentro desse intervalo.

Distribuição Normal e Tamanho da Amostra

Visão Geral da Seção: Nesta seção, o palestrante discute a relação entre distribuição normal e tamanho da amostra.

Se a variável em questão tem distribuição normal, é possível usar a fórmula do intervalo de confiança mesmo com uma pequena amostra.

Caso contrário, é necessário ter uma grande amostra para poder aplicar essa fórmula.

O teorema central do limite afirma que, para amostras grandes, a distribuição da média amostral se aproxima de uma distribuição normal.

Portanto, mesmo que a variável original não tenha distribuição normal, é possível usar a fórmula do intervalo de confiança com uma grande amostra.

Distribuição do Processo da Máquina

Visão Geral da Seção: Nesta seção, o palestrante responde a perguntas sobre a relação entre o processo da máquina e a distribuição dos dados.

A análise do intervalo de confiança não leva em consideração como o processo da máquina funciona ou como ele pode mudar ao longo do tempo.

O objetivo é avaliar se o valor médio dos pacotes está dentro de um intervalo específico ou não.

Mesmo que os dados coletados não sigam uma distribuição normal, é possível usar a fórmula do intervalo de confiança com uma grande amostra.

Distribuição Normal e Intervalo de Confiança

Visão geral da seção: Nesta seção, o palestrante explica como a distribuição normal é obtida através da média de várias amostras e como isso pode ser usado para calcular intervalos de confiança.

Distribuição Normal

A distribuição normal é obtida através da média de várias amostras.

Quanto maior o tamanho das amostras, mais próxima a distribuição fica da normal.

O método de bootstraping pode ser usado para obter uma noção melhor dentro da amostra.

Intervalo de Confiança

O intervalo de confiança é uma estimativa pontual com margem de erro.

A tabela Z é usada para reduzir a margem de erro.

Quanto maior a margem de erro, mais incerteza há sobre o parâmetro da população.

Tamanho da amostra para intervalo de confiança

Visão geral da seção: Nesta seção, o palestrante explica como determinar o tamanho mínimo de uma amostra para um intervalo de confiança com margem de erro específica.

Determinando o tamanho mínimo da amostra

A margem de erro é determinada pela fórmula: margem de erro = valor tabelado * (desvio padrão / raiz quadrada do tamanho da amostra).

Quanto maior a amostra, menor será a margem de erro e maior será a certeza na inferência.

Para determinar o tamanho mínimo da amostra necessário para uma margem de erro específica, é preciso isolar o tamanho da amostra na fórmula.

É possível usar essa fórmula para calcular o tamanho mínimo da amostra necessária para um intervalo de confiança com uma margem de erro específica e um nível de confiança especificado.

Exemplo prático

O palestrante apresenta um exemplo em que é necessário determinar o tamanho mínimo da amostra necessária para construir um intervalo de 95% de confiança com uma margem de erro máxima igual a 1, considerando uma população com distribuição normal e desvio padrão populacional igual a 10.

Usando a fórmula mencionada anteriormente, é possível determinar que são necessárias pelo menos 384 observações na amostra.

Intervalo onde não se sabe qual é a variância populacional

Visão geral da seção: Nesta seção, o palestrante explica como calcular um intervalo quando não se sabe qual é a variância populacional.

Intervalo de confiança com variância desconhecida

Quando não se sabe qual é a variância populacional, é possível usar o intervalo de confiança t-Student.

O intervalo de confiança t-Student é semelhante ao intervalo de confiança Z, mas usa a distribuição t-Student em vez da distribuição normal padrão.

A fórmula para calcular o intervalo de confiança t-Student inclui um grau de liberdade adicional para levar em conta a incerteza na estimativa da variância populacional.

Exemplo prático

O palestrante apresenta um exemplo em que é necessário determinar um intervalo de 95% de confiança para a média populacional quando não se sabe qual é a variância populacional.

Usando o intervalo de confiança t-Student e os dados amostrais fornecidos, é possível determinar o limite inferior e superior do intervalo.

Distribuição t de Student

Nesta seção, o palestrante explica a distribuição t de Student e como ela é usada para construir intervalos de confiança quando a variância populacional é desconhecida.

Distribuição t de Student

A distribuição t de Student é semelhante à distribuição normal, mas é usada quando a variância populacional é desconhecida.

O valor tabelado usado na distribuição t é chamado de valor T e é procurado em uma tabela.

À medida que o tamanho da amostra aumenta, a distribuição t se aproxima da distribuição normal.

Além do nível de significância alfa, outro parâmetro importante na distribuição t é o grau de liberdade (n - 1).

Intervalo de Confiança com Distribuição t

Quando queremos construir um intervalo de confiança para a média populacional e não conhecemos a variância populacional, usamos a notação do intervalo de confiança para média com nível de confiança alfa.

Em vez do valor Z tabelado usado na distribuição normal, usamos o valor T tabelado encontrado na tabela T.

O desvio padrão calculado na amostra (S) substitui o desvio padrão populacional (sigma) desconhecido.

Exemplo Prático

Suponha que estamos interessados em estudar qual é a idade média das crianças que começam a falar. Tiramos uma amostra aleatória simples com 20 crianças e descobrimos que elas começaram a falar em média aos 10 meses.

Calculamos o desvio padrão da amostra e usamos a tabela T para encontrar o valor tabelado correspondente ao nível de confiança alfa e grau de liberdade (n - 1).

Substituímos os valores na fórmula do intervalo de confiança para média com nível de confiança alfa usando a distribuição t.

Intervalo de Confiança

Visão Geral da Seção: Nesta seção, o instrutor explica como calcular o intervalo de confiança usando a fórmula do intervalo de confiança para uma média populacional com base em uma amostra.

Cálculo do Intervalo de Confiança

O tamanho da amostra é igual a 20.

Para calcular o intervalo de confiança, é necessário definir o nível de confiança e os graus de liberdade (tamanho da amostra menos um).

Ao calcular o intervalo manualmente, é necessário usar a tabela T.

No mundo real, geralmente usa-se a fórmula que usa a tabela T porque não se sabe qual é a variância populacional.

Prática do Intervalo de Confiança

Não há conhecimento sobre algum site onde possa ser encontrado exercícios para praticar por conta própria.

O instrutor compartilha um código que ele estruturou para mentoria dessa aula que tem uma base de dados real e na qual calcula os intervalos para o normal com todos os passos.

O instrutor sugere um livro que contém respostas aos exercícios sobre intervalos de confiança.

Dificuldades no Conteúdo

O conteúdo sobre intervalos de confiança pode ser difícil e conceitual.

É importante conectar esses conceitos com a vida prática.

A próxima aula será uma mentoria, onde os alunos terão a oportunidade de ver mais na prática como funciona o intervalo de confiança.

Intervalos de Confiança

Visão Geral da Seção: Nesta seção, o professor explica como obter limites bilaterais e unilaterais para intervalos de confiança. Ele também mostra como usar tabelas Z ou T para encontrar valores Alfa e como calcular os limites inferior e superior.

Os intervalos podem ter limites bilaterais ou unilaterais. As fórmulas são diferentes na hora de procurar um valor.

É possível usar tabelas Z ou T para encontrar valores Alfa em vez de procurar por Alfa sobre dois.

Para encontrar o limite inferior, use menos na fórmula. Para encontrar o limite superior, use mais na fórmula.

Existem intervalos de confiança para outros parâmetros populacionais, como a variância populacional e a proporção.

Grau de Liberdade

Visão Geral da Seção: Nesta seção, o professor explica a definição teórica do grau de liberdade e como calculá-lo na prática.

O grau de liberdade é o número de parâmetros que estamos estimando subtraído do tamanho da amostra.

No exemplo do intervalo de confiança com uma média populacional conhecida, usamos n - 1 para calcular o grau de liberdade.

Quando estamos comparando duas populações diferentes em um teste de hipótese, usamos n - 2 em vez disso.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o professor explica a metodologia do teste de hipóteses e como decidir entre a hipótese nula e alternativa.

O teste de hipóteses é um processo de decisão entre duas hipóteses: a nula e a alternativa.

A hipótese nula é geralmente a afirmação que estamos tentando rejeitar, enquanto a alternativa é o contrário da hipótese nula.

Temos duas opções: rejeitar ou não rejeitar a hipótese nula.

O grau de liberdade é usado para calcular o valor-p, que nos ajuda a decidir se devemos rejeitar ou não rejeitar a hipótese nula.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, a professora explica o conceito de teste de hipóteses e como ele é usado para verificar a eficácia de um produto.

Hipóteses Exclusivas

As hipóteses são exclusivas e formam 100% das opções possíveis.

A hipótese nula é igual a um valor específico, enquanto a alternativa é diferente desse valor ou igual a outro valor.

As hipóteses devem contemplar todas as opções possíveis: igual ou diferente.

Exemplo Prático: Produto Jenner Choice

O produto Jenner Choice permite aos casais escolherem aumentarem a chance de ter um bebê do sexo feminino se usasse embalagem rosa ou do sexo masculino se usasse a embalagem Azul.

Levantamento das hipóteses: na hipótese nula, o produto não funciona; na alternativa, o produto funciona.

Testando as Hipóteses

Parâmetro populacional estudado no exemplo: probabilidade de uma menina no nascimento quando os casais não estão esperando gêmeos ou mais de um bebê.

Valor esperado da variável aleatória: número esperado de meninas em torno de 50 meninas.

Parâmetro populacional testado no exemplo: proporção de nascimentos femininos com o uso do produto Jenner Choice.

Probabilidade de vir um bebê do sexo feminino é de 50% se o produto não funciona.

Hipóteses e Teste de Significância

Visão geral da seção: Nesta seção, o palestrante explica a importância das hipóteses e do teste de significância em estatística.

Importância das hipóteses

As hipóteses são afirmações sobre um parâmetro da população.

A hipótese nula é a afirmação que queremos testar.

A hipótese alternativa é a afirmação oposta à hipótese nula.

As duas hipóteses devem cobrir todas as possibilidades (100%).

É importante definir corretamente as hipóteses para realizar um teste de significância válido.

Teste de significância

O teste de significância é uma ferramenta estatística usada para avaliar se os resultados observados em uma amostra são consistentes com a hipótese nula.

O objetivo do teste é determinar se há evidências suficientes para rejeitar ou não a hipótese nula.

O resultado do teste é expresso como um valor p, que representa a probabilidade de obter os resultados observados ou mais extremos, assumindo que a hipótese nula seja verdadeira.

Se o valor p for menor que o nível de significância escolhido (geralmente 0,05), então rejeitamos a hipótese nula. Caso contrário, não temos evidências suficientes para rejeitá-la.

Exemplo prático: Probabilidade de nascer meninas

Visão geral da seção: Nesta seção, o palestrante apresenta um exemplo prático de como aplicar hipóteses e teste de significância em um problema real.

Definição das hipóteses

A hipótese nula é que a probabilidade de nascer uma menina é menor ou igual a 50%.

A hipótese alternativa é que a probabilidade de nascer uma menina é maior do que 50%.

As duas hipóteses cobrem todas as possibilidades (100%).

Análise dos resultados

Se observarmos um resultado com 52 meninas em 100 nascimentos, isso não seria suficiente para rejeitar a hipótese nula, pois esse resultado ainda está dentro do esperado pela probabilidade natural.

No entanto, se observarmos um resultado com 98 meninas em 100 nascimentos, isso seria muito improvável de acontecer naturalmente e poderia ser considerado evidência suficiente para rejeitar a hipótese nula.

Limitações do teste de significância

Visão geral da seção: Nesta seção, o palestrante discute algumas limitações do teste de significância.

Tamanho da amostra

O tamanho da amostra pode afetar os resultados do teste de significância.

É importante ter uma amostra grande o suficiente para detectar diferenças estatisticamente significativas.

Interpretação dos resultados

Os resultados do teste de significância devem ser interpretados com cuidado.

Um valor p menor que o nível de significância escolhido não significa necessariamente que a hipótese alternativa seja verdadeira.

É importante considerar outros fatores e evidências antes de tirar conclusões.

Conclusão

O teste de significância é uma ferramenta útil para avaliar se os resultados observados em uma amostra são consistentes com a hipótese nula.

No entanto, é importante definir corretamente as hipóteses, interpretar os resultados com cuidado e considerar outras evidências antes de tirar conclusões.

Testes de Hipóteses

Visão geral da seção: Nesta seção, o palestrante explica como os testes de hipóteses funcionam e como eles podem ser usados para rejeitar explicações baseadas em probabilidades muito pequenas.

Hipótese nula e alternativa

A hipótese nula é a suposição de que um produto não funciona.

A hipótese alternativa é a suposição oposta à hipótese nula.

O valor P é a probabilidade de ver um resultado considerando que a hipótese nula é verdadeira.

Regra do evento raro

A regra do evento raro afirma que, se a probabilidade de um evento for excepcionalmente pequena, então provavelmente aquela suposição não é correta.

Comparação de probabilidades

Ao comparar duas probabilidades, deve-se escolher aquela com menor probabilidade para evitar erros.

Uma probabilidade alta pode levar a uma maior chance de erro ao afirmar que o produto funciona quando ele na verdade não funciona.

Rejeição da hipótese nula

Deve-se escolher a probabilidade mais baixa para rejeitar a hipótese nula e afirmar que o produto não funciona.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o palestrante explica o que é um teste de hipóteses e como ele é usado para rejeitar ou não uma hipótese nula.

O que é um teste de hipóteses?

Um teste de hipóteses é usado para rejeitar ou não uma hipótese nula.

O nível de significância é o limite crítico estabelecido no teste de hipóteses para rejeitar ou não a nossa hipótese nula.

A probabilidade de cometer um erro ao rejeitar a hipótese nula é menor quando estamos mais confortáveis em afirmar que o produto não funciona do que quando afirmamos que ele funciona.

Rejeitar uma opção não significa necessariamente aceitar a outra. Os estatísticos geralmente evitam usar a palavra "aceitação" porque pode haver falta de evidências suficientes para justificar essa afirmação.

Como funciona um teste de hipóteses?

Para realizar um teste de hipóteses, comparamos o valor P com o nosso nível de significância. Se o valor P for menor que o nosso nível de significância, rejeitamos a nossa hipótese nula. Caso contrário, não a rejeitamos.

O valor b representa a chance de cometer um erro ao afirmar que algo funciona quando na verdade não funciona.

Ao realizar um teste de hipóteses, construímos o teste com o objetivo de rejeitar a nossa hipótese nula.

Conclusão

O palestrante apresentou dois exemplos práticos para ilustrar como funciona um teste de hipóteses. Ele explicou que é importante comparar o valor P com o nosso nível de significância e que devemos estar cientes do erro que podemos cometer ao afirmar que algo funciona quando na verdade não funciona.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o professor explica como funciona um teste de hipóteses e como definir o nível de significância.

Rejeição da Hipótese Nula

O valor P é comparado com o nível de significância para rejeitar ou não a hipótese nula.

Quanto mais próximo de zero for o valor P, maior a chance de rejeitar a hipótese nula.

Significância e Confiança

O nível de significância é definido pelo pesquisador antes do experimento e representa o erro máximo que ele pode cometer.

Geralmente, se o nível de significância for 5%, então o nível de confiança será 95%.

Aceitação da Hipótese Alternativa

Rejeitar a hipótese nula não significa necessariamente aceitar a hipótese alternativa.

Em alguns casos, não há evidências suficientes para rejeitar uma hipótese.

Tipos de Testes

Existem três tipos de testes: unilateral direito, unilateral esquerdo e bilateral.

O Alfa é um limite crítico estabelecido pelo pesquisador para decidir se deve ou não rejeitar a hipótese nula.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o palestrante explica como funciona um teste de hipóteses e as diferentes formas de tomar decisões com base na hipótese nula.

Cálculo do valor da estatística de teste

A estatística de teste mede a distância entre o que foi observado na amostra e o que seria esperado se a nossa hipótese nula fosse verdadeira.

O valor da estatística de teste é calculado a partir da amostra e é usado para tomar decisões no teste de hipóteses.

Região crítica

A região crítica é uma faixa definida com base no alfa escolhido, que leva à rejeição da hipótese nula.

Se a estatística de teste cair dentro da região crítica, rejeitamos a hipótese nula.

Erros associados aos testes de hipóteses

Existem dois tipos principais de erros associados aos testes de hipóteses - erro tipo I (falso positivo) e erro tipo II (falso negativo).

Um falso positivo ocorre quando rejeitamos a hipótese nula quando ela é verdadeira.

Um falso negativo ocorre quando não rejeitamos a hipótese nula quando ela é falsa.

Exemplo de falso positivo e falso negativo

Um exemplo de falso positivo é quando um homem é informado pelo médico que está grávido.

Um exemplo de falso negativo é quando uma mulher grávida é informada pelo médico que não está grávida.

Erros Tipo 1 e Tipo 2

Visão geral da seção: Nesta seção, o palestrante explica os conceitos de erros tipo 1 e tipo 2 em testes de hipóteses.

Erro Tipo 1 e Erro Tipo 2

O erro tipo 1 é rejeitar a hipótese nula quando ela é verdadeira, enquanto o erro tipo 2 é não rejeitar a hipótese nula quando ela é falsa.

Os exemplos apresentados na seção são considerados situações diferentes para ilustrar como os termos "erro tipo 1" e "erro tipo 2" funcionam na prática.

Quando construímos um teste de hipóteses, geralmente avaliamos com relação à hipótese nula. Os testes foram construídos para controlar o erro mais grave possível (o erro tipo 2), fixando-o em um valor pequeno.

A probabilidade de cometer um erro tipo 1 é determinada previamente pelo nível de significância (alfa), que geralmente é definido em torno de 5% ou 10%.

O exemplo dado sobre justiça ilustra como o erro tipo um pode levar à condenação injusta de uma pessoa inocente, enquanto o erro tipo dois pode levar à absolvição injusta de uma pessoa culpada.

Probabilidade de erro tipo 2 e testes de hipóteses paramétricos

Seção: Nesta seção, o palestrante discute a probabilidade de erro tipo 2 e testes de hipóteses paramétricos.

Probabilidade de erro tipo 2

A probabilidade de erro tipo 2 é uma prioridade chamada Beta.

A probabilidade do erro tipo 1 só pode ser reduzida aumentando o tamanho da amostra.

Testes de hipóteses paramétricos

Os testes de hipóteses paramétricos são usados quando os dados seguem uma distribuição normal.

É importante verificar se os dados seguem uma distribuição normal antes de aplicar um teste.

Quando os dados não seguem uma distribuição normal, podem ser usados testes não paramétricos.

A distribuição normal padrão é usada para padronizar qualquer distribuição normal com qualquer média e variância possível.

A tabela Z é usada para fazer cálculos em todas as distribuições normais.

Teste de hipótese para uma amostra

Os testes de hipótese são usados quando queremos testar uma hipótese com relação a uma variável disponível no banco de dados, como altura média da população brasileira.

Existem vários tipos diferentes de testes dependendo do parâmetro populacional que estamos interessados em analisar.

Testes de Hipótese

Visão Geral da Seção: Nesta seção, o palestrante discute os testes de hipótese e como eles são usados para determinar se uma amostra é representativa da população.

Construindo Hipóteses para a Média Populacional

Existem três opções possíveis ao construir hipóteses para a média populacional: maior ou igual, menor ou igual, ou diferente.

O teste Z é usado quando a variância populacional é conhecida e a tabela Z é usada. O teste t é usado quando a variância populacional é desconhecida e a tabela T é usada.

Quando temos uma amostra grande, podemos considerar que nossa distribuição será normal e seguir com o teste.

Cálculo do Teste de Hipótese

Para calcular o teste de hipótese usando o teste Z, subtraímos o valor que estamos testando (mi 0) da média da amostra e dividimos pelo desvio padrão raiz de n.

Para calcular o teste de hipótese usando o teste t, usamos a mesma fórmula que no intervalo de confiança: subtraímos o valor que estamos testando (mi 0) da média amostral calculada a partir dos dados e dividimos pelo desvio padrão raiz de n.

Escolhendo entre Teste Z e Teste T

A escolha entre usar um teste Z ou um teste T depende se você sabe ou não qual é sua variância populacional. Se você não sabe qual é sua variância populacional, use o teste T.

Se você tem uma amostra grande ou seus dados têm distribuição normal, pode usar qualquer um dos testes.

Desculpe, mas não recebi o arquivo de transcrição para criar as notas. Por favor, envie o arquivo de transcrição para que eu possa começar a trabalhar nas notas.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o palestrante explica como realizar um teste de hipóteses e apresenta um exemplo prático.

Realizando um Teste de Hipóteses

Para realizar um teste de hipóteses, é necessário estabelecer uma hipótese nula (H0) e uma hipótese alternativa (Ha).

É preciso calcular a estatística de teste usando a fórmula adequada.

Com base no valor da estatística de teste, é possível determinar se a hipótese nula deve ser rejeitada ou não.

O valor tabelado na tabela Z pode ser usado para determinar a região crítica do teste.

Exemplo Prático: Testando a Quantidade Média de Café em Pacotes

O exemplo envolve testar se a quantidade média de café em pacotes é igual a 500 gramas.

A amostra consistiu em 16 pacotes, com uma média amostral calculada em 498.4 gramas e variância populacional conhecida igual a 400.

Usando um nível de significância α = 1%, o valor da estatística de teste foi -1.6, que não caiu na região crítica do teste.

Portanto, não há evidências suficientes para rejeitar H0 ao nível de significância de 1%, o que significa que não há evidências suficientes para afirmar que a quantidade média de café em pacotes é diferente de 500 gramas.

Exemplo Prático: Testando a Quantidade Média de Nicotina em Cigarros

O exemplo envolve testar se a quantidade média de nicotina em cigarros é maior do que 30 mg.

A amostra consistiu em 25 cigarros, com uma média amostral calculada em 31.5 mg e desvio padrão amostral igual a 3.

Como a variância populacional não é conhecida, ela precisa ser estimada usando os dados da amostra.

Usando um nível de significância α = 5%, o valor da estatística de teste foi 2.12, que caiu na região crítica do teste.

Portanto, há evidências suficientes para rejeitar H0 ao nível de significância de 5%, o que significa que há evidências suficientes para afirmar que a quantidade média de nicotina em cigarros é maior do que 30 mg.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o palestrante explica como realizar um teste de hipóteses e como interpretar os resultados.

Teste T Unilateral

O teste T é usado para determinar se a média amostral é significativamente diferente do valor que está sendo testado.

A estatística de teste é calculada subtraindo a média amostral pelo valor testado e dividindo pelo desvio padrão amostral dividido pela raiz quadrada do tamanho da amostra.

A região de rejeição é baseada na hipótese alternativa e no nível de significância escolhido.

No exemplo dado, a hipótese alternativa era que a média era maior que o valor testado e o nível de significância era 5%.

Se a estatística de teste for maior que o valor tabelado, então rejeitamos a hipótese nula.

Teste T Bilateral

O teste T bilateral é usado quando queremos determinar se a média amostral é significativamente diferente do valor testado em ambas as direções.

A região crítica é dividida em duas partes iguais, uma para cada cauda da distribuição normal.

O nível de significância também deve ser dividido por dois.

Diferença entre Teste T e Teste Z

O teste Z pode ser usado quando conhecemos o desvio padrão populacional ou quando temos uma grande amostra (n > 30).

O teste T deve ser usado quando não conhecemos o desvio padrão populacional ou quando temos uma pequena amostra (n < 30).

Tamanho da Amostra

Se o tamanho da amostra for grande o suficiente e coletado corretamente, aumentar a amostra não afetará significativamente os resultados do teste de hipóteses.

Aumentar a amostra é recomendado se houver dúvida sobre se o tamanho atual é suficiente ou não.

Conclusão

Nesta seção, aprendemos como realizar um teste de hipóteses usando o teste T e como interpretar os resultados. Também aprendemos a diferença entre testes unilaterais e bilaterais, bem como quando usar o teste Z em vez do teste T. Por fim, discutimos a importância do tamanho da amostra na realização de um teste de hipóteses.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o instrutor explica os métodos tradicionais para rejeitar ou não uma hipótese nula em um teste de hipóteses. Ele apresenta três métodos: estatística de teste, intervalo de confiança e valor P.

Estatística de Teste

O método tradicional para rejeitar uma hipótese nula é através da estatística de teste.

Para rejeitar a hipótese nula usando a estatística de teste, o valor observado da estatística deve pertencer à região de rejeição.

Caso contrário, se o valor observado cair dentro da região crítica, a hipótese nula não é rejeitada.

Intervalo de Confiança

O segundo método é através do intervalo de confiança. Se o intervalo calculado não contém o valor testado, a hipótese nula é rejeitada.

Este método também pode ser usado para testes unilaterais.

Valor P

O terceiro método mais utilizado na prática é a fórmula do valor P.

O valor P calcula a probabilidade da hipótese nula ser verdadeira com base nos dados disponíveis.

Se o valor P for menor que o alfa definido pelo pesquisador (geralmente 5%), a hipótese nula é rejeitada.

Se o valor P for maior que o alfa, a hipótese nula não é rejeitada.

Conclusão

O método do valor P depende menos da escolha do pesquisador em relação ao alfa e é mais utilizado na prática.

O valor P calcula a probabilidade de errar ao rejeitar a hipótese nula com base nos dados disponíveis.

Teste de Hipóteses

Visão Geral da Seção: Nesta seção, o palestrante explica como realizar um teste de hipóteses em uma indústria farmacêutica para verificar se a quantidade média de ácido em um remédio está dentro das especificações.

Realizando um Teste de Hipóteses

Uma indústria farmacêutica precisa garantir que a quantidade média de ácido em um remédio esteja dentro das especificações.

Para verificar se há problemas na produção, é selecionada uma amostra de comprimidos e é calculada a quantidade média de ácido nessa amostra.

É realizado um teste de hipóteses com base nos dados da amostra para confirmar ou não a suspeita da indústria.

A hipótese alternativa é que a quantidade média de ácido no comprimido é diferente da especificada pelo fabricante.

O nível de significância (alfa) utilizado no teste é 2%.

A estatística t é utilizada porque não se sabe qual é a variância populacional.

Considerando o nível de significância, uma região crítica é definida para rejeitar ou não a hipótese nula.

O valor P também pode ser utilizado para rejeitar ou não a hipótese nula. Ele representa a probabilidade dos valores observados serem iguais ou mais extremos do que o valor calculado.

O valor P é calculado com base na estatística de teste e pode ser encontrado em tabelas. Ele é utilizado para determinar se a hipótese nula deve ser rejeitada ou não.

O método do valor P é amplamente utilizado na prática para testes de hipóteses.

Mudando o Nível de Significância

Mudar o nível de significância (alfa) pode afetar a decisão final do teste de hipóteses.

Quando o alfa é mudado para 1%, a afirmação do fabricante se torna correta e não há evidências suficientes para rejeitar a hipótese nula.

É importante utilizar o método do valor P para evitar depender da escolha subjetiva do alfa pelo pesquisador.

Testes de Hipótese

Visão geral da seção: Nesta seção, o professor explica como realizar testes de hipótese e sua importância.

Método do Valor P

O valor p é menor que o nível de significância: rejeita-se a hipótese nula.

O valor p não é menor que o nível de significância: não se rejeita a hipótese nula.

Importância do Método do Valor P

O método do valor P é usado em todos os testes estatísticos.

É utilizado para verificar quais parâmetros são significativos ou não em modelos de regressão linear simples e múltipla.

Passos para Realizar Testes de Hipótese

Formular as hipóteses (nula e alternativa).

Identificar o teste apropriado (média, variância ou proporção).

Escolher o nível de significância alfa.

Definir a regra de decisão (intervalo de confiança, estatística de teste ou valor P).

Tomar uma decisão com base no resultado do teste.

Outros Tipos de Testes Estatísticos

Testes para proporção e variância.

Testes estatísticos não paramétricos que não dependem da distribuição dos dados.

Dúvidas dos Alunos

Os alunos perguntam sobre como realizar testes controlando outras variáveis. O professor responde que isso pode ser feito com modelos mais complexos, como modelos de regressão linear e modelos logísticos.

Teste de Hipótese de Normalidade

Visão Geral da Seção: Nesta seção, o palestrante explica que, ao trabalhar com dados, a primeira coisa a ser feita é um teste de hipótese de normalidade. Se os dados forem normais, pode-se fazer o teste direto. Caso contrário, existem duas alternativas: usar um teste estatístico não paramétrico ou aumentar o tamanho da amostra.

Valor P e Nível de Significância

O valor P é uma medida precisa para calcular qual erro pode ser cometido ao rejeitar ou não uma hipótese nula.

O nível de significância padrão é 5%, mas outros valores podem ser usados.

Comparar o valor P com o alfa (nível de significância) estabelecido permite avaliar a vontade de cometer um erro em relação ao limite crítico definido.

Influência do Valor Alfa no Teste

Aumentar o alfa torna o teste mais flexível e diminui a certeza sobre sua validade.

Diminuir o alfa pode levar à aceitação da hipótese nula.

Vantagens do Uso do Valor P

Usar o valor P evita a necessidade de consultar tabelas adicionais para tomar decisões.

Os comandos Python e R geralmente soltam apenas a estatística do teste, sem fornecer informações sobre regiões críticas que dependem das tabelas dos valores tabelados.

Diferença entre valores iguais e diferentes

Visão geral da seção: Nesta seção, o palestrante explica a diferença entre usar valores iguais e diferentes em um problema.

Valores específicos para tratar uma doença

Usar valores diferentes dos especificados pode causar problemas tanto para mais quanto para menos.

Exemplo: determinado remédio trata uma doença com valores específicos. Se os valores forem diferentes, pode não tratar ou causar overdose.

Abordagem depende do problema

Depende da abordagem e conclusão desejada no problema.

Em casos como o exemplo da nicotina, onde ser maior é o problema e ser menor não é, pode-se usar valores maiores ou menores.

Disponibilização de código e slides

Visão geral da seção: Nesta seção, o palestrante informa que irá disponibilizar seu código e slides para os alunos testarem.

O palestrante irá liberar seu código usado na mentoria para que os alunos possam testá-lo.

Os testes também foram usados em um banco de dados real fazendo teste de normalidade dos dados.

Os slides também serão compartilhados com os alunos.

Os alunos podem treinar depois e procurar ajuda caso tenham dúvidas.