Video 48 - Determining Statistical Confidence - ESTIEM LSS Course
Гипотезы и статистическая уверенность
Теоретические компоненты тестирования гипотез
- Обсуждение трех теоретических компонентов: выборка, P-значения и статистическая уверенность.
- Переход к третьему компоненту — статистической уверенности, основанной на размере выборки и правилах принятия решений.
Доверительные интервалы
- Доверительный интервал представляет собой диапазон значений в физических единицах измерения (например, стандартное отклонение или среднее).
- Уровень доверия — это вероятность соответствия конкретной выборки установленным правилам.
Типы вероятностей
- Личностная вероятность: субъективные ощущения о вероятности события (например, дождь 30%).
- Вероятность на основе частотного анализа: расчет вероятности на основе логики распределения (например, вероятность вытянуть туза из колоды).
- Интересующий нас тип вероятности связан с причинно-следственными связями. В дальнейшем будет обсуждено влияние причинности на анализ данных.
Формулы для доверительных интервалов
- Для 95% доверительного интервала используется формула с α = 0.005 и Z = 1.96 для нормального распределения.
- Доверительный интервал рассчитывается как среднее значение плюс/минус произведение Z на стандартное отклонение выборки деленное на корень из размера выборки (S/√n).
Влияние размера выборки на доверительные интервалы
- При увеличении размера выборки S/√n уменьшается, что приводит к более узкому доверительному интервалу. Это может создать ложное впечатление о значимости малых различий в больших популяциях.
- Три типа оценок ошибки выборки: ошибка среднего значения, стандартная ошибка среднего и изменение характеристик Римской числовой системы при переходе от σ к S/√n.
Изменение ширины доверительных интервалов
Анализ доверительных интервалов и статистических распределений
Доверительные интервалы и уровень уверенности
- При уровне уверенности 99% наблюдается самый широкий доверительный интервал, в то время как при 66% он становится самым узким. Это означает, что с понижением уровня уверенности мы принимаем больший риск ошибиться.
- Увеличение доверительного интервала происходит при желании повысить уверенность в том, что выборка включает среднее значение популяции.
Влияние размера выборки на доверительные интервалы
- При размере выборки 5 доверительный интервал составляет условные единицы, а при увеличении до 10 он уменьшается примерно вдвое. При размере 30 он становится значительно меньше (примерно одна десятая).
- Наблюдается изменение вероятностного распределения при размере выборки более 30. Для меньших размеров выборки (менее 30) наблюдается искажение данных.
Статистические распределения для малых выборок
- Для малых размеров выборки (менее 30) рекомендуется использовать t-распределение Стьюдента вместо нормального распределения.
- При размерах выборки более 30 не нужно беспокоиться о значительных изменениях доверительного интервала, так как он асимптотически связан с определенным значением.
Краткосрочные и долгосрочные проблемы анализа данных
Краткосрочные проблемы
- Краткосрочные проблемы связаны с отдельными образцами и включают шесть основных аспектов: валидность измерений, своевременность сбора данных, точность результатов, повторяемость измерений, калибровку оборудования и надежность процедур сбора данных.
Долгосрочные проблемы