Video 48 - Determining Statistical Confidence  - ESTIEM LSS Course

Video 48 - Determining Statistical Confidence - ESTIEM LSS Course

Гипотезы и статистическая уверенность

Теоретические компоненты тестирования гипотез

  • Обсуждение трех теоретических компонентов: выборка, P-значения и статистическая уверенность.
  • Переход к третьему компоненту — статистической уверенности, основанной на размере выборки и правилах принятия решений.

Доверительные интервалы

  • Доверительный интервал представляет собой диапазон значений в физических единицах измерения (например, стандартное отклонение или среднее).
  • Уровень доверия — это вероятность соответствия конкретной выборки установленным правилам.

Типы вероятностей

  • Личностная вероятность: субъективные ощущения о вероятности события (например, дождь 30%).
  • Вероятность на основе частотного анализа: расчет вероятности на основе логики распределения (например, вероятность вытянуть туза из колоды).
  • Интересующий нас тип вероятности связан с причинно-следственными связями. В дальнейшем будет обсуждено влияние причинности на анализ данных.

Формулы для доверительных интервалов

  • Для 95% доверительного интервала используется формула с α = 0.005 и Z = 1.96 для нормального распределения.
  • Доверительный интервал рассчитывается как среднее значение плюс/минус произведение Z на стандартное отклонение выборки деленное на корень из размера выборки (S/√n).

Влияние размера выборки на доверительные интервалы

  • При увеличении размера выборки S/√n уменьшается, что приводит к более узкому доверительному интервалу. Это может создать ложное впечатление о значимости малых различий в больших популяциях.
  • Три типа оценок ошибки выборки: ошибка среднего значения, стандартная ошибка среднего и изменение характеристик Римской числовой системы при переходе от σ к S/√n.

Изменение ширины доверительных интервалов

Анализ доверительных интервалов и статистических распределений

Доверительные интервалы и уровень уверенности

  • При уровне уверенности 99% наблюдается самый широкий доверительный интервал, в то время как при 66% он становится самым узким. Это означает, что с понижением уровня уверенности мы принимаем больший риск ошибиться.
  • Увеличение доверительного интервала происходит при желании повысить уверенность в том, что выборка включает среднее значение популяции.

Влияние размера выборки на доверительные интервалы

  • При размере выборки 5 доверительный интервал составляет условные единицы, а при увеличении до 10 он уменьшается примерно вдвое. При размере 30 он становится значительно меньше (примерно одна десятая).
  • Наблюдается изменение вероятностного распределения при размере выборки более 30. Для меньших размеров выборки (менее 30) наблюдается искажение данных.

Статистические распределения для малых выборок

  • Для малых размеров выборки (менее 30) рекомендуется использовать t-распределение Стьюдента вместо нормального распределения.
  • При размерах выборки более 30 не нужно беспокоиться о значительных изменениях доверительного интервала, так как он асимптотически связан с определенным значением.

Краткосрочные и долгосрочные проблемы анализа данных

Краткосрочные проблемы

  • Краткосрочные проблемы связаны с отдельными образцами и включают шесть основных аспектов: валидность измерений, своевременность сбора данных, точность результатов, повторяемость измерений, калибровку оборудования и надежность процедур сбора данных.

Долгосрочные проблемы

Playlists: 06 - Analysis 1
Video description

For more info about the ESTIEM Lean Six Sigma Green Belt course visit https://internal.estiem.org/leansixsigma