Statistics Lecture 5.2:  A Study of Probability Distributions, Mean, and Standard Deviation

Statistics Lecture 5.2: A Study of Probability Distributions, Mean, and Standard Deviation

Глава 5: Дискретные вероятности

Введение в дискретные вероятности

  • Глава 5 посвящена дискретным вероятностям, которые относятся к счетным или конечным результатам. Примером является количество людей в классе.
  • Дискретные вероятности помогают понять вероятность событий и принимаемые решения на основе этих вероятностей.

Основные термины

Случайная переменная

  • Случайная переменная — это результаты, которые можно получить из процедуры, основанной на случайности. Она обозначается буквой X.
  • Результаты случайной переменной изменяются в зависимости от шанса, как при броске кубика.

Распределение вероятностей

  • Распределение вероятностей — это таблица, которая показывает вероятность каждого значения случайной переменной.
  • Оно похоже на частотное распределение, но вместо классов содержит возможные исходы и их соответствующие вероятности.

Пример распределения вероятностей

Бросок кубика

  • Для броска стандартного кубика (1–6), значения X будут от 1 до 6. Вероятность для каждого значения составляет 1/6.
  • Вероятность получения каждого значения остается равной при использовании стандартного кубика, что иллюстрирует классическую вероятность.

Заключительные мысли о случайных переменных и распределениях

  • Понимание случайных переменных и распределений важно для дальнейшего изучения дискретных вероятностей.
  • Мы можем использовать как классическую, так и наблюдаемую вероятность в зависимости от контекста задачи.

Что такое дискретная случайная величина?

Определение дискретной случайной величины

  • Дискретная случайная величина — это переменная, которая принимает конечное или счетное количество значений. Это означает, что все возможные результаты процедуры можно пересчитать.

Примеры дискретных значений

  • Примером дискретной величины может служить подсчет людей в классе: нельзя получить дробное число, например 42.375 человека.
  • Подсчет яиц, которые курица может снести за неделю, также является примером дискретного значения.

Понимание счетности и конечности

  • Дискретные значения подразумевают наличие целых чисел или конечного количества вариантов. Например, если на кубике есть только шесть сторон (1, 2, 3, 4, 5 и 6), то это ограниченное множество значений.

Различие между дискретными и непрерывными величинами

  • Непрерывная случайная величина имеет бесконечное количество возможных значений. Это значит, что между любыми двумя числами всегда можно найти еще одно значение.

Что такое непрерывная случайная величина?

Определение непрерывной случайной величины

  • Непрерывные случайные величины имеют бесконечное количество возможных значений. Например, рост человека может варьироваться от 5'7" до 5'8", включая промежуточные значения.

Примеры непрерывных измерений

  • Можно найти рост человека с точностью до долей дюйма (например, 5'7.25"). Это демонстрирует бесконечность возможных значений между двумя фиксированными числами.

Сравнение с дискретными переменными

  • В отличие от броска кубика (где результат всегда будет целым числом от 1 до 6), для непрерывных переменных можно получить любое значение в пределах диапазона.

Гистограмма вероятностного распределения

Создание гистограммы из вероятностного распределения

  • Гистограмма вероятностного распределения будет иметь две оси: горизонтальная ось представляет собой значения переменной X, а вертикальная ось — вероятность этих значений.

Положительные вероятности

  • Вероятность не может быть отрицательной; она всегда находится в положительном диапазоне.

Интересные идеи о вероятности и игральных костях

Введение в концепцию игральных костей

  • Обсуждение скучной графики, если использовать стандартные значения для игральных костей. Автор предлагает создать "взвешенные" кости для более интересного результата.
  • Упоминание о фильме "21", который иллюстрирует риски азартных игр. Автор шутит о возможных последствиях мошенничества в казино.

Вероятности значений на игральной кости

  • Объяснение, почему важно иметь определённые значения при игре с графиками: 7 и 11 имеют разные вероятности выпадения.
  • Приведены вероятности для каждого значения на кастомной кости: 1 (5%), 2 (15%), 3 (35%), 4 (30%), 5 (10%) и 6 (5%).

Проверка действительности распределения вероятностей

  • Вопросы о том, как определить, является ли распределение вероятностей допустимым. Основное правило: все вероятности должны быть положительными.
  • Обсуждение двух условий, при которых распределение не будет корректным: наличие отрицательных значений и выход за пределы от нуля до одного.

Сумма вероятностей

  • Все вероятности должны находиться между нулём и единицей; возможность наличия нуля или единицы допустима.
  • Сумма всех вероятностей должна равняться одному. Это объясняется тем, что при броске кости всегда должно выпасть одно из значений.

Заключительные замечания по проверке распределения

  • Подтверждение того, что сумма всех вероятностей должна составлять ровно один; это необходимо для корректного понимания игры с костями.
  • На экзаменах нужно указывать точное значение суммы равным одному; округления могут привести к небольшим отклонениям, но они не должны быть значительными.

Создание гистограммы распределения

  • Начало работы над созданием гистограммы для визуализации распределения вероятностей. Описание осей графика: значения переменной по горизонтали и соответствующие им вероятности по вертикали.
  • Возможность получения данных о вероятностях из наблюдений после большого количества бросков кубика; это может быть основано как на классических принципах, так и на эмпирических данных.

Гистограмма вероятностей и основные статистические понятия

Создание гистограммы

  • Обсуждение вероятности получения определенных значений при броске кубика. Пример с построением гистограммы, где значения 1, 2 и т.д. представлены в виде столбиков.
  • Значение для 3 составляет 35%, что значительно выше других значений. Упоминается необходимость соблюдения одинакового подхода к построению всех столбиков для корректной гистограммы.

Вероятность выпадения чисел

  • Вопрос о том, возможно ли получить единицы или шестерки при броске кубика. Подчеркивается, что вероятность существует, хотя такие результаты могут быть редкими.
  • Обсуждение редкости результатов и то, что на данный момент невозможно точно сказать, насколько это редко.

Частота и среднее значение

  • Утверждается, что наиболее часто должны выпадать тройки и четверки; двойки и пятерки реже; единицы и шестерки равномерно распределены.
  • Переход к вычислению среднего значения и стандартного отклонения на основе распределения вероятностей.

Среднее значение и стандартное отклонение

  • Обсуждение важности среднего значения (mean), дисперсии (variance) и стандартного отклонения (standard deviation). Упоминание о том, как эти концепции связаны между собой.
  • Описание процесса нахождения среднего значения из частотного распределения с переходом к вероятностному распределению.

Вычисление среднего значения

  • Напоминание о том, как находить среднее значение: умножение средней точки класса на частоту каждого класса с последующим делением на общее количество элементов в выборке.
  • Подробное объяснение того, как можно разделить сумму на количество элементов через добавление дробей по отдельности.

Ожидаемое значение

  • Утверждение о том, что ожидаемое значение является средним значением. Это означает усредненное число результатов при многократных бросках кубика.
  • Заключительное утверждение о том, что ожидаемое значение должно находиться между тремя и четырьмя при бросках кубика.

Что такое ожидаемое значение?

Ожидаемое значение и среднее

  • Ожидаемое значение в данной ситуации составляет около 3 или 4, что является средним значением. Это показывает, что вероятные результаты должны находиться в этом диапазоне.
  • Среднее и ожидаемое значение являются синонимами. Если кто-то говорит, что не обсуждали ожидаемое значение, это неверно — это то же самое, что и среднее.

Вероятностное распределение

  • Мы знаем о вероятностном распределении и его связи с частотным распределением. Каждое значение имеет свою вероятность, которая должна быть между 0 и 1.
  • Для нахождения среднего значения необходимо создать колонку для произведения x на p(x), а затем сложить все эти произведения.

Как найти среднее?

Процесс вычисления

  • После умножения значений на их вероятности нужно сложить все полученные результаты для нахождения среднего.
  • Важно помнить, что вероятность всегда должна находиться между 0 и 1; здесь мы просто умножаем значения на их вероятности.

Итоговые вычисления

  • Среднее получается путем сложения всех произведений x на p(x). Это позволяет избежать дополнительных делений.
  • Полученное среднее равно 3.4; это означает, что в долгосрочной перспективе при многократных бросках кубика результат будет близок к этому значению.

Что такое дисперсия?

Связь дисперсии и стандартного отклонения

  • Дисперсия связана со стандартным отклонением; если мы найдем дисперсию, то автоматически получим стандартное отклонение.

Определение стандартного отклонения

  • Стандартное отклонение показывает среднее расстояние от среднего значения. Оно рассчитывается из дисперсии.

Символы и формулы

  • Символ для дисперсии — это маленькая сигма (σ), а для вариации используется квадрат этого символа.

Вычисление дисперсии и стандартного отклонения

Основные шаги для вычисления дисперсии

  • Вместо частоты используется вероятность. Для нахождения расстояния от среднего значения необходимо вычесть среднее значение, используя формулу для дисперсии.
  • Сначала нужно возвести в квадрат значения из колонки x, затем умножить полученные значения на соответствующие вероятности и сложить их.
  • Важно сначала найти среднее значение (mean), прежде чем продолжать с другими расчетами.

Процесс вычисления

  • Начинаем с вычисления квадратов значений x: 1, 1, 1, 1, 1, 1, 2, 6, 7 и т.д.
  • Следующий шаг — создание колонки "x^2 * P(x)", где мы будем умножать квадраты на вероятности.
  • Частая ошибка заключается в том, что студенты пытаются перемножить два соседних столбца вместо того, чтобы использовать правильные пары значений.

Итоговые расчеты

  • Необходимо суммировать произведения из колонки "x^2 * P(x)" и получить итоговое значение.
  • Полученное значение равно 12.9; это сумма произведений x^2 на P(x).
  • Для нахождения дисперсии вычитаем квадрат среднего значения из суммы: 12.9 - (3.4)^2 = 1.34.

Стандартное отклонение

  • Чтобы найти стандартное отклонение, нужно извлечь квадратный корень из дисперсии: sqrt1.34.
  • После нахождения среднего значения важно помнить о необходимости создания новых колонок для дальнейших расчетов.

Ошибки при расчетах

  • Студенты часто повторно используют уже рассчитанные данные; после завершения одного этапа следует исключить использованные данные из дальнейших расчетов.
  • Важно правильно понимать порядок операций: сначала возводим в квадрат все x перед тем как умножать на вероятности.

Эти заметки помогут вам лучше понять процесс вычисления дисперсии и стандартного отклонения в статистике.

Вариация и стандартное отклонение

Расчет вариации

  • Для вычисления вариации необходимо взять квадратные значения x, умножить их на соответствующие вероятности p(x), а затем сложить все результаты. В данном случае сумма составила 12.9.

Понимание термина "вариация"

  • Вариация обозначается как σ² (сигма в квадрате). Это не просто квадрат вариации, а сама вариация, которая равна 12.9.

Вычисление стандартного отклонения

  • Чтобы найти стандартное отклонение, нужно сначала вычислить среднее значение и возвести его в квадрат, после чего вычесть из 12.9. Результат будет равен 1.34.

Применение формулы для нахождения стандартного отклонения

  • Для получения стандартного отклонения (σ) необходимо извлечь квадратный корень из найденной вариации (1.34). Это даст нам значение стандартного отклонения.

Обычные и необычные значения

  • Значения считаются необычными, если они находятся за пределами двух стандартных отклонений от среднего значения (μ). Если значение находится внутри этого диапазона, оно считается обычным.

Определение пределов обычных значений

Нахождение пределов с использованием стандартных отклонений

  • Чтобы определить верхний предел обычных значений, нужно добавить два стандартных отклонения к среднему значению (μ + 2σ), а для нижнего предела — вычесть два стандартных отклонения (μ - 2σ).

Пример с взвешенным кубиком

  • При работе с взвешенным кубиком важно знать среднее значение и добавлять/вычитать два стандарта для определения диапазона обычных значений.

Участие студентов в процессе обучения

  • Преподаватель подчеркивает важность активного участия студентов в классе для лучшего усвоения материала и понимания концепций статистики.

Итоговые расчеты по взвешенному кубику

  • Студенты должны рассчитать сумму двух стандартных отклонений к среднему значению и вычесть это же количество для нахождения границ обычных значений.

Понимание обычных и необычных значений в эксперименте

Процедура эксперимента

  • Обсуждение процедуры эксперимента, направленного на определение обычных и необычных значений при броске игральной кости.
  • Уточнение, что используется взвешенная кость для определения вероятности выпадения различных чисел.

Обычные и необычные значения

  • Определение диапазона обычных значений: от 1.08 до 5.72. Значения ниже этого диапазона считаются необычными.
  • Выявление необычных чисел: 1 и 6 являются необычными, тогда как 2, 3, 4 и 5 попадают в диапазон обычных значений.

Вероятность как критерий

  • Введение концепции вероятности для определения обычных и необычных событий; вероятность менее 0.05 считается необычной.
  • Объяснение связи между стандартным отклонением и вероятностью; данные за пределами двух стандартных отклонений составляют около 5%.

Эмпирическое правило

  • Обсуждение эмпирического правила: около 95% данных находятся в пределах двух стандартных отклонений от среднего значения.
  • Пояснение о том, что если вероятность события меньше или равна 0.05 (или 5%), то это событие считается необычным.

Пример с подбрасыванием монеты

  • Рассмотрение примера с подбрасыванием монеты тысячу раз; обсуждение вероятности получения ровно 501 орла.
  • Подчеркивание редкости получения точного числа орлов при большом количестве бросков; ожидания по результатам колеблются в пределах от 450 до 550 орлов.

Вероятность получения 501 или более орлов

Основные идеи и обсуждения

  • Вероятность получить ровно 501 орла при 1000 подбрасываниях монеты составляет 0.00252, что соответствует чуть более 2%. Это редкое событие.
  • Вероятность получения именно 501 орла считается необычной, так как она меньше 0.05. Если вероятность события меньше или равна этому значению, оно считается необычным.
  • Если вероятность события менее 0.05, это указывает на то, что событие действительно необычно. В данном случае получение ровно 501 орла является таким событием.
  • Обсуждается вероятность получения не только 501, но и большего количества орлов (например, от 501 до 1000). Это расширяет диапазон возможных исходов.
  • Вероятность получить 501 или более орлов составляет уже 0.487, что значительно выше вероятности получить ровно 501. Это связано с тем, что здесь рассматривается множество вариантов (от 501 до 1000).

Правила сложения вероятностей

  • При расчете вероятности для нескольких событий (например, получение либо 501, либо больше), используется правило сложения: все вероятности складываются.
  • Напоминается о важности правила сложения в теории вероятностей: если есть несколько вариантов (например, получение разных количеств орлов), их вероятности нужно складывать для получения общей вероятности.
  • Сложение всех малых вероятностей приводит к большей общей вероятности; это объясняет разницу между получением ровно одного значения и диапазона значений в расчетах.
Video description

https://www.patreon.com/ProfessorLeonard Statistics Lecture 5.2: A Study of Probability Distributions, Mean, and Standard Deviation