Statistics Lecture 5.2: A Study of Probability Distributions, Mean, and Standard Deviation
Глава 5: Дискретные вероятности
Введение в дискретные вероятности
- Глава 5 посвящена дискретным вероятностям, которые относятся к счетным или конечным результатам. Примером является количество людей в классе.
- Дискретные вероятности помогают понять вероятность событий и принимаемые решения на основе этих вероятностей.
Основные термины
Случайная переменная
- Случайная переменная — это результаты, которые можно получить из процедуры, основанной на случайности. Она обозначается буквой X.
- Результаты случайной переменной изменяются в зависимости от шанса, как при броске кубика.
Распределение вероятностей
- Распределение вероятностей — это таблица, которая показывает вероятность каждого значения случайной переменной.
- Оно похоже на частотное распределение, но вместо классов содержит возможные исходы и их соответствующие вероятности.
Пример распределения вероятностей
Бросок кубика
- Для броска стандартного кубика (1–6), значения X будут от 1 до 6. Вероятность для каждого значения составляет 1/6.
- Вероятность получения каждого значения остается равной при использовании стандартного кубика, что иллюстрирует классическую вероятность.
Заключительные мысли о случайных переменных и распределениях
- Понимание случайных переменных и распределений важно для дальнейшего изучения дискретных вероятностей.
- Мы можем использовать как классическую, так и наблюдаемую вероятность в зависимости от контекста задачи.
Что такое дискретная случайная величина?
Определение дискретной случайной величины
- Дискретная случайная величина — это переменная, которая принимает конечное или счетное количество значений. Это означает, что все возможные результаты процедуры можно пересчитать.
Примеры дискретных значений
- Примером дискретной величины может служить подсчет людей в классе: нельзя получить дробное число, например 42.375 человека.
- Подсчет яиц, которые курица может снести за неделю, также является примером дискретного значения.
Понимание счетности и конечности
- Дискретные значения подразумевают наличие целых чисел или конечного количества вариантов. Например, если на кубике есть только шесть сторон (1, 2, 3, 4, 5 и 6), то это ограниченное множество значений.
Различие между дискретными и непрерывными величинами
- Непрерывная случайная величина имеет бесконечное количество возможных значений. Это значит, что между любыми двумя числами всегда можно найти еще одно значение.
Что такое непрерывная случайная величина?
Определение непрерывной случайной величины
- Непрерывные случайные величины имеют бесконечное количество возможных значений. Например, рост человека может варьироваться от 5'7" до 5'8", включая промежуточные значения.
Примеры непрерывных измерений
- Можно найти рост человека с точностью до долей дюйма (например, 5'7.25"). Это демонстрирует бесконечность возможных значений между двумя фиксированными числами.
Сравнение с дискретными переменными
- В отличие от броска кубика (где результат всегда будет целым числом от 1 до 6), для непрерывных переменных можно получить любое значение в пределах диапазона.
Гистограмма вероятностного распределения
Создание гистограммы из вероятностного распределения
- Гистограмма вероятностного распределения будет иметь две оси: горизонтальная ось представляет собой значения переменной X, а вертикальная ось — вероятность этих значений.
Положительные вероятности
- Вероятность не может быть отрицательной; она всегда находится в положительном диапазоне.
Интересные идеи о вероятности и игральных костях
Введение в концепцию игральных костей
- Обсуждение скучной графики, если использовать стандартные значения для игральных костей. Автор предлагает создать "взвешенные" кости для более интересного результата.
- Упоминание о фильме "21", который иллюстрирует риски азартных игр. Автор шутит о возможных последствиях мошенничества в казино.
Вероятности значений на игральной кости
- Объяснение, почему важно иметь определённые значения при игре с графиками: 7 и 11 имеют разные вероятности выпадения.
- Приведены вероятности для каждого значения на кастомной кости: 1 (5%), 2 (15%), 3 (35%), 4 (30%), 5 (10%) и 6 (5%).
Проверка действительности распределения вероятностей
- Вопросы о том, как определить, является ли распределение вероятностей допустимым. Основное правило: все вероятности должны быть положительными.
- Обсуждение двух условий, при которых распределение не будет корректным: наличие отрицательных значений и выход за пределы от нуля до одного.
Сумма вероятностей
- Все вероятности должны находиться между нулём и единицей; возможность наличия нуля или единицы допустима.
- Сумма всех вероятностей должна равняться одному. Это объясняется тем, что при броске кости всегда должно выпасть одно из значений.
Заключительные замечания по проверке распределения
- Подтверждение того, что сумма всех вероятностей должна составлять ровно один; это необходимо для корректного понимания игры с костями.
- На экзаменах нужно указывать точное значение суммы равным одному; округления могут привести к небольшим отклонениям, но они не должны быть значительными.
Создание гистограммы распределения
- Начало работы над созданием гистограммы для визуализации распределения вероятностей. Описание осей графика: значения переменной по горизонтали и соответствующие им вероятности по вертикали.
- Возможность получения данных о вероятностях из наблюдений после большого количества бросков кубика; это может быть основано как на классических принципах, так и на эмпирических данных.
Гистограмма вероятностей и основные статистические понятия
Создание гистограммы
- Обсуждение вероятности получения определенных значений при броске кубика. Пример с построением гистограммы, где значения 1, 2 и т.д. представлены в виде столбиков.
- Значение для 3 составляет 35%, что значительно выше других значений. Упоминается необходимость соблюдения одинакового подхода к построению всех столбиков для корректной гистограммы.
Вероятность выпадения чисел
- Вопрос о том, возможно ли получить единицы или шестерки при броске кубика. Подчеркивается, что вероятность существует, хотя такие результаты могут быть редкими.
- Обсуждение редкости результатов и то, что на данный момент невозможно точно сказать, насколько это редко.
Частота и среднее значение
- Утверждается, что наиболее часто должны выпадать тройки и четверки; двойки и пятерки реже; единицы и шестерки равномерно распределены.
- Переход к вычислению среднего значения и стандартного отклонения на основе распределения вероятностей.
Среднее значение и стандартное отклонение
- Обсуждение важности среднего значения (mean), дисперсии (variance) и стандартного отклонения (standard deviation). Упоминание о том, как эти концепции связаны между собой.
- Описание процесса нахождения среднего значения из частотного распределения с переходом к вероятностному распределению.
Вычисление среднего значения
- Напоминание о том, как находить среднее значение: умножение средней точки класса на частоту каждого класса с последующим делением на общее количество элементов в выборке.
- Подробное объяснение того, как можно разделить сумму на количество элементов через добавление дробей по отдельности.
Ожидаемое значение
- Утверждение о том, что ожидаемое значение является средним значением. Это означает усредненное число результатов при многократных бросках кубика.
- Заключительное утверждение о том, что ожидаемое значение должно находиться между тремя и четырьмя при бросках кубика.
Что такое ожидаемое значение?
Ожидаемое значение и среднее
- Ожидаемое значение в данной ситуации составляет около 3 или 4, что является средним значением. Это показывает, что вероятные результаты должны находиться в этом диапазоне.
- Среднее и ожидаемое значение являются синонимами. Если кто-то говорит, что не обсуждали ожидаемое значение, это неверно — это то же самое, что и среднее.
Вероятностное распределение
- Мы знаем о вероятностном распределении и его связи с частотным распределением. Каждое значение имеет свою вероятность, которая должна быть между 0 и 1.
- Для нахождения среднего значения необходимо создать колонку для произведения x на p(x), а затем сложить все эти произведения.
Как найти среднее?
Процесс вычисления
- После умножения значений на их вероятности нужно сложить все полученные результаты для нахождения среднего.
- Важно помнить, что вероятность всегда должна находиться между 0 и 1; здесь мы просто умножаем значения на их вероятности.
Итоговые вычисления
- Среднее получается путем сложения всех произведений x на p(x). Это позволяет избежать дополнительных делений.
- Полученное среднее равно 3.4; это означает, что в долгосрочной перспективе при многократных бросках кубика результат будет близок к этому значению.
Что такое дисперсия?
Связь дисперсии и стандартного отклонения
- Дисперсия связана со стандартным отклонением; если мы найдем дисперсию, то автоматически получим стандартное отклонение.
Определение стандартного отклонения
- Стандартное отклонение показывает среднее расстояние от среднего значения. Оно рассчитывается из дисперсии.
Символы и формулы
- Символ для дисперсии — это маленькая сигма (σ), а для вариации используется квадрат этого символа.
Вычисление дисперсии и стандартного отклонения
Основные шаги для вычисления дисперсии
- Вместо частоты используется вероятность. Для нахождения расстояния от среднего значения необходимо вычесть среднее значение, используя формулу для дисперсии.
- Сначала нужно возвести в квадрат значения из колонки x, затем умножить полученные значения на соответствующие вероятности и сложить их.
- Важно сначала найти среднее значение (mean), прежде чем продолжать с другими расчетами.
Процесс вычисления
- Начинаем с вычисления квадратов значений x: 1, 1, 1, 1, 1, 1, 2, 6, 7 и т.д.
- Следующий шаг — создание колонки "x^2 * P(x)", где мы будем умножать квадраты на вероятности.
- Частая ошибка заключается в том, что студенты пытаются перемножить два соседних столбца вместо того, чтобы использовать правильные пары значений.
Итоговые расчеты
- Необходимо суммировать произведения из колонки "x^2 * P(x)" и получить итоговое значение.
- Полученное значение равно 12.9; это сумма произведений x^2 на P(x).
- Для нахождения дисперсии вычитаем квадрат среднего значения из суммы: 12.9 - (3.4)^2 = 1.34.
Стандартное отклонение
- Чтобы найти стандартное отклонение, нужно извлечь квадратный корень из дисперсии: sqrt1.34.
- После нахождения среднего значения важно помнить о необходимости создания новых колонок для дальнейших расчетов.
Ошибки при расчетах
- Студенты часто повторно используют уже рассчитанные данные; после завершения одного этапа следует исключить использованные данные из дальнейших расчетов.
- Важно правильно понимать порядок операций: сначала возводим в квадрат все x перед тем как умножать на вероятности.
Эти заметки помогут вам лучше понять процесс вычисления дисперсии и стандартного отклонения в статистике.
Вариация и стандартное отклонение
Расчет вариации
- Для вычисления вариации необходимо взять квадратные значения x, умножить их на соответствующие вероятности p(x), а затем сложить все результаты. В данном случае сумма составила 12.9.
Понимание термина "вариация"
- Вариация обозначается как σ² (сигма в квадрате). Это не просто квадрат вариации, а сама вариация, которая равна 12.9.
Вычисление стандартного отклонения
- Чтобы найти стандартное отклонение, нужно сначала вычислить среднее значение и возвести его в квадрат, после чего вычесть из 12.9. Результат будет равен 1.34.
Применение формулы для нахождения стандартного отклонения
- Для получения стандартного отклонения (σ) необходимо извлечь квадратный корень из найденной вариации (1.34). Это даст нам значение стандартного отклонения.
Обычные и необычные значения
- Значения считаются необычными, если они находятся за пределами двух стандартных отклонений от среднего значения (μ). Если значение находится внутри этого диапазона, оно считается обычным.
Определение пределов обычных значений
Нахождение пределов с использованием стандартных отклонений
- Чтобы определить верхний предел обычных значений, нужно добавить два стандартных отклонения к среднему значению (μ + 2σ), а для нижнего предела — вычесть два стандартных отклонения (μ - 2σ).
Пример с взвешенным кубиком
- При работе с взвешенным кубиком важно знать среднее значение и добавлять/вычитать два стандарта для определения диапазона обычных значений.
Участие студентов в процессе обучения
- Преподаватель подчеркивает важность активного участия студентов в классе для лучшего усвоения материала и понимания концепций статистики.
Итоговые расчеты по взвешенному кубику
- Студенты должны рассчитать сумму двух стандартных отклонений к среднему значению и вычесть это же количество для нахождения границ обычных значений.
Понимание обычных и необычных значений в эксперименте
Процедура эксперимента
- Обсуждение процедуры эксперимента, направленного на определение обычных и необычных значений при броске игральной кости.
- Уточнение, что используется взвешенная кость для определения вероятности выпадения различных чисел.
Обычные и необычные значения
- Определение диапазона обычных значений: от 1.08 до 5.72. Значения ниже этого диапазона считаются необычными.
- Выявление необычных чисел: 1 и 6 являются необычными, тогда как 2, 3, 4 и 5 попадают в диапазон обычных значений.
Вероятность как критерий
- Введение концепции вероятности для определения обычных и необычных событий; вероятность менее 0.05 считается необычной.
- Объяснение связи между стандартным отклонением и вероятностью; данные за пределами двух стандартных отклонений составляют около 5%.
Эмпирическое правило
- Обсуждение эмпирического правила: около 95% данных находятся в пределах двух стандартных отклонений от среднего значения.
- Пояснение о том, что если вероятность события меньше или равна 0.05 (или 5%), то это событие считается необычным.
Пример с подбрасыванием монеты
- Рассмотрение примера с подбрасыванием монеты тысячу раз; обсуждение вероятности получения ровно 501 орла.
- Подчеркивание редкости получения точного числа орлов при большом количестве бросков; ожидания по результатам колеблются в пределах от 450 до 550 орлов.
Вероятность получения 501 или более орлов
Основные идеи и обсуждения
- Вероятность получить ровно 501 орла при 1000 подбрасываниях монеты составляет 0.00252, что соответствует чуть более 2%. Это редкое событие.
- Вероятность получения именно 501 орла считается необычной, так как она меньше 0.05. Если вероятность события меньше или равна этому значению, оно считается необычным.
- Если вероятность события менее 0.05, это указывает на то, что событие действительно необычно. В данном случае получение ровно 501 орла является таким событием.
- Обсуждается вероятность получения не только 501, но и большего количества орлов (например, от 501 до 1000). Это расширяет диапазон возможных исходов.
- Вероятность получить 501 или более орлов составляет уже 0.487, что значительно выше вероятности получить ровно 501. Это связано с тем, что здесь рассматривается множество вариантов (от 501 до 1000).
Правила сложения вероятностей
- При расчете вероятности для нескольких событий (например, получение либо 501, либо больше), используется правило сложения: все вероятности складываются.
- Напоминается о важности правила сложения в теории вероятностей: если есть несколько вариантов (например, получение разных количеств орлов), их вероятности нужно складывать для получения общей вероятности.
- Сложение всех малых вероятностей приводит к большей общей вероятности; это объясняет разницу между получением ровно одного значения и диапазона значений в расчетах.