Теория вероятностей и математическая статистика. Условные вероятности и формула Байеса.

Представьте, что вы детектив, который по крупицам собирает улики: каждая новая улика меняет картину произошедшего и заставляет по-новому взглянуть на вероятности того, кто виноват. Именно так работает условная вероятность: мы не рассматриваем события в вакууме, а обновляем свои убеждения на основе имеющейся информации. Для студента физико-математического факультета понимание условных вероятностей и формулы Байеса — это не только теория, но и инструмент, который применяется в экспериментальном анализе, обработке данных, машинном обучении и даже физических измерениях. В этой статье мы разберём понятия, покажем на понятных примерах, как считать, и научимся избегать типичных ошибок.

Когда говорят о вероятности какого-то события, часто подразумевают «без дополнительной информации». Условная вероятность P(A|B) отвечает на вопрос: какова вероятность события A при условии, что известно событие B? Формально это определяется как отношение совместной вероятности к вероятности условия: P(A|B) = P(A ∩ B) / P(B), при P(B) > 0. На интуитивном уровне удобнее работать с частотной интерпретацией: если из 1000 измерений 200 соответствуют условию B, а из них 50 — случай A, то P(A|B) ≈ 50/200 = 0.25.

Простая и мощная иллюстрация — мешок с шариками: в мешке 3 белых и 2 чёрных шарика. Если вынуть один шарик и он оказался белым, какова вероятность, что второй шарик (без возвращения первого) тоже белый? Здесь условие — первый шар белый. По формуле: P(второй белый | первый белый) = (число благоприятных исходов) / (число возможных исходов с учётом первого вынутого) = 2/4 = 0.5. Если же первый шар вернули в мешок, условие не меняет состав, и события независимы: P = 3/5.

Зачем нужна формула Байеса и чем она отличается от простой условной вероятности? Байесова формула позволяет «перевернуть» условие: если легче оценить P(B|A) и P(A), а нужно найти P(A|B), Байес помогает это сделать. Для двух событий A и B формула выглядит так: P(A|B) = P(B|A) P(A) / P(B). Более практичная версия — для несвязанных друг с другом взаимоисключающих гипотез H1, H2, …, Hn: P(Hi|B) = P(B|Hi) P(Hi) / Σj P(B|Hj) P(Hj). Здесь P(Hi) — априорная вероятность гипотезы Hi, P(B|Hi) — вероятность наблюдения данных B при истинности Hi (функция правдоподобия), а знаменатель — полная вероятность события B (закон полной вероятности).

Рассмотрим живой и частый в жизни пример — медицинский тест. Пусть заболевание встречается у 1% населения. Тест на него имеет чувствительность (sensitivity) 99% — т.е. P(положительный | болен) = 0.99 — и специфичность (specificity) 95% — т.е. P(отрицательный | здоров) = 0.95, значит P(положительный | здоров) = 0.05 (ложноположительный). Пациент получил положительный результат. Какова вероятность, что он действительно болен? Часто люди интуитивно оценивают это как очень высокую, но вычисление по Байесу показывает иную картину.

Введём обозначения: H — пациент болен, ¬H — не болен, B — положительный тест. Априор P(H) = 0.01, P(¬H) = 0.99. P(B|H) = 0.99, P(B|¬H) = 0.05. Отличный приём для понимания — перевести всё в частоты на 10 000 человек. Из 10 000 человек 100 больны. Среди них 99 дадут положительный тест. Из 9 900 здоровых 0.05·9900 = 495 дадут ложноположительный результат. Всего положительных тестов 99 + 495 = 594. Вероятность, что человек с положительным тестом действительно болен, P(H|B) = 99 / 594 ≈ 0.167, или 16.7%. То есть несмотря на высокие характеристики теста, низкая распространённость болезни (низкий базовый уровень) делает положительный результат менее убедительным — классический пример эффекта базовой частоты (base rate