При выводе формулы полной вероятности предполагалось, что событие А , вероятность которого следовало определить, могло произойти с одним из событий Н 1 , Н 2 , ... , Н n , образующих полную группу попарно несовместных событий. При этом вероятности указанных событий (гипотез) были известны заранее. Предположим, что произведен эксперимент, в результате которого событие А наступило. Эта дополнительная информация позволяет произвести переоценку вероятностей гипотез Н i , вычислив Р(Н i /А).
или, воспользовавшись формулой полной вероятности, получим
Эту формулу называют формулой Байеса или теоремой гипотез. Формула Байеса позволяет «пересмотреть» вероятности гипотез после того, как становится известным результат опыта, в результате которого появилось событие А .
Вероятности Р(Н i) − это априорные вероятности гипотез (они вычислены до опыта). Вероятности же Р(Н i /А) − это апостериорные вероятности гипотез (они вычислены после опыта). Формула Байеса позволяет вычислить апостериорные вероятности по их априорным вероятностям и по условным вероятностям события А .
Пример . Известно, что 5 % всех мужчин и 0.25 % всех женщин дальтоники. Наугад выбранное лицо по номеру медицинской карточки страдает дальтонизмом. Какова вероятность того, что это мужчина?
Решение . Событие А – человек страдает дальтонизмом. Пространство элементарных событий для опыта – выбран человек по номеру медицинской карточки – Ω = {Н 1 , Н 2 } состоит из 2 событий:
Н 1 −выбран мужчина,
Н 2 −выбрана женщина.
Эти события могут быть выбраны в качестве гипотез.
По условию задачи (случайный выбор) вероятности этих событий одинаковые и равны Р(Н 1 ) = 0.5; Р(Н 2 ) = 0.5.
При этом условные вероятности того, что человек страдает дальтонизмом, равны соответственно:
Р(А/Н 1 ) = 0.05 = 1/20; Р(А/Н 2 ) = 0.0025 = 1/400.
Так как известно, что выбранный человек дальтоник, т. е. событие произошло, то используем формулу Байеса для переоценки первой гипотезы:
Пример. Имеются три одинаковых по виду ящика. В первом ящике 20 белых шаров, во втором – 10 белых и 10 черных, в третьем – 20 черных шаров. Из выбранного наугад ящика вынули белый шар. Вычислить вероятность того, что шар вынут из первого ящика.
Решение . Обозначим через А событие – появление белого шара. Можно сделать три предположения (гипотезы) о выборе ящика: Н 1 , Н 2 , Н 3 − выбор соответственно первого, второго и третьего ящика.
Так как выбор любого из ящиков равновозможен, то вероятности гипотез одинаковы:
Р(Н 1 )=Р(Н 2 )=Р(Н 3 )= 1/3.
По условию задачи вероятность извлечения белого шара из первого ящика
Вероятность извлечения белого шара из второго ящика
Вероятность извлечения белого шара из третьего ящика
Искомую вероятность находим по формуле Байеса:
Повторение испытаний. Формула Бернулли .
Проводится n испытаний, в каждом из которых событие А может произойти или не произойти, причем вероятность события А в каждом отдельном испытании постоянна, т.е. не меняется от опыта к опыту. Как найти вероятность события А в одном опыте мы уже знаем.
Представляет особый интерес вероятность появления определенного числа раз (m раз) события А в n опытах. подобные задачи решаются легко, если испытания являются независимыми.
Опр. Несколько испытаний называюся независимыми относительно события А , если вероятность события А в каждом из них не зависит от исходов других опытов.
Вероятность Р n (m) наступления события А ровно m раз (ненаступление n-m раз, событие ) в этих n испытаниях. Событие А появляется в самых разных последовательностях m раз).
- формулу Бернулли.
Очевидны следующие формулы:
Р n (m
P n (m>k) = P n (k+1) + P n (k+2) +…+ P n (n) - вероятность наступления события А более k раз в n испытаниях.
Пусть известны их вероятности и соответствующие условные вероятности . Тогда вероятность наступления события равна:
Эта формула получила название формулы полной вероятности . В учебниках она формулируется теоремой, доказательство которой элементарно: согласно алгебре событий , (произошло событие и или произошло событие и после него наступило событие или произошло событие и после него наступило событие или …. или произошло событие и после него наступило событие ) . Поскольку гипотезы несовместны, а событие – зависимо, то по теореме сложения вероятностей несовместных событий (первый шаг) и теореме умножения вероятностей зависимых событий (второй шаг) :
Наверное, многие предчувствуют содержание первого примера =)
Куда ни плюнь – везде урна:
Задача 1
Имеются три одинаковые урны. В первой урне находятся 4 белых и 7 черных шаров, во второй – только белые и в третьей – только черные шары. Наудачу выбирается одна урна и из неё наугад извлекается шар. Какова вероятность того, что этот шар чёрный?
Решение
: рассмотрим событие – из наугад выбранной урны будет извлечён чёрный шар. Данное событие может произойти в результате осуществления одной из следующих гипотез:
– будет выбрана 1-я урна;
– будет выбрана 2-я урна;
– будет выбрана 3-я урна.
Так как урна выбирается наугад, то выбор любой из трёх урн равновозможен
, следовательно:
Обратите внимание, что перечисленные гипотезы образуют полную группу событий
, то есть по условию чёрный шар может появиться только из этих урн, а например, не прилететь с бильярдного стола. Проведём простую промежуточную проверку:
, ОК, едем дальше:
В первой урне 4 белых + 7 черных = 11 шаров, по классическому определению
:
– вероятность извлечения чёрного шара при условии
, что будет выбрана 1-я урна.
Во второй урне только белые шары, поэтому в случае её выбора появления чёрного шара становится невозможным : .
И, наконец, в третьей урне одни чёрные шары, а значит, соответствующая условная вероятность извлечения чёрного шара составит (событие достоверно) .
– вероятность того, что из наугад выбранной урны будет извлечен чёрный шар.
Ответ :
Разобранный пример снова наводит на мысль о том, как важно ВНИКАТЬ В УСЛОВИЕ. Возьмём те же задачи с урнами и шарами – при их внешней схожести способы решения могут быть совершенно разными: где-то требуется применить только классическое определение вероятности , где-то события независимы , где-то зависимы , а где-то речь о гипотезах. При этом не существует чёткого формального критерия для выбора пути решения – над ним почти всегда нужно думать. Как повысить свою квалификацию? Решаем, решаем и ещё раз решаем!
Задача 2
В тире имеются 5 различных по точности боя винтовок. Вероятности попадания в мишень для данного стрелка соответственно равны 0,5; 0,55; 0,7; 0,75 и 0,4. Чему равна вероятность попадания в мишень, если стрелок делает один выстрел из случайно выбранной винтовки?
Краткое решение и ответ в конце урока.
В большинстве тематических задач гипотезы, конечно же, не равновероятны:
Задача 3
В пирамиде 5 винтовок, три из которых снабжены оптическим прицелом. Вероятность того, что стрелок поразит мишень при выстреле из винтовки с оптическим прицелом, равна 0,95; для винтовки без оптического прицела эта вероятность равна 0,7. Найти вероятность того, что мишень будет поражена, если стрелок производит один выстрел из наудачу взятой винтовки.
Решение
: в этой задаче количество винтовок точно такое же, как и в предыдущей, но вот гипотезы всего две:
– стрелок выберет винтовку с оптическим прицелом;
– стрелок выберет винтовку без оптического прицела.
По классическому определению вероятности
: .
Контроль:
Рассмотрим событие: – стрелок поразит мишень из наугад взятой винтовки.
По условию: .
По формуле полной вероятности:
Ответ : 0,85
На практике вполне допустим укороченный способ оформления задачи, который вам тоже хорошо знаком:
Решение : по классическому определению: – вероятности выбора винтовки с оптическим и без оптического прицела соответственно.
По условию, – вероятности попадания в мишень из соответствующих типов винтовок.
По формуле полной вероятности:
– вероятность того, что стрелок поразит мишень из наугад выбранной винтовки.
Ответ : 0,85
Следующая задача для самостоятельного решения:
Задача 4
Двигатель работает в трёх режимах: нормальном, форсированном и на холостом ходу. В режиме холостого хода вероятность его выхода из строя равна 0,05, при нормальном режиме работы – 0,1, а при форсированном – 0,7. 70% времени двигатель работает в нормальном режиме, а 20% – в форсированном. Какова вероятность выхода из строя двигателя во время работы?
На всякий случай напомню – чтобы получить значения вероятностей проценты нужно разделить на 100. Будьте очень внимательны! По моим наблюдениям, условия задач на формулу полной вероятности частенько пытаются подзапутать; и я специально подобрал такой пример. Скажу по секрету – сам чуть не запутался =)
Решение в конце урока (оформлено коротким способом)
Материал тесно связан с содержанием предыдущего параграфа. Пусть событие наступило в результате осуществления одной из гипотез . Как определить вероятность того, что имела место та или иная гипотеза?
При условии , что событие уже произошло , вероятности гипотез переоцениваются по формулам, которые получили фамилию английского священника Томаса Байеса:
– вероятность того, что имела место гипотеза ;
– вероятность того, что имела место гипотеза ;
…
– вероятность того, что имела место гипотеза .
На первый взгляд кажется полной нелепицей – зачем пересчитывать вероятности гипотез, если они и так известны? Но на самом деле разница есть:
– это априорные (оцененные до испытания) вероятности.
– это апостериорные (оцененные после испытания) вероятности тех же гипотез, пересчитанные в связи «со вновь открывшимися обстоятельствами » – с учётом того факта, что событие достоверно произошло .
Рассмотрим это различие на конкретном примере:
Задача 5
На склад поступило 2 партии изделий: первая – 4000 штук, вторая – 6000 штук. Средний процент нестандартных изделий в первой партии составляет 20%, а во второй – 10%. Наудачу взятое со склада изделие оказалось стандартным. Найти вероятность того, что оно: а) из первой партии, б) из второй партии.
Первая часть решения состоит в использовании формулы полной вероятности. Иными словами, вычисления проводятся в предположении, что испытание ещё не произведено и событие «изделие оказалось стандартным» пока не наступило.
Рассмотрим две гипотезы:
– наудачу взятое изделие будет из 1-й партии;
– наудачу взятое изделие будет из 2-й партии.
Всего: 4000 + 6000 = 10000 изделий на складе. По классическому определению :
.
Контроль:
Рассмотрим зависимое событие: – наудачу взятое со склада изделие будет стандартным.
В первой партии 100% – 20% = 80% стандартных изделий, поэтому: при условии , что оно принадлежит 1-й партии.
Аналогично, во второй партии 100% – 10% = 90% стандартных изделий и – вероятность того, что наудачу взятое на складе изделие будет стандартным при условии , что оно принадлежит 2-й партии.
По формуле полной вероятности:
– вероятность того, что наудачу взятое на складе изделие будет стандартным.
Часть вторая. Пусть наудачу взятое со склада изделие оказалось стандартным. Эта фраза прямо прописана в условии, и она констатирует тот факт, что событие произошло .
По формулам Байеса:
а) – вероятность того, что выбранное стандартное изделие принадлежит 1-й партии;
б) – вероятность того, что выбранное стандартное изделие принадлежит 2-й партии.
После переоценки
гипотезы , разумеется, по-прежнему образуют полную группу
:
(проверка;-))
Ответ :
Понять смысл переоценки гипотез нам поможет Иван Васильевич, которой снова сменил профессию и стал директором завода. Он знает, что сегодня 1-й цех отгрузил на склад 4000, а 2-й цех – 6000 изделий, и приходит удостовериться в этом. Предположим, вся продукция однотипна и находится в одном контейнере. Естественно, Иван Васильевич предварительно подсчитал, что изделие, которое он сейчас извлечёт для проверки, с вероятностью будет выпущено 1-м цехом и с вероятностью – вторым. Но после того как выбранное изделие оказывается стандартным, он восклицает: «Какой же классный болт! – его скорее выпустил 2-й цех». Таким образом, вероятность второй гипотезы переоценивается в лучшую сторону , а вероятность первой гипотезы занижается: . И эта переоценка небезосновательна – ведь 2-й цех произвёл не только больше изделий, но и работает в 2 раза лучше!
Вы скажете, чистый субъективизм? Отчасти – да, более того, сам Байес интерпретировал апостериорные вероятности как уровень доверия . Однако не всё так просто – в байесовском подходе есть и объективное зерно. Ведь вероятности того, что изделие будет стандартным (0,8 и 0,9 для 1-го и 2-го цехов соответственно) это предварительные (априорные) и средние оценки. Но, выражаясь философски – всё течёт, всё меняется, и вероятности в том числе. Вполне возможно, что на момент исследования более успешный 2-й цех повысил процент выпуска стандартных изделий (и/или 1-й цех снизил) , и если проверить бОльшее количество либо все 10 тысяч изделий на складе, то переоцененные значения окажутся гораздо ближе к истине.
Кстати, если Иван Васильевич извлечёт нестандартную деталь, то наоборот – он будет больше «подозревать» 1-й цех и меньше – второй. Предлагаю убедиться в этом самостоятельно:
Задача 6
На склад поступило 2 партии изделий: первая – 4000 штук, вторая – 6000 штук. Средний процент нестандартных изделий в первой партии 20%, во второй – 10%. Наудачу взятое со склада изделие оказалось не стандартным. Найти вероятность того, что оно: а) из первой партии, б) из второй партии.
Условие отличатся двумя буквами, которые я выделил жирным шрифтом. Задачу можно решить с «чистого листа», или воспользоваться результатами предыдущих вычислений. В образце я провёл полное решение, но чтобы не возникло формальной накладки с Задачей №5, событие «наудачу взятое со склада изделие будет нестандартным» обозначено через .
Байесовская схема переоценки вероятностей встречается повсеместно, причём её активно эксплуатируют и различного рода мошенники. Рассмотрим ставшее нарицательным АО на три буквы, которое привлекает вклады населения, якобы куда-то их инвестирует, исправно выплачивает дивиденды и т.д. Что происходит? Проходит день за днём, месяц за месяцем и всё новые и новые факты, донесённые путём рекламы и «сарафанным радио», только повышают уровень доверия к финансовой пирамиде (апостериорная байесовская переоценка в связи с произошедшими событиями!) . То есть, в глазах вкладчиков происходит постоянное увеличение вероятности того, что «это серьёзная контора» ; при этом вероятность противоположной гипотезы («это очередные кидалы») , само собой, уменьшается и уменьшается. Дальнейшее, думаю, понятно. Примечательно, что заработанная репутация даёт организаторам время успешно скрыться от Ивана Васильевича, который остался не только без партии болтов, но и без штанов.
К не менее любопытным примерам мы вернёмся чуть позже, а пока на очереди, пожалуй, самый распространенный случай с тремя гипотезами:
Задача 7
Электролампы изготавливаются на трех заводах. 1-й завод производит 30% общего количества ламп, 2-й – 55%, а 3-й – остальную часть. Продукция 1-го завода содержит 1% бракованных ламп, 2-го – 1,5%, 3-го – 2%. В магазин поступает продукция всех трех заводов. Купленная лампа оказалась с браком. Какова вероятность того, что она произведена 2-м заводом?
Заметьте, что в задачах на формулы Байеса в условии обязательно фигурирует некое произошедшее событие, в данном случае – покупка лампы.
Событий прибавилось, и решение удобнее оформить в «быстром» стиле.
Алгоритм точно такой же: на первом шаге находим вероятность того, что купленная лампа вообще окажется бракованной.
Пользуясь исходными данными, переводим проценты в вероятности:
– вероятности того, что лампа произведена 1-м, 2-м и 3-м заводами соответственно.
Контроль:
Аналогично: – вероятности изготовления бракованной лампы для соответствующих заводов.
По формуле полной вероятности:
– вероятность того, что купленная лампа окажется с браком.
Шаг второй. Пусть купленная лампа оказалась бракованной (событие произошло)
По формуле Байеса:
– вероятность того, что купленная бракованная лампа изготовлена вторым заводом
Ответ :
Почему изначальная вероятность 2-й гипотезы после переоценки увеличилась ? Ведь второй завод производит средние по качеству лампы (первый – лучше, третий – хуже). Так почему же возросла апостериорная вероятность, что бракованная лампа именно со 2-го завода? Это объясняется уже не «репутацией», а размером. Так как завод №2 выпустил самое большое количество ламп, то на него (по меньшей мере, субъективно) и пеняют: «скорее всего, эта бракованная лампа именно оттуда» .
Интересно заметить, что вероятности 1-й и 3-й гипотез, переоценились в ожидаемых направлениях и сравнялись:
Контроль: , что и требовалось проверить.
К слову, о заниженных и завышенных оценках:
Задача 8
В студенческой группе 3 человека имеют высокий уровень подготовки, 19 человек – средний и 3 – низкий. Вероятности успешной сдачи экзамена для данных студентов соответственно равны: 0,95; 0,7 и 0,4. Известно, что некоторый студент сдал экзамен. Какова вероятность того, что:
а) он был подготовлен очень хорошо;
б) был подготовлен средне;
в) был подготовлен плохо.
Проведите вычисления и проанализируйте результаты переоценки гипотез.
Задача приближена к реальности и особенно правдоподобна для группы студентов-заочников, где преподаватель практически не знает способностей того или иного студента. При этом результат может послужить причиной довольно-таки неожиданных последствий (особенно это касается экзаменов в 1-м семестре) . Если плохо подготовленному студенту посчастливилось с билетом, то преподаватель с большой вероятностью сочтёт его хорошо успевающим или даже сильным студентом, что принесёт неплохие дивиденды в будущем (естественно, нужно «поднимать планку» и поддерживать свой имидж) . Если же студент 7 дней и 7 ночей учил, зубрил, повторял, но ему просто не повезло, то дальнейшие события могут развиваться в самом скверном ключе – с многочисленными пересдачами и балансировкой на грани вылета.
Что и говорить, репутация – это важнейший капитал, не случайно многие корпорации носят имена-фамилии своих отцов-основателей, которые руководили делом 100-200 лет назад и прославились своей безупречной репутацией.
Да, байесовский подход в известной степени субъективен, но… так устроена жизнь!
Закрепим материал заключительным индустриальным примером, в котором я расскажу о до сих пор не встречавшихся технических тонкостях решения:
Задача 9
Три цеха завода производят однотипные детали, которые поступают на сборку в общий контейнер. Известно, что первый цех производит в 2 раза больше деталей, чем второй цех, и в 4 раза больше третьего цеха. В первом цехе брак составляет 12%, во втором – 8%, в третьем – 4%. Для контроля из контейнера берется одна деталь. Какова вероятность того, что она окажется бракованной? Какова вероятность того, что извлечённую бракованную деталь выпустил 3-й цех?
Таки Иван Васильевич снова на коне =) Должен же быть у фильма счастливый конец =)
Решение : в отличие от Задач №№5-8 здесь в явном виде задан вопрос, который разрешается с помощью формулы полной вероятности. Но с другой стороны, условие немного «зашифровано», и разгадать этот ребус нам поможет школьный навык составлять простейшие уравнения. За «икс» удобно принять наименьшее значение:
Пусть – доля деталей, выпускаемая третьим цехом.
По условию, первый цех производит в 4 раза больше третьего цеха, поэтому доля 1-го цеха составляет .
Кроме того, первый цех производит изделий в 2 раза больше, чем второй цех, а значит, доля последнего: .
Составим и решим уравнение:
Таким образом: – вероятности того, что извлечённая из контейнера деталь выпущена 1-м, 2-м и 3-м цехами соответственно.
Контроль: . Кроме того, будет не лишним ещё раз посмотреть на фразу «Известно, что первый цех производит изделий в 2 раза больше второго цеха и в 4 раза больше третьего цеха» и убедиться, что полученные значения вероятностей действительно соответствуют этому условию.
За «икс» изначально можно было принять долю 1-го либо долю 2-го цеха – вероятности выйдут такими же. Но, так или иначе, самый трудный участок пройден, и решение входит в накатанную колею:
Из условия находим:
– вероятности изготовления бракованной детали для соответствующих цехов.
По формуле полной вероятности:
– вероятность того, что наугад извлеченная из контейнера деталь окажется нестандартной.
Вопрос второй: какова вероятность того, что извлечённую бракованную деталь выпустил 3-й цех? Данный вопрос предполагает, что деталь уже извлечена, и она оказалось бракованной. Переоцениваем гипотезу по формуле Байеса:
– искомая вероятность. Совершенно ожидаемо – ведь третий цех производит не только самую малую долю деталей, но и лидирует по качеству!
В данном случае пришлось упрощать четырёхэтажную дробь , что в задачах на формулы Байеса приходится делать довольно часто. Но для данного урока я как-то так случайно подобрал примеры, в которых многие вычисления можно провести без обыкновенных дробей.
Коль скоро в условии нет пунктов «а» и «бэ», то ответ лучше снабдить текстовыми комментариями:
Ответ : – вероятность того, что извлечённая из контейнера деталь окажется бракованной; – вероятность того, что извлечённую бракованную деталь выпустил 3-й цех.
Как видите, задачи на формулу полной вероятности и формулы Байеса достаточно простЫ, и, наверное, по этой причине в них так часто пытаются затруднить условие, о чём я уже упоминал в начале статьи.
Дополнительные примеры есть в файле с готовыми решениями на Ф.П.В. и формулы Байеса , кроме того, наверное, найдутся желающие более глубоко ознакомиться с данной темой в других источниках. А тема действительно очень интересная – чего только стОит один парадокс Байеса , который обосновывает тот житейский совет, что если у человека диагностирована редкая болезнь, то ему имеет смысл провести повторное и даже два повторных независимых обследования. Казалось бы, это делают исключительно от отчаяния… – а вот и нет! Но не будем о грустном.
При выводе формулы полной вероятности предполагалось, что вероятности гипотез известны до опыта. Формула Байеса позволяет производить переоценку первоначальных гипотез в свете новой информации, состоящей в том, что событие произошло. Поэтому формулу Байеса называют формулой уточнения гипотез.
Теорема
(Формула Байеса).
Если событие
может происходить только с одной из
гипотез
,
которые образуют полную группу событий,
то вероятность гипотез при условии, что
событие
произошло, вычисляется по формуле
,
.
Доказательство.
Формула Байеса или байесовский подход к оценке гипотез играет важную роль в экономике, т.к. дает возможность корректировать управленческие решения, оценки неизвестных параметров распределения изучаемых признаков в статистическом анализе и.т.п.
Пример. Электролампы изготовляются на двух заводах. Первый завод производит 60% общего количества электроламп, второй – 40%. Продукция первого завода содержит 70% стандартных ламп, второго – 80%. В магазин поступает продукция обоих заводов. Лампочка купленная в магазине оказалась стандартной. Найти вероятность того, что лампа изготовлена на первом заводе.
Запишем условие задачи, вводя соответствующие обозначения.
Дано: событие состоит в том, что лампа стандартная.
Гипотеза
состоит в том, что лампа изготовлена на
первом заводе
Гипотеза
состоит в том, что лампа изготовлена на
втором заводе
Найти
.
Решение.
Рассмотрим схему независимых испытаний или схему Бернулли , которая имеет важное научное значение и разнообразные практические применения.
Пусть производится независимых испытаний, в каждом из которых может произойти некоторое событие.
Определение.
Испытания
называются
независимыми
,
если в каждом из них событие
,
не зависящей от того появилось или не
появилось событие
в других испытаниях.
Пример. На испытательный стенд поставлены 20 ламп накаливания, которые испытываются под нагрузкой в течении 1000 часов. Вероятность того, что лампа выдержит испытание, равна 0,8 и не зависит от того, что случилось с другими лампами.
В
этом примере под испытанием понимается
проверка лампы на ее способность
выдержать нагрузку в течении 1000 часов.
Поэтому число испытаний равно
.
В каждом отдельном испытании возможны
только два исхода:
Определение.
Серия
повторных независимых испытаний, в
каждом из которых событие
наступает с одной и той же вероятностью
,
не зависящей от номере испытания,
называется
схемой
Бернулли.
Вероятность
противоположного события
обозначают
,
причем, как было доказано выше,
Теорема.
В условиях
схемы Бернулли вероятность того, что
при
независимых испытаниях событиепоявится
раз, определяется по формуле
где
число проведенных независимых испытаний;
число
появлений события
;
вероятность
наступления события
в отдельном испытании;
вероятность
не наступления события
в отдельном испытании;
Сформулируйте и докажите формулу полной вероятности. Приведите пример ее применения.
Если события H 1 , H 2 , …, H n попарно несовместны и при каждом испытании обязательно наступает хотя бы одно из этих событий, то для любого события А справедливо равенство:
P(A)= P H1 (A)P(H 1)+ P H2 (A)P(H 2)+…+ P Hn (A)P(H n) – формула полной вероятности. При этом H 1 , H 2 , …, H n называют гипотезами.
Доказательство: Событие А распадается на варианты: AH 1 , AH 2 , …, AH n . (А наступает вместе с H 1 и т.д.) Иначе говоря, имеем А= AH 1 + AH 2 +…+ AH n . Так как H 1 , H 2 , …, H n попарно несовместны, то несовместны и события AH 1 , AH 2 , …, AH n . Применяя правило сложения, находим: P(А)= P(AH 1)+ P(AH 2)+…+ P(AH n). Заменив каждое слагаемое P(AH i) правой части произведением P Hi (A)P(H i), получаем требуемое равенство.
Пример:
Допустим, у нас есть два набора деталей. Вероятность того, что деталь первого набора стандартна, равна 0,8, а второго – 0,9. Найдем вероятность того, что взятая наудачу деталь – стандартная.
Р(А) = 0,5*0,8 + 0,5*0,9 = 0,85.
Сформулируйте и докажите формулу Байеса. Приведите пример ее применения.
Формула Байеса:
Она позволяет переоценить вероятности гипотез после того, как становится известным результат испытания, в итоге которого появилось событие А.
Доказательство: Пусть событие А может наступить при условии появления одного из несовместных событий H 1 , H 2 , …, H n , образующих полную группу. Поскольку заранее неизвестно, какое из этих событий наступит, их называют гипотезами.
Вероятность появления события А определяется по формуле полной вероятности:
P(A)= P H1 (A)P(H 1)+ P H2 (A)P(H 2)+…+ P Hn (A)P(H n) (1)
Допустим, что произведено испытание, в результате которого появилось событие А. Определим, как изменились, в связи с тем, что событие А уже наступило, вероятности гипотез. Другими словами, будем искать условные вероятности
P A (H 1), P A (H 2), …, P A (H n).
По теореме умножения имеем:
Р(АH i) = Р(А) Р A (H i) = Р(H i)Р Hi (А)
Заменим здесь Р(А) по формуле (1), получаем
Пример:
Имеется три одинаковых по виду ящика. В первом ящике n=12 белых шаров, во втором m=4 белых и n-m=8 черных шаров, в третьем n=12 черных шаров. Из выбранного наугад ящика вынули белый шар. Найдите вероятность Р того, что шар вынут из второго ящика.
Решение.
4) Выведите формулу для вероятности k успехов в серии n испытаний по схеме Бернулли.
Исследуем случай, когда производится n одинаковых и независимых опытов, каждый из которых имеет только 2 исхода {A; }. Т.е. некоторый опыт повторяется n раз, причем в каждом опыте некоторое событие А может появиться с вероятностью P(A)=q или не появиться с вероятностью P()=q-1=p .
Пространство элементарных событий каждой серии испытаний содержит точек или последовательностей из символов А и . Такое вероятностное пространство и носит название схема Бернулли. Задача же заключается в том, чтобы для данного k найти вероятность того, что при n- кратном повторении опыта событие А наступит k раз.
Для большей наглядности условимся каждое наступление события А рассматривать как успех, ненаступление А – как неуспех. Наша цель – найти вероятность того, что из n опытов ровно k окажутся успешными; обозначим это событие временно через B.
Событие В представляется в виде суммы ряда событий – вариантов события В. Чтобы фиксировать определенный вариант, нужно указать номера тех опытов, которые оканчиваются успехом. Например, один из возможных вариантов есть
. Число всех вариантов равно, очевидно, , а вероятность каждого варианта ввиду независимости опытов равна . Отсюда вероятность события В равна . Чтобы подчеркнуть зависимость полученного выражения от n и k, обозначим его . Итак, .
5) Используя интегральную приближённую формулу Лапласа, выведите формулу для оценки отклонения относительной частоты события А от вероятности p наступления A в одном опыте.
В условиях схемы Бернулли с заданными значениями n и p для данного e>0 оценим вероятность события , где k – число успехов в n опытах. Это неравенство эквивалентно |k-np|£en, т.е. -en £ k-np £ en или np-en £ k £ np+en. Таким образом, речь идёт о получении оценки для вероятности события k 1 £ k £ k 2 , где k 1 = np-en, k 2 = np+en. Применяя интегральную приближённую формулу Лапласа, получим: P( » . С учётом нечётности функции Лапласа получаем приближённое равенство P( » 2Ф .
Примечание : т.к. по условию n=1, то подставляем вместо n единицу и получаем окончательный ответ.
6) Пусть X – дискретная случайная величина, принимающая только неотрицательные значения и имеющая математическое ожидание m . Докажите, что P (X ≥ 4) ≤ m/ 4 .
m= (т.к. 1-ое слагаемое положительно, то если его убрать, будет меньше) ³ (заменим a на 4, будет только меньше) ³ = =4×P (X ³4). Отсюда P (X ≥ 4) ≤ m/ 4 .
(Вместо 4 может быть любое число).
7) Докажите, что если X и Y – независимые дискретные случайные величины, принимающие конечное множество значений, то M(XY)=M(X)M(Y)
x 1 | x 2 | … |
p 1 | p 2 | … |
называется число M(XY) = x 1 p 1 + x 2 p 2 + …
Если случайные величины X и Y независимы, то математическое ожидание их произведения равно произведению их математических ожиданий (теорема умножения математических ожиданий).
Доказательство: Возможные значения X обозначим x 1 , x 2, … , возможные значения Y - y 1 , y 2, … а p ij =P(X=x i , Y=y j). XY M(XY)= Ввиду независимости величин X и Y имеем: P(X= x i , Y=y j)= P(X=x i) P(Y=y j). Обозначив P(X=x i)=r i , P(Y=y j)=s j , перепишем данное равенство в виде p ij =r i s j
Таким образом, M(XY) = = . Преобразуя полученное равенство, выводим: M(XY)=()() = M(X)M(Y), что и требовалось доказать.
8) Докажите, что если X и Y – дискретные случайные величины, принимающие конечное множество значений, то M (X +Y ) = M (X ) +M (Y ).
Математическим ожиданием дискретной случайной величины с законом распределения
x 1 | x 2 | … |
p 1 | p 2 | … |
называется число M(XY) = x 1 p 1 + x 2 p 2 + …
Математическое ожидание суммы двух случайных величин равно сумме математических ожиданий слагаемых: M(X+Y)= M(X)+M(Y).
Доказательство: Возможные значения X обозначим x 1 , x 2, … , возможные значения Y - y 1 , y 2, … а p ij =P(X=x i , Y=y j). Закон распределения величины X+Y будет выражаться соответствующей таблицей. M(X+Y)= .Эту формулу можно переписать следующим образом: M(X+Y)= .Первую сумму правой части можно представить в виде . Выражение есть вероятность того, что наступит какое-либо из событий (X=x i , Y=y 1), (X=x i , Y=y 2), … Следовательно, это выражение равно P(X=x i). Отсюда . Аналогично, . В итоге имеем: M(X+Y)= M(X)+M(Y), что и требовалось доказать.
9) Пусть Х – дискретная случайная величина, распределенная по биномиальному закону распределения с параметрами n и р . Докажите, что М(Х)=nр , D(Х)=nр(1-р) .
Пусть производится n независимых испытаний, в каждом из которых может появиться событие А с вероятностью р , так что вероятность противоположного события Ā равна q=1-p . Рассмотрим сл. величину Х – число появления события А в n опытах. Представим Х в виде суммы индикаторов события А для каждого испытания: Х=Х 1 +Х 2 +…+Х n . Теперь докажем, что М(Х i)=р, D(Х i)=np . Для этого рассмотрим закон распределения сл. величины, который имеет вид:
Х | ||
Р | р | q |
Очевидно, что М(Х)=р , случайная величина Х 2 имеет тот же закон распределения, поэтому D(Х)=М(Х 2)-М 2 (Х)=р-р 2 =р(1-р)=рq . Таким образом, М(Х i)=р , D(Х i)=pq . По теореме сложения математических ожиданий М(Х)=М(Х 1)+..+М(Х n)=nр. Поскольку случайные величины Х i независимы, то дисперсии тоже складываются: D(Х)=D(Х 1)+…+D(Х n)=npq=np(1-р).
10) Пусть X – дискретная случайная величина, распределенная по закону Пуассона с параметром λ. Докажите, что M (X ) = λ .
Закон Пуассона задается таблицей:
Отсюда имеем:
Таким образом, параметр λ, характеризующий данное пуассоновское распределение, есть не что иное как математическое ожидание величины X.
11) Пусть Х – дискретная случайная величина, распределенная по геометрическому закону с параметром р. Докажите, что M (X) = .
Геометрический закон распределения связан с последовательностью испытаний Бернулли до 1-го успешного события А. Вероятность появления события А в одном испытании равна р, противоположного события q = 1-p. Закон распределения случайной величины Х – числа испытаний имеет вид:
х | … | n | … | ||
Р | р | pq | … | pq n-1 | … |
Ряд, записанный в скобках, получается почленным дифференцированием геометрической прогрессии
Следовательно, .
12) Докажите, что коэффициент корреляции случайных величин Х и У удовлетворяет условию .
Определение: Коэффициентом корреляции двух случайных величин называется отношение их ковариации к произведению средних квадратических отклонений этих величин: . .
Доказательство: Рассмотрим случайную величину Z = . Вычислим ее дисперсию . Поскольку левая часть неотрицательна, то правая неотрицательна. Следовательно, , |ρ|≤1.
13) Как вычисляется дисперсия в случае непрерывного распределения с плотностью f (x )? Докажите, что для случайной величины X с плотностью дисперсия D (X ) не существует, а математическое ожидание M (X ) существует.
Дисперсия абсолютно непрерывной случайной величины X с функцией плотности f(x) и математическим ожиданием m = M(X) определяется таким же равенством, как и для дискретной величины
В случае когда абсолютно непрерывная случайная величина X сосредоточена на промежутке ,
∞ - интеграл расходится, следовательно, дисперсия не существует.
14) Докажите, что для нормальной случайной величины Х с функцией плотности распределения математическое ожидание М(Х) = μ.
Формула
Докажем, что μ есть математическое ожидание.
Поопределению математического ожидания непрерывной с.в.,
Введем новую переменную . Отсюда . Приняв во внимание, что новые пределы интегрирования равны старым, получим
Первое из слагаемых равно нулю ввиду нечетности подинтегральной функции. Второе из слагаемых равно μ (интеграл Пуассона ).
Итак, M(X)=μ , т.е. математическое ожидание нормального распределения равно параметру μ.
15) Докажите, что для нормальной случайной величины Х с функцией плотности распределения диспресия D(X) = σ 2 .
Формула описывает плотность нормального распределения вероятностей непрерывной с.в..
Докажем, что - среднее квадратическое отклонение нормального распределения. Введем новую переменную z=(х-μ)/ . Отсюда . Приняв во внимание, что новые пределы интегрирования равны старым, получим Интегрируя по частям, положив u=z , найдем Следовательно, .Итак, среднее квадратическое отклонение нормального распределения равно параметру .
16) Докажите, что для непрерывной случайной величины, распределенной по показательному закону с параметром , математическое ожидание .
Говорят, что случайная величина X, принимающая только неотрицательные значения, распределена по показательному закону, если для некоторого положительного параметра λ>0 функция плотности имеет вид:
Для нахождения математического ожидания воспользуемся формулой
Подробно теорема Байеса излагается в отдельной статье . Это замечательная работа, но в ней 15 000 слов. В этом же переводе статьи от Kalid Azad кратко объясняется самая суть теоремы.
Давайте подумаем:
Вероятность события = исходы события / все возможные исходы
Вероятность истинного положительного результата – .008. Вероятность положительного результата - это вероятность истинного положительного исхода + вероятность ложноположительного.
(.008 + 0.09504 = .10304)
Итак, вероятность заболевания при положительном результате исследования рассчитывается так: .008/.10304 = 0.0776. Эта величина составляет около 7.8%.
То есть положительный результат маммограммы значит только то, что вероятность наличия заболевания – 7,8%, а не 80% (последняя величина - это лишь предполагаемая точность метода). Такой результат кажется поначалу непонятным и странным, но нужно учесть: метод дает ложноположительный результат в 9,6% случаев (а это довольно много), поэтому в выборке будет много ложноположительных результатов. Для редкого заболевания большинство положительных результатов будут ложноположительными.
Давайте пробежимся глазами по таблице и попробуем интуитивно ухватить смысл теоремы. Если у нас есть 100 человек, только у одного из них есть заболевание (1%). У этого человека с 80% вероятностью метод даст положительный результат. Из оставшихся 99% у 10% будут положительные результаты, что дает нам, грубо говоря, 10 ложноположительных исходов из 100. Если мы рассмотрим все положительные результаты, то только 1 из 11 будет верным. Таким образом, если получен положительный результат, вероятность заболевания составляет 1/11.
Выше мы посчитали, что эта вероятность равна 7,8%, т.е. число на самом деле ближе к 1/13, однако здесь с помощью простого рассуждения нам удалось найти приблизительную оценку без калькулятора.
В нашем примере Pr(X) – довольно большое число, потому что велика вероятность ложноположительных результатов.
Pr(X) создает результат 7,8%, который на первый взгляд кажется противоречащим здравому смыслу.
У нас есть:
Фильтр спама на основе черного списка обладает недостатками - он часто выдает ложноположительные результаты.
Спам-фильтр на основе теоремы Байеса использует взвешенный и разумный подход: он работает с вероятностями. Когда мы анализируем слова в письме, мы можем рассчитать вероятность того, что письмо - это спам, а не принимать решения по типу «да/нет». Если вероятность того, что письмо содержит спам, равна 99%, то письмо и вправду является таковым.
Со временем фильтр тренируется на все большей выборке и обновляет вероятности. Так, продвинутые фильтры, созданные на основе теоремы Байеса, проверяют множество слов подряд и используют их в качестве данных.
Дополнительные источники:
Теги: Добавить метки