Страница 29 из 40
В одном из исследований Гигеренцер и его коллеги проводили опрос врачей в Германии и США, в ходе которого просили оценить вероятность того, что женщина с положительной маммографией больна раком груди, даже если она входит в группу с низким уровнем риска, то есть ее возраст от 40 до 50 лет, отсутствуют симптомы и наследственная предрасположенность[126]. Чтобы конкретизировать вопрос, врачей также просили привести следующую статистику в процентах и степени вероятности: данные о распространенности рака груди среди женщин этой категории, а также о чувствительности маммографии и вероятности ложноположительных результатов.
Вероятность того, что у одной из этих женщин рак груди, составляет 0,8 %. Если же женщина действительно больна, то вероятность того, что ее маммография будет положительной, равна 90 %. Тем не менее, если женщина здорова, вероятность того, что ее маммография окажется положительной, составляет 7 %. Допустим, у женщины положительная маммография. Какова вероятность того, что она действительно больна раком груди?
Гигеренцер описывает реакцию первого опрошенного им врача, заведующего отделением университетского госпиталя, имеющего более тридцати лет профессионального опыта.
Было очевидно, что он очень нервничал, пытаясь проанализировать все цифры. И в конечном итоге пришел к выводу, что вероятность того, что у женщины рак груди, при условии положительной маммографии, составляет 90 %. Он нервно добавил: «Боже, полный абсурд. Я не могу с этим согласиться. Попробуйте задать вопрос моей дочери, она учится на врача». Он знал, что его оценка ошибочна, однако не знал, как это аргументировать. Потратив 10 минут на обдумывание ответа, он не смог просчитать, какое заключение сделать из имеющихся вероятностей.
Гигеренцер задал тот же вопрос двадцати четырем немецким врачам; их оценки варьировались от 1 до 90 %. Восемь посчитали, что вероятность составляет 10 и менее процентов, еще восемь назвали результат 90 %, а предположения еще восьмерых колебались в пределах 50–80 %. Представьте, каково было бы пациентке слышать столь противоречивые мнения.
Что касается американских врачей, девяносто пять из ста решили, что вероятность того, что женщина больна, равна примерно 75 %.
Правильный ответ: 9 %.
Как получилось, что процент столь низкий? Гигеренцер утверждает, что анализ становится практически прозрачным, если перевести исходную информацию из процентного соотношения и вероятностей в натуральные числа возможных исходов.
У восьми женщин из тысячи рак груди, причем у семи из них положительная маммография. Среди оставшихся 992 женщин положительную маммографию будут иметь примерно 70. Возьмем женщин, обследование которых дало положительный результат. Сколько из них действительно больны раком груди?
Так как всего в группу риска попало 77 (7 + 70 = 77) женщин — но только семь из них на самом деле больны раком груди, — вероятность того, что у женщины рак груди, при условии положительной маммографии, составляет 7 из 77, или 1 из 11, то есть примерно 9 %.
Отметим два упрощения в приведенных выше подсчетах. Во-первых, мы округлили десятые доли до целых чисел. Так бывает в случаях, подобных тому, где мы сказали «Из восьми женщин, больных раком груди, семь имеют положительную маммографию». В действительности надо было сказать: 90 % из 8 женщин, или 7,2. Таким образом, мы немного пожертвовали точностью для большей ясности изложения.
Во-вторых, мы исходили из того, что все происходит именно с той частотностью, которая предполагается данной вероятностью. Например, поскольку вероятность рака груди составляет 0,8 %, мы предположили, что им больны именно 8 женщин из 1000 нашей гипотетической выборки. Но эти цифры могут не совпадать с реальностью. События не обязаны соответствовать вероятности своего наступления, ведь, если подбросить монетку 1000 раз, необязательно 500 раз выпадет орел. Но, решив, что так и будет, мы получим правильный ответ для подобных задач.
Обычно такая логика считается несколько сомнительной, поэтому ученые мужи смотрят свысока на данный подход в сравнении с более строгой, но сложной в использовании теоремой Байеса. Однако ясность ответа является достаточным аргументом для его применения. Когда Гигеренцер провел повторный опрос еще среди двадцати четырех врачей, на этот раз используя целочисленные вероятности, практически все ответили правильно.
Хотя перевод данных в натуральные числа возможных исходов оказывает нам огромную услугу, задачи по условной вероятности могут ставить в тупик по другим причинам[127]. Здесь существует опасность неверной постановки вопроса или подсчета правильной, но вводящей в заблуждение вероятности.
Этим грешили как обвинение, так и защита во время судебного процесса над О. Дж. Симпсоном в 1994–1995 годах[128]. Обе стороны попросили суд рассмотреть ложную условную вероятность.
Обвинение в течение первых десяти дней процесса доказывало, что Симпсон неоднократно проявлял насилие в отношении своей бывшей жены Николь Браун: регулярно избивал, унижал и прилюдно раздевал, говоря окружающим: «Это принадлежит мне». Однако каким образом эти действия относились к процессу об убийстве? Аргументом обвинения было то, что насилие в семье выступало как мотив убийства. По словам одного из обвинителей, «удар — это прелюдия убийства».
Защитник обвиняемого Алан Дершовиц[129] приводил доводы, что даже если бы голословные утверждения о домашнем насилии оказались правдой, они не относятся к делу и, следовательно, недопустимы. Позднее он написал: «Нам необходимо было доказать, что среди тех, кто избивает своих партнеров, лишь ничтожно малое число, менее 1 из 2500, совершают убийство».
В действительности же обе стороны просили суд рассмотреть вероятность того, что Симпсон убил бывшую жену, принимая во внимание тот факт, что при жизни он ее избивал. Однако специалист в области статистики И. Гуд отметил, что для этого не существует верного доказательства, на которое можно было бы сослаться.
Вопрос на самом деле в следующем: какова вероятность того, что муж убил свою бывшую жену, если до убийства он ее бил и она была кем-то убита? Условная вероятность в таком случае очень далека от схемы 1 на 2500.
Чтобы разобраться почему, представим себе выборку из 100 тысяч избитых женщин. Ссылаясь на предоставленные Дершовицем цифры — 1 из 2500, допустим, что примерно сорок из этих женщин были убиты мужьями в этом году (поскольку 100 000 разделить на 2500 равно 40). Можно также предположить, что еще трое из них убиты кем-либо другим[130] (эта оценка основана на статистике ФБР, касающейся количества женщин, убитых в 1992 году). Итак, из этих 43 жертв 40 были убиты теми, кто их избивал. Другими словами, в 93 % случаев убийцей являлось лицо, избивавшее женщину.
Не путайте это число с вероятностью того, что это сделал Симпсон. Она зависит от множества других обстоятельств, от разных «за» и «против». Например, от заявления защиты о том, что полиция выдвинула Симпсону ложные обвинения, а также от заявления обвинения, что убийца и Симпсон носили одинаковую обувь, перчатки и имели почти одинаковый код ДНК.
Какова вероятность того, что что-нибудь из перечисленного изменит ваше мнение о вынесенном приговоре? Ноль.
24. Распутывание всемирной паутины
В те далекие времена, когда Google еще не существовало, поиск в сети был безнадежным занятием[131]. Сайты, предлагаемые старыми поисковыми машинами, часто не соответствовали запросу, а те, которые содержали нужную информацию, были либо глубоко запрятаны в списке результатов, либо вообще отсутствовали.
126
Анализ результатов маммографии описан в главе 4 книги G. Gigerenzer, Calculated Risks (Simon and Schuster, 2002).
127
Вы найдете множество забавных историй об условной вероятности и ее применении в реальном мире, а также о ее неверном восприятии в книгах J. Paulos, I
128
Подробнее об истории О. Дж. Симпсона и спорах об избиении им жены см. главу 8 книги Gigerenzer, Calculated Risks. Оценки относительно судебного процесса над О. Дж. Симпсоном и выводы Алана Дершовица о количестве женщин, избитых и впоследствии убитых партнерами, см. A. Dershowitz, Reasonable Doubts (Touchstone, 1997), рр. 101–104.
Теория вероятности впервые была применена правильно в ходе процесса Симпсона в 1995 году. Анализ, приведенный в этой главе, опирается на работы I. Good, When batterer turns murderer, Nature, Vol. 375 (1995), p. 541; When batterer becomes murderer, Nature, Vol. 381 (1996), р. 481. Анализ, проведенный Гудом, построен на относительных рисках и теореме Байеса, а не на интуитивном подходе, базирующемся на натуральных числах и используемом в работе Гигеренцера. (Кстати, карьера Гуда весьма интересна. Помимо значительного вклада в теорию вероятностей и статистику, основанную на методах Байеса, он помог в расшифровке кодов нацистской шифровальной машины «Энигма» во время Второй мировой войны и ввел футуристическое понятие, которое сегодня известно как «технологическая сингулярность».)
Анализ независимых экспертов, пришедших практически к такому же заключению, опубликован в 1995 году в работе J. F. Merz and J. P. Caulkins, Propensity to abuse — propensity to murder? Chance, Vol. 8, № 2 (1995), р. 14.
129
Каким образом Дершовиц пришел к выводу, что среди лиц, избивающих своих партнеров, менее 1 из 2500 убивают их? На странице 104 его книги Reasonable Doubts приведены следующие цифры: в 1992 году в США от 2,5 до 4 миллионов женщин подвергались избиению со стороны мужей, любовников и бывших любовников. В том же году, согласно отчетам ФБР об уровне преступности (http://www.fbi.gov/about-us/cjis/ucr/ucr), 913 женщин были убиты своими мужьями, а еще 519 — своими любовниками или бывшими любовниками. Если разделить общее количество убийств 1432 на 2,5 миллиона избитых женщин, то выйдет 1 убийство на 1746 избиений, а если принимать во внимание верхний порог числа избиений в 4 миллиона, то в результате получим одно убийство на 2793 избиений. Очевидно, что среди этих крайних показателей Дершовиц выбрал значение 2500.
Однако остается неясным, какая доля убитых женщин подвергалась при жизни избиениям со стороны этих мужчин. Вероятно, Дершовиц предполагал, что практически всех жертв убийств при жизни избивали, и, скорее всего, сделал вывод, что даже если эти цифры несколько преувеличены, они все равно «бесконечно малы».
130
Согласно отчетам ФБР об уровне преступности, 4936 женщин были убиты в 1992 году. Среди них 1432 (около 29 %) убиты мужьями или любовниками. Оставшиеся 3504 пострадали от рук кого-то другого. Следовательно, принимая во внимание, что в США на тот период проживало около 125 миллионов женщин, доля тех, кто стал жертвами убийства со стороны лиц, не являвшихся их партнерами, составила 3504 на 125 миллионов, или 1 убийство на 35 673 женщин в год.
Предположим, что эта доля убийств одинакова для всех женщин независимо от того, избивали их при жизни или нет. Тогда делим 100 тысяч избиваемых женщин из нашей гипотетической выборки на 35 673 и в результате получаем 2,8 женщин, то есть столько убито лицами, которые не являлись их партнерами. Округлив 2,8 до 3, получаем оценку, приведенную в данной работе.
131
Введение в поиск в интернете и анализ ссылок см. D. Easley and J. Kleinberg, Networks, Crowds, and Markets (Cambridge University Press, 2010). Популярное изложение истории поиска в сети, рассказ о его основных действующих лицах и компаниях ищите в J. Battelle, The Search (Portfolio Hardcover, 2005). Тем, кто хорошо знаком с линейной алгеброй, будет интересна история развития анализа ссылок в статье S. Robinson, The ongoing search for efficient Web search algorithms, SIAM News, Vol. 37, № 9 (2004).