Страница 4 из 8
Как правило, сократив число отдельных объектов с тысяч до десятков, наш мозг осваивается, начинает узнавать отдельные структуры и принимается изучать связи между частями и целым. Нам даже удается подняться от этих частей на следующий, еще более человеческий уровень абстракции: сочинить про них истории. Дошло до того, что чуть не 10 % ночного неба (илл. 2 на вклейке) можно описать, рассказав одну-единственную легенду: как герой (созвездие Персей) побеждает чудовище, пугавшее всех демоническим глазом (звезда Алголь), способным обращать все живое в камень. Затем герой возвращается, чтобы освободить прекрасную принцессу (созвездие Андромеда), прикованную к скале собственными родителями (созвездия Цефей и Кассиопея) как жертву гигантскому морскому чудовищу (созвездие Кит)[8].
Рис. 1.1. Что вы здесь видите?
Рис. 1.2. Настоящие и случайные звездные карты
При всем при том невозможно утверждать, что наша склонность группировать звезды в созвездия и созвездия в истории как-то выводится из имеющегося расположения звезд. На самом деле распределение звезд в небе практически совершенно случайно[9]. Например, на рис. 1.2 приведено восемь звездных карт, на которых изображены примерно равные участки неба. Четыре фрагмента содержат знаменитые созвездия, а еще четыре изображают ночное небо альтернативной Вселенной, на котором самые яркие звезды расположены абсолютно случайно. Сможете ли вы указать те четыре карты, на которых настоящие звезды?[10] Правда, попробуйте. Я открою правильные ответы в следующем разделе.
Учет и контроль
Тысячелетиями звезды учили нас извлекать информацию из непомерных массивов беспорядочных на вид данных. И пусть, как показали нам звезды, у нашего разума есть свои причуды, если приходится работать с большими и произвольными величинами, это не значит, что мы бессильны освоиться с громоздкими системами, нерегулярными системами и системами, которые одновременно и громоздкие, и нерегулярные. К счастью, у нашего мозга есть в запасе пара трюков, которые помогают компенсировать – хотя бы отчасти – наше необъективное первое впечатление от вещей. И прежде всего нас выручает способность считать.
Как пример того, что можно узнать при помощи скрупулезного подсчета, сошлюсь еще раз на рис. 1.2. На нем четыре изображения настоящего ночного неба: b – Телец и Возничий, d – Лев, e – Скорпион и f – Лебедь. Если вы рискнули сделать свою догадку, то по числу правильно угаданных настоящих карт можете заработать 0, 1, 2, 3 или 4 балла. У обычного человека – не ветерана визуальных прогулок по звездному небу – будет немного шансов выбрать все четыре подлинные карты. Что значит немного? Посмотрим на баллы и шансы заработать их наугад в приведенной ниже таблице 1.1[11].
Таблица 1.1. Баллы за сортировку звездных карт
* Имеется в виду туз, двойка, …, десятка, а не валет, дама или король. – Прим. перев.
Нередко высокая или низкая вероятность некоторого события противоречит нашей интуиции. Вам казалось, что угадать три подлинные карты созвездий – это нечто? Как указано в таблице 1.1, это не более удивительно, чем бросить монету два раза и оба раза получить орла, – другими словами, ничего особенного.
Угадайка наподобие той, что представлена на рис. 1.2, бывает весьма полезна, когда нет других способов получить информацию, например, о том, правда ли человек так искусен в опознании созвездий, как утверждает. Собственно, это пример так называемого статистического теста – тщательно продуманного эксперимента, в котором знание законов вероятностей помогает извлечь из фактов обоснованный ответ на поставленный вопрос. На самом деле я составил рис. 1.2 как точное подобие одного из самых знаменитых тестов в истории статистики, так называемого чайного эксперимента. Его формат был разработан Рональдом Фишером, одним из титанов статистики XX века, когда одна из его коллег заявила, будто может отличить, что было сначала налито в ее чашку: чай или молоко. (Предание гласит, что она легко рассортировала восемь чашек чая с молоком, расставленные в случайном порядке, на правильные группы по четыре чашки, и Фишеру пришлось нехотя признать ее талант чайного дегустатора.) [12]
В наше время статистические тесты широко применяются в науке и промышленности, от оценки эффективности лечения до оценки влияния дизайна веб-страницы на число пользовательских кликов и даже для оценки постоянства вкуса пива от бутылки к бутылке. Такие тесты применимы к числовым данным любого рода, и для их планирования не требуется знать контекст – ведь эти тесты имеют дело с голыми числами и выдают в качестве результата голые числа. Поэтому они так полезны в самых разных областях исследований, включая такие ненадежные и быстро меняющиеся сферы, как гуманитарные и социальные тренды, где у ученых нет надежных теорий. В таких случаях статистические тесты – это единственное, на что можно положиться, чтобы как-то судить о положении вещей.
У такого подхода, где выводы делаются только по голым числам, без опоры на соображения за пределами статистики, есть коварный недостаток: оказывается, слишком легко ошибиться в оценке значения редкого результата. Трудно сопротивляться искушению придать глубокий смысл маловероятному событию, объявить, что случилось большее, чем простое совпадение. Особенно когда случай подтверждает теорию, в которую нам ужасно хочется верить. Но что именно считать редким, вопрос относительный. Если процедура повторяется многократно, редкие результаты появляются практически с неизбежностью, и они будут сбивать нас с толку, если мы не ведем учет тех случаев, где ничего редкого не произошло[13].
Возвращаясь к примеру со звездными картами, заметим, что существует ровно 70 способов отобрать четыре из восьми картинок. На этот случай есть известная математическая формула: если вы создаете группу, содержащую k предметов, имея в своем распоряжении N кандидатов (так называемый выбор из N по k), то число вариантов составляет
(Здесь восклицательный знак означает вычисление факториала. Например, 4! читается как «четыре факториал» и означает 4×3×2×1 = 24.)
Правилен лишь один способ из 70 (выбор из 8 по 4 имеет как раз 70 вариантов). Значит, наугад выбрать подлинные звездные карты – один шанс из 70, около 1,4 %. Обычно такой результат считается статистически значимым. Другими словами, видя такой результат, который при выборе наугад должен встречаться лишь в 1,4 % случаев, мы склонны признать вероятным наличие некоей причины. Может быть, мы столкнулись с настоящим знатоком звездного неба.
При таком подходе мы даем эксперту возможность доказать свою компетентность, однако в то же время удачный выбор четырех подлинных карт созвездий еще не гарантия компетентности. Даже наоборот, этот тест гарантирует, что среди тех, кто пытался выбрать нужные карты наугад, один из 70 в этом преуспел. И значит, силой голых чисел, этот редкий исход не просто возможен, – при большом числе попыток он просто неизбежен.
Взлеты и падения
Статистические тесты – мощный инструмент, чтобы исследовать поведение системы, если в ее тайны больше никак не проникнуть. Для честного суждения об астрологии такие тесты незаменимы. Поскольку мы ищем нечто в высшей степени необычное, мы не хотим обмануться случайными совпадениями, которые по законам теории вероятности подстерегают нас на каждом шагу.
8
Границы 88 современных созвездий, утвержденные Международным астрономическим союзом (International Astronomical Union, IAU), можно найти на сайте IAU, URL: https://www.iau.org/public/themes/constellations. Чтобы рассчитать долю небесной сферы, покрываемую каждым созвездием, можно применить, например, интегрирование методом Монте-Карло. Созвездия Персей, Андромеда, Кассиопея, Цефей и Кит покрывают около 9,1 % неба. Если включить Пегаса, который в этой легенде появился не сразу, то покрытие достигнет 11,8 %.
9
Основная неоднородность в распределении звезд на ночном небе – это Млечный Путь, который действительно является элементом большой космической структуры.
10
О том, как случайно распределенные точки провоцируют иллюзию структуры, см. также главу Glow, Big Glowworm в книге Stephen Jay Gould. Bully for Brontosaurus: Reflections in Natural History. New York: W. W. Norton & Co., 1991. P. 255–268.
11
Стандартное колесо рулетки разделено на 37 карманов, так что ваши шансы проиграть составляют 36/37 = 97,3 %. В колоде из 52 карт 40 карт – без картинки, так что шансы вытянуть такую карту составляют 40/52 = 76,9 %. Вероятность того, что, когда монету бросают два раза, оба раза выпадет орел, составляет 1/2 × 1/2 = 25 %. Вероятность того, что, когда монету бросают шесть раз, каждый раз выпадает орел, составляет 1/2 × 1/2 × 1/2 × 1/2 × 1/2 × 1/2 = 1,6 %.
12
См.: Ronald A. Fisher. The Design of Experiments. Edinburgh; London: Oliver and Boyd, 1935. Ch. 2. Без математики та же история (включая утверждение о правильной сортировке всех восьми чашек чая) рассказана здесь: David Salsburg. The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century. New York: W. H. Freeman, 2001. Ch. 1.
13
Во многих областях исследований порогом статистической значимости для публикации открытия считается достоверность 5 %, или 1 из 20. Каждое двадцатое из таких открытий должно быть случайным шумом, а не эффектом, о котором заявляют авторы. См., например: John P. A. Ioa