Закон малых чисел
Исследование частоты рака почки, проведенное в 3141 округе США, выявило удивительную закономерность: самый низкий уровень заболеваемости обнаружен в сельских, малонаселенных округах, расположенных в традиционно республиканских штатах на Среднем Западе, Юге и Западе. Что вы думаете по этому поводу?
Ваш разум в последние несколько секунд был очень активен, причем работала преимущественно Система 2. Вы планомерно искали в памяти информацию и формулировали гипотезы. Вам понадобились некоторые усилия: у вас расширились зрачки, измеримо участилось сердцебиение. Но и Система 1 не бездельничала: работа Системы 2 полагалась на факты и предложения, извлеченные из ассоциативной памяти. Вы, вероятно, отвергли мысль о том, что республиканские политические взгляды защищают от рака почки. Скорее всего, в итоге вы сосредоточились на том факте, что округа с низким уровнем заболеваемости в основном сельские. Остроумные статистики Говард Вейнер и Харрис Цверлинг, приводя в пример это исследование, прокомментировали: «Очень легко и соблазнительно сделать вывод, что низкий уровень заболеваемости – прямое следствие здоровой сельской жизни: воздух чистый, вода тоже, еда свежая и без добавок». Очень разумно.
Рассмотрим теперь округа с самым высоким уровнем заболеваемости раком почки. Эти нездоровые округа в основном сельские, малонаселенные и расположены в традиционно республиканских штатах на Среднем Западе, Юге и Западе. Вейнер и Цверлинг в шутку комментируют: «Легко предположить, что высокий уровень заболеваемости – прямое следствие бедности сельской жизни: хорошая медицина далеко, пища жирная, злоупотребление алкоголем и табаком». Конечно же, что-то не так. Сельская жизнь не может служить одновременным объяснением и для высокого, и для низкого уровня заболеваемости раком почки.
Основной фактор здесь – не то, что округа сельские или в основном республиканские. Все дело в том, что население сельских округов малочисленно. Главный урок, который нужно усвоить, касается не эпидемиологии, а сложных отношений между нашим разумом и статистикой. Система 1 отлично приспособлена к одной форме мышления – она автоматически и без усилий опознает каузальные связи между событиями, иногда даже в тех случаях, когда связи не существует. Услышав об округах с высоким уровнем заболеваемости, вы немедленно заключили, что они чем-то отличаются, что у этой разницы есть объяснение. Однако, как мы увидим, Система 1 не слишком способна управляться с «чисто статистическими» фактами, которые меняют вероятность результатов, но не заставляют их случаться.
Случайное событие – по определению – не подлежит объяснению, но серии случайных событий ведут себя чрезвычайно регулярным образом. Представьте себе сосуд, наполненный небольшими шариками. Половина из них – красные, половина – белые. Затем представьте очень терпеливого человека (или робота), который вслепую достает по четыре шарика, записывает число красных, бросает их обратно и повторяет так много-много раз. Если обобщить результаты, то обнаружится, что сочетание «два белых, два красных» появляется почти в шесть раз чаще, чем «четыре белых» или «четыре красных». Это соотношение – математический факт. Результат многократного извлечения шариков из урны можно предсказать с той же точностью, как результат удара молотком по яйцу. Предсказать, как именно разлетятся осколки скорлупы, вы не сможете, но в целом вы уверены в результате. Впрочем, есть одно различие: удовлетворенное ощущение причинной связи, которое вы испытываете, думая о молотке и яйце, в случае с шариками напрочь отсутствует.
С этим связан и другой статистический факт, относящийся к примеру о раке. Из одного и того же сосуда два очень терпеливых экспериментатора по очереди достают шарики. Джек в каждой попытке вытаскивает по 4 штуки, а Джилл – по 7. Они оба делают отметку каждый раз, когда им достаются шарики одного цвета, все белые или все красные. Если достаточно долго этим заниматься, то Джек будет наблюдать такие результаты примерно в 8 раз чаще Джилл (ожидаемый процент составляет 12,5 и 1,56 % соответственно). И вновь ни молотка, ни причины, просто математический факт: наборы из 4 шариков чаще дают однородные результаты, чем наборы из 7.
А теперь представьте население США шариками в огромном сосуде, причем некоторые шарики помечены буквами «РП», что говорит о раке почки. Вы извлекаете наборы шариков и по очереди населяете каждый округ. Выборки в сельских местностях меньше остальных. Как и в игре Джека и Джилл, экстремумы – то есть очень высокие и/или очень низкие уровни заболеваемости раком – с большей вероятностью окажутся в малонаселенных округах. Вот и вся история.
Мы начали с факта, который требует объяснения: уровень заболеваемости раком почки сильно меняется в зависимости от округа, и в этих изменениях есть закономерность. Я предложил статистическое объяснение: экстремумы (высокие и низкие показатели) вероятнее появятся в маленьких выборках, чем в больших. Это – не причина. Маленькое население округа не порождает рак и не спасает от него. Оно просто позволяет уровню заболеваемости быть намного выше (или намного ниже), чем в более многочисленной популяции. Истина состоит в том, что объяснять здесь нечего. На самом деле уровень заболеваемости раком не выше и не ниже нормы; если в округе маленькое население, она лишь кажется такой в отдельно взятом году из-за случайности выборки. Если повторить анализ на следующий год, мы заметим, что в целом ситуация с экстремумами в малых выборках та же, но округа, где в предыдущем году было много случаев рака, необязательно и на этот раз покажут высокий уровень заболеваемости. Если так, то разница между плотно населенными и сельскими округами не считается, это просто артефакты, то есть явления, порожденные исключительно каким-то аспектом метода исследования, в данном случае – различиями в размере выборки.
Вы, может, и удивились моему рассказу, но не восприняли его как откровение. Вам давно известно, что результаты исследований надежнее на больших выборках, и о законе больших чисел слышали даже те, кто статистики совершенно не знает. Но просто «знать» недостаточно, и, возможно, вы обнаружите, что в отношении вас справедливы следующие утверждения:
• Вы не придали значения признаку «малонаселенный», когда читали историю об исследовании частоты заболеваний раком.
• Вы сильно удивились, узнав о разнице между выборками в 4 и 7 шариков.
• Даже сейчас вам требуются определенные умственные усилия, чтобы понять, что следующие два утверждения означают совершенно одно и то же:
– Большие выборки дают более точный результат, чем маленькие.
– Маленькие выборки чаще больших дают экстремумы.
Первое утверждение кажется истинным, но нельзя считать, что вы его поняли, пока интуиция не приняла второе.
Итак, вы знали, что результаты на больших выборках точнее, но сейчас вы, наверное, понимаете, что знали это не очень хорошо. Вы не одиноки. Наше с Амосом первое совместное исследование показало, что даже у опытных исследователей плохая интуиция и зыбкое представление о значении объема выборки.
Закон малых чисел
Мое сотрудничество с Амосом в 1970-е годы началось с дискуссии об утверждении, что люди обладают интуитивным статистическим чутьем, даже если их статистике не обучали. На семинаре Амос рассказал нам об исследователях из Мичиганского университета, которые в целом оптимистично относились к интуитивной статистике. Меня эта тема очень волновала по личным причинам: незадолго до того я обнаружил, что я – плохой интуитивный статистик, и мне не верилось, что я хуже других.
Для психолога-исследователя изменчивость выборки – не просто странность, это неудобство и помеха, которая дорого обходится, превращая любое исследование в игру случая. Предположим, вы хотите подтвердить гипотезу, что словарный запас шестилетних девочек в среднем больше, чем словарный запас мальчиков того же возраста. В объеме всего населения гипотеза верна, у девочек в шесть лет словарный запас в среднем больше. Однако девочки и мальчики бывают очень разными, и можно случайно выбрать группу, где заметной разницы нет, а то и такую, где мальчики набирают больше баллов. Если вы – исследователь, такой результат вам дорого обойдется, поскольку, потратив время и усилия, вы не подтвердите правильность гипотезы. Риск снижается только использованием достаточно большой выборки, а те, кто работает с маленькими выборками, отдают себя на волю случая.
Риск ошибки в каждом эксперименте оценивается при помощи довольно простой операции, однако психологи не пользуются вычислениями для определения размера выборки, а принимают решения в соответствии с собственным, зачастую ущербным, пониманием. Незадолго до дискуссии с Амосом я прочитал статью, прекрасно иллюстрирующую типичные ошибки исследователей. Автор отмечал, что психологи сплошь и рядом используют настолько маленькие выборки, что рискуют не подтвердить верные гипотезы с вероятностью 50 %! Ни один разумный исследователь не примет такой риск. Правдоподобным объяснением казалось то, что решения психологов относительно размера выборок отражали господствующие интуитивные заблуждения о диапазоне изменчивости.
Меня поразили содержащиеся в статье объяснения, проливающие свет на проблемы с моими собственными исследованиями. Как и большинство психологов, я постоянно использовал слишком маленькие выборки и часто получал бессмысленные, странные результаты, оказывавшиеся артефактами, которые порождал сам метод моих исследований. Мои ошибки были тем постыднее, что я преподавал статистику и умел вычислять размер выборки, необходимый для снижения риска неудачи до приемлемого уровня. Но я никогда этим не занимался при планировании экспериментов и, подобно другим исследователям, верил традиции и собственной интуиции, не задумываясь о проблеме всерьез. К моменту, когда Амос посетил мой семинар, я уже осознал, что моя интуиция не работает, а во время самого семинара мы быстро пришли к выводу, что ошибаются и оптимисты из Мичиганского университета.
Мы с Амосом решили выяснить, есть ли среди исследователей такие же наивные глупцы, как я, и допускают ли те же ошибки ученые, обладающие математическими знаниями. Мы разработали опросник с описанием реалистичных исследований и успешных экспериментов. Опрашиваемые должны были определить размеры выборок, оценить связанные с этими решениями риски и дать советы гипотетическим аспирантам, планирующим научно-исследовательскую работу. На конференции Общества математической психологии Амос провел опрос присутствующих (включая авторов двух учебников по статистике). Результаты оказались очевидны: я был не одинок. Почти все респонденты повторили мои ошибки. Выяснилось, что даже эксперты недостаточно внимательны к размеру выборки.
Первая статья, написанная мной в соавторстве с Амосом, называлась «Вера в закон малых чисел». В ней шутливо пояснялось, что «…интуитивная оценка размера случайных выборок, похоже, удовлетворяет закону малых чисел, гласящему, что закон больших чисел с тем же успехом применим и к малым». Также мы включили в статью настойчивую рекомендацию для исследователей относиться к своим «статистическим предчувствиям с недоверием и при любой возможности заменять впечатления вычислениями».
Предпочтение уверенности сомнению
По результатам телефонного опроса 300 пенсионеров, 60 % поддерживают президента.
Если бы вас попросили изложить смысл этого предложения в трех словах, как бы вы это сделали? Почти наверняка вы бы сказали: «Пенсионеры поддерживают президента». Эти слова передают суть истории. Опущенные детали опроса (то, что его проводили по телефону, и количество респондентов) сами по себе неинтересны, они просто описывают исходные условия. При другом размере выборки вы все равно сказали бы то же самое. Конечно, абсурдное количество – 6 или 60 миллионов – привлекло бы внимание. Но если вы профессионально этим не занимаетесь, вы, возможно, почти одинаково отреагируете на выборку из 150 и 3000 человек. Фраза «Люди не уделяют должного внимания размеру выборки» именно это и означает.
Сообщение об опросе содержит информацию двух типов: историю и ее источник. Естественно, вы больше обращаете внимание на саму историю, чем на достоверность результатов. Однако, если достоверность невысока, сообщение не усвоят. Услышав, что «Группа сторонников провела некорректный и тенденциозный опрос, чтобы показать, что пенсионеры поддерживают президента», вы, конечно же, отвергнете эту информацию, результаты опроса не станут частью того, во что вы верите. Вместо этого некорректный опрос и его фальшивые результаты превратятся в очередную историю о вранье политиков. В таких явных случаях вы можете принять решение не верить. Но достаточно ли хорошо вы ощущаете разницу между «Я прочел в The New York Times…» и «Я слышал возле кулера…»? Умеет ли ваша Система 1 различать степени веры? Принцип WYSIATI предполагает, что нет.
Как уже упоминалось, Система 1 не склонна к сомнениям. Она подавляет неоднозначность и самопроизвольно составляет когерентные истории. Если сообщение не отвергается немедленно, то связанные с ним ассоциации будут распространяться так, как если бы оно было верным. Система 2 способна сомневаться, поскольку может одновременно рассматривать несовместимые варианты. Однако поддерживать сомнения труднее, чем уверяться в чем-либо. Закон малых чисел – проявление общей склонности к уверенности вместо сомнений, которая под разными видами еще не раз появится в следующих частях.
Сильная предрасположенность верить, что маленькие выборки точно представляют все население, означает и нечто большее: мы склонны преувеличивать последовательность и когерентность увиденного. Излишняя вера исследователей в результаты нескольких наблюдений сродни эффекту ореола, часто возникающему у нас чувству, что мы знаем и понимаем человека, о котором нам, по сути, известно мало. Система 1 предвосхищает факты, составляя по обрывочным сведениям полную картину. Механизм для поспешных выводов ведет себя так, будто верит в закон малых чисел. В целом он создает чересчур осмысленную картину реальности.
Причина и случай
Ассоциативные механизмы ищут причины. Статистические закономерности трудно воспринимать, потому что к ним требуется принципиально иной подход. Рассматривая событие со статистической точки зрения, мы интересуемся его связью с тем, что могло произойти, а не как именно оно произошло. Никакой особой причины не было, случай выбрал его среди других.
Наша склонность к каузальному мышлению порождает серьезные ошибки в оценке случайности действительно случайных событий. Для примера возьмем пол шести младенцев, родившихся в больнице один за другим. Последовательность появления мальчиков и девочек совершенно случайна: события независимы, а число мальчиков и девочек, родившихся за последние часы, абсолютно не влияет на пол следующего младенца. Теперь рассмотрим три возможные последовательности:
МММДДД
ДДДДДД
МДММДМ
Одинаковая ли у них вероятность? Возникающий интуитивный ответ «Конечно, нет!» – неправильный. Поскольку события независимы, а варианты исхода Д и М примерно равновероятны, любая возможная последовательность полов шести новорожденных так же вероятна, как остальные. Даже сейчас, когда вы знаете, что этот вывод правильный, он все равно противоречит интуиции, потому что только третья строка кажется случайной. Как и можно было ожидать, последовательность МДММДМ считают более вероятной, чем две другие. Мы ищем закономерности, верим в когерентность окружающего мира, где появление на свет шести девочек подряд не случайно, а результат механической причины или чьего-то намерения. Мы не ожидаем, что случайный процесс приведет к регулярным результатам, и, обнаружив нечто, похожее на закономерность, быстро отказываемся от мысли о случайности такого процесса. На самом деле случайные процессы порождают множество последовательностей, подталкивая наблюдателей к убеждению в неслучайности таковых. Разумеется, желание придерживаться каузальности дает определенные эволюционные преимущества: это часть бдительности, унаследованной от предков. Мы автоматически следим за изменениями окружающей среды. Львы появляются на равнине в случайное время, но безопаснее замечать и должным образом реагировать на увеличение частоты появлений львиных прайдов, даже если оно вызвано флуктуациями в случайном процессе.
Широко распространенное непонимание случайности иногда имеет серьезные последствия. В нашей статье о репрезентативности мы с Амосом процитировали статистика Уильяма Феллера, показавшего, как легко найти закономерности там, где их нет. В годы Второй мировой войны считалось, что бомбардировки Лондона совершаются по определенному плану и не могут быть случайными, поскольку на карте распределения очагов поражения выявлялись подозрительные пробелы. Подозревали, что в непострадавших районах живут немецкие шпионы. Тщательный статистический анализ показал, что распределение очагов поражения было типичным для случайного процесса, включая и сам тот факт, что оно вызывало сильное впечатление неслучайности. Феллер говорит: «Для неопытного глаза случайность выглядит как регулярность или тенденция к группированию». Вскоре мне представилась возможность на практике применить наблюдения Феллера. В 1973 году началась четвертая арабо-израильская война, и мой единственный незначительный вклад в нее состоял в том, что я посоветовал высшему командованию израильских ВВС прекратить начатое расследование. Израильские войска понесли значительный урон в результате эффективных воздушных атак противника с применением египетских ракет «земля – воздух». Существенные потери казались неравномерно распределенными: к примеру, из двух эскадрилий, вылетевших с одного аэродрома, одна потеряла четыре самолета, а другая – ни одного. Для выявления ошибок, допущенных пострадавшей эскадрильей, начали расследование. Не было никаких причин считать, что эскадрильи различались по уровню подготовки; никакой разницы в действиях пилотов не обнаружили. Разумеется, жизнь пилотов различалась по множеству случайных показателей, включая, как помнится, частоту поездок домой и методы проведения разборов полетов. Я посоветовал командованию прекратить расследование и смириться с тем, что понесенные потери оказались результатом слепого случая. Я выдвинул следующие аргументы: вероятнее всего, дело в случайности, искать неочевидную причину наугад безнадежно, а пилотов понесшей потери эскадрильи не стоит обременять чувством вины за смерть товарищей.
Через несколько лет Амос и его ученики Том Гилович и Роберт Валлоне опубликовали исследование о неверном восприятии случайности в баскетболе. Среди игроков, тренеров и болельщиков бытует убеждение, что иногда у игроков бывает «легкая рука». Удержаться от такого вывода невозможно: если игрок забрасывает три или четыре мяча подряд, возникает каузальное убеждение, что он будет играть успешнее других. Обе команды подстраиваются под такое решение: «свои» чаще дают удачливому игроку пас, а защита «чужих» старается блокировать его. Анализ тысяч последовательностей бросков привел к неутешительному заключению: в профессиональном баскетболе не бывает бросков «легкой руки» – ни с площадки, ни со штрафной. Конечно, некоторые игроки точнее других, но последовательность успешных бросков и промахов удовлетворяет всем тестам на случайность. Все остальное – выдумки наблюдателей, склонных находить упорядоченность и каузальность в случайных событиях. «Легкая рука» – распространенная когнитивная иллюзия.
Реакция общественности на это исследование весьма показательна: неожиданные выводы привлекли внимание прессы, но восприняли их с огромным недоверием. Знаменитый тренер баскетбольной команды «Бостон Селтикс» Рэд Ауэрбах, услышав об исследовании Гиловича, сказал: «Да кто он такой? Ну, провел исследование, а мне какая разница?» Склонность видеть закономерности в случайном сильнее каких-то там исследований.
Иллюзия закономерности влияет на наши жизни и вне баскетбольных площадок. Сколько выгодных сделок должен заключить ваш финансовый консультант, прежде чем вы решите, что он необычайно эффективен? Какое количество успешных приобретений убедит совет директоров, что у генерального директора талант к подобным сделкам? Простой ответ на эти вопросы гласит, что, следуя интуиции, вы чаще воспримете случайное событие как закономерное. Мы слишком охотно отвергаем мысль о том, что многое в нашей жизни случайно.
Я начал эту часть с примера о частоте заболеваемости раком в США. Он появляется в книге, предназначенной для преподавателей статистики, но я узнал о нем из упомянутой выше статьи Говарда Вейнера и Харриса Цверлинга. Они написали о крупном вкладе в 1,7 миллиарда долларов, сделанном Фондом Гейтса в исследования необычных характеристик самых преуспевающих школ.
Многие пытаются найти секрет успешного образования, определяя высокорезультативные школы в надежде выяснить, чем же они отличаются от остальных. Один из выводов этого исследования состоит в том, что в среднем небольшие школы результативнее. К примеру, в обзоре 1662 школ в Пенсильвании 6 из 50 лучших были небольшими, что в 4 раза превышает реальные показатели. На основании этих данных Фонд Гейтса сделал значительные инвестиции в создание небольших школ, иногда даже путем разделения крупных школ. К нему присоединились и другие известные организации, включая Фонд Анненберга и Благотворительный фонд Пью, а также Программа малых учебных сообществ министерства образования США.
Интуитивно это ощущается как разумное объяснение. Легко составить каузальную историю, объясняющую, почему, в отличие от крупных школ, небольшие учебные заведения дают замечательное образование и, таким образом, выпускают замечательных учеников, уделяя им больше внимания и лучше поощряя их. К несчастью, анализ причин бессмыслен, поскольку неверны факты. Если бы статистики, делавшие доклад в Фонде Гейтса, задались вопросом о характеристиках самых плохих школ, то обнаружилось бы, что плохие школы обычно тоже малочисленные. Дело в том, что в среднем маленькие школы ничуть не лучше, у них просто выше изменчивость. Вейнер и Цверлинг утверждают, что большие школы дают лучшие результаты, особенно в старших классах, когда важно большее разнообразие доступных предметов.
Благодаря последним открытиям когнитивной психологии очевидно то, что мы с Амосом заметили лишь мельком: закон малых чисел – один из многих, объясняющих, как устроен наш разум.
• Преувеличенная вера в маленькие выборки – один из примеров общей иллюзии: мы обращаем больше внимания на содержание сообщений, чем на информацию об их надежности, и в результате получаем более простую и связную картину окружающего мира, чем предполагают данные. Поспешные выводы безопаснее делать в воображении, но не в действительности.
• Статистика порождает много наблюдений, которые, казалось бы, требуют каузальных объяснений, но на самом деле им не подлежат. Вероятность отвечает за множество событий, включая случайность выборки. Каузальное объяснение случайностей неминуемо будет неправильным.
Разговоры о законе малых чисел
«Да, с приходом нового директора студия сняла три успешных фильма, но еще слишком рано говорить, что у него легкая рука».
«Я не поверю, что новый трейдер – гений, пока не посоветуюсь со статистиком, способным оценить вероятность того, что эти удачи – не просто воля случая».