Еще одну реальную угрозу традиционному взгляду на статистику представляет колоссальный рост количества проводимых исследований, особенно в биомедицине и социальных науках, в сочетании с требованием публикаций в высокорейтинговых журналах. Это привело к сомнениям в надежности определенной части научной литературы и утверждениям о невоспроизводимости многих «открытий» другими исследователями. Как, например, продолжающийся спор, может ли «поза силы» вызвать гормональные и другие изменения у человека[16 - J. P. Simmons and U. Simonsohn, ‘Power Posing: P-Curving the Evidence’, Psychological Science 28 (2017), 687–93. Возражения смотрите в работе: A. J. C. Cuddy, S. J. Schultz and N. E. Fosse, ‘P-Curving a More Comprehensive Body of Research on Postural Feedback Reveals Clear Evidential Value for Power-Posing Effects: Reply to Simmons and Simonsohn (2017)’, Psychological Science 29 (2018), 656–66.]. На некорректном применении стандартных статистических методов лежит немалая доля вины за то, что известно как кризис воспроизводимости (или репликации) в науке.
В связи с растущей доступностью больших массивов данных и удобного программного обеспечения для их анализа может показаться, что необходимость в изучении статистических методов снижается. Однако крайне наивно так думать. Увеличение объема данных, рост количества и сложности научных исследований еще больше затрудняют процесс формулирования соответствующих выводов. Большее количество данных означает, что нам надо еще лучше осознавать, чего на самом деле стоят такие доказательства.
Например, интенсивный анализ массивов данных может повысить вероятность ложных открытий – как вследствие систематической ошибки, присущей источнику, так и в результате выполнения множества тестов, но сообщения только о тех из них, которые выглядят интересными, то есть так называемого слепого прочесывания данных. Чтобы иметь возможность критически относиться к опубликованным научным работам, а тем более к ежедневным сообщениям СМИ, нужно четко осознавать опасность такого избирательного подхода, понимать необходимость проверки утверждений независимыми специалистами и осознавать риск неправильной интерпретации результатов одного исследования вне контекста.
Все это можно объединить под термином «грамотность в работе с данными», который описывает не только способность проводить статистический анализ реальных проблем, но и умение понять и критически проанализировать любые выводы, сделанные другими на основе статистики. Повышение такой грамотности предполагает изменение методики обучения статистике.
Преподавание статистики
Целые поколения студентов страдали от сухих курсов статистики, основанных на изучении набора методов, применяемых в различных ситуациях, причем больше внимания в них уделялось математической теории, чем пониманию причин применения той или иной формулы, или проблемам, возникающим при попытке использовать данные для ответа на вопросы.
К счастью, все меняется. Наука о данных и грамотность в работе с ними требуют подхода, направленного на решение основных проблем, где применение конкретных статистических инструментов рассматривается лишь как один из компонентов цикла исследований. Цикл PPDAC (Problem, Plan, Data, Analysis, Conclusion) был предложен как модель решения проблем, которую мы будем использовать в этой книге[17 - Основная рекомендация Американской статистической ассоциации (ASA) – «Преподавать статистику как исследовательский процесс решения проблем и принятия решений». См. https://www.amstat.org/asa/education/Guidelines-for-Assessment-and-Instruction-in-Statistics-Education-Reports.aspx (https://www.amstat.org/asa/education/Guidelines-for-Assessment-and-Instruction-in-Statistics-Education-Reports.aspx). Цикл PPDAC был представлен в работе: R. J. MacKay and R. W. Oldford, ‘Scientific Method, Statistical Method and the Speed of Light’, Statistical Science 15 (2000), 254–78. Его активно поддерживает школьная система Новой Зеландии, которая обеспечивает хорошее статистическое образование. См. C. J. Wild and M. Pfannkuch, ‘Statistical Thinking in Empirical Enquiry’, International Statistical Review 67 (1999), 223–265, и онлайн-курс «Данные для идей», https://www.futurelearn.com/courses/data-to-insight (https://www.futurelearn.com/courses/data-to-insight).]. Рис. 0.3 основан на примере Новой Зеландии, которая считается мировым лидером по преподаванию статистики в школах.
Рис. 0.3
Цикл решения проблем PPDAC (от проблемы, плана, данных, анализа к заключению и коммуникации), начинающийся заново в другом цикле
Первая стадия цикла – определение проблемы: статистическое исследование всегда начинается с вопроса, например, с такого как наш вопрос о закономерностях убийств Гарольда Шипмана или о количестве деревьев в мире. Далее мы рассмотрим самые разные проблемы – от ожидаемой пользы различных методов послеоперационного лечения рака молочной железы до вопроса, почему у стариков большие уши.
Искушение пренебречь необходимостью в хорошем плане довольно велико. В случае с Шипманом требовалось просто собрать как можно больше данных о жертвах. Однако люди, считавшие деревья, уделили пристальное внимание точным определениям и методам измерения, поскольку надежные заключения можно сделать только на основе тщательно спланированного исследования. К сожалению, желание быстрее получить данные и приступить к их анализу приводит к тому, что эта стадия часто игнорируется.
Сбор данных требует определенных организаторских навыков и навыков кодирования, наличие которых все больше ценится в науке о данных, особенно потому, что данные из некоторых источников могут нуждаться в тщательной очистке перед их анализом. Системы сбора данных со временем меняются, там могут быть выявлены ошибки – само выражение «найти данные» четко указывает на то, что они бывают довольно грязными, как нечто, подобранное на улице.
В курсах статистики основной упор делается на стадию анализа, и мы рассмотрим в книге ряд аналитических методов; однако иногда все, что необходимо сделать на данном этапе, – это наглядная визуализация, как на рис. 0.1 (#ris01).
Наконец, главное в статистической науке – сделать соответствующие заключения, которые полностью признают и четко показывают ограничения в доказательствах, как на графических иллюстрациях данных Шипмана. Любые заключения, как правило, приводят к новым вопросам, поэтому цикл начинается заново – как в случае, когда мы стали анализировать время смерти пациентов Шипмана.
Хотя на практике цикл PPDAC, представленный на рис. 0.3 (#ris03), может не соблюдаться с абсолютной точностью, он подчеркивает, что формальные методы статистического анализа – это только часть работы статистика или специалиста по обработке данных. Статистика – нечто гораздо большее, чем область математики, содержащая заумные формулы, с которыми пытались совладать (нередко против своего желания) поколения учащихся.
Эта книга
В 1970-е годы, когда я был студентом, в Великобритании работало всего три телеканала, компьютеры напоминали огромный двустворчатый шкаф, а ближе всего к «Википедии» было удивительное портативное устройство, описанное в (необычайно прозорливом) путеводителе Дугласа Адамса «Автостопом по галактике»[18 - Книга Дугласа Адамса вышла в 1979 году, когда он уже получил степень и преподавал. Прим. пер.Издана на русском языке: Адамс Д. Автостопом по галактике. М.: АСТ, 2014. Прим. ред.]. Поэтому для самосовершенствования мы обращались к книгам издательства Pelican, и их легко узнаваемые синие корешки были обычной приметой каждой студенческой полки[19 - Издательство (дочернее предприятие (Penguin Books) было основано в 1937 году и выпускало недорогие научно-популярные (и другие нехудожественные) книги в мягких обложках. Они активно использовались для самообразования после войны, а газета The Guardian даже назвала эти книги «неформальным университетом для британцев 1950-х». Прим. пер.].
Поскольку я изучал статистику, моя коллекция Pelican включала Facts from Figures («Факты из цифр») Майкла Морони (1951) и How to Lie with Statistics Дарелла Хаффа (1954)[20 - Издана на русском языке: Хафф Д. Как лгать при помощи статистики. М.: Альпина Паблишер, 2015. Прим. пер.]. Тираж этих почтенных трудов составлял сотни тысяч экземпляров, что отражало как степень интереса к статистике, так и удручающее отсутствие выбора в те времена. Эти классики прекрасно продержались 65 лет, однако нынешнее время требует других подходов к преподаванию статистики, основанных на вышеизложенных принципах. Поэтому решение проблем реального мира используется в книге в качестве отправной точки для представления статистических идей. Некоторые из этих идей могут показаться очевидными, тогда как другие, более тонкие, требуют определенных умственных усилий, хотя математические знания даже в этом случае не понадобятся. В отличие от традиционных текстов эта книга сосредоточена на концептуальных вопросах, а не на технических аспектах, и содержит лишь несколько вполне безобидных уравнений, а также глоссарий с объяснениями. Хотя программное обеспечение – важная часть любой работы в науке о данных и статистике, эта книга на нем не фокусируется – вы и так без труда найдете руководства по таким языкам, как R или Python.
На все выделенные в книге вопросы можно в какой-то степени ответить с помощью статистического анализа, хотя они и сильно отличаются по масштабности. Одни – важные научные гипотезы, например, существует ли бозон Хиггса[21 - Питер Хиггс (род. 1929) – британский физик, предложивший в 1964 году идею нового поля и соответствующей частицы (бозона), которые сейчас носят его имя. Прим. пер.] или убедительные подтверждения экстрасенсорного восприятия. Другие касаются здравоохранения – например, выше ли показатель выживаемости в более загруженных больницах и полезны ли скрининговые исследования[22 - Скрининговые исследования – обследование людей, не имеющих симптомов, с целью выявить какое-нибудь заболевание. Прим. пер.] для обнаружения рака яичников. Иногда мы просто хотим оценить некоторые величины, такие как риск развития рака от употребления сэндвичей с беконом, количество сексуальных партнеров британцев в течение жизни и пользу от ежедневного употребления статинов[23 - Статины – препараты, которые применяются для снижения уровня холестерина в крови. Прим. пер.].
Многие вопросы просто интересны: скажем, определение самого счастливого выжившего при крушении «Титаника»; мог ли Гарольд Шипман быть разоблачен раньше; какова вероятность того, что скелет, найденный под автостоянкой в Лестере, действительно принадлежит Ричарду III.
Эта книга предназначена как для студентов-статистиков, которые хотят ознакомиться с предметом, не углубляясь в технические детали, так и для обычных читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Я делаю акцент на осторожном обращении со статистическими данными: числа могут казаться сухими фактами, однако описанные выше попытки измерить деревья, счастье и смерть уже показали, что с ними нужно обращаться очень осторожно.
Статистика помогает прояснить стоящие перед нами вопросы, но при этом мы прекрасно знаем, что данными можно злоупотреблять – часто для навязывания чужого мнения или просто для привлечения внимания. Умение оценивать истинность статистических утверждений становится ключевым навыком в современном мире, и я надеюсь, что эта книга научит людей ставить под сомнение достоверность цифр, с которыми они сталкиваются в повседневной жизни.
Выводы
• Превращение опыта в данные – непростое дело, а способность данных описывать мир, безусловно, ограничена.
• У статистики как науки долгая, вполне успешная история, однако сейчас она меняется вследствие повышения доступности данных.
• Владение статистическими методами – важный навык специалиста по обработке данных.
• Преподавание статистики сегодня сосредоточивается не на математических методах, а на полном цикле решения задачи.
• Цикл PPDAC предоставляет удобный алгоритм поиска ответа на вопросы: проблема ? план ? данные ? анализ ? заключение и коммуникация.
• Грамотность в использовании данных – ключевой навык в современном мире.
Глава 1. Расчет долей: качественные данные и проценты
Что происходило с детьми, которым делали операции на сердце в Бристоле между 1984 и 1995 годами?
У 16-месячного Джошуа Л. была транспозиция магистральных сосудов – тяжелая форма врожденного порока сердца, при котором крупные артерии, отходящие от сердца, присоединены к неправильному желудочку. Ему требовалась операция по «переключению» сосудов. В 7 утра 12 января 1995 года родители пожелали Джошуа удачи, и медики увезли его на операцию в Королевскую больницу Бристоля. Но родители малыша не знали, что слухи о невысоком уровне выживаемости после хирургических операций в Бристоле ходили с начала 1990-х. Никто не сказал им и того, что медсестры увольнялись, чтобы избежать тех непростых моментов, когда приходится сообщать родителям, что их ребенок умер, или что накануне вечером проходил консилиум, где обсуждался вопрос об отмене операции Джошуа[24 - См. ‘History of Scandal’, Daily Telegraph, 18 July 2001, and D. J. Spiegelhalter et al., ‘Commissioned Analysis of Surgical Performance Using Routine Data: Lessons from the Bristol Inquiry’, Journal of the Royal Statistical Society: Series A (Statistics in Society) 165 (2002), 191–221.].
Ребенок умер на операционном столе. А в следующем году Генеральный медицинский совет (регулирующий орган) начал расследование после жалобы родителей Джошуа и родителей других умерших детей, и в 1998-м два хирурга и бывший руководитель отделения были признаны виновными в ненадлежащем исполнении профессиональных обязанностей. Волнения в обществе не утихали, поэтому было инициировано еще одно официальное расследование: группе статистиков поручили сравнить показатели выживаемости в Бристоле с другими больницами Соединенного Королевства в период с 1984 по 1995 год. Я возглавлял эту группу.
Сначала нам предстояло выяснить, сколько детей перенесли операцию и сколько умерли. Звучит вроде бы незамысловато, но, как мы убедились в предыдущей главе, даже простой подсчет событий может вызывать сложности. Что значит ребенок? Что считается операцией на сердце? Когда можно утверждать, что смерть наступила в результате операции? И даже если вопрос со всеми этими понятиями урегулирован, можно ли определить количество таких событий?
Мы решили считать ребенком любого человека до 16 лет и сосредоточились на открытых операциях с подключением к аппарату искусственного кровообращения. За один раз на сердце могло проводиться несколько операций, но они рассматривались нами как одно событие. Случаи смерти учитывались, если она наступала в течение 30 дней после операции, будь то в больнице или нет, вследствие хирургического вмешательства. Мы понимали, что смерть – несовершенная мера качества операции, поскольку не учитывались дети, которые в результате ее проведения получили повреждение мозга или другие виды инвалидности, однако сведениями о таких долгосрочных последствиях мы не располагали.
Основным источником данных стала Национальная статистика эпизодов в больницах (HES), полученная на основе информации, введенной низкооплачиваемыми программистами. У врачей HES пользовалась плохой репутацией, но гигантским преимуществом этого источника было то, что его можно было связать с национальными данными о смертности. Существовала также параллельная система данных, вносимых непосредственно в Реестр операций на сердце (CSR), созданный профессиональным сообществом хирургов.
Хотя оба источника, по логике, должны быть примерно одинаковыми, на практике они демонстрировали существенное расхождение: за 1991–1995 годы HES указывала 62 смерти при 505 операциях на открытом сердце (14 %), а CSR – 71 смерть при 563 операциях (13 %). В нашем распоряжении было еще не менее пяти дополнительных местных источников сведений – от анестезиологической документации до собственных журналов хирургов. Бристоль располагал множеством данных, но ни один из источников не мог считаться истинным и никто не брал ответственность за анализ результатов хирургических вмешательств и принятие мер.
Мы подсчитали, что если бы в бристольской больнице средний риск для пациентов был таким же, как в целом по Великобритании, то за указанный период было бы зафиксировано 32 смерти, а не 62 фактических, что мы определили как «30 избыточных смертей в период с 1991 по 1995 год»[25 - Сейчас я сожалею об использовании выражения «избыточные смерти», поскольку газеты потом интерпретировали его как «предотвратимые случаи смерти». На деле просто по вероятностным соображениям примерно в половине больниц количество смертей будет больше ожидаемого, и лишь некоторых из них можно было бы избежать.]. Цифры менялись в зависимости от источников данных, и может показаться необычным, что мы даже не смогли установить основные факты о количестве операций и их результатах, хотя нынешние системы регистрации стоило бы улучшить.
Наши выводы широко освещались в прессе, и бристольское расследование привело к значительному изменению отношения к отслеживанию ситуации в здравоохранении: контроль над медициной больше не доверяли ей самой. Появились механизмы для публичного представления данных о выживаемости в больницах, хотя, как мы сейчас увидим, даже способ отображения может влиять на их восприятие аудиторией.
Представление результатов
Данные, фиксирующие, произошли какие-то события или нет, известны как бинарные (двоичные) данные, поскольку они могут выражаться только двумя значениями, например да или нет, болен или здоров. Из набора бинарных данных можно извлечь обобщенную информацию – общее количество и доля случаев, когда событие произошло.
В этой главе подчеркивается важность способа представления статистических данных. В каком-то смысле мы переходим к последней стадии цикла PPDAC, на которой делаются заключения; и хотя форма их подачи традиционно не считается значимой темой в статистике, растущий интерес к визуализации данных отражает изменения в данном вопросе. Поэтому в этой и следующей главах мы сосредоточимся на способах отображения данных, позволяющих быстро уловить суть происходящего без детального анализа. И начнем с рассмотрения альтернативных способов их представления, которые – во многом благодаря бристольскому расследованию – теперь стали общедоступны.
В табл. 1.1 отображены результаты лечения примерно 13 тысяч детей, перенесших операцию на сердце в Соединенном Королевстве Великобритании и Северной Ирландии в 2012–2015 годах[26 - Данные о результатах выживания детей, перенесших операции на сердце, в Соединенном Королевстве Великобритании и Северной Ирландии можно получить на сайте http://childrensheartsurgery.info/ (http://childrensheartsurgery.info/).]. В течение 30 дней после операции умерли 263 ребенка, и, безусловно, каждая из смертей – трагедия для семьи. Для них будет слабым утешением то, что со времени бристольского расследования показатель выживаемости значительно повысился и теперь составляет 98 %, поэтому у семей с детьми, нуждающимися в операции на сердце, более обнадеживающие перспективы.
Таблица 1.1
Результаты операций на сердце у детей в больницах Соединенного Королевства Великобритании и Северной Ирландии за 2012–2015 годы с точки зрения выживаемости в течение 30 дней после операции
Таблицу можно считать видом графического представления данных, где для привлекательности и удобочитаемости требуется правильно подобрать цвет, шрифт и слова. На эмоциональную реакцию аудитории может также влиять выбор столбцов для отображения. В табл. 1.1 показаны данные об умерших и выживших, однако в США сведения о результатах операций представлены в виде показателя смертности, а в Великобритании – в виде показателя выживаемости. Такая форма подачи называется эффектом фрейминга, и он интуитивно понятен и хорошо документирован: например, «смертность – 5 %» звучит и воспринимается хуже, чем «выживаемость – 95 %». Указание фактического количества смертей и их процентной доли также может создать впечатление о повышении риска, поскольку эту величину можно представить как группу реальных людей.
Классическим примером того, как фрейминг меняет эмоциональное восприятие какого-нибудь показателя, стали плакаты, появившиеся в 2011 году в лондонском метро, которые гласили, что «99 % молодых лондонцев не совершают серьезных насильственных преступлений». Предполагалось, что такие заявления будут способствовать спокойствию пассажиров. Однако мы могли бы изменить их эмоциональное воздействие с помощью двух простых вещей. Во-первых, с помощью заявления, что 1 % молодых лондонцев совершают серьезные насильственные преступления. Во-вторых, учитывая, что население Лондона составляет около 9 миллионов человек, возраст примерно 1 миллиона из них – от 15 до 25 лет, и если считать эту категорию молодежью, то получается, что в городе проживает 1 % от миллиона, или 10 тысяч агрессивно настроенных молодых людей. А такая цифра звучит удручающе и уж вовсе не ободряет. Обратите внимание на две хитрости, используемые для манипулирования воздействием таких статистических данных: переход от позитива к негативу и превращение процентной доли в фактическое количество людей.
В идеале – если мы хотим беспристрастной подачи информации – нужно давать как положительные, так и отрицательные значения, хотя даже порядок столбцов в таблице может влиять на интерпретацию. Необходимо тщательно продумывать и порядок строк. Например, в табл. 1.1 (#tab1-1) больницы распределены в порядке увеличения количества проведенных операций, но если их упорядочить, например, в порядке убывания смертности (с наибольшим значением в верхней части таблицы), то это может создать впечатление, что перед нами правильный и важный способ сравнения больниц. Такие рейтинговые таблицы любят средства массовой информации и некоторые политики, однако они могут вводить в заблуждение, причем не только потому, что различия бывают вызваны случайными отклонениями, но и потому, что больницы принимают пациентов с заболеваниями разной степени тяжести. Например, по данным табл. 1.1 (#tab1-1) можно заподозрить, что больница в Бирмингеме – одна из крупнейших и наиболее известных детских больниц – берет наиболее тяжелые случаи. Поэтому было бы несправедливо говорить, что у нее не самые впечатляющие показатели выживаемости[27 - Оказывается, нет никаких веских доказательств каких-либо принципиальных различий между этими больницами, если учитывать степень серьезности случаев.].
Показатели выживаемости можно представить и в виде горизонтальной столбчатой диаграммы, как на рис. 1.1. Главное – решить, где начинать горизонтальную ось: если с 0 %, то полосы займут практически всю ширину диаграммы, что покажет необычайно высокий уровень выживаемости во всех больницах, но полосы между собой будет трудно различить. Гораздо хуже старый трюк, использующийся для обмана, – начать, например, с 95 %. Тогда все больницы будут резко отличаться, даже если на самом деле разница в показателях объясняется чистой случайностью.
Рис. 1.1