Верить в науку? Плохие исследования больших данныхмогут поколебать вашу веруГэри Смит
26 апреля 2022 г.
Кофе был очень популярен в Швеции в 17 веке, и к тому же был
незаконным. Король Густав III, который считал, что это яд медленнодействующий, и придумал
хитрый эксперимент, чтобы доказать это. Он смягчил приговор братьям-близнецам-
убийцам, ожидавшим обезглавливания, при одном условии: один брат должен был
выпивать три чашки кофе каждый день, а другой - три чашки чая. Ранняя смерть
любителя кофе докажет, что кофе был ядом.
Оказалось, что близнец, пьющий кофе, пережил любителя чая, но только в 1820-х
годах шведам наконец разрешили делать то, что они делали все это время - пить кофе,
много кофе.
Краеугольным камнем научной революции является настойчивое требование проверки
заявлений данными, в идеале - в случайном контролируемом испытании. Эксперимент
Густава примечателен тем, что он использовал однояйцевых близнецов мужского пола,
что устранило смешанные эффекты пола, возраста и генов. Самая вопиющая слабость
заключалась в том, что из такой небольшой выборки нельзя было получить ничего
статистически убедительного.
Сегодня проблема не в недостатке данных, а в другом. У нас слишком много данных, и
это подрывает доверие к науке.
Удача присуща случайным испытаниям. В медицинском исследовании некоторые
пациенты могут быть здоровее. В сельскохозяйственном исследовании некоторые
почвы могут быть более плодородными. В образовательном исследовании некоторые
студенты могут быть более мотивированы. Следовательно, исследователи
рассчитывают вероятность (р-значение) того, что результаты могут произойти случайно.
Низкое р-значение указывает на то, что результаты не могут быть легко объяснены
удачей розыгрыша.
Как низко? В 1920-х годах великий британский статистик Рональд Фишер сказал, что он
считает р-значения ниже 5% убедительными, и поэтому 5% стали препятствием для
«статистически значимого» сертификата, необходимого для публикации,
финансирования и известности.
Это не сложное препятствие. Предположим, что незадачливый исследователь
вычисляет корреляции между сотнями переменных, в блаженном неведении о том, что
все данные на самом деле являются случайными числами. В среднем одна из 20
корреляций будет статистически значимой, хотя каждая корреляция - не более чем
совпадение.
Настоящие исследователи не сопоставляют случайные числа, но слишком часто они
сопоставляют то, что по сути является случайно выбранными переменными. У этого
случайного поиска статистической значимости даже есть название: интеллектуальный
анализ данных. Как и в случае со случайными числами, корреляция между случайно
выбранными, не связанными между собой переменными имеет 5-процентный шанс
оказаться статистически значимой. Интеллектуальный анализ данных можно
дополнить, манипулируя, сокращая и иным образом искажая данные, чтобы получить
низкие р-значения.
Чтобы найти статистическую значимость, нужно просто внимательно присмотреться.
Таким образом, 5-процентный барьер имел извращенный эффект, побуждая
исследователей проводить больше тестов и сообщать о большем количестве
бессмысленных результатов.
Таким образом, глупые отношения публикуются в хороших журналах просто потому, что
результаты статистически значимы.
Студенты лучше справляются с тестом на запоминание, если они готовятся к
тесту после его прохождения (Журнал психологии личности и социальной психологии).
Американцы японского происхождения подвержены сердечным приступам в
четвертый день месяца (Британский медицинский журнал).
Цены на биткойны можно предсказать на основе доходности акций в производстве
картона, контейнеров и коробок (Национальное бюро экономических
исследований).
Пожилые китаянки могут отложить свою смерть до празднования Праздника
Урожайной Луны (Журнал Американской медицинской ассоциации).
Женщины, которые ежедневно едят сухие завтраки, чаще рожают мальчиков
(Труды Королевского общества).
Люди могут использовать силовые позы, чтобы увеличить уровень гормона
доминирования тестостерона и снизить уровень гормона стресса кортизола
(психологическая наука).
Ураганы более смертоносны, если у них женские имена (Материалы Национальнои
Академии наук).
Инвесторы могут получить 23% годовой доход на рынке, основываясь на своих
решениях о покупке/продаже на количестве поисковых запросов в Гугле по слову
«долг" ( Научные отчеты ).
Эти ныне дискредитированные исследования - верхушка статистического айсберга,
известного как кризис репликации.
Команда под руководством Джона Иоаннидиса рассмотрела попытки воспроизвести 34
уважаемых медицинских исследования и обнаружила, что только 20 из них были
подтверждены. Проект воспроизводимости попытался воспроизвести 97 исследований,
опубликованных в ведущих журналах по психологии, и подтвердил только 35. Проект
репликации экспериментальной экономики попытался воспроизвести 18
экспериментальных исследований, опубликованных в ведущих экономических
журналах, и подтвердил только 11.
Я написал сатирическую статью, призванную продемонстрировать всю глупость
интеллектуального анализа данных. Я просмотрел объемные твиты Дональда Трампа и
обнаружил статистически значимые корреляции между: написанным Трампом в Твиттере
слова «президент» и индексом S&Р 500 два дня спустя; написанным Трампом в Твиттере слова
«когда-либо» и температурой в Москве четыре дня спустя; написанным Трампом в Твиттере
слова «еще» и ценой на чай в Китае четыре дня спустя; и написанным Трампом в Твиттере слова
«демократ» и несколькими случайными числами, которые я сгенерировал.
Я пришел к выводу - иронично, как только мог, - что нашел «убедительные
доказательства ценности использования алгоритмов интеллектуального анализа
данных для обнаружения статистически убедительных, ранее неизвестных корреляций,
которые можно использовать для создания надежных прогнозов».
Я наивно полагал, что читатели поймут смысл этой шутки ботаников: большие наборы
данных можно легко извлечь и подвергнуть пыткам, чтобы выявить совершенно
бесполезные закономерности. Я отправил статью в академический журнал, и
комментарии рецензента прекрасно демонстрируют, насколько глубоко укоренилось
представление о том, что статистическая значимость важнее здравого смысла: «Статья
в целом хорошо написана и структурирована. Это интересное исследование, и авторы
собрали уникальные наборы данных, используя передовую методологию».
Заманчиво полагать, что больше данных означает больше знаний. Однако
стремительный рост количества вещей, которые измеряются и регистрируются,
невероятно увеличил количество случайных паттернов и фиктивных статистических
взаимосвязей, ожидающих, чтобы нас обмануть.
Если количество истинных взаимосвязей, которые еще предстоит открыть, ограничено,
а число случайных закономерностей растет экспоненциально по мере накопления все
новых и новых данных, то вероятность того, что случайно обнаруженная
закономерность реальна, неизбежно приближается к нулю.
Проблема сегодня не в том, что у нас слишком мало данных, а в том, что у нас их
слишком много, что соблазняет исследователей рыться в них в поисках
закономерностей, которые легко найти, которые могут быть случайными и вряд ли
будут полезными.
Аналитик составяющий свое заключение по неполным данным подобен игроку ставящему на число рулетки.
Взгляды отдельных авторов не обязательно отражают мою точку зрения
Гиперссылка на оригинальный материал находится в заголовке каждой статьи