О принципе Бонферрони и поиске шпионов
новая дискуссия
Дискуссия
729
Подозрения и доказательства виновности российских граждан строятся на результатах обработки так называемых больших данных о поездках в Европу. Давно известен один эффект в статистике - проблема множественных сравнений, неучет которого приводит к недостоверным выводам. Коротко говоря, это проблема завышения статистической значимости результатов статистических тестов, возникающая при выполнении большого числа тестов.
Например, абстрактная обезьяна, ударяя случайным образом по клавишам в течение долгого времени, рано или поздно напечатает любую наперёд заданную фразу. Таким образом, поиск осмысленных фраз в большом наборе случайных знаков закончится успехом и может быть сделан ложный вывод о грамотности обезьяны. Вот краткое изложение известного из литературы по большим данным примера по теме разговора.
Поиск террористов. Допустим, полиция полагает, что где-то действуют «злоумышленники» и что они периодически встречаются в гостиницах, чтобы спланировать свой злой умысел. Если искать пары людей, которые несколько раз случайно пересекались в гостиницах в течении нескольких лет, то в разряд подозрительных попадет примерно четверть миллиона жителей планеты. Огромные возможности для выбора подозреваемых и подгонке под версию у нечистоплотных полицейских.
Да очень много русских бывает в Европе. Да, они оказываются рядом с местами, где что то произошло. Так что выбор у аналитиков западных спецслужб огромный.
Чтобы избежать трактовки случайных фактов как реальных, нужно воспользоваться следующим "принципом Бонферрони". Вычислите ожидаемое число искомых событий в предположении, что данные случайны. Если это число существенно больше количества ожидаемых реальных событий, то следует полагать, что почти все найденные события фиктивные, т. е. являются статистическими артефактами, а не свидетельством в пользу того, что вы ищете.
Кто-нибудь доведите уже эти соображения до европейских аналитиков.