Подозрения и доказательства виновности российских граждан строятся на результатах обработки так называемых больших данных о поездках в Европу. Давно известен один эффект в статистике - проблема множественных сравнений, неучет которого приводит к недостоверным выводам. Коротко говоря, это проблема завышения статистической значимости результатов статистических тестов, возникающая при выполнении большого числа тестов. Например, абстрактная обезьяна, ударяя случайным образом по клавишам в течение долгого времени, рано или поздно напечатает любую наперёд заданную фразу. Таким образом, поиск осмысленных фраз в большом наборе случайных знаков закончится успехом и может быть сделан ложный вывод о грамотности обезьяны. Вот краткое изложение известного из литературы по большим данным примера по теме разговора. Поиск террористов. Допустим, полиция полагает, что где-то действуют «злоумышленники» и что они периодически встречаются в гостиницах, чтобы спланировать свой злой умысел. Если искать пары людей, которые несколько раз случайно пересекались в гостиницах в течении нескольких лет, то в разряд подозрительных попадет примерно четверть миллиона жителей планеты. Огромные возможности для выбора подозреваемых и подгонке под версию у нечистоплотных полицейских. Да очень много русских бывает в Европе. Да, они оказываются рядом с местами, где что то произошло. Так что выбор у аналитиков западных спецслужб огромный. Чтобы избежать трактовки случайных фактов как реальных, нужно воспользоваться следующим "принципом Бонферрони". Вычислите ожидаемое число искомых событий в предположении, что данные случайны. Если это число существенно больше количества ожидаемых реальных событий, то следует полагать, что почти все найденные события фиктивные, т. е. являются статистическими артефактами, а не свидетельством в пользу того, что вы ищете. Кто-нибудь доведите уже эти соображения до европейских аналитиков.
Цитата: Урсин от 28.04.2021 15:20:19Подозрения и доказательства виновности российских граждан строятся на результатах обработки так называемых больших данных о поездках в Европу. Давно известен один эффект в статистике - проблема множественных сравнений, неучет которого приводит к недостоверным выводам. Коротко говоря, это проблема завышения статистической значимости результатов статистических тестов, возникающая при выполнении большого числа тестов. Например, абстрактная обезьяна, ударяя случайным образом по клавишам в течение долгого времени, рано или поздно напечатает любую наперёд заданную фразу. Таким образом, поиск осмысленных фраз в большом наборе случайных знаков закончится успехом и может быть сделан ложный вывод о грамотности обезьяны. Вот краткое изложение известного из литературы по большим данным примера по теме разговора. Поиск террористов. Допустим, полиция полагает, что где-то действуют «злоумышленники» и что они периодически встречаются в гостиницах, чтобы спланировать свой злой умысел. Если искать пары людей, которые несколько раз случайно пересекались в гостиницах в течении нескольких лет, то в разряд подозрительных попадет примерно четверть миллиона жителей планеты. Огромные возможности для выбора подозреваемых и подгонке под версию у нечистоплотных полицейских. Да очень много русских бывает в Европе. Да, они оказываются рядом с местами, где что то произошло. Так что выбор у аналитиков западных спецслужб огромный. Чтобы избежать трактовки случайных фактов как реальных, нужно воспользоваться следующим "принципом Бонферрони". Вычислите ожидаемое число искомых событий в предположении, что данные случайны. Если это число существенно больше количества ожидаемых реальных событий, то следует полагать, что почти все найденные события фиктивные, т. е. являются статистическими артефактами, а не свидетельством в пользу того, что вы ищете. Кто-нибудь доведите уже эти соображения до европейских аналитиков.
Это действительно страшная беда: при стремительном развитии технологий Data Mining, Big Data, AI, Machine Learning ... утратить способности и навыки научного анализа результатов этих технологий. Это страшнее самого дикого средневековья. Почтальонов 20 лет по ошибке сажали в тюрьму из-за «кривого» ПО