Цитата: Doctor_D от 07.12.2020 08:27:23https://www.medrxiv.org/content/10.1101/2020.12.04.20243832v1.full.pdf
Очередное спасибо https://chuka-lis.livejournal.com/ за интересное.
Любопытно, но ИМХО закон Бенфорда может быть неприменим.
Авторы считают, что числа "reported daily cases of Covid-19" у каждой страны должны подчиняться
Закону Бенфорда.
Проверяют гипотезу для каждой страны критерием Хи-квадрат (согласие Пирсона), подчиняются ли "новые подтвержденные заражения за день" или нет.
Если брать массив чисел по всем странам, то наверняка подчинится. Они все разного масштаба.
Но, боюсь, что закон Бенфорда нельзя распространять на
ежедневные новые подтвержденные случаи для каждой страны. Потому что данные в какие-то длительные промежутки времени находятся в каком-то естественном диапазоне, а это "
звоночек" для применимости. Например, между волнами данные находятся на более-менее одном уровне и не скачут в три раза.
Рассуждения на скорую руку, возможно, ошибочные:
Чтоб проверить можно ли использовать закон Бенфорда для выявления фальсификаций, можно поиграть масштабом.
Для данных подчиняющихся
Закону Бенфорда результат таблицы критериев не должен существенно измениться, если изменить масштаб.
Можно пересчитать таблицу результата критериев, разделив все исходные данные стран на заранее выбранное число. Желательно не подгоняя это число к желаемому результату, а выбрав его до эксперимента перерасчета.
В зависимости от того, насколько изменится таблица результатов, существенно ли, или вплоть до изменения у некоторых стран на противоположенные, выяснится насколько закон Бенфорда применим к рассматриваемым данным.
Например, по России июль-июнь числа новых случаев болтались около 4000-7000.
Даже если данные фальсифицировали, это не означает что реальные должны должны были болтаться от 1 000 - 20 000 на этом промежутке времени.
Критерий Хи- квадрат покажет, что данные за весь период (март-ноябрь) скорее всего выбиваются из закона Бенфорда.
За цифрами критерия скрыто, но мы понимаем почему так: слишком много пятерок и шестерок в первых цифрах ежедневно поступающих данных было летом.
За июнь-сентябрь данные практически ни разу не начинались с "1".
А если разделить данные по России на 4, то получившиеся числа за лето и сентябрь будут начинаться на "1" очень часто.
А значит, к таким данным Бенфорд, Пирсон и Фишер станут более благосклонны.