Большой передел мира
263,596,967 517,721
 

  Александр_С ( Практикант )
06 окт 2020 08:46:43

Excel: почему использование инструмента Microsoft привело к потере результатов Covid-19

новая дискуссия Новость  618

Источник

В продолжении моего вчерашнего поста.

ЦитатаПлохо продуманное использование программного обеспечения Microsoft Excel стало причиной того, что почти 16 000 случаев коронавируса остались незамеченными в Англии.
И похоже, что виновата в этом была компания Public Health England (PHE), а не сторонний подрядчик.
Проблема была вызвана тем, как агентство собрало журналы, произведенные коммерческими фирмами, которые платили за анализ мазков-тестов общественности, чтобы выяснить, у кого есть вирус. Они подавали свои результаты в виде текстовых списков-известных как CSV - файлы - без проблем. PHE установила автоматический процесс для объединения этих данных в шаблоны Excel, чтобы затем они могли быть загружены в центральную систему и доступны группе тестирования и отслеживания NHS, а также другим правительственным компьютерным информационным панелям. Проблема в том, что собственные разработчики PHE выбрали для этого старый формат файла, известный как XLS. Как следствие, каждый шаблон может обрабатывать только около 65 000 строк данных, а не один миллион с лишним строк, на которые фактически способен Excel. И поскольку каждый результат теста создавал несколько строк данных, на практике это означало, что каждый шаблон был ограничен примерно 1400 случаями. Когда это общее число было достигнуто, дальнейшие случаи просто прекратились. Для некоторого контекста формат файла XLS Excel восходит к 1987 году. Он был заменен XLSX в 2007 году. Если бы это было использовано, он бы обработал в 16 раз больше дел. По крайней мере, это предотвратило бы ошибку до тех пор, пока уровни тестирования не были бы значительно выше, чем сегодня, Но один эксперт предположил, что даже старшеклассник-компьютерщик должен знать, что существуют лучшие альтернативы.
"Excel всегда предназначался для людей, которые возились с кучей данных для своей маленькой компании, чтобы увидеть, как это выглядит", - прокомментировал профессор Джон Кроукрофт из Кембриджского университета. -А потом, когда вам нужно сделать что - то более серьезное, вы создаете что-то специально сделанное, что работает-есть десятки других вещей, которые вы могли бы сделать. -Но ты не будешь использовать XLS. Никто не станет с этого начинать."
Выступая в Палате общин, министр здравоохранения Мэтт Хэнкок предположил, что проблема возникла в результате использования ФЭ "унаследованной системы", и два месяца назад было принято решение заменить ее.  По-видимому, однако, эта конкретная проблема не была замечена. В противном случае PHE понял бы, что дефект вступит в силу до завершения обновления. Перед Хэнкоком была поставлена задача опубликовать другие соответствующие схемы обработки данных, чтобы можно было обнаружить другие скрытые недостатки в цифровом аппарате правительства. Но в то время как министр сказал, что он посмотрит, что возможно, он добавил: "проблема ошибки максимального размера файла заключается в том, что она не обязательно будет отображаться на таких блок-схемах." PHE уверен, что результаты тестов не были пропущены до прошлой недели из-за дефекта. И в свою защиту агентство отметило бы, что большинство случаев оно улавливает в течение одного-двух дней после того, как записи ускользают из его сети. Но теневой министр здравоохранения лейбористов Джонатан Эшворт заявил, что жизни людей все еще подвергаются риску из-за задержки процесса отслеживания контактов. "Тысячи людей [были] в блаженном неведении, что они подверглись воздействию Ковида, потенциально распространяя этот смертельный вирус в то время, когда количество госпитализаций растет", - сказал он Палате общин. -Это не просто развалины. Все гораздо хуже." Чтобы справиться с этой проблемой, PHE теперь разбивает данные результатов тестирования на более мелкие пакеты для создания большего количества шаблонов Excel. Это должно гарантировать, что никто не попадет в их шапку. Но инсайдеры признают, что нынешняя неуклюжая система должна быть заменена чем-то более продвинутым, что исключает Excel, как можно скорее.


Использовать Excel старинного формата для ОБЩЕГОСУДАРСТВЕННОЙ системы учета положительных анализов на Ковид-19 - это уровень старшеклассников (на самом деле конечно нет, зная британцев, могу предположить, что с целью экономии они вообще ИТ-шников не нанимали, а какой-нибудь менеджер собирал данные как умел). Для не ИТ-шников на форуме: они собирали данные из всех лабораторий в ОБЩЕГОСУДАРСТВЕННУЮ систему учета на уровне, как если бы Крымский мост строили, забивая сваи вручную и катая телеги с бетоном на лошадях.
Отредактировано: Александр_С - 06 окт 2020 08:50:03
  • +2.23 / 43
  • АУ
ОТВЕТЫ (1)
 
 
  adolfus ( Практикант )
06 окт 2020 19:33:25

От формата представления данных надежность данных зависит слабо – она зависит от используемого метода кодирования данных и софта, который эти кодирование и формат  реализует. Что касается данных экселя и вообще данных, генерируемых офисными программами, то формат хранения последних офисов, будь то микрософт, или либрофис, основанный на xml, является аномально уязвимым, поскольку основан на внутреннем описании данных (чтобы прочитать данные из набора, необходимо из него же получить описание их представления) и при этом не имеет даже самого элементарного ecc-кодирования.
  • +0.00 / 0
  • АУ