Если вдруг кому-то будет интересно протестировать и поиграться с очисткой (дедупликация) своих справочников/списков или сравнить свои справочники
Мы выкатили бесплатную версию своего решения KnoDL для анализа данных.
Особенности бесплатной версии
1. работает только со строками csv, txt
2. отключено шардирование, т.е. получится ограничение по объему данных где-то 100К записей но и этого достаточно для:
1. Поиска дублей в справочниках.
2. Сверять один справочник с другим.
Как пример:
1. Мария Игоревна Тисленко и Тисленко Мария Игоревна для вас уже не будут двумя разными записями. KnoDL определит, что это одна и та же запись.
2. Коробка раздаточная электромеханическая 316380180002100 автомобиль УАЗ и 31638-1800021 Коробка раздаточная УАЗ3163 Патриот дв.ЗМЗ409 (I=4111) DYMOS (ОАО УАЗ) № 31638-1800021.
KnoDL покажет, что эти записи схожи.
Для сравнения:
ни один из 12 алгоритмов, собранных под европейским стартапом Tilores, не смог определить схожесть этих записей.
Если будет интересно
здесь можно скачать и прочитать краткую инструкцию по использованию.