IT в России и мире в реалиях мирового кризиса

qurvax
06 ноя 2023 12:04:45 ...

qurvax

06 ноя 2023, 12:04:45

Вильнюс

Слушатель

Карма: +13.42
Регистрация: 29.03.2017
Сообщений: 2,494
Читатели: 0

Дискуссия: Автоматическая категоризация документов

Цитата: Егор А.Изотов от 06.11.2023 11:02:23Да, безусловно. Поэтому, прежде всего, "бардак" должен быть ликвидирован на уровне "бизнес-процессов".
"На том и стоим".

Я хочу это хоть раз в жисти увидеть. ~~Зияющий~~ сияющий град на холме... И накуя тогда эта вся приблудень, есси и так порядок? Так слона ведь не продать.

Консервированный чужой. Осторожно запах!

+0.02 / 2

АУ

Поверонов
06 ноя 2023 12:49:29 ...

Поверонов

06 ноя 2023, 12:49:29

Слушатель

Карма: +38.54
Регистрация: 05.06.2010
Сообщений: 19,803
Читатели: 8

Дискуссия: Автоматическая категоризация документов

Цитата: Азъ от 06.11.2023 10:58:54Если знают, то нет смысла, могут руками делать.
Если всё же есть ошибки человеческого фактора, когда в команде есть секретари/джуны, которые имеют отношение к движению документов, то очень даже полезно, также полезно, когда часть документов грифована, и есть процедуры грифовки/разгрифовки

На самом деле проблема не в том как категоризовать документы а в том как затем их искать иначе категоризация бессмысленна. А чтобы категоризация имела смысл она должна быть семантически описана так чтобы было понятно где искать. Иначе достаточно иметь ag ( advanced grep ) и искать по ключевым словам.

Отредактировано: Поверонов - 06 ноя 2023 12:50:41

+0.06 / 4

АУ

Поверонов
06 ноя 2023 17:40:00 ...

Поверонов

06 ноя 2023, 17:40:00

Слушатель

Карма: +38.54
Регистрация: 05.06.2010
Сообщений: 19,803
Читатели: 8

Дискуссия: Автоматическая категоризация документов

Цитата: Азъ от 06.11.2023 14:42:20Прошу прощения, но осмелюсь предположить, что вы не теряли документы, и не представляете, как другие их теряют.
И сейчас придумываете ситуации, которых в реале не встречаются.

Поправьте меня, если не прав.

45 лет работаю с базами данных в том числе как их разработчик и администратор. И прекрасно знаю что такое релевантная и не релевантная выдача при поиске по тексту. Да поиск по ключевым словам не решает проблемы так как существует полисемия - один смысл может быть представлен разными словами и наоборот одно то же слово может иметь разный смысл в разных контекстах ( например зам`ок и з`амок или мир ) Поэтому для повышения релевантности поиска по ключевым словам строят списки синонимов а также иерархию понятий ( категории ) над ключевыми словами ( синонимы и категории нужно автоматически добавлять к тексту документов в формате тегов ) Если документы индексируются , то все множество документов нужно переиндексировать при изменении списков синонимов или новых категорий, а также распихивать новые ключевые слова из документов по спискам синонимов и категорий.
До сих пор это был ручной труд по ведению словарей поисковой системы ( пополнение списков синонимов и категорий ) Возможно его удастся как-то автоматизировать на базе ИИ типа LLM хотя сомневаюсь так как LLM не понимают семантики

Отредактировано: Поверонов - 06 ноя 2023 19:59:04

+0.01 / 1

АУ

Азъ
07 ноя 2023 13:36:49 ...

Азъ

07 ноя 2023, 13:36:49

46 лет

Слушатель

Карма: +0.40
Регистрация: 11.03.2011
Сообщений: 90
Читатели: 0

Дискуссия: Автоматическая категоризация документов

Скрытый текст

Всё почти правильно и тут не поспоришь.
Однако, есть один момент, когда Вы говорите про релевантность, Вы имеете ввиду своё собственное о ней понятие,
возможно, оно адекватное, но я подозреваю, что датасета у Вас с метрикой нет тоже, ну и если посмотреть на то, что творится сейчас в текстовых поисках, то можно увидеть, как большинство производителей вообще положили болт на релевантность, именно из-за тех причин, которые Вы указываете.
Ну и к работам со смыслами мы идём, и именно наш путь позволяет туда дойти (или это вообще не возможно).)))
Как-то так.

У бандарлогов нет закона.У них нет собственного наречия; они пользуются украденными словами, которые подслушивают, когда подглядывают за нами, прячась в ветвях. У них нет памяти. Они хвастаются, болтают, уверяют, будто они великий народ, готовый совершать

+0.00 / 0

АУ

Азъ
07 ноя 2023 13:40:24 ...

Азъ

07 ноя 2023, 13:40:24

46 лет

Слушатель

Карма: +0.40
Регистрация: 11.03.2011
Сообщений: 90
Читатели: 0

Дискуссия: Автоматическая категоризация документов

Цитата: gbooth от 06.11.2023 16:28:22У меня есть личный корпус в 5000 заметок и мне интересно найти все заметки об одном и том же. Семантическое описание категорий возможно только после создания корпуса и осмысления всех категорий в корпусе. А список категорий - открыт принципиально. Корпус постоянно пополняется. Разумеется мне было бы интересно иметь движок, который бы по краткому описанию идеи находил все релевантные заметки в этом корпусе.

Если захотите, попробуйте KDM.

Только категории изначально завести.
И подгрузить по небольшому 1-3 документа. в каждую а потом начать пакетом добавлять остальные.
Категории будут автоматически присваиваться загружаемым документам.
Переобучение, если система ошиблась, простое - просто сменить категорию файлу.

У бандарлогов нет закона.У них нет собственного наречия; они пользуются украденными словами, которые подслушивают, когда подглядывают за нами, прячась в ветвях. У них нет памяти. Они хвастаются, болтают, уверяют, будто они великий народ, готовый совершать

+0.01 / 1

АУ

Азъ
07 ноя 2023 15:03:15 ...

Азъ

07 ноя 2023, 15:03:15

46 лет

Слушатель

Карма: +0.40
Регистрация: 11.03.2011
Сообщений: 90
Читатели: 0

Дискуссия: Автоматическая категоризация документов

Цитата: gbooth от 07.11.2023 14:41:00Я почему ее не пробую (давно не пробую). Мне не интересно определять систему категорий и обучать алгоритм моему пониманию категорий. Мне интересно чтобы алгоритм сам сообщил что у меня Х категорий в корпусе.
А в моем случае задачу поиска это тоже не решает, так как могут быть пограничные случаи и вопрос относится к категории на стадии ростка, низкой кардинальной мощности (пока).
Но это не критика, ни в коем случае.

Это когда системы научаться понимать смысл.
С нашей помощью или без.
Тогда я к вам еще раз постучусь.

Отредактировано: Азъ - 07 ноя 2023 15:04:42

У бандарлогов нет закона.У них нет собственного наречия; они пользуются украденными словами, которые подслушивают, когда подглядывают за нами, прячась в ветвях. У них нет памяти. Они хвастаются, болтают, уверяют, будто они великий народ, готовый совершать

+0.00 / 0

АУ

adolfus
08 ноя 2023 12:09:19 ...

adolfus

08 ноя 2023, 12:09:19

Слушатель

Карма: +18.85
Регистрация: 12.02.2010
Сообщений: 11,948
Читатели: 2

Дискуссия: Автоматическая категоризация документов

Цитата: Егор А.Изотов от 06.11.2023 10:03:08Пока у Вас этих документов 10-20-30 - все, в основном, так. Как только их становится несколько сотен, несколько тысяч, несколько десятков тысяч,.. и все они относятся к различным типам, к различным категориям конфиденциальности,.. - все становится, мягко говоря, совсем непросто, как с точки зрения банального документооборота, делопроизводства, так и с точки зрения информационной безопасности - прежде всего.

Не вижу никакой связи категоризации и классификации с информационной безроопасностью (ИБ). ИБ – это отношение между перечнем ролей и перечнем действий. Это отношение безопасности устанавливается и поддерживается далее для каждого документа изначально владельцем документа с помощью встроенных средств платформы хранения (ОС+Спец ПС). Категории же -- это семантика, никакого отношения к ИБ не имеющая. Категории – это часть метаданных.
И самое главное – любой документ, подлежащий учету и хранению изначально имеет набор категорий, которые присваиваются документу в процессе его изготовления и сертификации теми, кто над ним работал. Ну и вопрос – а кто создает перечень категорий и на каком основании?

+0.00 / 0

АУ

qurvax
08 ноя 2023 14:25:05 ...

qurvax

08 ноя 2023, 14:25:05

Вильнюс

Слушатель

Карма: +13.42
Регистрация: 29.03.2017
Сообщений: 2,494
Читатели: 0

Дискуссия: Автоматическая категоризация документов

Цитата: adolfus от 08.11.2023 12:09:19Не вижу никакой связи категоризации и классификации с информационной безроопасностью (ИБ). ИБ – это отношение между перечнем ролей и перечнем действий. Это отношение безопасности устанавливается и поддерживается далее для каждого документа изначально владельцем документа с помощью встроенных средств платформы хранения (ОС+Спец ПС). Категории же -- это семантика, никакого отношения к ИБ не имеющая. Категории – это часть метаданных.
И самое главное – любой документ, подлежащий учету и хранению изначально имеет набор категорий, которые присваиваются документу в процессе его изготовления и сертификации теми, кто над ним работал. Ну и вопрос – а кто создает перечень категорий и на каком основании?

ИБ ширшее, чем только лишь RBAC, бывает всякое и разное. См. например поделие NSA известное нороту под кличкой SELinux. В терминальных стадиях как раз таки на классификации все и держиться. Ну и да, ваши понятия об ИБ очень хорошо иллюстрирует вот это вот "Это отношение безопасности устанавливается и поддерживается далее для каждого документа изначально владельцем документа", что есть ересь. В кговавых это определяется нормативкой, а поддерживается и проверяется на соответствие специально опучеными человеками. С использованием струментов (например openscap) или врукопашку - как Аллах пошлет.

Консервированный чужой. Осторожно запах!

+0.00 / 0

АУ

adolfus
09 ноя 2023 10:32:25 ...

adolfus

09 ноя 2023, 10:32:25

Слушатель

Карма: +18.85
Регистрация: 12.02.2010
Сообщений: 11,948
Читатели: 2

Дискуссия: Автоматическая категоризация документов

Цитата: Азъ от 07.11.2023 13:40:24Если захотите, попробуйте KDM.

kdm – KDE Display Manager?

+0.00 / 0

АУ

Поверонов
09 ноя 2023 13:43:28 ...

Поверонов

09 ноя 2023, 13:43:28

Слушатель

Карма: +38.54
Регистрация: 05.06.2010
Сообщений: 19,803
Читатели: 8

Дискуссия: Автоматическая категоризация документов

Цитата: gbooth от 07.11.2023 18:11:06Мне как раз смысл важен. Но для формирования содержательной карты корпуса текстов понимать смысл не надо. Либо современные алгоритмы NLP уже понимают смысл. Выбор из двух альтернатив определяется тем, что значит понимать смысл.
У меня пока нет собственной точки зрения относительно того, что значит «понимать смысл». Поделитесь вашей точкой зрения на значение этого словосочетания.

Вообще говоря смысл понятия ( токена ) это совокупность его отношений с другими понятиями.
Спектр таких отношений открыт, но базисные известны ( родо-видовые, координатные и т.д )
Смыслы постигаются образованием и дополняются личным опытом. LL-модели потенциально приближаются к пониманию смыслов так как вычисляют в процессе обучения отношения между токенами. Но поскольку обучение LL-моделей производится на ограниченном и случайном материале, их смысловая модель формируется непредсказуемо урезанной ( отсюда - глюки )

+0.00 / 0

АУ

Поверонов
09 ноя 2023 14:30:23 ...

Поверонов

09 ноя 2023, 14:30:23

Слушатель

Карма: +38.54
Регистрация: 05.06.2010
Сообщений: 19,803
Читатели: 8

Дискуссия: Автоматическая категоризация документов

Цитата: gbooth от 09.11.2023 13:59:53Вообще говоря написание кода для вычисления смысла понятия как совокупности его отношений с другими понятиями является "экзаменационным" вопросом. Студент, если он хочет сдать предмет, должен написать такой алгоритм. Это не сложно. LLM-ка здесь не нужна.
.
Обучение неокортекса производится на еще более ограниченном и еще более случайном материале, так что смысловая модель хумана еще более урезана. ))
.
Главное другое - если алгоритм может сопоставить слову вектор из 300 чисел - значит он понимает смысл этого слова. Так?

полагаю что смысл гораздо более многомерен -
в словарях даже базисных более тысячи слов ( понятий ) и отношения между ними не одномерны ( вектор отражает лишь одно отношение = "следует за" ,что позволяет строить наиболее вероятностные последовательности токенов, то есть понимание на уровне попугая

Отредактировано: Поверонов - 09 ноя 2023 14:35:06

+0.00 / 0

АУ

Поверонов
09 ноя 2023 15:00:31 ...

Поверонов

09 ноя 2023, 15:00:31

Слушатель

Карма: +38.54
Регистрация: 05.06.2010
Сообщений: 19,803
Читатели: 8

Дискуссия: Автоматическая категоризация документов

Цитата: gbooth от 09.11.2023 14:46:15Обычный словарь текста включает порядка 10-100 тыс слов. Каждому слову сопоставляется вектор из 40-400 измерений. Понимание слова таким образом наложено на сетку из 40-400 координат.

для отражения отношений между понятиями должен быть набор матриц размерностью числа слов ( 10-100 тыс ) причем одна матрица на каждый вид отношений - таких отношений вероятно должно быть более сотни

+0.00 / 0

АУ

Азъ
09 ноя 2023 17:41:47 ...

Азъ

09 ноя 2023, 17:41:47

46 лет

Слушатель

Карма: +0.40
Регистрация: 11.03.2011
Сообщений: 90
Читатели: 0

Дискуссия: Автоматическая категоризация документов

Цитата: adolfus от 09.11.2023 10:32:25kdm – KDE Display Manager?

KnoDL Document Manager
Мы разрабатываем собственное тех ядро (KnoDL - Knowledge Definition Language), которое умеет работать с данными без знания структуры, без предварительной разметки и без нормализации. Не ломается при смене структуры у подаваемых данных.
Плюс эта технология не нейросетевая и не требует машинного обучения.
Умеем сопоставлять различные справочники между собой искать в справочниках дубли.
С этим тоже могу дать поиграться, висит сервис для друзей и демонстрации в облаке.
Вот демо ролик.

Как-то так...

У бандарлогов нет закона.У них нет собственного наречия; они пользуются украденными словами, которые подслушивают, когда подглядывают за нами, прячась в ветвях. У них нет памяти. Они хвастаются, болтают, уверяют, будто они великий народ, готовый совершать

+0.00 / 0

АУ

gvf
09 ноя 2023 18:43:52 ...

gvf

09 ноя 2023, 18:43:52

52 года

Слушатель

Карма: +14.53
Регистрация: 06.03.2012
Сообщений: 11,158
Читатели: 12

Дискуссия: Автоматическая категоризация документов

Цитата: Азъ от 09.11.2023 17:41:47Мы разрабатываем

Это стартап или есть вполне конкретный заказчик?

+0.00 / 0

АУ

Азъ
09 ноя 2023 19:13:30 ...

Азъ

09 ноя 2023, 19:13:30

46 лет

Слушатель

Карма: +0.40
Регистрация: 11.03.2011
Сообщений: 90
Читатели: 0

Дискуссия: Автоматическая категоризация документов

Цитата: gvf от 09.11.2023 18:43:52Это стартап или есть вполне конкретный заказчик?

Технология - стартап.
Идеи продуктов появляются по итогам различных общений,
Создаем "личинку" демонстратор. Показываем тем до кого можем дотянуться.
Если они говорят хотим, делаем.
KDM будем передаваться на следующей неделе заказчику.
Спектр применения технологии широкий, скоро будем делать "личинку" СППР с прямым обучением.
Кому-то будет интересно?)))

PS Идея KDM вообще возникла, из спора с сотрудниками одной госкорпорации, которые пытались меня убедить, что надо делать как на западе собирать большие онтологии для поиска связанной информации. Мы просто хотели показать, что связанность данных можно увидеть в моменте, не собирая громоздкие ресурсоемкие конструкции.

У бандарлогов нет закона.У них нет собственного наречия; они пользуются украденными словами, которые подслушивают, когда подглядывают за нами, прячась в ветвях. У них нет памяти. Они хвастаются, болтают, уверяют, будто они великий народ, готовый совершать

+0.00 / 0

АУ

adolfus
10 ноя 2023 01:48:31 ...

adolfus

10 ноя 2023, 01:48:31

Слушатель

Карма: +18.85
Регистрация: 12.02.2010
Сообщений: 11,948
Читатели: 2

Дискуссия: Автоматическая категоризация документов

Цитата: Азъ от 09.11.2023 17:41:47KnoDL Document Manager
Мы разрабатываем собственное тех ядро (KnoDL - Knowledge Definition Language), которое умеет работать с данными без знания структуры, без предварительной разметки и без нормализации. Не ломается при смене структуры у подаваемых данных.
Плюс эта технология не нейросетевая и не требует машинного обучения.
Умеем сопоставлять различные справочники между собой искать в справочниках дубли.
С этим тоже могу дать поиграться, висит сервис для друзей и демонстрации в облаке.
Вот демо ролик.

Как-то так...

Некрасиво красть аббревиатуры один-в-один – нужно немножко, хоть одну букву, но менять. Учитесь у Микрософт.
Думаю, в kde.org могут заинтересоваться вашим проектом.

Отредактировано: adolfus - 10 ноя 2023 01:53:24

+0.00 / 0

АУ

GrinF
10 ноя 2023 02:35:33 ...

GrinF

10 ноя 2023, 02:35:33

Слушатель

Карма: +73.98
Регистрация: 15.02.2018
Сообщений: 6,656
Читатели: 4

Дискуссия: Автоматическая категоризация документов

Цитата: gbooth от 09.11.2023 13:59:53Вообще говоря написание кода для вычисления смысла понятия как совокупности его отношений с другими понятиями является "экзаменационным" вопросом. Студент, если он хочет сдать предмет, должен написать такой алгоритм. Это не сложно. LLM-ка здесь не нужна.

.
Обучение неокортекса производится на еще более ограниченном и еще более случайном материале, так что смысловая модель хумана еще более урезана. ))
.
Главное другое - если алгоритм может сопоставить слову вектор из 300 чисел - значит он понимает смысл этого слова. Так?

феерично... епта...

+0.00 / 0

АУ

GrinF
10 ноя 2023 02:37:33 ...

GrinF

10 ноя 2023, 02:37:33

Слушатель

Карма: +73.98
Регистрация: 15.02.2018
Сообщений: 6,656
Читатели: 4

Дискуссия: Автоматическая категоризация документов

Цитата: Поверонов от 09.11.2023 14:30:23полагаю что смысл гораздо более многомерен -
в словарях даже базисных более тысячи слов ( понятий ) и отношения между ними не одномерны ( вектор отражает лишь одно отношение = "следует за" ,что позволяет строить наиболее вероятностные последовательности токенов, то есть понимание на уровне попугая

ну если конечно цель этого движнчка с llm - заменить торговок на базаре , и операторов служб безопасности всех банков ... то тогда да

+0.00 / 0

АУ

Азъ
10 ноя 2023 07:21:31 ...

Азъ

10 ноя 2023, 07:21:31

46 лет

Слушатель

Карма: +0.40
Регистрация: 11.03.2011
Сообщений: 90
Читатели: 0

Дискуссия: Автоматическая категоризация документов

Цитата: adolfus от 10.11.2023 01:48:31Некрасиво красть аббревиатуры один-в-один – нужно немножко, хоть одну букву, но менять. Учитесь у Микрософт.
Думаю, в kde.org могут заинтересоваться вашим проектом.

У кого украли?
вы KDM (KDE display manager) в кедах?

А этим аббревиатурам как быть?
Knowledge Discovery Metamodel (KDM)
Key Delivery Message (KDM)
KDM POP Solutions Group
список можно продолжать до бесконечности

Ими всеми интересуется KDE?

Отредактировано: Азъ - 10 ноя 2023 07:38:37

У бандарлогов нет закона.У них нет собственного наречия; они пользуются украденными словами, которые подслушивают, когда подглядывают за нами, прячась в ветвях. У них нет памяти. Они хвастаются, болтают, уверяют, будто они великий народ, готовый совершать

+0.03 / 2

АУ

qurvax
10 ноя 2023 11:05:18 ...

qurvax

10 ноя 2023, 11:05:18

Вильнюс

Слушатель

Карма: +13.42
Регистрация: 29.03.2017
Сообщений: 2,494
Читатели: 0

Дискуссия: Автоматическая категоризация документов

Цитата: Азъ от 09.11.2023 19:13:30Технология - стартап.
Идеи продуктов появляются по итогам различных общений,
Создаем "личинку" демонстратор. Показываем тем до кого можем дотянуться.
Если они говорят хотим, делаем.
KDM будем передаваться на следующей неделе заказчику.
Спектр применения технологии широкий, скоро будем делать "личинку" СППР с прямым обучением.
Кому-то будет интересно?)))

PS Идея KDM вообще возникла, из спора с сотрудниками одной госкорпорации, которые пытались меня убедить, что надо делать как на западе собирать большие онтологии для поиска связанной информации. Мы просто хотели показать, что связанность данных можно увидеть в моменте, не собирая громоздкие ресурсоемкие конструкции.

Мне, например. Научить это с лету жрать разнокалиберные логи и выплевывать упорядоченное - голубая (в хорошем смысле) мечта. Пока обещали многие, но не справился никто.

Консервированный чужой. Осторожно запах!

+0.00 / 0

АУ