Цитата: Егор А.Изотов от 06.11.2023 11:02:23Да, безусловно. Поэтому, прежде всего, "бардак" должен быть ликвидирован на уровне "бизнес-процессов".
"На том и стоим".
Цитата: Азъ от 06.11.2023 10:58:54Если знают, то нет смысла, могут руками делать.
Если всё же есть ошибки человеческого фактора, когда в команде есть секретари/джуны, которые имеют отношение к движению документов, то очень даже полезно, также полезно, когда часть документов грифована, и есть процедуры грифовки/разгрифовки
Цитата: Азъ от 06.11.2023 14:42:20Прошу прощения, но осмелюсь предположить, что вы не теряли документы, и не представляете, как другие их теряют.
И сейчас придумываете ситуации, которых в реале не встречаются.
Поправьте меня, если не прав.
Цитата: gbooth от 06.11.2023 16:28:22У меня есть личный корпус в 5000 заметок и мне интересно найти все заметки об одном и том же. Семантическое описание категорий возможно только после создания корпуса и осмысления всех категорий в корпусе. А список категорий - открыт принципиально. Корпус постоянно пополняется. Разумеется мне было бы интересно иметь движок, который бы по краткому описанию идеи находил все релевантные заметки в этом корпусе.
Цитата: gbooth от 07.11.2023 14:41:00Я почему ее не пробую (давно не пробую). Мне не интересно определять систему категорий и обучать алгоритм моему пониманию категорий. Мне интересно чтобы алгоритм сам сообщил что у меня Х категорий в корпусе.
А в моем случае задачу поиска это тоже не решает, так как могут быть пограничные случаи и вопрос относится к категории на стадии ростка, низкой кардинальной мощности (пока).
Но это не критика, ни в коем случае.
Цитата: Егор А.Изотов от 06.11.2023 10:03:08Пока у Вас этих документов 10-20-30 - все, в основном, так. Как только их становится несколько сотен, несколько тысяч, несколько десятков тысяч,.. и все они относятся к различным типам, к различным категориям конфиденциальности,.. - все становится, мягко говоря, совсем непросто, как с точки зрения банального документооборота, делопроизводства, так и с точки зрения информационной безопасности - прежде всего.
Цитата: adolfus от 08.11.2023 12:09:19Не вижу никакой связи категоризации и классификации с информационной безроопасностью (ИБ). ИБ – это отношение между перечнем ролей и перечнем действий. Это отношение безопасности устанавливается и поддерживается далее для каждого документа изначально владельцем документа с помощью встроенных средств платформы хранения (ОС+Спец ПС). Категории же -- это семантика, никакого отношения к ИБ не имеющая. Категории – это часть метаданных.
И самое главное – любой документ, подлежащий учету и хранению изначально имеет набор категорий, которые присваиваются документу в процессе его изготовления и сертификации теми, кто над ним работал. Ну и вопрос – а кто создает перечень категорий и на каком основании?
Цитата: gbooth от 07.11.2023 18:11:06Мне как раз смысл важен. Но для формирования содержательной карты корпуса текстов понимать смысл не надо. Либо современные алгоритмы NLP уже понимают смысл. Выбор из двух альтернатив определяется тем, что значит понимать смысл.
У меня пока нет собственной точки зрения относительно того, что значит «понимать смысл». Поделитесь вашей точкой зрения на значение этого словосочетания.
Цитата: gbooth от 09.11.2023 13:59:53Вообще говоря написание кода для вычисления смысла понятия как совокупности его отношений с другими понятиями является "экзаменационным" вопросом. Студент, если он хочет сдать предмет, должен написать такой алгоритм. Это не сложно. LLM-ка здесь не нужна.
.
Обучение неокортекса производится на еще более ограниченном и еще более случайном материале, так что смысловая модель хумана еще более урезана. ))
.
Главное другое - если алгоритм может сопоставить слову вектор из 300 чисел - значит он понимает смысл этого слова. Так?
Цитата: gbooth от 09.11.2023 14:46:15Обычный словарь текста включает порядка 10-100 тыс слов. Каждому слову сопоставляется вектор из 40-400 измерений. Понимание слова таким образом наложено на сетку из 40-400 координат.
Цитата: adolfus от 09.11.2023 10:32:25kdm – KDE Display Manager?
Цитата: gvf от 09.11.2023 18:43:52Это стартап или есть вполне конкретный заказчик?
Цитата: Азъ от 09.11.2023 17:41:47KnoDL Document Manager
Мы разрабатываем собственное тех ядро (KnoDL - Knowledge Definition Language), которое умеет работать с данными без знания структуры, без предварительной разметки и без нормализации. Не ломается при смене структуры у подаваемых данных.
Плюс эта технология не нейросетевая и не требует машинного обучения.
Умеем сопоставлять различные справочники между собой искать в справочниках дубли.
С этим тоже могу дать поиграться, висит сервис для друзей и демонстрации в облаке.
Вот демо ролик.
Как-то так...
Цитата: gbooth от 09.11.2023 13:59:53Вообще говоря написание кода для вычисления смысла понятия как совокупности его отношений с другими понятиями является "экзаменационным" вопросом. Студент, если он хочет сдать предмет, должен написать такой алгоритм. Это не сложно. LLM-ка здесь не нужна.
.
Обучение неокортекса производится на еще более ограниченном и еще более случайном материале, так что смысловая модель хумана еще более урезана. ))
.
Главное другое - если алгоритм может сопоставить слову вектор из 300 чисел - значит он понимает смысл этого слова. Так?
Цитата: Поверонов от 09.11.2023 14:30:23полагаю что смысл гораздо более многомерен -
в словарях даже базисных более тысячи слов ( понятий ) и отношения между ними не одномерны ( вектор отражает лишь одно отношение = "следует за" ,что позволяет строить наиболее вероятностные последовательности токенов, то есть понимание на уровне попугая
Цитата: adolfus от 10.11.2023 01:48:31Некрасиво красть аббревиатуры один-в-один – нужно немножко, хоть одну букву, но менять. Учитесь у Микрософт.
Думаю, в kde.org могут заинтересоваться вашим проектом.
Цитата: Азъ от 09.11.2023 19:13:30Технология - стартап.
Идеи продуктов появляются по итогам различных общений,
Создаем "личинку" демонстратор. Показываем тем до кого можем дотянуться.
Если они говорят хотим, делаем.
KDM будем передаваться на следующей неделе заказчику.
Спектр применения технологии широкий, скоро будем делать "личинку" СППР с прямым обучением.
Кому-то будет интересно?)))
PS Идея KDM вообще возникла, из спора с сотрудниками одной госкорпорации, которые пытались меня убедить, что надо делать как на западе собирать большие онтологии для поиска связанной информации. Мы просто хотели показать, что связанность данных можно увидеть в моменте, не собирая громоздкие ресурсоемкие конструкции.