Цитата: Азъ от 03.03.2021 18:59:53... успешно завершилась первая фаза создания собственной среды разработки и одновременно системы хранения данных.
...
создание эффективного инструмента для работы с данными, который позволит объединить несколько источников данных в одну аналитическую систему, включая интерпретацию естественного текста.
Прошу прощения, но я пока не могу понять какого рода ПО Вы создаёте.
1) Среда разработки - это в Вашем проекте, собственный компилятор/интерпретатор, какой то фреймворк библиотек или функций? или это блокнот с автоподсказкой синтаксиса?
2) Система хранения данных - это серьёзно, снимаю шляпу! Судя по Вашему посту, все внешние источники подвергаются некоей обработке и конвертации в "ваш формат" перед сохранением?
ЦитатаПользователь сможет работать с данными (делать запросы и получать ответы) без предварительного знания их структуры, синтаксиса, количества источников, что даст возможность в будущем работать с системой в том числе и непрограммистам.
3) Судя по этой строчке Вы решили написать яндекс/гугл поиск собственной разработки? Который будет обрабатывать данные сохранённые в Вашей системе хранения?
Цитата- берём JSON с эпизодами сериала
- file: /DataSets/2020_1217/The Big Bang Theory (CBS) pretty.json
- загружаем через интерфейс – получаем связанные узлы, в т.ч. отдельных эпизодов
4) Вы берёте однородные данные из разных источников? Если нет, то у Вас не получается связанных узлов, так как загруженный json сериала, поваренная книга моей бабушки и модный бульварный порно роман, дадут Вам потрясающее количество совпадений по словам. Если же Вы привязываетесь "совпадения только в структуре" - то может быть ситуация когда не будет ни одного совпадения по структуре, например с json мультфильма "Чип и Дейл спешат на помошь" и учебником физики за 8 класс.
Цитата- можем загрузить и другой подобный файл -- увидеть, что сезоны в т.ч. "магнитятся" друг у
другу
- т.е. явно уже возникает ассоциативная связь -- тут делаем акцент (она возникает автоматически
из-за одинаковых слов в структуре)
5) Коллега, возможно не стоит замахиваться на самого Вильяма, так сказать, Шекспира? "Магнитятся" и сходятся пока они исключительно на Вашем наборе данных.
ЦитатаКаши не будет, т.к. мы только текст на слова разбираем, остальные связи не автоматические.
6) Опять непонятка, вроде бы сверху зарождается мощнейщая система обработки данных, со своей системой хранения, средой разработки, некоей предполагаемой системой анализа и интерпретации содержимого, которая позволит выявлять какие то связи в автоматическом режиме на большом массиве случайных данных. К слову, какую часть подготовки интерпретации Вы делаете на этапе получения данных в систему, до начала "целевых" запросов?
Заранее прошу прощения, возможно я задаю слишком много вопросов в надежде на чудо...
Просто на текущем этапе описания, всё что Вы написали и нечто большее умеют делать "большие" СУБД из коробки. Например, тот же мсскуль.
К слову, просто разбивать на слова малоэффективно, потому что ещё есть такие явления как "контекст" и "словоформа", как с этим обстоят дела в Вашем проекте?
ЦитатаДругие связи нарабатываются, когда выполняются запросы.
Стратегия оптимизации у нас заключается в том, чтобы результаты уже выполненных запросов переиспользовать. Речь о микро задачах на которые распадается каждый запрос.
А можно ли пример запроса? Пытаюсь себе представить и не могу...
- На наборе СЛУЧАЙНЫХ НЕСТРУКТУРИРОВАННЫХ данных Вашу систему запросят например так "шёл дождь".
- Структуры - никакой.
- Есть некое абстрактное поле данных, определённым образом обработанное Вашей системой.
- Есть какие то внутренние данные и связи, которые Вы должны были сгенерировать на основе анализа.
Соответственно, получив такой запрос, Вы генерируете некоторые процедуры выборки/обработки данных(микрозадания), которые тут же необходимо сохранить, без привязки к данным. Вероятно, у Вас должна быть развитая подсистема алгоритмизации запросов, способная распознавать типы подставляемых параметров и генерировать динамические конструкции на их основе.
А вот что является результатом обработки запроса, я, пока, даже подключив фантазию, измыслить не могу. Вы что вернёте то? Облако мест вхождения данного словосочетания? Страницы текста? Поток данных?
Заметьте, у условного "Яндекса" - задача проще. Он всего лишь должен проверить свои БД на вхождение слов+словоформ+выдачу генерированных связанных слов по базе текста. И результат - список ссылок, где рейтинг отобранных данных превышает некий порог вхождения.
Цитата: qurvax от 09.03.2021 22:05:52"... Современные развертывания мелкомягкого сикуля, с некоторыми из которых я интимно знаком, изобилуют подводными камнями, летающими граблями и еще заминированны, на всякий, блин, случай.
Позвольте поинтересоваться, про какие непотребства речь?
Волею долга плотно работаю со многими СУБД и наиболее часто именно с MS SQL начиная с 2008, кончая последним. Работаю на всех уровнях, от проектирования информационных систем, промышленной эксплуатации, до архитектуры баз данных и программирования. Каюсь, только начал осваивать машинное обучение на этой СУБД и базы графов (так как в реальных проектах пока не используем), но за все эти годы, как то минули меня печали "подводных камней", особенно с развёртыванием. Возможно, я не заметил какой то важный скелет в шкафу?