Цитата: ConstB от 19.12.2017 16:17:07Я, в отличии от идеи Авантюриста, хочу выстроить дерево исходя из наработанного на практике, т.е. из тех веток что сейчас есть, а не создавать структуру впереди дискуссий. Если есть ветки на социологическую тему, то можно объединить в раздел.
Кстати, ахмади, хороший момент для объединения веток!
Что-то все равно без выстроенного вручную дерева у меня не получается.
В качестве примера, (чтоб понять что нужно сделать, а то не понятно все равно) попробовал расставить тэги по некоторым веткам для "Политического раздела" (которые обновлялись в этом разделе за последние 2 года):
- Есть список веток в виде файла csv, который открывается обычным редактором таблиц. Для некоторых веток политического раздела добавлены тэги (в крайние правые столбцы tag1 tag2 tag3) : topics_all.csv. То есть человек с ним работает и расставляет тэги.
- Для того чтобы оценить что получается, как раскидываются ветки генерируется вьюшка, вот как раз для этого понадобилось дерево tree.md (составлено человеком), в котором тэги расставлены иерархически ручками. (возможна сериализация и десериализация в csv)
- С помощью двух этих исходных файлов после проверки соответствия тэгов сгенерирован (check.ipynb) пример view-шки, что получается: topics_generated.md
Вопросы и неясности:
- Что дальше? Что должно получиться в итоге? Правильное ли направление движения?
- 'дерево тэгов' (в моем понимании) == 'указатель дискурсов' или есть нюансы?
- Как я понял из выше написанных сообщений: так как к ветке могут быть привязаны несколько тэгов, то ветка может одновременно попасть в несколько каталогов (Например Донбасс - его жизнь и судьба попадает и к России и к Украине).
- Как я понял из выше написанных сообщений: К каталогу, например "Россия", может быть привязана ветка (например ПРР), но только одна. (добавить столбец в csv файл? или как?)
- Пока что в рамках раздела, в дереве, тэги уникальны. То есть тэг США в "Политическом разделе" может быть в дереве только не более одного раза (а ведь можно придумать случаи, когда потребуется чтоб какой-то тэг в дереве встречался более одного раза)
А вот чтобы строить
иерархию автоматически исходя из наработанного без дерева, то есть только на основе main_topics.csv ( + названия, тэгов, и, например, на основе текста первых двадцати сообщений и других данных), то нужно что-то типа
тематического моделирования (рекомендую просмотреть лекцию) которое поддерживает динамику, или что-то еще. Но это пока сложно.
Теперь насчет workflow.
Если хотя бы на 50% направление верно (но после обсуждения), то можно брать/скачивать .csv файлы и пробовать дальше расставлять теги, можно форкиться или пулриквестивать. Расставить тэги ко всем веткам я, конечно, не смогу (о ветках и представления-то не имею, кто и что там чего обсуждал или обсуждает), Особенно много топиков на "Пользовательских разделах" (половина веток, 800 из 1600) понятно что все ветки пока не нужно и некоторые старые, но все таки желательно охватить (так как потом возможно будет обучение, чтоб автоматически классифицировать документ). Начать, кмк, для примера лучше с двух-трех разделов (чтоб учесть проблему общих тем между разделами).
Для оценки времени: всего веток на форуме 1596, включая заблокированные, если на каждую (а каждую не нужно) тратить 5-10 секунд, то тэгирование займет 2-4 часа. Соответственно создается файл дерева tree.md (одновременно, а может быть и раньше, а может быть и позже).
И все равно, до конца не понимаю результат и зачем все это нужно. Самое непонятное куда отнести ветку "Путин" которая на пользовательских, как протэгировать понятно.