Думаю, ни для кого на этом форуме не секрет, какой силой обладает пропаганда, насколько сложно бывает отличить правду ото лжи, особенно если это касается политики. У меня довольна давно в голове вертелась идея о том, как можно значительно облегчить поиск и распространение достоверной информации, и затруднить, соответственно, пропаганду ложной. Сегодня, наконец, заставил себя собрать мысли и оформить. Просьба прокомментировать, насколько это ново, реализуемо, применимо и т.д.
Открытая производная субъективная оценка - это метод поиска, структуризации и верификации информации. Собственно, ее идея очень проста. Дать возможность автоматически конструировать оценки на основе других оценок.
Имеется в виду следующее. Создается система, позволяющая выставить оценку чему-то - статье, страницы, сайту, мнению, человеку, организации и т.д.
Для простоты допустим, что оценка - это числовое значение, оценивающее, насколько "нравится" оценивающему объект оценки. Далее, кто-то может заметить, что есть люди, которым нравится то же, что и ему. Он описывает правило, которое позволяет выводить оценку на основе оценок этих людей. Например, может браться среднее значение их оценок. Правила могут быть чуть более сложными - скажем, чьим-то голосам будет даваться больший вес, чем другим. Оценка, полученная с использованием таких правил - это "производная" оценка, оценку же, выставленную "вручную" будем называть "исходной". Производную оценку может использовать сам автор правила, чтобы примерно определить, насколько "понравится" ему что-либо, без необходимости проверять все самому. Но он может также сделать эту оценку открытой для других, и тогда уже другие пользователи смогут создавать свои производные оценки на основе в том числе и его производной оценки. Это позволяет строить и настраивать "под себя" правила, учитывающие прямо или опосредованно мнение практически неограниченного количества человек. Как "исходные" так и "производные" оценки, полученные таким образом отражают интерес к объекту с точки зрения определенного субъекта - автора оценки или правила. Поэтому такие оценки называются "субъективными".
Совокупность правил, созданных и используемых каким-то человеком является, в некотором роде, его дублером ("дублем") в сети, который "знает" о его предпочтениях и может принимать решения, близкие к тем, которые принял бы сам человек, хотя и в очень ограниченной области.
Имея представления о нейронных сетях, несложно заметить, что получившаяся система является одной из них, а каждое правило - это нейрон в этой сети. Особенностью этой сети является то, что у каждого "нейрона" есть хозяин, и сеть в целом создается и модифицируется многими людьми. При этом практически полностью исключена возможность как-то ее саботировать - невозможно как-то "испортить" чужие правила, а заведомо ложные оценки и правила просто не будут (или перестанут) использовать.
Как видим, система позволяет при минимальных накладных расходах определить "интересность", например страниц в Интернете со сколько угодной точностью, в зависимости от "качества" правил и авторов оценок, на которые эти правила опираются. Причем интересность субъективную, соответствующую индивидуальным представлениям и ценностям. Разумеется, как правило мы ищем в интернете не просто "что-то интересное", а материал на какую-то определенную тему. Тогда производную оценку можно использовать совместно с "классическими" поисковиками, которые анализируют текст страницы на наличие ключевых слов. В этом случае производная оценка может, например, отсортировать найденные страницы по субъективной "интересности".
Техническая реализация. И оценки, и правила имеют очень простую структуру.
Оценка состоит из идентификатора оцениваемого объекта, собственно оценки "интересности" или каких-то других свойств объекта, и идентификатора оценивающего. В самом простом виде это просто строчка, содержащая URI (в качестве идентификатора объекта), число (в качестве оценки) и цифровую подпись оценивающего. В таком виде оценка не может быть подделана, однако может быть скопирована, сохранена, передана и использована любым мыслимым способом. Например, она может выкладываться на разные сайты, передаваться через e-mail, через p2p сети и так далее. После публикации она становится практически неуничтожимой, что может быть для автора как преимуществом, так и, в некоторых случаях, недостатком - если эта оценка ошибочна или ложна.
Возможен вариант, когда в качестве идентификатора автора служит его аккаунт на каком-то ресурсе, и этот же ресурс служит гарантом подлинности, по аналогии с Digg-ами, StumbleUpon-ами и десятками других аналогичных сервисов. Такой способ не требует использования цифровой подписи, но сильно ограничивает возможности по использованию оценки и делает ее зависимой от технической и этической надежности этого ресурса. С другой стороны, это дает возможность "уничтожать" неудобные оценки.
Представление правил тоже несложно. Например - просто список источников с числовыми весами, плюс цифровая подпись автора оценки. Источники могут быть идентифицированы, скажем, их открытыми ключами, которые позволяют найти и проверить подлинность их оценок.
В реализации без цифровой подписи ссылка на источник - это их идентификатор на ресурсе - например, логин или номер.
Далее будем называть те оценки и правила, которые общедоступны "в исходниках", не привязаны к одному интернет-ресурсу, используют цифровую подпись или ее аналог для удостоверения подлинности, "открытыми", по аналогии с "открытым исходным кодом". Если они привязаны к какому-то ресурсу, то они "проприетарные". Также могут использоваться "секретные" правила и оценки, предназначенные исключительно для личного использования.
Открытые правила (и, в некоторых случаях), оценки, могут содержать временные рамки, в которых они действительны.
Идентификатор автора оценки или правила совершенно не обязательно должен соответствовать какому-то определенному человеку. Более того, для сохранения конфиденциальности не рекомендуется афишировать какой человек какому "автору" соответствует. Кроме того, один человек может использовать несколько различных идентификаторов, например, для оценок и правил, относящихся к разным сферам интересов и имеющих разную степень "надежности".
Гарантом "правильности" оценки или правила являются прошлые оценки или правила того же автора. Ошибочность, нерегулярность оценок может быть причиной отказа от их использования в правилах. Ангажированность оценки может сделать в некоторых случаях автора более интересным, по крайней мере, среди людей со схожим мировоззрением. Если автор в течении некоторого времени выставляет точные оценки, то все большее число людей начинают использовать его оценки в своих правилах. Можно сказать, что у этого автора появляется репутация эксперта, причем в данном случае эту репутацию можно точно измерить и анализировать.
Заметим, что правила и оценки - "декларативны", т.е. это не какой-то сервис, выдающий оценку, а данные, на основе которой эта оценка может быть определена. Если они проприетарны, то вычисление проводит ресурс, на котором они опубликованы. Если они открыты, то это может делать какой-то публичный сервер. Также это может делать и программа на компьютере пользователя, но это может быть затруднительно, если используются правила, учитывающие (прямо или опосредованно) очень большое количество оценок. Однако, это может быть наилучшим вариантом для "секретных" оценок.
Насколько такая система сложна в использовании. Выставление оценок может быть очень простым, аналогично уже упомянутым Digg-оидам. Для проприетарных оценок это может быть просто клик на ссылке. Открытые оценки могут потребовать, например, плагина к броузеру, но позволят оценивать любые страницы одним кликом, и позволят полностью скрыть закрытый ключ, используемый в подписи, от кого-либо. Также следует при этом помнить, что ошибочные оценки может существенно испортить репутацию оценивающего. С другой стороны, постоянно точные оценки делают "голос" оценивающего гораздо более значимым, чем просто +1 безликий голос в традиционных системах.
Сложность составления правил может сильно варьироваться в зависимости от требовательности составителя. В простейшем варианте это не сложнее, чем "френдование" в livejournal, facebook или аналогичных системах. Однако, возможна и более "тонкая" настройка правил, в зависимости от требований к ней. Когда правило дает оценку, не соответствующую критериям автора правила, может понадобится анализ причин, по которым такая оценка была получена. Для этого могут быть полезен как анализ чужих правил, которые используются опосредованно, так и исходных оценок, которые прямо или опосредованно были использованы. Это позволит изменить правило так, чтобы оно было более точным, либо понять и согласиться с оценкой, которая казалось неправильной, и, возможно, даже изменить свои критерии "правильности". Таким образом, не только человек может менять своего "дубля", но и "дубль" может иногда менять своего автора.
Исходная оценка или правило могут содержать комментарий, объясняющий почему они именно такова. Это также может помочь в определении причин тех или иных производных оценок и в оптимизации правил.
Правила могут генерироваться автоматически в зависимости от исходных оценок и другого поведения человека. Например, может использоваться поиск пользователей, которые выставляют оценки схожим образом, и правило будет построено на основе их оценок.
Многие существующие методы сетевого общения могут быть сделаны более эффективными с использованием производных оценок.
Например, wiki без администраторов, вандализма и войн правок. Может существовать сколько угодно вариантов страницы одновременно (или даже частей страницы) - с помощью производной оценки каждый может получить тот вариант, которые его наиболее устраивает.
Другая область использования - форум без модераторов, спама и троллей. Функции модерации может выполнять производная оценка - посты с низкой или отрицательной производной оценкой будут просто не показываться. Также можно, например, сортировать ответы на какой-то вопрос по "интересности". В некотором роде получается, что на таком форуме каждый может быть модератором и выбирать модераторов для себя.
Другой способ использования производных оценок - это augmented browsing, т.е. плагин для браузера, который "улучшает" показываемые им страницы. Например, он может отмечать разным цветом ссылки в зависимости от их "интересности", менять порядок вывода результатов в поисковиках, скрывать ненужную информацию и т.д.
Использование более сложных оценок, чем просто числовое значение, несколько усложняет их использование, но дает много новых интересных возможностей.
Например, оценка может содержать ключевые слова, описывающие тематику материала, связи его с другими материалами и т.д. Говоря проще - в качестве оценки может быть использован один из вариантов RDF, используемых в Semantic Web (или - объектом оценки может быть RDF, который содержит всю необходимую информацию - это примерно то же самое с практической точки зрения). Это позволит, например, не просто получить информацию, что какой-то материал "неинтересен" или "ложен", но и о том, что именно в нем неправильно и где можно получить более точную или полную информацию по аналогичному вопросу.
Другие способы использования таких оценок практически повторяют предполагаемую сферу использования Semantic Web, с тем отличием, что в этом случае разрешены некоторые из проблем Semantic Web - например, проблема достоверности метаданных. Достигается это за счет замены недостижимой "объективной" достоверности на "субъективную" достоверность, которая определяется с помощью производных оценок. Это в свою очередь позволяет добавлять к веб-страницам семантическую информацию не только "хозяину" страницы, а кому угодно, что делает все существующие веб-ресурсы потенциально совместимыми с Semantic Web.
Первоуральск, 22 июля 2010