IT в России и мире в реалиях мирового кризиса

1,278,932 7,803
 

Азъ
 
russia
46 лет
Слушатель
Карма: +0.35
Регистрация: 11.03.2011
Сообщений: 89
Читатели: 0
Потихоньку и успешно завершилась первая фаза создания собственной среды разработки и одновременно системы хранения данных.
Получилось очень интересно Подмигивающий
Когда начинали проект, ставили такую задачу, создание эффективного инструмента для работы с данными, который позволит объединить несколько источников данных в одну аналитическую систему, включая интерпретацию естественного текста. Базовой опцией будет возможность подключения нескольких источников данных с различной структурой, таких как: SQL (с табличной формой), NoSQL (как XML / JSON), неотформатированные тексты. Пользователь сможет работать с данными (делать запросы и получать ответы) без предварительного знания их структуры, синтаксиса, количества источников, что даст возможность в будущем работать с системой в том числе и непрограммистам. 

Для тестов ставили себе вот такую задачу и она решена.

- берём JSON с эпизодами сериала 
  - file: /DataSets/2020_1217/The Big Bang Theory (CBS) pretty.json 
  - загружаем через интерфейс – получаем связанные узлы, в т.ч. отдельных эпизодов 
  - можем загрузить и другой подобный файл -- увидеть, что сезоны в т.ч. "магнитятся" друг у 
другу 
  - т.е. явно уже возникает ассоциативная связь -- тут делаем акцент (она возникает автоматически 
из-за одинаковых слов в структуре) 
  - делаем запрос типа "siblings" со входными данными [ "season 1 number 1", "season 1 number 2" ] 
  - мы получим список сезонов обоих фильмов -- их в этом случае не отделить друг от друга 
  - даже не разделённые, это отличный результат, т.к. мы вообще не сообщали системе о входной 
структуре ничего 
  - можно добавить в элементы запроса название сериала -- должны остаться только сезоны 
именно этого сериала 
  - такие данные на вход: [ "The Big Bang Theory (CBS) season 1 number 1", "The Big Bang Theory (CBS) season 1 number 2" ] 

Сейчас проходим тест уже на промышленных данных.
У бандарлогов нет закона.У них нет собственного наречия; они пользуются украденными словами, которые подслушивают, когда подглядывают за нами, прячась в ветвях. У них нет памяти. Они хвастаются, болтают, уверяют, будто они великий народ, готовый совершать
  • +0.15 / 8
Podli
 
belarus
Минск
38 лет
Слушатель
Карма: +5.51
Регистрация: 19.03.2016
Сообщений: 1,270
Читатели: 0
Цитата: Азъ от 03.03.2021 18:59:53- т.е. явно уже возникает ассоциативная связь -- тут делаем акцент (она возникает автоматически 
из-за одинаковых слов в структуре) 
  - делаем запрос типа "siblings" со входными данными [ "season 1 number 1", "season 1 number 2" ] 
  - мы получим список сезонов обоих фильмов -- их в этом случае не отделить друг от друга 
  - даже не разделённые, это отличный результат, т.к. мы вообще не сообщали системе о входной 
структуре ничего 
  - можно добавить в элементы запроса название сериала -- должны остаться только сезоны 
именно этого сериала 
  - такие данные на вход: [ "The Big Bang Theory (CBS) season 1 number 1", "The Big Bang Theory (CBS) season 1 number 2" ] 

Сейчас проходим тест уже на промышленных данных.

А как оно поведет себя, когда у вас будет много данных? 
ПМСМ если ентой штуке скормить пакет технической документации какого-нить проекта - на выходе будет неудобоваримая каша. Просто потому что куча автоматических ассоциативных связей тут будет вредной.
Как обстоят дела с поиском? При небольшом числе записей тысяч в 200 - сколько оно результат запроса формировать будет? Сколько запросов в секунду переварит?
  • +0.06 / 4
Азъ
 
russia
46 лет
Слушатель
Карма: +0.35
Регистрация: 11.03.2011
Сообщений: 89
Читатели: 0
Цитата: Podli от 03.03.2021 19:14:48А как оно поведет себя, когда у вас будет много данных? 
ПМСМ если ентой штуке скормить пакет технической документации какого-нить проекта - на выходе будет неудобоваримая каша. Просто потому что куча автоматических ассоциативных связей тут будет вредной.
Как обстоят дела с поиском? При небольшом числе записей тысяч в 200 - сколько оно результат запроса формировать будет? Сколько запросов в секунду переварит?

тут ответ нужно на две части делить
1я - как оно может себя вести чисто теоретически
2я - как легко можно оптимизировать работу и для какого уровня
Каши не будет, т.к. мы только текст на слова разбираем, остальные связи не автоматические. Другие связи нарабатываются, когда выполняются запросы.
Стратегия оптимизации у нас заключается в том, чтобы результаты уже выполненных запросов переиспользовать. Речь о микро задачах на которые распадается каждый запрос.
У нас малая вариативность таких задач, это типа ARM, мало инструкций...
У бандарлогов нет закона.У них нет собственного наречия; они пользуются украденными словами, которые подслушивают, когда подглядывают за нами, прячась в ветвях. У них нет памяти. Они хвастаются, болтают, уверяют, будто они великий народ, готовый совершать
  • +0.02 / 1
adolfus
 
Слушатель
Карма: +21.83
Регистрация: 12.02.2010
Сообщений: 11,239
Читатели: 2
Цитата: Азъ от 03.03.2021 18:59:53Потихоньку и успешно завершилась первая фаза создания собственной среды разработки и одновременно системы хранения данных.
Получилось очень интересно Подмигивающий
Когда начинали проект, ставили такую задачу, создание эффективного ... 
... возможность подключения нескольких источников данных с различной структурой, таких как: SQL (с табличной формой), NoSQL (как XML / JSON), неотформатированные тексты. Пользователь сможет работать с данными (делать запросы и получать ответы) без предварительного знания их структуры, синтаксиса, количества источников, что даст возможность в будущем работать с системой в том числе и непрограммистам.

Просто для справки – SQL создавался отнюдь не для программистов, а исключительног для пользователей, типа офисных работников, с трудом выучивших таблицу умножения.
  • -0.01 / 3
Азъ
 
russia
46 лет
Слушатель
Карма: +0.35
Регистрация: 11.03.2011
Сообщений: 89
Читатели: 0
Цитата: adolfus от 04.03.2021 01:05:37Просто для справки – SQL создавался отнюдь не для программистов, а исключительног для пользователей, типа офисных работников, с трудом выучивших таблицу умножения.

Согласен.
У бандарлогов нет закона.У них нет собственного наречия; они пользуются украденными словами, которые подслушивают, когда подглядывают за нами, прячась в ветвях. У них нет памяти. Они хвастаются, болтают, уверяют, будто они великий народ, готовый совершать
  • -0.03 / 1
qurvax
 
lithuania
Вильнюс
Слушатель
Карма: +11.85
Регистрация: 29.03.2017
Сообщений: 2,286
Читатели: 1
Цитата: adolfus от 04.03.2021 01:05:37Просто для справки – SQL создавался отнюдь не для программистов, а исключительног для пользователей, типа офисных работников, с трудом выучивших таблицу умножения.

"Сложность системы растет до тех пор, пока не превысит возможности програмиста", надеюсь помните. Современные развертывания мелкомягкого сикуля, с некоторыми из которых я интимно знаком, изобилуют подводными камнями, летающими граблями и еще заминированны, на всякий, блин, случай.
Консервированный чужой. Осторожно запах!
  • +0.03 / 1
adolfus
 
Слушатель
Карма: +21.83
Регистрация: 12.02.2010
Сообщений: 11,239
Читатели: 2
Цитата: qurvax от 09.03.2021 22:05:52"Сложность системы растет до тех пор, пока не превысит возможности програмиста", надеюсь помните. Современные развертывания мелкомягкого сикуля, с некоторыми из которых я интимно знаком, изобилуют подводными камнями, летающими граблями и еще заминированны, на всякий, блин, случай.

Я не про микрософт, а про стандарт. Который про SQL. И стандарт этот в парадигме чисто декларативного языка таки микрософтом поддерживается. А вот нужно ли было в SQL понапихать модных парадигм, типа xml и ооп, это вопрос неоднозначный – любой универсальный инструмент всегда проигрывает набору специализированных. Уже были попытки объять необъятное – сначала алгол, потом pl/1, на очереди c++ и sql. Можно уже забиваться, кто из них первый уйдет. 
  • -0.02 / 2
бардак с идеями
 
russia
Красноярск
51 год
Слушатель
Карма: +12.43
Регистрация: 08.08.2012
Сообщений: 5,004
Читатели: 1




ЦитатаО том, что часть серверов онлайн-«выживалки» от Facepunch Studios, стала недоступна, разработчики сообщили в ночь с 9 на 10 марта в официальном твиттере игры. Как оказалось, причиной технических неполадок стало возгорание в дата-центре OVHcloud — все серверы, находившиеся там, уничтожены, а хранившая информация утеряна безвозвратно.
В здании, полностью уничтоженном в результате происшествия, находились не только 25 серверов Rust, но и данные французских и европейских интернет-порталов — в их числе официальные сайты парижского Центра Помпиду, города Виши и аэропорта Страсбурга.
Возгорание произошло примерно в 0:45 по местному времени в одном из корпусов дата-центра, находящегося на побережье Райна. По данным местных СМИ, работники OVH не пострадали, однако огонь уничтожил пятиэтажное здание под кодовым названием SBG 2. Пожар пытались потушить в течение шести часов, и остальные корпуса удалось спасти.
https://dtf.ru/life/…ata-centre


Хакеры — огонь просто!
Отредактировано: бардак с идеями - 10 мар 2021 17:36:26
  • +0.03 / 1
Zkvxz
 
russia
Южный Урал
Слушатель
Карма: +49.19
Регистрация: 14.02.2017
Сообщений: 1,021
Читатели: 3
ОАО "РЖД" продолжает перевод информационной инфраструктуры холдинга на отечественное программное обеспечение. Компания закупила 22 тыс. лицензий на операционную систему общего назначения Astra Linux, включенную в Единый реестр российских программ для ЭВМ и баз данных Минкомсвязи.

Ранее в 2020 году ОАО "РЖД" и АО "Гринатом", ИТ-интегратор Росатома, заключили договор о развитии системы базовых сервисов внутренней ИТ-инфраструктуры Российских железных дорог с использованием отечественных программных продуктов. В рамках проекта создана и введена в опытную эксплуатацию единая система базовых информационных сервисов ОАО "РЖД", основанная на решениях компании Гринатом (ПО поддержки сетевых служб, централизованного управления автоматизированными рабочими местами и пр.).

Следующим этапом станет отработка технологии перевода автоматизированных рабочих мест, подключенных к единой внутренней системе ОАО "РЖД", на использование отечественной операционной системы. Миграция 5 тыс. автоматизированных рабочих мест сотрудников РЖД на ОС Astra Linux начнется в марте 2021 года. Остальные лицензии найдут применение в виртуальной инфраструктуре рабочих мест.
Источник
Будет али нет, а ты паши да сей. В лучшее верить надо!
  • +0.18 / 9
Slav Rus
 
russia
Самара
62 года
Слушатель
Карма: +1,031.99
Регистрация: 25.01.2016
Сообщений: 9,255
Читатели: 16

Модератор раздела

12 МАРТА 2021
Холдинг «Росэлектроника» Госкорпорации Ростех завершил модернизацию суперкомпьютера «Фишер», установленного в Объединенном институте высоких температур РАН (ОИВТ РАН). В аппаратную часть компьютера добавлено более 20 вычислительных узлов, за счет чего пиковая мощность выросла в 4,5 раза и теперь превышает 100 Тфлопс. 

После модернизации количество вычислительных узлов «Фишера» увеличилось почти в два раза – с 24 до 44, общее количество ядер превысило 3000. В суперкомпьютере используется российская система погружного охлаждения, обеспечивающая равномерную и энергоэффективную терморегуляцию при вычислительной нагрузке. Благодаря этому решению суперкомпьютер не требует специально подготовленных помещений. 
....
https://rostec.ru/ne…00-tflops/
Мы смеялись в глаза врагу… Хоть нас было всего двадцать восемь

Делай, что должно, и будь что будет.
  • +0.12 / 7
Luddit
 
Слушатель
Карма: +86.95
Регистрация: 27.09.2008
Сообщений: 22,941
Читатели: 2
Из комментов на хабре:
"Я как-то кинул своей подруге ссылку на файл весом 3 Гб со своей машины (по IP) в фейсбуке, и обнаружил по логам обращений, что сервер фейсбука из США скачал файл быстрее подруги. Хотя секретной информации там не было, интернет у меня безлимитный, поэтому ничего страшного."
  • +0.12 / 7
adolfus
 
Слушатель
Карма: +21.83
Регистрация: 12.02.2010
Сообщений: 11,239
Читатели: 2
Цитата: Luddit от 20.03.2021 09:14:16Из комментов на хабре:
"Я как-то кинул своей подруге ссылку на файл весом 3 Гб со своей машины (по IP) в фейсбуке, и обнаружил по логам обращений, что сервер фейсбука из США скачал файл быстрее подруги. Хотя секретной информации там не было, интернет у меня безлимитный, поэтому ничего страшного."

Супер. У меня. к сожалению, нет учетки ни в фейсбуке, ни на гугле, а то я бы создал бы гиг на сто файл из /dev/random, называл бы его, типа, rostech.database-2020.12.29.backup и отправил бы себе в облако. Пусть криптоаналитики в США потрахаются.
  • +0.13 / 7
Luddit
 
Слушатель
Карма: +86.95
Регистрация: 27.09.2008
Сообщений: 22,941
Читатели: 2
Цитата: adolfus от 22.03.2021 01:21:40Супер. У меня. к сожалению, нет учетки ни в фейсбуке, ни на гугле, а то я бы создал бы гиг на сто файл из /dev/random, называл бы его, типа, rostech.database-2020.12.29.backup и отправил бы себе в облако. Пусть криптоаналитики в США потрахаются.

Возможно про чистый рандом можно слишком быстро понять, что там нечего анализировать. Надо какие-то намёки на структуруУлыбающийся
  • +0.05 / 4
slavae
 
russia
Москва
Слушатель
Карма: +193.35
Регистрация: 21.03.2013
Сообщений: 27,057
Читатели: 6
Цитата: Luddit от 22.03.2021 10:47:12Возможно про чистый рандом можно слишком быстро понять, что там нечего анализировать. Надо какие-то намёки на структуруУлыбающийся

Заголовок правильный прилепить )
Империя - это мир, и этой идеологии достаточно. Мы живём в самой лучшей стране в мире и все нам завидуют.
Одушевлённое Одевают, Неодушевлённое Надевают.
  • +0.07 / 3
Senya
 
russia
55 лет
Слушатель
Карма: +324.46
Регистрация: 20.11.2008
Сообщений: 26,925
Читатели: 51

Глобальный Модератор
Цитата: slavae от 22.03.2021 12:10:12Заголовок правильный прилепить )

Прогнать через RAR с шифрованием.Улыбающийся
Но две засады вижу я тут. Сто гигабайт в облаке это уже за деньги, а платить Гуглу за наколку, на которую они возможно и не поведутся, удовольствие на любителя. А если поведутся и обидятся возможен технический сбой со случайным удалением аккаунта, так что на собственном тоже экспериментировать не стоит.
"Иван Грозный помещает на рабочий стол полученный от хана ярлык."(с) Не моё.
  • +0.14 / 9
alexx127
 
Слушатель
Карма: +0.08
Регистрация: 07.01.2021
Сообщений: 8
Читатели: 0
Цитата: Senya от 22.03.2021 16:38:16Прогнать через RAR с шифрованием.Улыбающийся
Но две засады вижу я тут. Сто гигабайт в облаке это уже за деньги, а платить Гуглу за наколку, на которую они возможно и не поведутся, удовольствие на любителя. А если поведутся и обидятся возможен технический сбой со случайным удалением аккаунта, так что на собственном тоже экспериментировать не стоит.

Идея не нова. Даже смотреть не станут. Думаю у них есть возможность открытые файлы поинтереснее смотреть, таким же образом, как все почтовые сервисы читают почту(но они это для показа "интересной" рекламы делают).
  • +0.00 / 0
Explorer-2000
 
canada
Слушатель
Карма: -76.02
Регистрация: 29.12.2015
Сообщений: 3,761
Читатели: 1

Аккаунт заблокирован
Цитата: adolfus от 22.03.2021 01:21:40Супер. У меня. к сожалению, нет учетки ни в фейсбуке, ни на гугле, а то я бы создал бы гиг на сто файл из /dev/random, называл бы его, типа, rostech.database-2020.12.29.backup и отправил бы себе в облако. Пусть криптоаналитики в США потрахаются.

Ну такое то даже до криптоаналитиков не дойдёт, раньше будет отброшено как не представляющее внимание.
  • +0.01 / 1
adolfus
 
Слушатель
Карма: +21.83
Регистрация: 12.02.2010
Сообщений: 11,239
Читатели: 2
Цитата: Luddit от 22.03.2021 10:47:12Возможно про чистый рандом можно слишком быстро понять, что там нечего анализировать. Надо какие-то намёки на структуруУлыбающийся

Не обязательно. Выход арифметического кодера, например, не обладает никакой структурой и неотличим от некоррелированного шума. То же самое и у цифрового сигнала со спутника, да что там спутника – даже сигнал с модема на линии неотличим от шума.
  • +0.01 / 1
Luddit
 
Слушатель
Карма: +86.95
Регистрация: 27.09.2008
Сообщений: 22,941
Читатели: 2
Цитата: Senya от 22.03.2021 16:38:16Сто гигабайт в облаке это уже за деньги, а платить Гуглу за наколку,

Там же человек писал - что со своей машины. Он поэтому и проследил, кто когда файл утягивал.
  • +0.00 / 0
Luddit
 
Слушатель
Карма: +86.95
Регистрация: 27.09.2008
Сообщений: 22,941
Читатели: 2
Цитата: adolfus от 23.03.2021 02:49:23даже сигнал с модема на линии неотличим от шума.

Раз второй модем может его принять, то очень даже отличим. Более того, раз речь про модемы - то еще и запросто может обладать избыточным кодированием.
  • +0.04 / 2
Сейчас на ветке: 12, Модераторов: 0, Пользователей: 2, Гостей: 4, Ботов: 6
 
small__virus , Михаил А.