IT в России и мире в реалиях мирового кризиса
1,416,608 8,485
 

  Longspig ( Слушатель )
08 июн 2021 21:45:15

... до мышей

новая дискуссия Дискуссия  718

Интересная статья на Хабре
Микрочипы становятся непредсказуемыми по мере уменьшения техпроцесса
до этого пробегала статья об уязвимости памяти DDR3 и DDR4 когда ячейки, при определеных интенсивных нагрузках "на соседей", меняют свое содержимое.
Ссылку не сохранил, но оригинал статьи называется:
Flipping Bits in MemoryWithout Accessing Them:
An Experimental Study of DRAM Disturbance Errors

.
В общем, основная парадигма цифровой техники - "любая программа запущеная сколько угодно раз с  одинаковымаи входными условиями, даст неизменный результат" трещит по всем швам.

От себя добавлю - новое поколение HDD (с SMR технологией). Seagate "впереди планенты всей" -  при невозможности отдать корректный сектор по причине нарушения внутренней трансляции адресов (у SMR трансляция двухуровневая), не взводит бит ошибки и выдает на шину некий постоянный паттерн, и что интересно - ненулевой (по состоянию регисторв - операция завершена успешно).
Отредактировано: Longspig - 08 июн 2021 22:15:27
  • +0.07 / 4
  • АУ
ОТВЕТЫ (44)
 
 
  gvf ( Слушатель )
08 июн 2021 23:25:40

Очевидная логика - HDD без RAID никому не упал. Чушь на выходе конкретного диска исправит логика рейда.
  • +0.05 / 2
  • АУ
 
 
  Senya ( Слушатель )
09 июн 2021 07:41:21

Пока уменьшение на микроуровне будет компенсировать дублирование на макроуровне. Ну и смотреть, как помехоустойчивое кодирование с избыточностью всей информации влияет на быстродействие.
  • +0.06 / 4
  • АУ
 
 
 
  gvf ( Слушатель )
09 июн 2021 09:55:53

Подозреваю, что ЦА этих штук провайдеры с сильно распределенными ФС типа гугла.
Там объем важнее времени и целостности, т.к. высокая степень дублирования
  • +0.03 / 1
  • АУ
 
 
 
  ps_ ( Слушатель )
09 июн 2021 11:22:40

Ну а что такого. Я вот, например, не помню точно что я делал год назад. И ничего, живу как-то Веселый
  • +0.03 / 1
  • АУ
 
 
  qurvax ( Слушатель )
09 июн 2021 14:04:50

Даааа? Ну есть у нас RAID1. Скраб словил разницу в данных. Который блин верный? Ась?
"Логика рейда" не про исправление чуши, а про собсно возможность чейта прочесть в принципе. Эх, реальность, бессердечная ты сукаГрустный
  • +0.02 / 1
  • АУ
 
 
 
  Поверонов ( Слушатель )
09 июн 2021 18:58:28

При таких делах дублирования недостаточно - потребуется голосование на троих. Заодно и сбыт возрастет - вместо дублирования - утроение
  • +0.03 / 2
  • АУ
 
 
 
 
  ps_ ( Слушатель )
09 июн 2021 19:04:06

Помнится мне показывали ИБМ-овский чип для сверх надежных вычислений. Там стояло два кора и КАЖДАЯ операция делалась на обоих.
Между ними стоял маленький модуль, который сравнивал результат и в случае несовпадения мог открутить назад и повторить операции, начиная с ошибочьной
  • +0.01 / 1
  • АУ
 
 
 
 
 
  Поверонов ( Слушатель )
09 июн 2021 21:29:13

Так можно компенсировать случайную временную помеху ( типа электромагнитной наводки ) но невозможно постоянное искажение на одном из сравниваемых источников - получится бесконечный цикл сравнений
  • +0.00 / 0
  • АУ
 
 
 
 
 
 
  Podli ( Слушатель )
09 июн 2021 21:42:56

Брак в ядре отлавливают на производстве специальными тестами. И чинят путем отключения дефектного ядра и объявлением ентого проца процом более дешевой серии с меньшим количеством ядер.
  • +0.01 / 1
  • АУ
 
 
 
 
 
 
 
  Longspig ( Слушатель )
09 июн 2021 22:45:41

Так по ссылке - нынешний брак таков, что уже не ловится на производстве.
Я в жизни встретил всего один случай брака процессора (286-й AMD не проходил тест флагов регистра состояния). По DRAM случаев уйма, а вот процессоры были "островом стабильности... были...
.
- Вовочка, предложение  - "я красива" это какое время?
- прошедшее, МарьВанна, прошедшее...
  • +0.02 / 2
  • АУ
 
 
 
 
 
 
 
 
  Podli ( Слушатель )
09 июн 2021 23:59:44

Хз, у нас проблемы с процессорами в разы реже, чем с памятью встречаются. Хотя и память вполне себе надежная штука, какие-либо веселости встречаются весьма редко. Процов многие тысячи, так что выборка вполне себе презентабельная. И да, я про недешевые сервера, а не про пользовательское железо.
  • +0.03 / 1
  • АУ
 
 
 
 
 
 
 
 
 
  Longspig ( Слушатель )
10 июн 2021 12:21:48

Вот вряд ли Facebook бюджетное железо для своих серверов использует. Да и наличие 59-го ядра о чем-то да говорит:
ЦитатаПосле нескольких повторений на устройстве исследователи поняли, что вычисление Int (1.1^53) в качестве входных данных для функции math.pow в Scala всегда выдаёт результат 0 на ядре 59 процессора. Когда они заменили вычисление на Int (1.1^52), программа выдала ожидаемый результат 142.
  • +0.03 / 1
  • АУ
 
 
 
 
 
 
 
 
 
 
  Podli ( Слушатель )
10 июн 2021 13:45:36

Бывает. 100% надежности нет нигде, так что по единичным случаям начинать кричать о всепропадании всеполимеров просто глупо.
  • +0.00 / 0
  • АУ
 
 
 
 
 
 
 
 
 
 
  gvf ( Слушатель )
10 июн 2021 14:32:35

Зависит от цены вопроса.
Гугль имеет высокую степень дублирования, чисто архитектурно, использует обычное дешевое железо, выход из строя и замена является плановыми операциями. Стоимость владения оказалась оптимальной именно в таком режиме.
Речь, понятное дело о кешах, дисках, не вычислительных ДЦ сдаваемых в аренду.
  • +0.07 / 4
  • АУ
 
 
 
 
 
 
  GrinF ( Слушатель )
10 июн 2021 01:40:45

это тоже все решаемо... булевы функции с избыточными проверочными цепями - позволяет даже с не надежными элементами добиваться надежного результата (ясен пень с какой-то вероятностью- но все фихические устройства работаю с какой-то вероятностью) 
  • +0.00 / 0
  • АУ
 
 
 
 
 
  qurvax ( Слушатель )
10 июн 2021 14:45:34

По уму - должно быть три, и "выборы тридвараса" путем большинства. Иначе возможна ситуация у ойтишнегов зовущаяся "сплит-брейн".
  • +0.03 / 1
  • АУ
 
 
 
 
 
 
  ps_ ( Слушатель )
10 июн 2021 20:43:18

Я говорю про то, что лично видел.
Это был конец 90-х и может быть три ядра было тяжело делать.

Там говорилось, что то по поводу финансовых вычислений и если процессоры полностью запутались, то самое надежное - это совсем остановить машину, чем считать неизвестно что Подмигивающий
  • +0.05 / 2
  • АУ
 
 
 
 
 
 
 
  gvf ( Слушатель )
10 июн 2021 21:23:58

Все верно, задача компаратора выявить неисправный проц, а не правильно посчитать (довести самолет до посадки в аэропорту - "три датчика угла атаки" (с))
  • +0.07 / 3
  • АУ
 
 
 
 
 
 
 
 
  Longspig ( Слушатель )
10 июн 2021 23:02:00

А что, так можно было? (с) Боинг 737 Max
  • +0.00 / 0
  • АУ
 
 
 
 
 
 
 
 
  GrinF ( Слушатель )
11 июн 2021 11:24:38

Компаратор нисколько не поможет выявить несправный процессор. Он только говорит что данный шаг вычисления некорректный, ибо процессора только 2 и неизевстно кто лажанулся и по какой причине...
  • +0.04 / 3
  • АУ
 
 
 
 
 
 
 
 
 
  gvf ( Слушатель )
11 июн 2021 11:40:41

Вероятность ошибки в проце это миллиардные доли, совершенно неважно какой из двух и по какой причине, важен сам факт ошибки в одном из, и это уже достаточное основание для замены.
Никто не будет разбираться в чем причина ошибки, тем более что речь не о сути самой ошибки (т.е. ошибки в микрокоде приводящие к неверному результату но синхронно на обоих процах не являются поводом для замены), а только в несовпадении результатов двух полностью идентичных.
  • +0.03 / 1
  • АУ
 
 
 
 
 
 
 
 
 
 
  ps_ ( Слушатель )
11 июн 2021 12:16:17

Миллиардные доли при тактовой частоте около гигагерца - это ошибка раз в секунду Веселый
Насколько я понимаю, там боролись против ошибок наведенных высокоэнергетическими частицами.
В общем то, и ECC в память ставят для этого.
  • +0.05 / 3
  • АУ
 
 
 
 
 
 
 
 
 
 
 
  gvf ( Слушатель )
11 июн 2021 14:18:01

Смотря от чего считать.
Число выполненных операция меня в данном контексте никак не парит.
А вот срок эксплуатации в 5-7 лет на количество установленных процов, таки да, и выражается в конкретной сумме договорных обязательств, включая гарантийную замену.
  • +0.02 / 1
  • АУ
 
 
 
 
 
 
 
 
 
 
 
  mse ( Слушатель )
11 июн 2021 18:50:11

Если у процессора ошибки раз в секунду, то это уже не работа. Даже раз в день, это недопустимо.
  • +0.02 / 1
  • АУ
 
 
 
 
 
 
 
 
 
 
  GrinF ( Слушатель )
12 июн 2021 01:18:49

чушь ... процессорможенаходся в у словиях в которых невоможназамена-напрмер недалечеодерного реактора, или на спутнике связи или на вояджере - там кстати ошибки вообще норма...поэтому не то что никто не будет опзбираться о причинах ошибки , а еще на этапе проектирования будкь знать что лшибкти есть  = и вкдючать проверочные цепи для еоррекции резкльтатов
  • -0.06 / 3
  • АУ
 
 
 
 
 
 
 
 
 
 
 
  adolfus ( Слушатель )
12 июн 2021 16:42:45

Ветка стартовала с баяна информации про то, что из-за сверхмалых проектных норм повышается вероятность флипа ячеек памяти и это наблюдается экспериментально. Проектные нормы для чипов, которые используются в условиях повышенного радиационного фона порядка тех, с которыми разрабатывался 80286 и выше. Мало того, применяются специальные технологии, которые позволяет снизить вероятность сбоя в сотню тысяч раз (~10^5) по сравнению с обычными чипами на тех же проектных нормах.
  • +0.02 / 2
  • АУ
 
 
 
 
 
 
 
 
 
 
 
 
  mse ( Слушатель )
12 июн 2021 20:28:59

Ну, эта проблема наблюдалась ещо на 256кбитных микросхемах(3,14здец, когда-то это считалось неимоверно круто) и многие говорили, что к 40-м годам слой навоза на улицах Нев-ёрка будет 20-30смсделать микросхему ДРАМ 1Мбит будет невозможно из-за её принципиальной ненадёжности. Но каг-то перемогли...
Ограниченность размеров транзистора фундаментальными причинами(а это длина затвора порядка 20нМ, несмотря на 10-7-5-2 нм проектные нормы), заставит набирать слои, как у нонешних флэшей и увеличивать габарит ячеек, для более дешёвого техпроцесса.
  • +0.03 / 3
  • АУ
 
 
 
 
 
 
 
 
 
 
 
 
 
  adolfus ( Слушатель )
13 июн 2021 20:19:37

Проектные нормы – это не про размеры транзисторов и даже не про размеры их частей. Это ближе к ширине проводников в слоях металлизации и расстоянию между ними. Транзистор имеет размеры в разы превышающие проектные нормы.
  • +0.03 / 1
  • АУ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
  Senya ( Слушатель )
13 июн 2021 21:10:40

Ну или если очень грубо - с какой точностью мы можем установить границы элементов. Во времена царя Гороха, когда я ещё был в теме, медная дорожка могла иметь ширину в единицу, а вот алюминиевая не меньше трёх.
  • +0.05 / 4
  • АУ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
  Пенсионэр ( Слушатель )
14 июн 2021 20:42:25

Задам глупый вопрос - а серебряные дорожки используются?
  • +0.00 / 0
  • АУ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
  Senya ( Слушатель )
14 июн 2021 22:07:02

В тех технологиях, что я знал - нет. Вот у золота с кремнием эвтектика при 200 с чем-то градусах. Очень удобно паять. Но это завершающие стадии, контактные площадки. На этапе формирования элементов при первом же отжиге все расплавится бесформенными лужицами.
  • +0.11 / 8
  • АУ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
  mse ( Слушатель )
14 июн 2021 22:10:39

Ну эвтектические припои используют уже при корпусировании. Тем более, это обратная сторона кристалла. Дороги, это золото-золото, люминь-люминть, УЗ сварка. И чтобы никаких интерметаллидов не получалось.
  • +0.02 / 2
  • АУ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
  Senya
  • Загрузить
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
  mse ( Слушатель )
14 июн 2021 22:07:15

В произвоцтве микросхем медь не используецца ни в коем случае. Наскока помню, как и серебро. Например, совершенно следовые количества меди в кремне ацки снижают подвижность носителей. Дороги делают из золота, люминя, люминя, крытого молибденом или поликремнем. это данные 25-30-летней давности. Щас мобуть ещо чего-нить придумали, но про медь или серебро не слышал ни разу.
  • +0.02 / 2
  • АУ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
  Senya ( Слушатель )
14 июн 2021 22:10:10

Нормально медь использовалась. Куда она с дорожек денется? Подвижность ионов металла в решётке кремния не настолько велика, чтобы даже сотни нанометров преодолеть. В более мелких - уже не знаю.
  • +0.08 / 6
  • АУ
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
  mse
  • Загрузить
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
  • Загрузить
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
  mse ( Слушатель )
13 июн 2021 22:07:20

Ну а я обо што написал?
  • +0.00 / 0
  • АУ
 
  qurvax ( Слушатель )
09 июн 2021 14:03:33

Смешались в кучу кони люди. Ну, тоесть DRAM с НЖМДВеселый А этот феномен давно на практике пользуют. Подобные атаки выделяются в класс, обозваный RowHammer. Сам как-то пользовался эксплойтом на базе этого дела, для рутовки телефона. Не так давно пролетало и еще вот такое: https://www.opennet.…?num=55211 Т.е. дело сие живет и развивается. И мне опять купят новые серверыВеселый
  • +0.00 / 0
  • АУ
 
 
  Longspig ( Слушатель )
09 июн 2021 22:38:25

Это не "феномен". Это то - "чего не должно быть, потому что не должно быть никогда". Код моей программы может случайно совпасть с "феноменом" и начать произвольно менять содержимое памяти.
С НЖМД то же самое. Если диск выдает ложные данные, он должен взводить состояние ошибки. Рейды работают на этом принципе. Именно так определяется, какое "зеркало" содержит валидные данные. На самом "блине" данные защищены контрольными суммами и бит ошибки взводится по несовпадению КС. Но сейчас, при нарушении трансляции второго уровня, SMR-ы выдают или нули или паттерн. Как зеркальный рейд узнает, "кто прав"? Для того, у Sun был (и есть) серверный формат сектора 528 байт, т.е. сектор 512 + "сквозная" КС от хоста до харда.
.
То что творят сейчас - развитие нынешней тенденции - сперва зарезали ресурс, а теперь взялись за надежность и достоверность.
ИМАО решили принудительно "выпихивать" пользователей выносить свою инфу "в облака" (зачем!? - "а вы когда-нибудь читали чужие письма")
А потребность в дублирующем железе дает кратный прирост продаж.
  • +0.01 / 1
  • АУ
 
 
 
  qurvax ( Слушатель )
10 июн 2021 14:52:21

Это не верно. Особенности технологии говорят, что это не то что "вероятно", а вполне закономерно. Т.е. так и должно быть. Дьявол в деталях, как всегда. 



Сейчас идут путем посылки лесом рейд-контроллеров и реализации всего на софте, сo сквозной интеграцией всяких там избыточных данных на нескольких уровнях. SDS зовется. Венда умеет. Storage Spaces и ReFS именно про это вот все.
  • +0.03 / 1
  • АУ
 
 
 
 
  Podli ( Слушатель )
11 июн 2021 10:45:34

Отсутствие кэша на запись приводит к заметному снижению производительности дисковой подсистемы в ряде случаев, потому от RAID контроллеров оказываться себе дороже.
  • +0.00 / 0
  • АУ
 
 
 
 
 
  qurvax ( Слушатель )
11 июн 2021 13:30:26

В огороде бузина а  кеш в каждом диске, нонече, свой. У энтерпрайза - с соответствующей защитой данных от пропажи питания. Рэйд-контроллеры для этого не обязательны. А у SDS, обычно, под кеширование даже выделенные SSD, уж не говоря про несколько уровней кеша лежащих в RAM хостов.
  • +0.03 / 1
  • АУ