Longspig | |
08 июн 2021 21:45:15 |
gvf | |
08 июн 2021 23:25:40 |
Цитата: Longspig от 08.06.2021 21:45:15От себя добавлю - новое поколение HDD (с SMR технологией). Seagate "впереди планенты всей" - при невозможности отдать корректный сектор по причине нарушения внутренней трансляции адресов (у SMR трансляция двухуровневая), не взводит бит ошибки и выдает на шину некий постоянный паттерн, и что интересно - ненулевой (по состоянию регисторв - операция завершена успешно).
Senya | |
09 июн 2021 07:41:21 |
Цитата: gvf от 08.06.2021 23:25:40Очевидная логика - HDD без RAID никому не упал. Чушь на выходе конкретного диска исправит логика рейда.
gvf | |
09 июн 2021 09:55:53 |
Цитата: Senya от 09.06.2021 07:41:21Пока уменьшение на микроуровне будет компенсировать дублирование на макроуровне. Ну и смотреть, как помехоустойчивое кодирование с избыточностью всей информации влияет на быстродействие.
ps_ | |
09 июн 2021 11:22:40 |
Цитата: Senya от 09.06.2021 07:41:21Пока уменьшение на микроуровне будет компенсировать дублирование на макроуровне. Ну и смотреть, как помехоустойчивое кодирование с избыточностью всей информации влияет на быстродействие.
qurvax | |
09 июн 2021 14:04:50 |
Цитата: gvf от 08.06.2021 23:25:40Очевидная логика - HDD без RAID никому не упал. Чушь на выходе конкретного диска исправит логика рейда.
Поверонов | |
09 июн 2021 18:58:28 |
Цитата: qurvax от 09.06.2021 14:04:50Даааа? Ну есть у нас RAID1. Скраб словил разницу в данных. Который блин верный? Ась?
"Логика рейда" не про исправление чуши, а про собсно возможность чейта прочесть в принципе. Эх, реальность, бессердечная ты сука
ps_ | |
09 июн 2021 19:04:06 |
Цитата: Поверонов от 09.06.2021 18:58:28При таких делах дублирования недостаточно - потребуется голосование на троих. Заодно и сбыт возрастет - вместо дублирования - утроение
Поверонов | |
09 июн 2021 21:29:13 |
Цитата: ps_ от 09.06.2021 19:04:06Помнится мне показывали ИБМ-овский чип для сверх надежных вычислений. Там стояло два кора и КАЖДАЯ операция делалась на обоих.
Между ними стоял маленький модуль, который сравнивал результат и в случае несовпадения мог открутить назад и повторить операции, начиная с ошибочьной
Podli | |
09 июн 2021 21:42:56 |
Цитата: Поверонов от 09.06.2021 21:29:13Так можно компенсировать случайную временную помеху ( типа электромагнитной наводки ) но невозможно постоянное искажение на одном из сравниваемых источников - получится бесконечный цикл сравнений
Longspig | |
09 июн 2021 22:45:41 |
Цитата: Podli от 09.06.2021 21:42:56Брак в ядре отлавливают на производстве специальными тестами. И чинят путем отключения дефектного ядра и объявлением ентого проца процом более дешевой серии с меньшим количеством ядер.
Podli | |
09 июн 2021 23:59:44 |
Цитата: Longspig от 09.06.2021 22:45:41Так по ссылке - нынешний брак таков, что уже не ловится на производстве.
Я в жизни встретил всего один случай брака процесора (286-й AMD не проходил тест флагов регистра состояния). По DRAM случаев уйма, а вот процессоры были "островом стабильности... были...
.
- Вовочка, предложение - "я красива" это какое время?
- прошедшее, МарьВанна, прошедшее...
Longspig | |
10 июн 2021 12:21:48 |
Цитата: Podli от 09.06.2021 23:59:44Хз, у нас проблемы с процессорами в разы реже, чем с памятью встречаются. Хотя и память вполне себе надежная штука, какие-либо веселости встречаются весьма редко. Процов многие тысячи, так что выборка вполне себе презентабельная. И да, я про недешевые сервера, а не про пользовательское железо.
ЦитатаПосле нескольких повторений на устройстве исследователи поняли, что вычисление Int (1.1^53) в качестве входных данных для функции math.pow в Scala всегда выдаёт результат 0 на ядре 59 процессора. Когда они заменили вычисление на Int (1.1^52), программа выдала ожидаемый результат 142.
Podli | |
10 июн 2021 13:45:36 |
Цитата: Longspig от 10.06.2021 12:21:48Вот вряд ли Facebook бюджетное железо для своих серверов использует. Да и наличие 59-го ядра о чем-то да говорит:
gvf | |
10 июн 2021 14:32:35 |
Цитата: Longspig от 10.06.2021 12:21:48Вот вряд ли Facebook бюджетное железо для своих серверов использует. Да и наличие 59-го ядра о чем-то да говорит:
GrinF | |
10 июн 2021 01:40:45 |
Цитата: Поверонов от 09.06.2021 21:29:13Так можно компенсировать случайную временную помеху ( типа электромагнитной наводки ) но невозможно постоянное искажение на одном из сравниваемых источников - получится бесконечный цикл сравнений
qurvax | |
10 июн 2021 14:45:34 |
Цитата: ps_ от 09.06.2021 19:04:06Помнится мне показывали ИБМ-овский чип для сверх надежных вычислений. Там стояло два кора и КАЖДАЯ операция делалась на обоих.
Между ними стоял маленький модуль, который сравнивал результат и в случае несовпадения мог открутить назад и повторить операции, начиная с ошибочьной
ps_ | |
10 июн 2021 20:43:18 |
Цитата: qurvax от 10.06.2021 14:45:34По уму - должно быть три, и "выборы тридвараса" путем большинства. Иначе возможна ситуация у ойтишнегов зовущаяся "сплит-брейн".
gvf | |
10 июн 2021 21:23:58 |
Цитата: ps_ от 10.06.2021 20:43:18Я говорю про то, что лично видел.
Это был конец 90-х и может быть три ядра было тяжело делать.
Там говорилось, что то по поводу финансовых вычислений и если процессоры полностью запутались, то самое надежное - это совсем остановить машину, чем считать неизвестно что
Longspig | |
10 июн 2021 23:02:00 |
Цитата: gvf от 10.06.2021 21:23:58(довести самолет до посадки в аэропорту - "три датчика угла атаки" (с))
GrinF | |
11 июн 2021 11:24:38 |
Цитата: gvf от 10.06.2021 21:23:58Все верно, задача компаратора выявить неисправный проц, а не правильно посчитать (довести самолет до посадки в аэропорту - "три датчика угла атаки" (с))
gvf | |
11 июн 2021 11:40:41 |
Цитата: GrinF от 11.06.2021 11:24:38Компаратор нисколько не поможет выявить несправный процессор. Он только говорит что данный шаг вычисления некорректный, ибо процессора только 2 и неизевстно кто лажанулся и по какой причине...
ps_ | |
11 июн 2021 12:16:17 |
Цитата: gvf от 11.06.2021 11:40:41Вероятность ошибки в проце это миллиардные доли, совершенно неважно какой из двух и по какой причине, важен сам факт ошибки в одном из, и это уже достаточное основание для замены.
Никто не будет разбираться в чем причина ошибки, тем более что речь не о сути самой ошибки (т.е. ошибки в микрокоде приводящие к неверному результату но синхронно на обоих процах не являются поводом для замены), а только в несовпадении результатов двух полностью идентичных.
gvf | |
11 июн 2021 14:18:01 |
Цитата: ps_ от 11.06.2021 12:16:17Миллиардные доли
mse | |
11 июн 2021 18:50:11 |
Цитата: ps_ от 11.06.2021 12:16:17Миллиардные доли при тактовой частоте около гигагерца - это ошибка раз в секунду
Насколько я понимаю, там боролись против ошибок наведенных высокоэнергетическими частицами.
В общем то, и ECC в память ставят для этого.
GrinF | |
12 июн 2021 01:18:49 |
Цитата: gvf от 11.06.2021 11:40:41Вероятность ошибки в проце это миллиардные доли, совершенно неважно какой из двух и по какой причине, важен сам факт ошибки в одном из, и это уже достаточное основание для замены.
Никто не будет разбираться в чем причина ошибки, тем более что речь не о сути самой ошибки (т.е. ошибки в микрокоде приводящие к неверному результату но синхронно на обоих процах не являются поводом для замены), а только в несовпадении результатов двух полностью идентичных.
adolfus | |
12 июн 2021 16:42:45 |
Цитата: GrinF от 12.06.2021 01:18:49чушь ... процессорможенаходся в у словиях в которых невоможназамена-напрмер недалечеодерного реактора, или на спутнике связи или на вояджере - там кстати ошибки вообще норма...поэтому не то что никто не будет опзбираться о причинах ошибки , а еще на этапе проектирования будкь знать что лшибкти есть = и вкдючать проверочные цепи для еоррекции резкльтатов
mse | |
12 июн 2021 20:28:59 |
Цитата: adolfus от 12.06.2021 16:42:45Ветка стартовала сбаянаинформации про то, что из-за сверхмалых проектных норм повышается вероятность флипа ячеек памяти и это наблюдается экспериментально. Проектные нормы для чипов, которые используются в условиях повышенного радиационного фона порядка тех, с которыми разрабатывался 80286 и выше. Мало того, применяются специальные технологии, которые позволяет снизить вероятность сбоя в сотню тысяч раз (~10^5) по сравнению с обычными чипами на тех же проектных нормах.
adolfus | |
13 июн 2021 20:19:37 |
Цитата: mse от 12.06.2021 20:28:59Ну, эта проблема наблюдалась ещо на 256кбитных микросхемах(3,14здец, когда-то это считалось неимоверно круто) и многие говорили, чток 40-м годам слой навоза на улицах Нев-ёрка будет 20-30смсделать микросхему ДРАМ 1Мбит будет невозможно из-за её принципиальной ненадёжности. Но каг-то перемогли...
Ограниченность размеров транзистора фундаментальными причинами(а это длина затвора порядка 20нМ, несмотря на 10-7-5-2 нм проектные нормы), заставит набирать слои, как у нонешних флэшей и увеличивать габарит ячеек, для более дешёвого техпроцесса.
Senya | |
13 июн 2021 21:10:40 |
Цитата: adolfus от 13.06.2021 20:19:37Проектные нормы – это не про размеры транзисторов и даже не про размеры их частей. Это ближе к ширине проводников в слоях металлизации и расстоянию между ними. Транзистор имеет размеры в разы превышающие проектные нормы.
Пенсионэр | |
14 июн 2021 20:42:25 |
Цитата: Senya от 13.06.2021 21:10:40Ну или если очень грубо - с какой точностью мы можем установить границы элементов. Во времена царя Гороха, когда я ещё был в теме, медная дорожка могла иметь ширину в единицу, а вот алюминиевая не меньше трёх.
Senya | |
14 июн 2021 22:07:02 |
Цитата: Пенсионэр от 14.06.2021 20:42:25Задам глупый вопрос - а серебряные дорожки используются?
mse | |
14 июн 2021 22:10:39 |
Цитата: Senya от 14.06.2021 22:07:02В тех технологиях, что я знал - нет. Вот у золота с кремнием эвтектика при 200 с чем-то градусах. Очень удобно паять. Но это завершающие стадии, контактные площадки. На этапе формирования элементов при первом же отжиге все расплавится бесформенными лужицами.
mse | |
14 июн 2021 22:07:15 |
Цитата: Пенсионэр от 14.06.2021 20:42:25Задам глупый вопрос - а серебряные дорожки используются?
Senya | |
14 июн 2021 22:10:10 |
Цитата: mse от 14.06.2021 22:07:15Например, совершенно следовые количества меди в кремне ацки снижают подвижность носителей.
mse | |
13 июн 2021 22:07:20 |
Цитата: adolfus от 13.06.2021 20:19:37Проектные нормы – это не про размеры транзисторов и даже не про размеры их частей. Это ближе к ширине проводников в слоях металлизации и расстоянию между ними. Транзистор имеет размеры в разы превышающие проектные нормы.
qurvax | |
09 июн 2021 14:03:33 |
Цитата: Longspig от 08.06.2021 21:45:15Интересная статья на Хабре
Микрочипы становятся непредсказуемыми по мере уменьшения техпроцесса
до этого пробегала статья об уязвимости памяти DDR3 и DDR4 когда ячейки, при определеных интенсивных нагрузках "на соседей", меняют свое содержимое.
Ссылку не сохранил, но оригинал статьи называется:
Flipping Bits in MemoryWithout Accessing Them:
An Experimental Study of DRAM Disturbance Errors
.
В общем, основная парадигма цифровой техники - "любая программа запущеная сколько угодно раз с одинаковымаи входными условиями, даст неизменный результат" трещит по всем швам.
От себя добавлю - новое поколение HDD (с SMR технологией). Seagate "впереди планенты всей" - при невозможности отдать корректный сектор по причине нарушения внутренней трансляции адресов (у SMR трансляция двухуровневая), не взводит бит ошибки и выдает на шину некий постоянный паттерн, и что интересно - ненулевой (по состоянию регисторв - операция завершена успешно).
Longspig | |
09 июн 2021 22:38:25 |
Цитата: qurvax от 09.06.2021 14:03:33Смешались в кучу кони люди. Ну, тоесть DRAM с НЖМД А этот феномен давно на практике пользуют.
qurvax | |
10 июн 2021 14:52:21 |
Цитата: Longspig от 09.06.2021 22:38:25Это не "феномен". Это то - "чего не должно быть, потому что не должно быть никогда". Код моей программы может случайно совпасть с "феноменом" и начать произвольно менять содержимое памяти.
Цитата: Longspig от 09.06.2021 22:38:25С НЖМД то же самое. Если диск выдает ложные данные, он должен взводить состояние ошибки. Рейды работают на этом принципе. Именно так определяется, какое "зеркало" содержит валидные данные. На самом "блине" данные защищены контрольными суммами и бит ошибки взводится по несовпадению КС. Но сейчас, при нарушении трансляции второго уровня, SMR-ы выдают или нули или паттерн. Как зеркальный рейд узнает, "кто прав"? Для того, у Sun был (и есть) серверный формат сектора 528 байт, т.е. сектор 512 + "сквозная" КС от хоста до харда.
.
Podli | |
11 июн 2021 10:45:34 |
Цитата: qurvax от 10.06.2021 14:52:21Сейчас идут путем посылки лесом рейд-контроллеров и реализации всего на софте, сo сквозной интеграцией всяких там избыточных данных на нескольких уровнях. SDS зовется. Венда умеет. Storage Spaces и ReFS именно про это вот все.
qurvax | |
11 июн 2021 13:30:26 |
Цитата: Podli от 11.06.2021 10:45:34Отсутствие кэша на запись приводит к заметному снижению производительности дисковой подсистемы в ряде случаев, потому от RAID контроллеров оказываться себе дороже.