Большой передел мира
266,969,427 522,197
 

  DeC ( Профессионал )
04 окт 2021 23:19:51

Facebook

новая дискуссия Дискуссия  810

Facebook направил команду в один из своих центров обработки данных в Калифорнии, чтобы попытаться вручную перезапустить серверы - репортер NYT
 
Подмигивающий
 
Сетевые проблемы у Facebook пока продолжаются, идет работа над их скорейшим устранением — главный технолог компании
Отредактировано: DeC - 04 окт 2021 23:20:04
  • +1.17 / 21
  • АУ
ОТВЕТЫ (16)
 
 
  Технарь_ ( Практикант )
04 окт 2021 23:37:47

Аналогии какие-то навевает... Типа закат солнца вручную или запуск компьютера с толкача...Веселый с буксира...
  • +0.72 / 9
  • АУ
 
  Quo ( Слушатель )
05 окт 2021 00:04:37

Это как? "Кривым стартером"?Улыбающийся
  • +0.81 / 9
  • АУ
 
 
  Podli ( Слушатель )
05 окт 2021 00:12:04

Похоже у них накрылась сеть, которая отвечает за удаленное управление сервисами и серверами. Собственно у них именно в маршрутизации причина падения, так что вполне может быть. Поэтому надо к соответствующим железкам, отвечающим за сеть, топать ногами, подключать терминал, исправлять косяк, запускать и молиться, чтобы внутренняя сеть поднялась и появилась возможность управления собственным железом без потеи времени на дочапать до железки ногами.
  • +0.66 / 14
  • АУ
 
 
 
  xrvr ( Специалист )
05 окт 2021 00:48:49

Похоже, проблема в том, что внутреннее железо, отвечающее за доступ к зданиям ФБ и сетям внутри, тоже было завязано на этот BGP сервис. Надо попасть в серверную, чтобы починить BGP, а в серверную не попасть, потому что BGP лежит.
Курица и яйцо.


Именно поэтому Путин говорил пару лет назад про опасность A.I., и нашу всё бОльшую зависимость от интернета.
  • +2.31 / 36
  • АУ
 
 
 
 
  ВсеОК! ( Слушатель )
05 окт 2021 01:20:03

А вот этот твит в принципе разумно обьясняет вероятную проблему. 
Но кто ж так делает то с критическими сервисами
(По человечески - обновлять частями, распределено по времени)
разве что было сделано умышленно. 
  • +1.23 / 15
  • АУ
 
 
 
 
 
  Podli ( Слушатель )
05 окт 2021 01:58:37

Маршрутизацию невозможно менять частями. Просто потому что пока не обновится частично или полностью вся цепочка маршрутизаторов от одной железки до другой - связи не будет, если старый маршрут не работает по тем или иным причинам. Поэтому обновление маршрутов идет автоматически. Обрыв одного кабеля или смерть одного маршрутизатора приводит к многим тысячам изменений маршрутов. И изменениям соответствующих настроек тысяч маршрутизаторов везде и всюду, если говорить о нагруженных каналах. Руками оно рулится редко, и изменение маршрутов руками в одном месте порождает автоматическое изменение настроек других маршрутизаторов во все стороны. Иначе оно просто не может работать - слишком много маршрутов и маршрутизаторов в интернете.
Здесь так и произошло - убрали маршруты до целого сегмента сети - и всё. Фейсбука нет, и никто не знает где онВеселый.
На практике, если происходит относительно крупная авария с перестроением туевой хучи маршрутов - связь восстанавливается втечение ~3 минут самостоятельно. Вмешательство человеков нужно когда начинаются свистопляски типа перегрузки каналов передачи данных вследствие перестроения маршрутов, зацикливаний цепочек изменений и т.п. Тогда в работу вмешиваются сетевые инженеры и с помощью лома и известной матери приводят всё в порядок, руками руля этой адовой фигней, в которой никто кроме них без поллитры канистры и пары недель раздумий разобраться не сможет.
  • +1.18 / 35
  • АУ
 
 
 
 
 
 
  Мельхиседек ( Практикант )
05 окт 2021 10:17:00



Совершенно верно. Я и писал, что с точки зрения математики жизнь маршрутов в сети строго непредсказуемый стохастический процесс.
Вот "звёзды сложились" определённым образом - и рвануло ...
Мда.
Но и вычленить критические узлы воздействия в этом вроде случайном потоке событий в сети с целью вырубить сеть тоже можно ... )))
  • +0.71 / 9
  • АУ
 
 
 
 
 
  Oleg K. ( Слушатель )
05 окт 2021 19:39:45


Обычно такие эпические сбои вызваны ошибками не в основном ПО, а в системах управления. Последние часто пишут админы самостоятельно и не проявляют должного рвения в их проверке и тестировании. Короче, "кто сторожит сторожей? А никто". Второе. В огромной распределенной системе время от "начали ставить хрень" до "увидели, что начали ставить хрень" вполне и неделя может пройти. Это не одна тысяча серверов со сложными связями.

П.С. У сетевиков с разработкой еще хуже, чем у админов. Тем сильнее бьют по сервисам их косяки.

П.П.С. А завязывать СКУД на те же сервисы, а не на физически изолированную сеть - это вообще за гранью. Деффективные менеджеры.
  • +0.77 / 16
  • АУ
 
 
 
 
 
 
  gmk ( Слушатель )
05 окт 2021 19:55:41

А такое есть и будет, пока непонятно кто за что отвечает и где голова, которую надо сечь. 
Че там сервисники лабают, да х з. 
А сетевики, да пыж на них!  Пусть тянут кобелей или кабели, не их собачье дело, что мы тут базируем. 
Админы, я тута самый главный кофей пия, идите все в лес. 
Манагеры вообще не понимают, и не хотят понимать как и что работает. 
Указивки идут, отвечать не надо за дурь, деньги плотют. 
А еще есть подрядчики, которым главное внедрить, впарить или втюхать. 
Однажды лебедь, рак и.. пор нее я не буду. 
  • +0.06 / 3
  • АУ
 
 
 
 
  Podli ( Слушатель )
05 окт 2021 02:26:33

BGP - это протокол маршрутизации. И если там начудить, то можно положить вообще всё, что общается по сети. Так что не удивительно, что при косяке в самом сердце инфраструктуры на одном из самых важных сервисов умерло просто всё. Бывает. Чай не первый и далеко не последний раз.
Бывает и позаковыристей. В 2008 году в Пакистане власти отдали приказ заблокировать ютуб. Там приказ выполнили. В результате чего весь ютуб трафик по миру поехал через Пакистан - тоже веселье с маршрутизацией :D. Два часа лежал. Так Пакистанкомнадзор забанил Ютуб не только у себя, но и во всем мире.
Смутно помню историю на заре интернетов. Тогда толи Бельгия, толи Болгария замкнула на себя все маршруты в Европе. Сдохли сами и положили всех за компанию. Тогда не работало чуть менее чем всё несколько суток - как-то жили только локальные сервисы.
  • +2.15 / 29
  • АУ
 
 
 
 
 
  bormann ( Слушатель )
05 окт 2021 17:06:12

ох уж эти сказочники. вес анонсируемого маршрута увеличивается с каждым хопом - каким образом маршрут на AS ютуба в какой-нибудь европе уйдёт в пакистан?

где-то в 2000-ых в России нашелся шпециалист, который 2-м аплинкам анонсил маршруты друг-друга. железо на той стороне поняло, что внезапно появился новый М9 (точка обмена трафиком в Москве) и перенаправило трафик через шпециалиста - рунет колбасило по-моему чуть ли не больше суток, потом шпециалиста нашли.
на самом деле не всё так страшно - BGP имеет вполне реальную защиту и все подобные случаи - результаты непрофессионализма и разгильдяйства.
  • +0.18 / 6
  • АУ
 
 
 
 
 
 
  gmk ( Слушатель )
05 окт 2021 17:49:26

А у меня вот с BGP не срослось. 
Ниразу не получилось даже попробовать. 
Не все так просто с ним, это не оспф и уж не рипы1-2.
Там пакеты шарахаются совсем по другим правилам. 
Теория- одно, а вот практика.. 
Я лично, допускаю непреднамереную ошибку и недостаточную квалификацию. 
  • +0.08 / 3
  • АУ
 
 
 
 
 
 
  zap ( Специалист )
05 окт 2021 19:44:23

Ну так если в пейсбук набирать админов по критерию половой ориентации, это было закономерно.
  • +1.01 / 14
  • АУ
 
  Верноразящий ( Слушатель )
05 окт 2021 10:42:29

  • +1.90 / 35
  • АУ
 
 
  Eliseevna ( Профессионал )
05 окт 2021 11:08:32


.
Это почему началось.
А это почему закончилось. ))
.
  • +3.30 / 48
  • АУ
 
 
 
  Mixandr68 ( Слушатель )
05 окт 2021 11:41:26

"...а как дысал, как дысал!..."Улыбающийся
  • +1.01 / 8
  • АУ