Третья ночь и 300 инженеров в критическом режиме спешат сделать все возможное... Боже, храни специалистов службы поддержки, которые понятия не имели, что их ждёт.
Пришло время войти в систему и проверить, поразило ли нас это… о боже, я надеюсь, что нет… 350 тысяч хостов в BSOD.
У меня 210 тыс. BSOD и оно продолжает расти... это плохо....
Всего в парке около 170 тыс. устройств, но не все сообщили о сбое (Nexthink FTW). Многие из них возникли, но похоже, что около 16 тыс. оказались отключены....не включая пару тысяч серверов, которые необходимо вручную загрузить в безопасный режим для исправления.
У нас было затронуто около 1000 ПК и 25 серверов (как локальных, так и Azure). Ноутбуки по большей части были отключены от сети, поэтому это на них не повлияло. Всех подняли и сказали быть наготове, независимо от их роли в ИТ-службе. Мы создали обучающее видео для пользователей по загрузке в «Безопасном режиме с поддержкой сети», чтобы инженеры могли удалённо войти, удалить файл и перезагрузиться (позже после тестирования написали для этого скрипт). Серверы подняли вручную. Мы начали в 6:30 утра, расставляя приоритеты - сначала POS (торговые точки) и критически важные серверы, затем перешли к следующему важному моменту, пока к 18:30 все не наладилось. Некоторые устройства зависали в цикле загрузки, некоторым устройствам потребовалось несколько попыток войти в безопасный режим, но 12 часов спустя мы оказались в гораздо лучшем положении.
У моей компании около 15 000 устройств в более чем 20 странах, все в разных доменах, 365 арендаторов и беспорядочная дерьмовая инфраструктура, разбросанная по подозрительным дата-центрам. Я наблюдал за очередью с тикетами, особенно когда Америка проснулась, поскольку я живу в Англии. Один новый тикет каждые пару секунд о ситуации с ВSOD.синем экране. Большинство устройств, подключены к Intune, используют BitLocker, поэтому удалённое исправление просто не применимо к моей компании. По сути, мы облажались на следующие несколько недель (Basically we are fecked for the next few weeks).
20 июля Microsoft выпустила вспомогательный инструмент для системных администраторов для исправления BSOD в Windows 10/11 из-за некорректного обновления ПО CrowdStrike с помощью загрузочного USB-накопителя и скрипта MsftRecoveryToolForCS.ps1. Ранее CrowdStrike выпустила патч для исправления логической ошибки, которая привела к миллионам ошибок с BSOD, но большинство ПК не могут автоматически получить это исправление из-за своего нерабочего состояния.
Microsoft сообщила, что количество столкнувшихся с глобальным сбоем в работе ПК и серверов на Windows из-за некорректного обновления ИБ-приложения CrowdStrike, где возник синий экран смерти (BSOD), составляет не менее 8,5 млн штук.
Нет комментариев