Mikhail
Мы раз скрипт написали, который менял mtu с 9000 на 1512
Mikhail
Ну надо так было
Mikhail
И парень чутка ошибся
Mikhail
И у нас все переменные всех сетевых адаптеров стали = 1512 на всех серверах кластера
Mikhail
Включая mac адреса..
Mikhail
Sergey
Sergey
да, забавно было
Dmitry
круто же, единообразие, консистентность )
Mikhail
Софтвар дефайнд & девопс
Mikhail
Опередили амазон
Михаил
и как CEPH?
Да хорошо. Есть нюансы, но не так страшно, если не жадничать
Dmitry
их же хакнул кто-то
Mikhail
Нет
Mikhail
Парни взяли контроллеры сас, на которых был кеш в виде ссд диска
Mikhail
Я сейчас не вспомню кто производитель этого чуда
Mikhail
Ну и у парней не было мониторинга отказа этого ссд кеша
Mikhail
Потому что в прошивке контроллера это не работало
Mikhail
А сеф это ессно не знал
Mikhail
Ну и когда несколько дисков в кешах порушилось - оказалось что данные тоже порушены
Mikhail
И все, привет- пока
Mikhail
Михаил
А виноват цеф
Михаил
Лол
Mikhail
Ну а кто ;)
Sergey
конечно
Mikhail
Парни же хотели как лучше
Sergey
тупо не смог отработать отказ диска
Sergey
и обосрался
Mikhail
Не, Серег
Mikhail
Не диска
Mikhail
Сбой записи crc контроллерами на лиск
Sergey
бугага
Dmitry
те пока была избыточность в кластере, оно работало?
Sergey
ентерпрайзненько
Mikhail
Вероятно
Dmitry
и мониторинг молчал
Михаил
те пока была избыточность в кластере, оно работало?
А я не знаю, сколько там было избыточности
Mikhail
Фирмваря контроллера не мониторила этот кеш
Mikhail
Она мониторила только диски
Mikhail
Ну в общем стандартная же история
Mikhail
Покупаете адаптек с батарейкой
Mikhail
Он у вас дохнет
Mikhail
Привет-пока
Mikhail
Потому что пока дохла батарейка на дисках образовывалась каша
Dmitry
нуу
Dmitry
какая еще каша
Mikhail
И тут вы сами виноваты - где бекап??
Михаил
А реплик там было две?)
Dmitry
вставляется такой же адаптек, метаданные на дисках, всё поднимается и едем дальше такое случается периодически
Mikhail
Смотря как дох адаптек
Mikhail
Если у него была битая кеш память - имеем Клауд маус
Mikhail
В камментах на Хабре есть их конфиги и спеки железа
Dmitry
kernel panic, ребут, системой не видится а как еще дохнет контроллер? )
Mikhail
Не знаю про реплики
Mikhail
Я полагаю, что две
Mikhail
Но поломаны были обе
Mikhail
Отсюда временное восстановление и снова отаз
Mikhail
Отказ
Mikhail
Контроллер с дохлый кешем дохнет не так
Mikhail
Он неправильно считает crc и записывает ее
Mikhail
А потом корректирует данные по битой crc
Dmitry
это уже какие-то выкрутасы, думаю что такое редко бывает в реальной жизни
Mikhail
Ну как.. за 20 лет 2 раза у меня
Dmitry
а распределение таких отказов во времени какое? ) может оба 20 лет назад были разом )
Mikhail
Нет ;)
Mikhail
И да, без батарейки все будет ок - потому что без райт кеша
Dmitry
пока в ядре linux вижу такие конструкции #if 1 /* defined(__KDEBUGALL) */, ни чему не удивляюсь
Dmitry
http://lxr.free-electrons.com/source/fs/cachefiles/internal.h#L317
Dmitry
попытка использовать cachefiles с NFS потерпела фиаско )
Михаил
И да, без батарейки все будет ок - потому что без райт кеша
Ну, в итоге рафик неуиноват) большое спасибо за информацию
Михаил
@SorrowfulGod получить бан в нутаникс канале это успех!)
Sergey
слабо?
Sergey
а еще лучше так - слабо рассказать что там интересного?
Михаил
слабо?
Я стараюсь
Михаил
Но пока не получается