Vladimir
Кстати, у нас 2x10G в LACP, максимально утилизировались при процедуре восстановления 4-x OSD помеченных в down.. В этом случае на сети происходит адский треш….
Vladimir
Если вдруг mon_osd_down_out_interval подкручен в минимум, а для этого есть резон иногда, тогда можно при активном ребалансинге потерять весь кластер .
VVSina
Я гайки закрутил, неплохо живу на 1 гигабите.
VVSina
Скоростью это всё не хвастается, но при отвале ноды балансировка ничего не ложет.
🍄 Sergey
ну по идее гайки раскручивают чтобы восстанавливалось быстрее - а не пару дней?
Vladimir
А вы их как раскрутиваете ? )) Иньекция не отрабатывает на таке параметры, нужно сервисы mon и OSD массово рестартовать.
Pavel
отрабатывает всё
Vladimir
Pavel
hammer, jewel везде отрабатывает, если про мои опции говорить
Mike
Имхо, при наличии быстрых дисков и их определенного кол-ва - скорость backend сети надо увеличивать.
Mike
При ребалансе на базовых опциях пик будет в самом начале, потом резко падает.
Vladimir
Mike
И по моему, лучше быстрее сделать балансировку, чем ждать пару дней. Так как возрастает вероятность в это время потерять диск.
Vladimir
2017-03-11 16:45:38.997544 mon.0 [INF] pgmap v15434312: 982 pgs: 1 active+remapped+backfilling, 13 active+remapped+wait_backfill, 968 active+clean; 7433 GB data, 22223 GB used, 50269 GB / 72493 GB avail; 197 kB/s rd, 21755 kB/s wr, 3133 op/s; 4/5929381 objects degraded (0.000%); 133578/5929381 objects misplaced (2.253%)
Vladimir
Оочень долго идет..
Vladimir
Кстати, ко-во osd_recovery_threads с 1 до 6-и нчиего не приносит для ускорения..
Vladimir
Трафик также не увеличивается..
Mike
У тебя диски шпиндели, посмотри на утилизацию их
Mike
iostat -x blabla
Mike
В пастебин плиз
Mike
Выше 20% не повышается. Уперлось в сеть или дефолтный лимит.
Vladimir
Сеть спокойная, всего 1 гигабит.. сейчас.. из 10 -12 доступных )
Vladimir
Vladimir
osd_max_backfills 1
osd_recovery_max_active 1
Наверное этого..
Mike
osd client op priority
Mike
osd recovery op priority
Mike
И у тебя воостановление идет или backfill?
Mike
osd recovery max active - на кол-во запросов, с не приоритет
Mike
Afk
Vladimir
Vladimir
"osd_max_backfills": "1",
"osd_backfill_full_ratio": "0.85",
"osd_backfill_retry_interval": "10",
"osd_backfill_scan_min": "64",
"osd_backfill_scan_max": "512",
"osd_kill_backfill_at": "0",
Sergey
Что требуется, ускорить recovery и backfilling?
тогда
osd recovery threads = 4 (def=1)
osd recovery max active = 32 (def=15)
osd recovery op priority = 30
osd client op priority = 63
osd max backfills = 8 (def=1)
скобки не нужны, в них для сравнения default
далее рестарт OSD
http://docs.ceph.com/docs/master/rados/configuration/osd-config-ref/
Шпиндели должны просесть, сеть - погрустнеть, пользователи - перекурить )
Vladimir
Михаил
Помогло хоть?
Vladimir
Помогло хоть?
Стало быстрее, заменил osd_max_backfills": "1" на 4
Vladimir
Также поставил "osd_recovery_threads": "6", и "osd_recovery_op_priority": "3",
Vladimir
Теперь при вводе новой OSD с максимальным весом, сеть утилизируется на 10G .. минут 15-20, далее спад до 1,5 гигабита.. и неспешное завершение backfills
Vladimir
Интересно, с чем связано, такое снижение интенсивности backfills ближе к концу операции.
Pavel
Я для себя выкручиваю backfill в минимум
Pavel
Ну еще понятно recovery, но backfill пусть хоть неделю при вводе OSD прогоняется
Sergey
👍🏼
Mike
タキ
Всем привет, кто чем мониторит ceph?
Sn00part
заббикс
Sn00part
https://www.datadoghq.com/blog/monitor-ceph-datadog/ хочу попробовать
Vladimir
Заббикс!
Михаил
Sn00part
утилиты выдают все подробно, можно чем угодно, только распарсить
Vladimir
Задался вопросом как повысить надежность кластера, путем выбора оптимальной CRUSH-карты..
Например, есть 4-е сервера, по 20OSD в каждом, всего 80 OSD… Карта простая, default=rack, host=server1,2,3,4 При факторе репликации 3 мы можем потерять лишь один сервер, да и то, если объём занятого пространства не более 50% .. Как-то не надежно получается все это… Также Нужно всегда держать свободный сервер на случай аварии…
Vladimir
Либо как-то хитро нужно выносить в отдельную сущность некоторое количество дисков на каждом хосте и думать, как размазывать данные ..
Mark ☢️
Задался вопросом как повысить надежность кластера, путем выбора оптимальной CRUSH-карты..
Например, есть 4-е сервера, по 20OSD в каждом, всего 80 OSD… Карта простая, default=rack, host=server1,2,3,4 При факторе репликации 3 мы можем потерять лишь один сервер, да и то, если объём занятого пространства не более 50% .. Как-то не надежно получается все это… Также Нужно всегда держать свободный сервер на случай аварии…
почему же ? если на других OSD (которые можно в соответствие с картой выбрать вместо тех которые упали) есть свободное место — то те данные которые были на умерших OSD туда и попадут.
Vladimir
Mark ☢️
Mark ☢️
какая разница. главное чтобы суммарно на доступных для переноса OSD суммарно было достаточно места под восстановление данных с умерших OSD
Mark ☢️
гранулярность — по PG
Mike
Для начала, задался бы вопросом - зачем мне 200 osd в одном сервере. И кто такое мог придумать.
Mikhail
по 20 у него в одном сервере
Alexandr
Mikhail
Всем привет, кто чем мониторит ceph?
как мне тут посоветовал уважаемый @SinTeZoiD - ceph_explorer + prometeus + grafana для вывода - все есть в виде контейнеров для докера и собрать можно быстро.
Mike
Михаил
Александр
именно контейнерами?
Михаил
Александр
🍄 Sergey
Пример: 50 серверов под VDS на кадом 4 диска по 2tb (в 10 рейде) в итоге 200 тер места на 50 серверов минус на каждом будет свободно 20% и того эффективно из 200 дисков по 2 тера юзается 160 терабайт под данные
Если эти 50 серверов заюзать под цеф получается так: 400 тер делим на 3 (дублирование) = 133 тера + свободное место под восстановление получается ещё места меньше.
»Откуда инфа?
Ну по логике сетевой кластер всегда делается с двумя целями:
1) распределение нагрузки
2) более эффективное использование места - по идее когда на 50 серверах остается 20% неиспользованноего места - это как раз не эффективно и цеф должен был бы это как раз компенсировать.
Konstantin
кстати EC под RBD не допилили еще ? мне тоже не очень нравится текущая эффективность хранилищ на ceph. без EC и дедупликации как-то не айс. имхо.
Mikhail
Etki
Etki
в цефе
🍄 Sergey
Первые два пункта я описал есть ещё 3 пункт надежность хранения, но в цеф я бы не сказал что сильно надежнее 10 рейда так как чем сложнеесистема тем больше точек отказа, у меня 5 рейды умирали и другие 10 рейд ниразу не умирал с потерей данных клиентов. А то как я слышал цеф проглючивает у многих, пока не дает ощущение надежности
🍄 Sergey
»там при репликации разве обязательно полная копия хранится?
да 2 полный копии или 3 полных копии или больше как настроишь - если я не ошибаюсь :)
Etki
http://docs.ceph.com/docs/master/rados/operations/erasure-code/
Etki
похоже что таки не обязательно
Pavel
Это не репликация