Vladimir

Кстати, у нас 2x10G в LACP, максимально утилизировались при процедуре восстановления 4-x OSD помеченных в down.. В этом случае на сети происходит адский треш….

Vladimir

Если вдруг mon_osd_down_out_interval подкручен в минимум, а для этого есть резон иногда, тогда можно при активном ребалансинге потерять весь кластер .

VVSina

Я гайки закрутил, неплохо живу на 1 гигабите.

VVSina

Скоростью это всё не хвастается, но при отвале ноды балансировка ничего не ложет.

🍄 Sergey

ну по идее гайки раскручивают чтобы восстанавливалось быстрее - а не пару дней?

Vladimir

А вы их как раскрутиваете ? )) Иньекция не отрабатывает на таке параметры, нужно сервисы mon и OSD массово рестартовать.

Pavel

отрабатывает всё

Vladimir

отрабатывает всё

ceph 10.2.2 ?

Pavel

hammer, jewel везде отрабатывает, если про мои опции говорить

Pavel

ну по идее гайки раскручивают чтобы восстанавливалось быстрее - а не пару дней?

зависит от того, на сколько ты оцениваешь вероятность отвала второй реплики за то время, пока восстанавливается упавшая третья

Mike

Имхо, при наличии быстрых дисков и их определенного кол-ва - скорость backend сети надо увеличивать.

Mike

При ребалансе на базовых опциях пик будет в самом начале, потом резко падает.

Vladimir

При ребалансе на базовых опциях пик будет в самом начале, потом резко падает.

Так и было на графиках..

Mike

И по моему, лучше быстрее сделать балансировку, чем ждать пару дней. Так как возрастает вероятность в это время потерять диск.

Vladimir

2017-03-11 16:45:38.997544 mon.0 [INF] pgmap v15434312: 982 pgs: 1 active+remapped+backfilling, 13 active+remapped+wait_backfill, 968 active+clean; 7433 GB data, 22223 GB used, 50269 GB / 72493 GB avail; 197 kB/s rd, 21755 kB/s wr, 3133 op/s; 4/5929381 objects degraded (0.000%); 133578/5929381 objects misplaced (2.253%)

Vladimir

Оочень долго идет..

Vladimir

Кстати, ко-во osd_recovery_threads с 1 до 6-и нчиего не приносит для ускорения..

Vladimir

Трафик также не увеличивается..

Mike

У тебя диски шпиндели, посмотри на утилизацию их

Mike

iostat -x blabla

Mike

В пастебин плиз

Vladimir

В пастебин плиз

http://pastebin.com/P4Mcb14A

Mike

Выше 20% не повышается. Уперлось в сеть или дефолтный лимит.

Vladimir

Сеть спокойная, всего 1 гигабит.. сейчас.. из 10 -12 доступных )

Vladimir

Выше 20% не повышается. Уперлось в сеть или дефолтный лимит.

Дефолтовый лимит чего ? .. пока не могу понять,..

Vladimir

osd_max_backfills 1 osd_recovery_max_active 1 Наверное этого..

Mike

osd client op priority

Mike

osd recovery op priority

Mike

И у тебя воостановление идет или backfill?

Mike

osd recovery max active - на кол-во запросов, с не приоритет

Mike

Afk

Vladimir

И у тебя воостановление идет или backfill?

Идет backfill, при добавлении новой OSD

Vladimir

"osd_max_backfills": "1", "osd_backfill_full_ratio": "0.85", "osd_backfill_retry_interval": "10", "osd_backfill_scan_min": "64", "osd_backfill_scan_max": "512", "osd_kill_backfill_at": "0",

Sergey

Что требуется, ускорить recovery и backfilling? тогда osd recovery threads = 4 (def=1) osd recovery max active = 32 (def=15) osd recovery op priority = 30 osd client op priority = 63 osd max backfills = 8 (def=1) скобки не нужны, в них для сравнения default далее рестарт OSD http://docs.ceph.com/docs/master/rados/configuration/osd-config-ref/ Шпиндели должны просесть, сеть - погрустнеть, пользователи - перекурить )

Vladimir

Что требуется, ускорить recovery и backfilling? тогда osd recovery threads = 4 (def=1) osd recovery max active = 32 (def=15) osd recovery op priority = 30 osd client op priority = 63 osd max backfills = 8 (def=1) скобки не нужны, в них для сравнения default далее рестарт OSD http://docs.ceph.com/docs/master/rados/configuration/osd-config-ref/ Шпиндели должны просесть, сеть - погрустнеть, пользователи - перекурить )

В данном случае backfilling только

Михаил

Помогло хоть?

Vladimir

Помогло хоть?

Стало быстрее, заменил osd_max_backfills": "1" на 4

Vladimir

Также поставил "osd_recovery_threads": "6", и "osd_recovery_op_priority": "3",

Vladimir

Теперь при вводе новой OSD с максимальным весом, сеть утилизируется на 10G .. минут 15-20, далее спад до 1,5 гигабита.. и неспешное завершение backfills

Vladimir

Интересно, с чем связано, такое снижение интенсивности backfills ближе к концу операции.

Pavel

Я для себя выкручиваю backfill в минимум

Pavel

Ну еще понятно recovery, но backfill пусть хоть неделю при вводе OSD прогоняется

Vladimir

Я для себя выкручиваю backfill в минимум

Есть задача быстрее закинуть ресурсы, поэтому и кручу парамерты, закончу верну всю в минимум.

Sergey

👍🏼

Mike

Интересно, с чем связано, такое снижение интенсивности backfills ближе к концу операции.

Количество дисков участвующих в процессе снижается.

タキ

Всем привет, кто чем мониторит ceph?

Sn00part

заббикс

Sn00part

https://www.datadoghq.com/blog/monitor-ceph-datadog/ хочу попробовать

Vladimir

Заббикс!

Михаил

Всем привет, кто чем мониторит ceph?

Prometheus

Sn00part

утилиты выдают все подробно, можно чем угодно, только распарсить

Vladimir

Задался вопросом как повысить надежность кластера, путем выбора оптимальной CRUSH-карты.. Например, есть 4-е сервера, по 20OSD в каждом, всего 80 OSD… Карта простая, default=rack, host=server1,2,3,4 При факторе репликации 3 мы можем потерять лишь один сервер, да и то, если объём занятого пространства не более 50% .. Как-то не надежно получается все это… Также Нужно всегда держать свободный сервер на случай аварии…

Vladimir

Либо как-то хитро нужно выносить в отдельную сущность некоторое количество дисков на каждом хосте и думать, как размазывать данные ..

Mark ☢️

Задался вопросом как повысить надежность кластера, путем выбора оптимальной CRUSH-карты.. Например, есть 4-е сервера, по 20OSD в каждом, всего 80 OSD… Карта простая, default=rack, host=server1,2,3,4 При факторе репликации 3 мы можем потерять лишь один сервер, да и то, если объём занятого пространства не более 50% .. Как-то не надежно получается все это… Также Нужно всегда держать свободный сервер на случай аварии…

почему же ? если на других OSD (которые можно в соответствие с картой выбрать вместо тех которые упали) есть свободное место — то те данные которые были на умерших OSD туда и попадут.

Vladimir

почему же ? если на других OSD (которые можно в соответствие с картой выбрать вместо тех которые упали) есть свободное место — то те данные которые были на умерших OSD туда и попадут.

Это да, но в таком случае нам всегда желательно начинать расширение при достижении 50% заполненности кластера... А если диски по обьему разнородные ? )

Mark ☢️

Это да, но в таком случае нам всегда желательно начинать расширение при достижении 50% заполненности кластера... А если диски по обьему разнородные ? )

весами регулируй

Mark ☢️

какая разница. главное чтобы суммарно на доступных для переноса OSD суммарно было достаточно места под восстановление данных с умерших OSD

Mark ☢️

гранулярность — по PG

Mike

Для начала, задался бы вопросом - зачем мне 200 osd в одном сервере. И кто такое мог придумать.

Mikhail

по 20 у него в одном сервере

Alexandr

Для начала, задался бы вопросом - зачем мне 200 osd в одном сервере. И кто такое мог придумать.

Никто

Mikhail

Всем привет, кто чем мониторит ceph?

как мне тут посоветовал уважаемый @SinTeZoiD - ceph_explorer + prometeus + grafana для вывода - все есть в виде контейнеров для докера и собрать можно быстро.

Mike

по 20 у него в одном сервере

Да, еще не проснулся.

Михаил

как мне тут посоветовал уважаемый @SinTeZoiD - ceph_explorer + prometeus + grafana для вывода - все есть в виде контейнеров для докера и собрать можно быстро.

Ну удобно, быстро и просто, как по мне)

Александр

именно контейнерами?

Михаил

именно контейнерами?

Ну, экспортер для цефа удобнее контейнер, остальные можно и так

🍄 Sergey

какая разница. главное чтобы суммарно на доступных для переноса OSD суммарно было достаточно места под восстановление данных с умерших OSD

А где тогда при цеф экономия места ? 3 кратное резервирование + 50% места свободного это даже хуже чем каждый сервер сам по себе с 10%-20% свободного места.

Александр

Ну, экспортер для цефа удобнее контейнер, остальные можно и так

Да не, я просто подумал, в один контейнер засунули уже или разными собирать собирается

Михаил

А где тогда при цеф экономия места ? 3 кратное резервирование + 50% места свободного это даже хуже чем каждый сервер сам по себе с 10%-20% свободного места.

А кто то обещал экономию места?

Александр

А где тогда при цеф экономия места ? 3 кратное резервирование + 50% места свободного это даже хуже чем каждый сервер сам по себе с 10%-20% свободного места.

Откуда инфа?

🍄 Sergey

Пример: 50 серверов под VDS на кадом 4 диска по 2tb (в 10 рейде) в итоге 200 тер места на 50 серверов минус на каждом будет свободно 20% и того эффективно из 200 дисков по 2 тера юзается 160 терабайт под данные Если эти 50 серверов заюзать под цеф получается так: 400 тер делим на 3 (дублирование) = 133 тера + свободное место под восстановление получается ещё места меньше. »Откуда инфа? Ну по логике сетевой кластер всегда делается с двумя целями: 1) распределение нагрузки 2) более эффективное использование места - по идее когда на 50 серверах остается 20% неиспользованноего места - это как раз не эффективно и цеф должен был бы это как раз компенсировать.

Konstantin

кстати EC под RBD не допилили еще ? мне тоже не очень нравится текущая эффективность хранилищ на ceph. без EC и дедупликации как-то не айс. имхо.

Mikhail

Да не, я просто подумал, в один контейнер засунули уже или разными собирать собирается

разными

Etki

Пример: 50 серверов под VDS на кадом 4 диска по 2tb (в 10 рейде) в итоге 200 тер места на 50 серверов минус на каждом будет свободно 20% и того эффективно из 200 дисков по 2 тера юзается 160 терабайт под данные Если эти 50 серверов заюзать под цеф получается так: 400 тер делим на 3 (дублирование) = 133 тера + свободное место под восстановление получается ещё места меньше. »Откуда инфа? Ну по логике сетевой кластер всегда делается с двумя целями: 1) распределение нагрузки 2) более эффективное использование места - по идее когда на 50 серверах остается 20% неиспользованноего места - это как раз не эффективно и цеф должен был бы это как раз компенсировать.

там при репликации разве обязательно полная копия хранится?

Etki

в цефе

🍄 Sergey

Первые два пункта я описал есть ещё 3 пункт надежность хранения, но в цеф я бы не сказал что сильно надежнее 10 рейда так как чем сложнеесистема тем больше точек отказа, у меня 5 рейды умирали и другие 10 рейд ниразу не умирал с потерей данных клиентов. А то как я слышал цеф проглючивает у многих, пока не дает ощущение надежности

🍄 Sergey

»там при репликации разве обязательно полная копия хранится? да 2 полный копии или 3 полных копии или больше как настроишь - если я не ошибаюсь :)

Etki

http://docs.ceph.com/docs/master/rados/operations/erasure-code/

Etki

похоже что таки не обязательно

Pavel

Это не репликация