
Александр
16.12.2016
18:55:53
Одна сеть под всё?
Т.е. интерфейс

Марк ☢
16.12.2016
18:56:08
(сейчас да, но это маразм)

Александр
16.12.2016
18:56:26
А чего не 2?

Google

Марк ☢
16.12.2016
18:56:26
опс. тултип затесался
вот поэтому

Александр
16.12.2016
18:57:32
Хм, непонятно ну да ладно

Марк ☢
16.12.2016
18:58:09
osd_mount_options_xfs = rw,noatime,inode64,logbsize=256k
вот это ещё нахлобучил для пущего ускорения

Wild One
16.12.2016
18:59:27

Марк ☢
16.12.2016
18:59:45
вот оно чо михалыч

Wild One
16.12.2016
19:00:20
Да и не нужно оно уже наверное. Заодно там есть мильон tunables для того чтобы осд не жрал столько памяти

Марк ☢
16.12.2016
19:00:44
где "там" ?

Wild One
16.12.2016
19:00:47
Потому что если у тебя блюстор - то на каждый OSD будет по гигу своего кэша

Марк ☢
16.12.2016
19:00:58
а напаркуа ?

Wild One
16.12.2016
19:01:05
И до 4*256mb буферов rocksdb в пике

Марк ☢
16.12.2016
19:01:07
в линупсе же и так есть свой пейджкэш

Google

Wild One
16.12.2016
19:01:26
Ну видимо потому что с блочным устройством оно работает не так как им хотелось
Блюстор же работает с rawdisk
Какие опции сейчас скину

Марк ☢
16.12.2016
19:01:55
давай

Wild One
16.12.2016
19:02:26
Итого:
* Уменьшить rocksdb WAL buffers: "bluestore_rocksdb_options": "compression=kNoCompression,max_write_buffer_number=4,min_write_buffer_number_to_merge=1,recycle_log_file_num=4,write_buffer_size=268435456", (по умолчанию *до* 4*256МБ). Если диски медленные - можно хоть 2*32, сколько конкретно - надо тестить
* Уменьшить размер кэша самого bluestore: bluestore_cache_size, по дефолту гиг. (где опции - см. config_opts.h из ссылки выше)
https://fossies.org/linux/ceph/src/common/config_opts.h ссылко

Марк ☢
16.12.2016
19:03:11
у меня на 2 Тб винт 500 метров оперативы жрёт.

Wild One
16.12.2016
19:03:16
Это все получено методом легкого бдсм в канале #ceph-devel

Марк ☢
16.12.2016
19:03:43
блюстор
у меня все 6 осд — блюстор

Wild One
16.12.2016
19:04:04
Хммм.
Я сейчас создал с разными настройками и ушел с работы

Марк ☢
16.12.2016
19:04:23
а зависит от фактического количества ПГ на этом винте ?

Wild One
16.12.2016
19:04:26
И вообще я болею

Марк ☢
16.12.2016
19:05:01
щас попробую засрать по самое небалуйся

Михаил
16.12.2016
19:08:21

Wild One
16.12.2016
19:09:14
Кракен сам по себе по сути rc

Sergey
16.12.2016
19:09:35
В Kraken релиз вроде уже
нормальный? я пруф щас не найду, но не будет как с btrfs, которую разработчики и хрыч считают стабильной, а на деле...
я слышал просто что в kraken релизнут, и только в L сделают рекомендуемой.

Google

Pavel
16.12.2016
19:11:47
По-любому в прод можно думать только начиная со следующего

Марк ☢
16.12.2016
19:12:03

Михаил
16.12.2016
19:12:16

Wild One
16.12.2016
19:12:40
В кракене стабилизировался дисковый формат блюстора

Марк ☢
16.12.2016
19:12:44

Wild One
16.12.2016
19:12:50
А именно в 11.1.0

Михаил
16.12.2016
19:12:59

Марк ☢
16.12.2016
19:12:59
но перед этим хочу всякие ситуации продёргать — в т.ч. аварийные

Wild One
16.12.2016
19:13:16
По производительности хорошо, но пока с памятью не очень т.к. все вручную

Pavel
16.12.2016
19:13:50

Wild One
16.12.2016
19:13:58

Pavel
16.12.2016
19:13:59
Как раз эксперт в чате есть

Михаил
16.12.2016
19:14:01

Wild One
16.12.2016
19:14:52
Ну и кто вообще говорил что блюстор - прод? У них только к 11.1.0 появилось приглашение тестировать на некритичных данных

Марк ☢
16.12.2016
19:17:03
О, точно. при бэкфиллинге стло память жрать
в 2 раза увеличилось

Wild One
16.12.2016
19:19:06
У кого-то (grnet?) еще на хаммере была проблема что некие несколько осд на одном хосте пытались пометить весь остальной кластер как down :)

Google

Wild One
16.12.2016
19:19:23
А весь остальной кластер - пометил их:)

Марк ☢
16.12.2016
19:19:32
в увеличил pg_num у пула и пошёл перчинг

Pavel
16.12.2016
19:19:33

Wild One
16.12.2016
19:19:45
Сетепроблемы?

Pavel
16.12.2016
19:20:26
Скорее нагрузкопроблемы
Осд не отвечала вовремя

Михаил
16.12.2016
19:23:57
спс за идею — сделаю и это
Я надеюсь ты как хороший мальчик потом напишешь пост или хотя бы табличку, которую мы вынесем в вики канала?

Марк ☢
16.12.2016
19:24:20
идея в плане того что именно сделать

Михаил
16.12.2016
19:25:03
Что бы мы понимали

Марк ☢
16.12.2016
19:25:21
окей. прям сюда дампить?

Wild One
16.12.2016
19:25:23
Еще интересно как себя ведет конкретная осд если она отдает данные но из-за глюка железа именно на ней вдруг резко снизился iops

Михаил
16.12.2016
19:25:44

Wild One
16.12.2016
19:25:52
Ну например да

Марк ☢
16.12.2016
19:26:02

Wild One
16.12.2016
19:26:04
Кейс: убитый ssd

Михаил
16.12.2016
19:26:33
Ну например да
На текущий момент это приводит к падению иопс всего кластера

Wild One
16.12.2016
19:26:35
Зачем симулировать? Просто каким параметром это управляется, я хочу такую осд поставить в down

Марк ☢
16.12.2016
19:26:51

Google

Wild One
16.12.2016
19:27:25
Т.е. наш метод - если вдруг какие-то пг начинают дурить, лезем в мониторинг и смотрим латенси, идем и убиваем дурную осд, если это возможно?

Марк ☢
16.12.2016
19:28:55

Wild One
16.12.2016
19:28:56
Но сама осд не может себя выбить из кластера если под ней диску явно плохо?

Марк ☢
16.12.2016
19:29:08

Wild One
16.12.2016
19:29:14
Я помню там есть что-то типа partial degrade
Для упоротых случаев типа осд на рейде
Хм, ну наверное это может сделать внешний тул, просто придти и выполнить какие-то действия (хотя конечно автоматом опускать осд... рисково!
Ну и по идее при явной I/o error снизу от девайса, осд тоже должна становиться раком

Марк ☢
16.12.2016
19:33:15
не до нуля
по идее, надо регулировать так количество пг на каждом винте чтобы их утилизейшен (в иостат) было выравненным

Wild One
16.12.2016
19:34:08
Но ведь если этот осд отдает один i/o две минуты, то клиенту в любом случае будет ой как плохо

Марк ☢
16.12.2016
19:34:09
наверно так правильно

Wild One
16.12.2016
19:34:28

Марк ☢
16.12.2016
19:35:16

Wild One
16.12.2016
19:35:23
У меня была такая гадость с интеловскими ssd
Они тормозили, жрали кактус но ошибку не отдавали

Марк ☢
16.12.2016
19:35:46
а он у тебя под журнал или под основное хранилище ?