Сергей
в этом и проблема что не понятно во что мы упираемся
скорее всего в ограничения сетевого диска GCP. А реплика какая? Чем обусловлен выбор ZFS?
Dmitry
iostat дает 1200-2000 IOPS, throughput 40-80 MiB (всегда меньше 200)
Dmitry
>Чем обусловлен выбор ZFS - нужен функционал по клонированию
Dmitry
>скорее всего в ограничения сетевого диска GCP - какие именно - они декларируют 25000 IOPS
Сергей
>Чем обусловлен выбор ZFS - нужен функционал по клонированию
так в GCP есть своё клонирование, можно через api использовать. На сетевых дисках использовать ZFS - так себе решение. У меня в GCP работает реплика на ext4, объём WAL - около 30Тб /месяц. Но не логическая репликация, а стримминговая
Dmitry
используется универсальное решение построенное на клонировании ZFS, GCP - просто там самый большая нагрузка на одной из установок
Dmitry
> 25тысяч для какого кол-ва CPU? для 16 или 32? — 16
Сергей
на датасете отключайте sync (=disabled). В PG при этом можно не отключать fsync, такие операции сама ZFS будет делать асинхронными, даже если они к ней прилетят fsync. второе - проверьте итоговую скорость записи fsync на датасет через pg_testfsync третье - включите на мастере компрессию WAL (если не включена) четвёртое - GCP "поддаёт жару в скорости чтения/записи" при многопоточном чтении/записи. Для работы реплики важна не только скорость записи, но и скорость чтения. Поднимите effective_io до 200-400. диски в GCP - надеюсь SSD?
Сергей
и логическую репликацию реплика не вытянет, имхо. Но думаю что у вас стримминг
Dmitry
у нас теплый стендбай - те физическая реплика работающая на привозимых валах. sync настороне ZFS и fsync на стороне postgres отключали - нет заметной разницы. да диски SSD. pg_testfsync - попробую спасибо.
Dmitry
валы едут из бекапа (wal-g) объем базы несколько ТБ
Сергей
сколько Гб валов в час приезжает?
Сергей
на реплике есть какая-то нагрузка?
Сергей
и правильно ли я понял схему что нагрузка по накатыванию валов неравномерная, а сбросил мастер валы через checkpoint интервал и спустя какое-то время они с бэкапа попадают на реплику сразу большим объёмом?
Dmitry
на этой реплике нет доп нагрузки
Dmitry
валы едут равномерно т.к. накопилось большое отставание от мастера (несколько дней)
Dmitry
объем валов - надо пересчитать пока не могу сказать
Dmitry
другие реплики на ext4 живут нормально (при такой же схеме привоза валов)
Сергей
что показывает iotop при проигрывании валов? какую максимальную скорость чтения фиксировали?
Евгений
доброго времени суток господа, что обсуждаем?
Dmitry
если семплировать состояние процесса - то мы ждем именно запись, iotop показывает максимум 200МБ на запись
Dmitry
>что обсуждаем? zfs под postgres
Dmitry
не хватает производительности на запись и не понятно почему, ни в какой ресурс вроде не упираемся
Евгений
если семплировать состояние процесса - то мы ждем именно запись, iotop показывает максимум 200МБ на запись
сегодня эту тему тоже обсасывали. ни что ни упирается, а скорость записи на 18 sas 7200 дисков mirror 97 мегабайт, а в ssd mirror из 4 дисков 144 =) блоки zvol 16k по iscsi в гипервизор отдаём
Dmitry
> сколько показывает fio при потоковой записи на датасет под пг? - 3-4 IOPS
Сергей
> сколько показывает fio при потоковой записи на датасет под пг? - 3-4 IOPS
вы же не IOPS пишите, а гигабайты. Скорость какая?
Dmitry
> вы же не IOPS пишите, а гигабайты. Скорость какая? — попробую найти результаты
George
zfs из коробки оптимизирован на многопоток, однопоток обычно не может утилизировать его на 100%
Евгений
однопоток?
ну если под однопотоком можно понимать 10 виртуалок по одному таргету, то возможно. сеть 10г
g
сегодня эту тему тоже обсасывали. ни что ни упирается, а скорость записи на 18 sas 7200 дисков mirror 97 мегабайт, а в ssd mirror из 4 дисков 144 =) блоки zvol 16k по iscsi в гипервизор отдаём
Буквально сегодня похожее видели, но не на продакшене, а на игрушечном... У вас виртуалки? А какой драйвер хоста виртуалок?
Евгений
мы миникластер собрали для своих сервисов
g
В смысле, какой драйвер между гипервизором и виртуалками?
Евгений
hyper-v
Евгений
ws19
g
ага. Ок, тогда не то что мы сегодня видели :)
g
Но, конечно, можно поспрашивать какой таргет, и вот это вот всё... Но небось сами с усами.
Евгений
у нас есть 3 пула: -mirror 18 дисков на полках 7200 2ТБ sas ( должно быть очень быстро) -mirror 4 диска 15r 300гб sas -Mirror 4 диска 480гб сата ssd
Евгений
2 линка по 10г
Евгений
запись первого 97 МБ\с
Евгений
второго 157МБ\с
Евгений
третьего 144МБ\с
Евгений
для понимания, там SSD взрослые серверные за многа денег
g
Та ясно. А какой тюнинг на стороне ZFS?
Евгений
по мелочи
g
Таргет, привязка прерываний, оффлоуд? Насколько глубоко упрлс?
Евгений
префетчи
Евгений
io не биндили
g
таргет какой? LIO?
g
Вообще... можно, для начала, потестить. Ну, кто из стека тупит.
Евгений
ну и на большой хранилке ZIL На двух SSD в двух полках
g
Отдать SSD-шку прям куском наружу, без ФС, томов и проч. Прям устройством. И померить, как сколько ИОПС теряется на передаче, без обработки.
Евгений
и 4xL2arc SSD
g
да
У нас данные, что ЛИО однопоточный. Год-полтора назад тестили, сомневаюсь, что его переписали... Не так всё грустно должно быть, но если там зеон о 14 ядрах, 50% загрузке и частоте 2,4ггц, то ну, теоретически... Будет ниоч.
Евгений
кроме хранения там ничего нет
g
кроме хранения там ничего нет
Тогда так грустно не должно быть.
Евгений
проц напрягается, только когда снапы шлёт
Евгений
завтра будем под кофеёк решать
Евгений
как бы сейчас вопрос с снапшотами отпал
g
Не, в порядке бреда — у вас ведь ZFS ядерный? не fuse?
Евгений
Евгений
я никогда настолько глубоко не лез
g
проц напрягается, только когда снапы шлёт
там не в напряге дело, а в том, что сколько не было бы портов наружу, сколько ни было бы таргетов — работает на прокачку одно ядро.
Евгений
не, распределяет горшки
Евгений
небыло такого, что одно ядро в полку
g
это, конечно невероятно...
Евгений
похоже я тебе не покажу =)
g
небыло такого, что одно ядро в полку
оно не биндится, так что не в полку. Выглядит как непонятная полка на прокачку iscsi, но сильно выше 10гбс
g
просто начинает ползти очередь на клиенте. Мы поэтому на SCST перешли.