@openstack_russia

Страница 29 из 32

Artem

14.02.2017
08:26:49

Отличный подход. Вы не из клаудмауса случаем?

Нет. У вас есть проверенное нативное решения для HA иснтансов (без гибридного облака- привязки ovirt/hyperv/vmware/virtuozzo) или какой-то opensource которым вы пользовались(подскажете - скажу спасибо)?

Mike

14.02.2017
08:32:53

+страдания забыл

Почему же? Решение проверенное, старое. Why not?

Михаил

14.02.2017
08:33:13

Нет. У вас есть проверенное нативное решения для HA иснтансов (без гибридного облака- привязки ovirt/hyperv/vmware/virtuozzo) или какой-то opensource которым вы пользовались(подскажете - скажу спасибо)?

Я три раза перечитал и не понял, что ты хочешь

Sergey

14.02.2017
08:33:22

Почему же? Решение проверенное, старое. Why not?

because страдания.

Google

ptchol

14.02.2017
08:35:51

пэйсмейкер это тот который в голову стреляет всем нодам по очереди выводя кластер из работы целиком ? :trollface:

Sergey

14.02.2017
08:36:52

пэйсмейкер это тот который в голову стреляет всем нодам по очереди выводя кластер из работы целиком ? :trollface:

ну тогда не было paxos, выживали как могли

Artem

14.02.2017
08:38:09

Я три раза перечитал и не понял, что ты хочешь

общий сторадж, инстанс упал на одной compute(к примеру compute сама упала или ВМ "почему-то" упала)- автоматически рестартанулось на дргуой compute.

Mike

14.02.2017
08:40:11

ну тогда не было paxos, выживали как могли

Делать ceph из двух нод, как-то не комильфо.

Sergey

14.02.2017
08:41:07

Делать ceph из двух нод, как-то не комильфо.

можно третий монитор добавить снаружи

Anton

14.02.2017
08:42:02

Нет. У вас есть проверенное нативное решения для HA иснтансов (без гибридного облака- привязки ovirt/hyperv/vmware/virtuozzo) или какой-то opensource которым вы пользовались(подскажете - скажу спасибо)?

Для вас смерть вм и потеря данных - это норма. Ок.

Mike

14.02.2017
08:43:02

можно третий монитор добавить снаружи

Можно все, что угодно. Только зачем? Fail домен опускать на уровень дисков? А NF выставлять в 0.45? И зачем это надо?

Для вас смерть вм и потеря данных - это норма. Ок.

Смотря какая VM. Не уверен, что сейчас кто-то сможет сделать FT VM с 16 CPU и 256RAM

Можно все, что угодно. Только зачем? Fail домен опускать на уровень дисков? А NF выставлять в 0.45? И зачем это надо?

Проще поставить больше нод.

Anton

14.02.2017
08:46:33

Смотря какая VM. Не уверен, что сейчас кто-то сможет сделать FT VM с 16 CPU и 256RAM

Ох как нравятся мне сферические теоретики

Михаил

14.02.2017
08:47:20

Можно все, что угодно. Только зачем? Fail домен опускать на уровень дисков? А NF выставлять в 0.45? И зачем это надо?

что за NF?

Sergey

14.02.2017
08:47:35

Можно все, что угодно. Только зачем? Fail домен опускать на уровень дисков? А NF выставлять в 0.45? И зачем это надо?

в смысле зачем? из двух машин вы просто не сможете собрать кворум. никак. никогда. кворум либо собран и 100% в апе, либо кворума нет. с тремя мониторами и двумя нодами с osd можно использовать RF=2 и уметь терять одну машину.

Mike

14.02.2017
08:47:36

Ох как нравятся мне сферические теоретики

Ну VMware, так не может. Так как смысла нет.

Google

Михаил

14.02.2017
08:48:19

в смысле зачем? из двух машин вы просто не сможете собрать кворум. никак. никогда. кворум либо собран и 100% в апе, либо кворума нет. с тремя мониторами и двумя нодами с osd можно использовать RF=2 и уметь терять одну машину.

и не уметь терять по диску из разных нод?)

Sergey

14.02.2017
08:48:35

и не уметь терять по диску из разных нод?)

сеф и так не умеет терять по диску из трех разных нод в плоском кластере.

Mike

14.02.2017
08:48:38

в смысле зачем? из двух машин вы просто не сможете собрать кворум. никак. никогда. кворум либо собран и 100% в апе, либо кворума нет. с тремя мониторами и двумя нодами с osd можно использовать RF=2 и уметь терять одну машину.

Вы прочли мое сообщение но не поняли его суть. Говорю про failure domain, а не про реплики.

Sergey

14.02.2017
08:49:00

Вы прочли мое сообщение но не поняли его суть. Говорю про failure domain, а не про реплики.

failure domain в описанном мной сетапе - 1 хост.

Mike

14.02.2017
08:50:07

Ну VMware, так не может. Так как смысла нет.

Т.е. вы можете убрать данное ограничение, но вот вопрос, а не упретесь ли в канал синхронизации двух VM? Надо же все изменения в памяти, флагов CPU синхронизировать.

failure domain в описанном мной сетапе - 1 хост.

Т.е. сервер вылетел, случайно выключен, выдернули сеть - и данных нет?

Sergey

14.02.2017
08:51:09

Т.е. сервер вылетел, случайно выключен, выдернули сеть - и данных нет?

с чего бы вдруг?

Mike

14.02.2017
08:52:29

Тогда поясни подробнее.

Sergey

14.02.2017
08:54:52

два сервера с n дисков в каждом. один дополнительный сервер (виртуалка, контейнер, что угодно) для кворума мониторов. size = 2, копии размазываются между серверами (одна - на один, другая - на другой). min size = 1, чтобы работало в деградировавшем режиме. можно потерять любой из серверов без потери кворума и данных, кластер останется работать, кворум сохранится. фактически получится DRBD, только с кворумом мониторов.

нет, не рекомендую это в продакшн. впрочем, DRBD тоже не рекомендую. и вообще не рекомендую задумываться о shared block storage, пока у вас нет 3+ серверов.

Anton

14.02.2017
08:58:34

Т.е. вы можете убрать данное ограничение, но вот вопрос, а не упретесь ли в канал синхронизации двух VM? Надо же все изменения в памяти, флагов CPU синхронизировать.

Кто "вы"?

Sergey

14.02.2017
09:00:21

Смотря какая VM. Не уверен, что сейчас кто-то сможет сделать FT VM с 16 CPU и 256RAM

кстати мне всегда было интересно (никогда не пробовал, нужды не было). ну вот беру я эту маленькую виртуалочку, в которой там 2 cpu и 4 gb ram и начинаю из /dev/urandom заполнять память с космической скоростью. потом захочу вырубить, чтобы сработал чудо-FT. что произойдет-то? канал в память шире канала в другой сервер в дохрена раз. как оно с этим справится?

Mike

14.02.2017
09:01:24

два сервера с n дисков в каждом. один дополнительный сервер (виртуалка, контейнер, что угодно) для кворума мониторов. size = 2, копии размазываются между серверами (одна - на один, другая - на другой). min size = 1, чтобы работало в деградировавшем режиме. можно потерять любой из серверов без потери кворума и данных, кластер останется работать, кворум сохранится. фактически получится DRBD, только с кворумом мониторов.

При выходе сервера, кластер остается в деградированном режиме. Что чревато, т.к. если в решениях drbd ставят всегда hw raid, с хотспаре, то в ceph часто без него. И при вылете диска или появлении битых блоков на втором сервере - с данными печально. Если сервера толстые, то и балансировка кластера после возвращения сервера будет идти долго.

Решение да, возможно, но не комильфо.

Sergey

14.02.2017
09:02:02

При выходе сервера, кластер остается в деградированном режиме. Что чревато, т.к. если в решениях drbd ставят всегда hw raid, с хотспаре, то в ceph часто без него. И при вылете диска или появлении битых блоков на втором сервере - с данными печально. Если сервера толстые, то и балансировка кластера после возвращения сервера будет идти долго.

то есть аргумент "с DRBD подумали, а с ceph не подумали" говорит о том что сеф здесь говно? :)

Mike

14.02.2017
09:02:44

Кто "вы"?

Разработчики FT в VMware или ваши в вашем KVM на стеройдах.

Михаил

14.02.2017
09:02:59

то есть аргумент "с DRBD подумали, а с ceph не подумали" говорит о том что сеф здесь говно? :)

ну да. ты первый раз чтоль такую аргументацию видишь?

Sergey

14.02.2017
09:03:30

ну да. ты первый раз чтоль такую аргументацию видишь?

да :( о том что с DRBD связь порвалась, у нас split-brain и трахайся потом как хочешь, чтобы данные восстановить скромно умолчим? :)

>и балансировка кластера после возвращения сервера будет идти долго. интересно, в случае DRBD ей почему-то нужно будет идти быстрее?

Mike

14.02.2017
09:05:33

да :( о том что с DRBD связь порвалась, у нас split-brain и трахайся потом как хочешь, чтобы данные восстановить скромно умолчим? :)

Нет, не умолчим. Да, есть такая проблема. Но производительность drbd выше

Google

Sergey

14.02.2017
09:05:55

Нет, не умолчим. Да, есть такая проблема. Но производительность drbd выше

пруф?

Mike

14.02.2017
09:06:13

пруф?

А самому подумать почему?

Sergey

14.02.2017
09:06:36

А самому подумать почему?

бремя доказательства на вас. я тестировал. правда в 8-й ветке DRBD еще. и производительность - боль.

https://toster.ru/q/39291

Anton

14.02.2017
09:07:07

Разработчики FT в VMware или ваши в вашем KVM на стеройдах.

Ключевой вопрос. RPO/RTO в деньгах кто считал? Кто вообще слова эти слышал?

Mike

14.02.2017
09:11:45

Ключевой вопрос. RPO/RTO в деньгах кто считал? Кто вообще слова эти слышал?

И? Ч вам техническое, вы мне деньги. Если есть FT для жирных VM - покажи, без проседания производительности. Для уменьшения RTO/RPO есть масса других технологий.

Anton

14.02.2017
09:13:16

И? Ч вам техническое, вы мне деньги. Если есть FT для жирных VM - покажи, без проседания производительности. Для уменьшения RTO/RPO есть масса других технологий.

Техника делается ради денег. Внезапно

Mike

14.02.2017
09:18:01

https://toster.ru/q/39291

Почитал. Взял гигабитный линк с кодированием 8/10 и drbd синхронизируется по TCP. Так же если drbd делает fsync при записи блоков, тогда упрешся в однопоточный mdraid, который metadata записывает в один поток.

Sergey

14.02.2017
09:18:30

mdraid не однопоточный.

и там есть измерения производительности mdraid.

Mike

14.02.2017
09:19:29

mdraid не однопоточный.

Т.е. соскочил с техники в деньги. Он не однопоточный на блоки, а я про другое.

Sergey

14.02.2017
09:19:37

что? какие деньги?

мы с @antonvirtual - разные люди.

Mike

14.02.2017
09:19:48

и там есть измерения производительности mdraid.

Ты сделай тесть с fsync

мы с @antonvirtual - разные люди.

Очень хорошо

Sergey

14.02.2017
09:20:04

direct=1 buffered=0

Mike

14.02.2017
09:20:16

direct=1 buffered=0

Фигня

Sergey

14.02.2017
09:20:22

а, ну ок.

я, пожалуй, не буду продолжать дискуссию :)

Михаил

14.02.2017
09:21:05

зря) хоть чат оживили)

Google

Mike

14.02.2017
09:21:36

я, пожалуй, не буду продолжать дискуссию :)

Правильно, открой консоль и man fio почитай

Вбей в тест на mdraid fsync=1

Проблема с однопоточной записью метаданных в mdraid - известна, описана в рассылке. Сам столкнулся с этим, когда был mdraid10 c 36 дисками. По fio c direct=1 хорошо, а c fsync - печаль

Sergey

14.02.2017
09:26:08

Проблема с однопоточной записью метаданных в mdraid - известна, описана в рассылке. Сам столкнулся с этим, когда был mdraid10 c 36 дисками. По fio c direct=1 хорошо, а c fsync - печаль

ты о том что метаданные drbd лежат на рейде компактно и из-за этого импактится производительность?

я помню, я после этого вопроса вынес метаданные drbd на рамдиск. но картина не изменилась.

Mike

14.02.2017
09:27:39

Техника делается ради денег. Внезапно

Если сейчас взять RDMA/Infiniband или OP от Intel можно снизить латенси и поднять планку. Можно, вопрос спроса.

ты о том что метаданные drbd лежат на рейде компактно и из-за этого импактится производительность?

У тебя тест с mdraid. У mdraid своя metadata.

AFK

Artem

14.02.2017
09:51:08

Для вас смерть вм и потеря данных - это норма. Ок.

Не коверкайте чужие слова в той манере- так как это видете Вы. Если нет иснтуремнтов для обеспечения HA - значит его нет.

Anton

14.02.2017
10:50:43

Вот вообще ничего не понял. Артем, как вы написали - так я и понял

Если вы считаете, что вас поняли неправильно, то задайте вопрос себе - может вы просто мысль плохо выразили?

Первое правило публичных дискуссий и выступлений. Если спикера не поняла аудитория - это проблема спикера

Artem

14.02.2017
10:53:07

Первое правило публичных дискуссий и выступлений. Если спикера не поняла аудитория - это проблема спикера

OK. Я не собирался "выступать публично" и сообщение не вам было- вы взяли тему- развили так как это видется вам- имхо это проблема вашей фантазии, а не моих высказываний. Хорошего дня.

Anton

14.02.2017
10:54:37

OK. Я не собирался "выступать публично" и сообщение не вам было- вы взяли тему- развили так как это видется вам- имхо это проблема вашей фантазии, а не моих высказываний. Хорошего дня.

Артем, это группа на 180 человек. Любое сообщение здесь публичное

Теперь забавно, вы еще и обиделись :)

Igor

14.02.2017
11:13:28

?

> Теперь забавно, вы еще и обиделись :) 2 боярышника этому господину!

Anton

14.02.2017
11:16:28

> Теперь забавно, вы еще и обиделись :) 2 боярышника этому господину!

Право, оставьте себе, не отрывайте от сердца. Я пью Гиннесс

Михаил

14.02.2017
13:52:20

@Lumen_Ratio а ты расскажешь что-нибудь интересное про iscsi модуль от редхата?

Mike

14.02.2017
14:03:22

@Lumen_Ratio а ты расскажешь что-нибудь интересное про iscsi модуль от редхата?

свой модуль писали SUSE.

Google

Mike

14.02.2017
14:03:50

на просторах sladeshare есть из презентация по этому поводу

Михаил

14.02.2017
14:04:09

свой модуль писали SUSE.

А редхат?

Mike

14.02.2017
14:12:43

Есть такое от 2015 https://www.susecon.com/doc/2015/sessions/TUT16512.pdf

Сейчас, возможно, они переходят на вариант userspace, как было описано в посте Себастьяна.

Suse и RH сейчас тестно сотрудничают по Ceph.

Марк ☢

14.02.2017
14:14:30

А правильноли я понял, что айскайзи таргет всеравно будет в ядре, но за rbd он будет обращаться не к ядрёной части а к юзерспейсу ?

Mike

14.02.2017
14:17:26

А правильноли я понял, что айскайзи таргет всеравно будет в ядре, но за rbd он будет обращаться не к ядрёной части а к юзерспейсу ?

Себа писал, что хотят сделать именно usespace таргет. Что подтверждается тут: http://www.slideshare.net/esimone74/tut18972-unleash-the-power-of-ceph-across-the-data-center 44 слайд

Михаил

14.02.2017
14:17:53

А что сейчас есть уже готовое?

Production ready

Mike

14.02.2017
14:19:33

от редхата это: https://github.com/pcuzner/ceph-iscsi-ansible

Михаил

14.02.2017
14:20:45

от редхата это: https://github.com/pcuzner/ceph-iscsi-ansible

Ух

Mike