@pro_openstack

Страница 86 из 117
Pavel
09.01.2017
14:15:04
ага

Александр
09.01.2017
14:15:16
В пиках до 13-14?

Sergey
09.01.2017
14:15:17
Pavel
09.01.2017
14:15:26
пики до 10-13 где-то

Google
Pavel
09.01.2017
14:15:35
Sergey
09.01.2017
14:15:44
https://github.com/influxdata/telegraf

https://github.com/influxdata/telegraf/tree/master/plugins/inputs/ceph - плагин для ceph

Михаил
09.01.2017
14:23:10
попробуй прометеус, там готовые метрики и интеграция с графаной
Паша Прометей советует, завтра опять морозы будут

Roman
09.01.2017
14:24:35
https://github.com/influxdata/telegraf
говно, потому что exec

Sergey
09.01.2017
14:27:02
гы, а прометеевский похоже через rados работает

Михаил
09.01.2017
14:27:17
Там на go exporter написан

Sergey
09.01.2017
14:27:39
мы ж про https://github.com/digitalocean/ceph_exporter

?

Михаил
09.01.2017
14:27:43
Да

Sergey
09.01.2017
14:27:46
угу

Михаил
09.01.2017
14:27:49
Я его вертел

Google
Sergey
09.01.2017
14:27:55
можно телеграф попатчить наверное

Pavel
09.01.2017
14:59:48
Я его вертел
в смысле "да вертел я его"? )

Roman
09.01.2017
15:01:19
можно телеграф попатчить наверное
горбатого могила исправит. всмысле, MogileFS.

Марк ☢
09.01.2017
15:07:48
http://lists.ceph.com/pipermail/ceph-users-ceph.com/2015-September/004194.html

We also just started having our 850 Pros die one after the other after about 9 months of service. 3 down, 11 to go... No warning at all, the drive is fine, and then it's not even visible to the machine. According to the stats in hdparm and the calcs I did they should have had years of life left, so it seems that ceph journals definitely do something they do not like, which is not reflected in their stats.

Roman
09.01.2017
15:44:35
https://wiki.fd.io/view/VPP_Sandbox/turbotap

Михаил
09.01.2017
17:16:47
горбатого могила исправит. всмысле, MogileFS.
больше похоже на костыль ЖЖ, который выкинули в опенсоурс

Михаил
09.01.2017
22:06:11
Roman
09.01.2017
22:06:51
MogileFS
То была скорее шутка про название. Но да, хз зачем оно надо

@spuzirev ты сегодня про свой сетап ceph рассказывал. А что у тебя за сеть?

И те кто ceph гоняет, что у вас за сеть?

Sergey
10.01.2017
06:59:51
Но это легаси.

мы планировали расти там. будет, скорее всего, 10g на хост, 400g (или 240g) на стойку, spine-leaf, leaf - 48x10G+4x100G (или 48x10G+6x40G), spine - 32x100G (или 32х40G)., первая итерация роста - до 80 хостов мб. сеть немного оверкилл, но с заложенным потенциалом для роста.

Roman
10.01.2017
11:21:17
4х1g на хост, одна сеть, шейпинг поверх
оно вам для образов виртуалок?

и есть какие-то цифры в плане скорости такой конструкции?

Sergey
10.01.2017
11:22:44
Щас основное использование - rgw, расширение будет для rbd.

и есть какие-то цифры в плане скорости такой конструкции?
Мм, кластера сефа в такой конфигурации сети у меня нет. Он умозрителен.

В целом клос сети - ок, но есть нюансы.

Google
Максим
10.01.2017
11:44:49
Щас основное использование - rgw, расширение будет для rbd.
Привет! А расскажи плз, что за диски у вас под осд и как журналы сделаны - на этих же винтах разделами или отдельно ssd нашинкованы?

Sergey
10.01.2017
11:46:36
2Т диски, 8hdd+2ssd для журналов на каждой ноде. Диск содержит один раздел, xfs.

Максим
10.01.2017
11:48:39
у нас 4T hdd и чото боль при скрабе возникает порой

видимо, пора тоже думать в сторону ssd под osd

Александр
10.01.2017
11:49:54
Pavel
10.01.2017
11:51:37
Максим
10.01.2017
11:52:09
без ssd под журналы?
Нет, для журналов партиция SSD ... /dev/sda : /dev/sda1 other, 21686148-6449-6e6f-744e-656564454649 /dev/sda2 other, linux_raid_member /dev/sda3 ceph journal, for /dev/sde1 /dev/sda4 ceph journal, for /dev/sdf1 /dev/sda5 ceph journal, for /dev/sdh1 /dev/sde : /dev/sde1 ceph data, active, cluster ceph, osd.1, journal /dev/sda3 ...

Artem
10.01.2017
11:53:02
Приветствую, подскажите пожалуйста, если кто вкурсе,- нужно ограничить запуск ВМ без диска в cinder только определенными compute нодами, смотрю в сторону кастомного фильтра для nova scheduler, но не понимаю как определить стартует ВМ с диском в cinder или локальным, в 'filter_properties -> request_spec -> instance_properties' вижу только что параметр 'image_ref' пустой при запуске Вм с cinder диском, но этот параметр будет заполнен если "кто-то" сделал rebuild ВМ с указанием образа, а затем попытался сделать resize.

Максим
10.01.2017
11:53:42
делайте скраб ночью по крону
Типа osd scrub begin/end hour ?

хм, спасибо за совет

Pavel
10.01.2017
11:55:43
Типа osd scrub begin/end hour ?
во-первых, выкручиваете эти опции, да. Чтобы он не запускался неожиданно днем. Во-вторых, просто по линуксовому крону запускаете скрабинг

Максим
10.01.2017
11:56:29
ok, попробую так пожить - посмотрим, спасибо!

Pavel
10.01.2017
11:56:33
https://gitlab.cern.ch/ceph/ceph-scripts/blob/master/tools/scrubbing/ceph-scrub-summary.py

скриптик для скрабинга

Alexandr
10.01.2017
12:38:40
Приветствую, подскажите пожалуйста, если кто вкурсе,- нужно ограничить запуск ВМ без диска в cinder только определенными compute нодами, смотрю в сторону кастомного фильтра для nova scheduler, но не понимаю как определить стартует ВМ с диском в cinder или локальным, в 'filter_properties -> request_spec -> instance_properties' вижу только что параметр 'image_ref' пустой при запуске Вм с cinder диском, но этот параметр будет заполнен если "кто-то" сделал rebuild ВМ с указанием образа, а затем попытался сделать resize.
Не уверен, что совсем правильное решение и имеено то, что ты хочешь. А не лучше ли сделать разные flavor для этого? Один для дисков локальных, один - только cinder. Для разных flavor в properties запихиваешь aggregate_instance_extra_specs, включаешь фильтр AggregateInstanceExtraSpecsFilter, compute на которых надо и не надо запускать инстансы с cinder-диском объединяешь в разные host aggregates

Artem
10.01.2017
12:44:02
Не уверен, что совсем правильное решение и имеено то, что ты хочешь. А не лучше ли сделать разные flavor для этого? Один для дисков локальных, один - только cinder. Для разных flavor в properties запихиваешь aggregate_instance_extra_specs, включаешь фильтр AggregateInstanceExtraSpecsFilter, compute на которых надо и не надо запускать инстансы с cinder-диском объединяешь в разные host aggregates
да, спасибо, думал над таким решением, но оно нам мало подходит- это надо дублировать все flafor , плюс в целом есть ноды на которых можно запускать ВМ и с диском в cinder и с локальным, при таком подходе будет жесткое разделение- здесь мы стартуем только ВМ с cinder, а здесь только локальные.

Alexandr
10.01.2017
12:47:57
дублирование flavor - да, не так удобно разделение серверов - нет, host aggregates в отличие от availability zone могут пересекаться, т.е. хост может быть сразу в нескольких host aggregate`ах, если только это не AZ

AnswerX
10.01.2017
16:41:14
@socketpair ку, а ты не сохранил у себя нигде список что ты сюда выкидывал по твоему best choice по хардам? Я чет не могу найти нормально его((

Марк ☢
10.01.2017
18:42:32
benching Model=OCZ-TRION150 RAW: Write cache: True, iodepth: 1, sync: True => 938 IOPS RAW: Write cache: True, iodepth: 32, sync: True => 11127 IOPS RAW: Write cache: False, iodepth: 1, sync: True => 903 IOPS RAW: Write cache: False, iodepth: 32, sync: True => 981 IOPS benching Model=Samsung SSD 850 PRO 256GB RAW: Write cache: True, iodepth: 1, sync: True => 918 IOPS RAW: Write cache: True, iodepth: 32, sync: True => 9827 IOPS RAW: Write cache: False, iodepth: 1, sync: True => 415 IOPS RAW: Write cache: False, iodepth: 32, sync: True => 8899 IOPS benching Model=Corsair Force GT RAW: Write cache: True, iodepth: 1, sync: True => 2269 IOPS RAW: Write cache: True, iodepth: 32, sync: True => 14624 IOPS RAW: Write cache: False, iodepth: 1, sync: True => 19603 IOPS RAW: Write cache: False, iodepth: 32, sync: True => 15167 IOPS benching Model=OCZ-VERTEX3 RAW: Write cache: True, iodepth: 1, sync: True => 1127.89 IOPS RAW: Write cache: True, iodepth: 32, sync: True => 22032.25 IOPS RAW: Write cache: False, iodepth: 1, sync: True => 15133.19 IOPS RAW: Write cache: False, iodepth: 32, sync: True => 33692.46 IOPS benching Model=OCZ-VECTOR150 RAW: Write cache: True, iodepth: 1, sync: True => 348 IOPS RAW: Write cache: True, iodepth: 32, sync: True => 3825 IOPS RAW: Write cache: False, iodepth: 1, sync: True => 27814 IOPS RAW: Write cache: False, iodepth: 32, sync: True => 85686 IOPS

Google
Марк ☢
10.01.2017
18:42:59
@AnswerX

Одно не пойму, почему на ссд отключение кэша ПОВЫШАЕТ иопсы?

а на магнитных понижает

Александр
10.01.2017
19:33:21
кэш ссд против записи на ссд?

Я наверное что-то не так понимаю

Кэш ssd против кэш хдд?

Марк ☢
10.01.2017
20:20:53
няня я у них поел

John
11.01.2017
05:40:21
Добрый день! Есть небольшая инсталляция CEPH как RBD для виртуаллок, Время от времени в логах цефа мелькает что-то подобное : 2017-01-11 05:05:14.794513 osd.24 1.31.101.2:6826/13859 433 : cluster [WRN] 5 slow requests, 1 included below; oldest blocked for > 31.094524 secs 2017-01-11 05:05:14.794517 osd.24 1.31.101.2:6826/13859 434 : cluster [WRN] slow request 31.094221 seconds old, received at 2017-01-11 05:04:43.700249: osd_op(c lient.3683335.0:29076167 12.e28bc218 rbd_data.35594b3078dd49.00000000000000c4 [stat,set-alloc-hint object_size 4194304 write_size 4194304,write 3850240~16384] sna pc 0=[] ack+ondisk+write+known_if_redirected e12031) currently waiting for rw locks

Может быть кто-то глубже погружался в вопрос, с чем могут быть связаны эти задержки на OSD ?

Нагрузка на кластер вот такая: 2017-01-11 05:05:28.348193 mon.0 1.31.101.1:6789/0 1498935 : cluster [INF] pgmap v10794138: 726 pgs: 2 active+clean+scrubbing+deep, 724 active+clean; 5964 GB da ta, 17862 GB used, 34520 GB / 52382 GB avail; 101613 B/s rd, 40109 kB/s wr, 7038 op/s

Максим
11.01.2017
06:00:24
John, привет погляди историю повыше, похоже, такая же история, что и в моём случае

John
11.01.2017
06:01:44
John, привет погляди историю повыше, похоже, такая же история, что и в моём случае
сейчас пролистаю, такие ошибки иногда появлятся, но не могу сказать, что регулярно и что они как-то затрагивают сервис, просто интересно разобраться в причинах.

Возможно причина в активности active+clean+scrubbing+deep, и она порядочно нагружает OSD

Максим
11.01.2017
06:04:13
в нашем случае просто SATA-винты не вывозят когда PG скрабится и в неё приходит клиент за данными, начинаются тупняки если смотреть в мониторинг, то у харда как раз ~120 МБ/с на чтение в это время

пацаны из firstvds вообще махнули шашкой и поставили SSD для OSD https://habrahabr.ru/company/first/blog/314106/

Максим
11.01.2017
06:18:17
Я ещё не пробовал скраббинг по расписанию запускать Но, судя по тому, что у Церна есть специально нарисованный для этого скрипт, такая необходимость, всё-таки, существует ?

Максим
11.01.2017
06:27:20
Google
John
11.01.2017
06:28:57
FT?
Сорри, replicated =)

Максим
11.01.2017
06:33:30
Сорри, replicated =)
Ага, у нас replicated size = 3 min_size = 2 по дефолту

John
11.01.2017
06:36:06
Ага, у нас replicated size = 3 min_size = 2 по дефолту
А тиринг есть ? Есть у меня идея попробовать tier1 из 5-х SSD над медленными 7200... На сколько оно вобще юзабельно будет по скорости.

Максим
11.01.2017
06:41:02
А тиринг есть ? Есть у меня идея попробовать tier1 из 5-х SSD над медленными 7200... На сколько оно вобще юзабельно будет по скорости.
Была мысль попробовать, но потом отказались (по крайней мере, на время) - решили сперва максимум выкрутить из того, что имеется. Абзац документации http://docs.ceph.com/docs/master/rados/operations/cache-tiering/#a-word-of-caution меня слегка напряг. Пока что у нас основной профиль - это rgw. Когда rbd более активно использовать будем, вероятно, придётся и тиринг поковырять.

Марк ☢
11.01.2017
06:56:30
John
11.01.2017
06:58:18
возможно недочитал выше, а у тебя проблема с медленной записью или чтением ?
Нет проблем нет, есть простой FR=3 , теоретически хочется понять , какие плюшки и какие проблемы нам дам использование тира из SSD над медленными дисками без журналов на ssd

Марк ☢
11.01.2017
08:17:12
Нет проблем нет, есть простой FR=3 , теоретически хочется понять , какие плюшки и какие проблемы нам дам использование тира из SSD над медленными дисками без журналов на ssd
у тайринга есть преимущество имхо только одно — быстрое чтение, ибо кешируется. А быструю запись имхо лучше реализовать через журналы на SSD.

Pavel
11.01.2017
08:18:26
при том с тирингом может вылезти куча сайд эффектов и архитектурных проебов, что и сказано в соответствующей доке

Марк ☢
11.01.2017
08:19:06
Энти SSD-журналы будут работать для всех пулов. А вот писание через тайринг требует чтобы все кто хотят быстро писать чтобы пейсали только в этот спецпул

AnswerX
11.01.2017
09:33:08
@socketpair увидел твой список, thanx!

Марк ☢
11.01.2017
14:45:22
https://wiki.openattic.org/display/OP/List+of+Other+Ceph+Management+Tools

что из этого не говно?

https://wiki.openattic.org/display/OP

Pavel
11.01.2017
14:54:13
Нахрен вам эти дашборды

Александр
11.01.2017
14:54:25

Страница 86 из 117