Mark ☢️

Лацп деконфигурировал ?

Roman

Да. Даже трафик мальца начинает бегать, но видимо системный. selinux выключен. Когда возвращаю старую конфу, то все летает.

Roman

LACP убираю вообще и переключаюсь на другой интерфейс. На нем таж сеть, тот же IP.

Roman

Схема такая

Mark ☢️

Маску проверь

Mark ☢️

Реально

Anonymous

ping -s 8000 -M do host

Anonymous

точно проходит без фрагментации?

Roman

3 сервера 2-умя портами LACP в паблик, 2 портами в 2960 LACP. MTU 9000. попутно сделал схему на 2960 + Nexus5k на котором подняты 3-и 10-ки. На нексусе class type network-qos class-default mtu 9216 То есть вроде все в порядке.

Anonymous

а ты пингами все же внутри соседний хост

Roman

Я с двух других соседей пинговал + с самой циски.

Mentat

Mtu over 9000 не всегда и не везде работает штатно, на моей памяти

Mentat

Может урезать?

Roman

Он должен же вроде сам вмещаться в 9000, не?

Roman

главное, чтобы не меньше.

Mentat

Я помню регулярные истории что 9000 норм, а выше как проприоретарщина дров решит, в рассылках

Mentat

Ты же все равно камлаешь, почему не попробовать

Roman

Помнится мне сетевик говорил, что на этом нексусе по умолчанию идет в 9216, но сейчас попинаю его еще раз и узнаю.

Sergei

Это конечно так, но головой думать надо

я просто обычно предоставляю пользователям в компании сервис. и если дать им прямой радос - обязательно кто-то будет использовать объекты в 2 байта, а кто-то - в 2 Тб. и это не потому что у них мозгов нет, они есть. просто у них есть сервис и они не думают, что можно а что нельзя, просто пользуются. поэтому не все сервисы можно давать пользователям.

Mark ☢️

я просто обычно предоставляю пользователям в компании сервис. и если дать им прямой радос - обязательно кто-то будет использовать объекты в 2 байта, а кто-то - в 2 Тб. и это не потому что у них мозгов нет, они есть. просто у них есть сервис и они не думают, что можно а что нельзя, просто пользуются. поэтому не все сервисы можно давать пользователям.

А в чем разница между стриппингом и уменьшением размера чанка в рбд ?

Mark ☢️

В плане финального эффекта ?

Sergei

А в чем разница между стриппингом и уменьшением размера чанка в рбд ?

не знаю, я не умею в сеф

Mark ☢️

Да запарил. Скажи по сути

Sergei

я серьезно. я никогда не использовал сеф с rbd

Mark ☢️

Roman

Проблему решил. Затык был во времянке, забыл на 4948 джамбу включить) Из головы вылетело совсем. А по-поводу нексусов, там жёсткий выбор - 9216 только / либо 1500

Евгений

Проблему решил. Затык был во времянке, забыл на 4948 джамбу включить) Из головы вылетело совсем. А по-поводу нексусов, там жёсткий выбор - 9216 только / либо 1500

так просили жеж с хоста на хост пингануть, ну как так-то, а?!

Roman

[ceph@vCloud-2 ~]$ ping 10.0.10.10 -M do -s 8972 PING 10.0.10.10 (10.0.10.10) 8972(9000) bytes of data. 8980 bytes from 10.0.10.10: icmp_seq=1 ttl=64 time=1.02 ms 8980 bytes from 10.0.10.10: icmp_seq=2 ttl=64 time=0.917 ms 8980 bytes from 10.0.10.10: icmp_seq=3 ttl=64 time=0.880 ms ^C —- 10.0.10.10 ping statistics —- 3 packets transmitted, 3 received, 0% packet loss, time 2001ms rtt min/avg/max/mdev = 0.880/0.940/1.023/0.060 ms [ceph@vCloud-2 ~]$ ping 10.0.10.10 -M do -s 8973 PING 10.0.10.10 (10.0.10.10) 8973(9001) bytes of data. ping: local error: Message too long, mtu=9000 ping: local error: Message too long, mtu=9000 ping: local error: Message too long, mtu=9000 ^C

Roman

сейчас в схеме учавствуют 5 устройств 😊 N5 + N7-1 + N7-2 + 4948 + 2960

Roman

Все настроил, а про стоечные каталисты как-то и забыл)

Roman

У меня просто переключение с одного устройства на другое, но с сохранением связанности. Поэтому приходится наркоманить немножк)

Anonymous

Я сразу говорил, что это MTU :). Но ты не захотел сделать команду, которую я писал вышел :)

Roman

У меня на тот момент на старой конфе крутилось, а ломать продакшн как-то не очень хочется)) Итак по суровому все. Спасибо за советы.

edo1

Roman Bogachev: А по-поводу нексусов, там жёсткий выбор - 9216 только / либо 1500 Так это нормально, на свитче (если мы про l2 говорим) размер фрейма должен быть не меньше, чем на сетевушках. Больше можно.

Roman

Я об этом как раз выше и говорил.

Евгений

Сколько там этот mtu дает приросту-то? до 5% при потоковой работе?

Anonymous

Сколько там этот mtu дает приросту-то? до 5% при потоковой работе?

Однозначно больше даёт.

Roman

Нагрузку с серверов как минимум снимает.

edo1

А смысл мелкими пакетами строчить?

edo1

есть возможность - надо использовать, оно же фактически бесплатно

Евгений

есть возможность - надо использовать, оно же фактически бесплатно

платно-платно. Это надо на всех железках конфигурить и следить, чтоб не поехало.

Mark ☢️

платно-платно. Это надо на всех железках конфигурить и следить, чтоб не поехало.

+

Mark ☢️

На сетевках тцп оффлоадинг

Mark ☢️

Жи

Mark ☢️

Это с нфс давало жару. По удп

Mark ☢️

По две страницы за пакет

Mark ☢️

А с тцп один хрен реассемблить надо. Я так понял.

Mark ☢️

Джамбо поди только от 40 гигабит будет профит давать

Mentat

У меня на тот момент на старой конфе крутилось, а ломать продакшн как-то не очень хочется)) Итак по суровому все. Спасибо за советы.

Ну и норм, что решили, явно было похоже на косяки мту-так вышло;)

Roman

Ну да. С мыслью "щас все должно получиться" вылетело из головы еще раз все проверить)

edo1

С оффлоадом я уже наткнулся, что rtt с включенным rsc (под виндой) выше в некоторых случаях в разы

edo1

Зачем нужны эти эвристики "пакет большой, наверное он не последний, подождём немного прежде чем отдать ядру, вдруг ещё один придёт"? Rsc пытается достичь того же эффекта, что и jumbo frames, но только гораздо более извращённым способом

edo1

платно-платно. Это надо на всех железках конфигурить и следить, чтоб не поехало.

Один раз включить. И не выключать (включенный на свитче jumbo frames ничего не ломает).

Anonymous

А что тюнить если у qemu-rbd низкие скорости линейного чтения/записи в цеф?

Anonymous

sysctl или таки есть какие-то магические tunables в rbd?

Anonymous

readahead на стороне клиента. и mdadm RAID0 на записи. К сожалению ceph очень не любит thread=1 и depth=1

Mark ☢️

А что тюнить если у qemu-rbd низкие скорости линейного чтения/записи в цеф?

кэш=врайтбек для начала

Anonymous

к сожалению мало профита будет

Mark ☢️

драйвер виртио-скайзи (а не просто виртио)

edo1

кэш=врайтбек для начала

Как оно для чтения поможет?

Mark ☢️

и да, имей в виду, что писание одного блока в рамках 4 мегабайт который, в итоге цефом маппится на один жесткий диск. никакой там магии и ускорения не будет. ну разве что если у тебя журнал на ссд в цефе.

Mark ☢️

Как оно для чтения поможет?

не будет требовать синка от цефа если гостевуха его не требует

edo1

А что тюнить если у qemu-rbd низкие скорости линейного чтения/записи в цеф?

Низкие - это сколько?

edo1

не будет требовать синка от цефа если гостевуха его не требует

Fsync на чтение?

Anonymous

драйвер виртио-скайзи (а не просто виртио)

Опа. Сильно даёт прирост (за счёт чего?)

Mark ☢️

и да, имей в виду, что писание одного блока в рамках 4 мегабайт который, в итоге цефом маппится на один жесткий диск. никакой там магии и ускорения не будет. ну разве что если у тебя журнал на ссд в цефе.

а нет. наврал. гостевуха в конце должна отправить мегасинк на все что записала и вот тут то мы и будем ждать ПАРАЛЛЕЛЬНО. но это если у тебя кеш врайтбек. так что магия есть таки

Anonymous

вообщем то на ceph'е для сохранности данных writeback нужен обязательно быть включенным

Anonymous

без его включения fsync от виртуалки не проходит до osd

Mark ☢️

Опа. Сильно даёт прирост (за счёт чего?)

нет не сильно. но дает больше параллельных потоков и появляется возможность делать дискард в гостевухе что приведет к высвобождению места в цефе. и как частность меньше данных гонять при бекфилле

Mark ☢️

вообщем то на ceph'е для сохранности данных writeback нужен обязательно быть включенным

верно. только по дефолту кеш ноне или врайттхроугх

Anonymous

А вот дискард это ещё как полезно

Anonymous

нет не сильно. но дает больше параллельных потоков и появляется возможность делать дискард в гостевухе что приведет к высвобождению места в цефе. и как частность меньше данных гонять при бекфилле

Параллельный поток создает сам клиента, тоесть софт в виртуалке. Чуда не будет

Anonymous

вообщем то на ceph'е для сохранности данных writeback нужен обязательно быть включенным

Опа новости

Anonymous