Mark ☢️
Лацп деконфигурировал ?
Roman
Да. Даже трафик мальца начинает бегать, но видимо системный.
selinux выключен.
Когда возвращаю старую конфу, то все летает.
Roman
Roman
LACP убираю вообще и переключаюсь на другой интерфейс. На нем таж сеть, тот же IP.
Roman
Схема такая
Mark ☢️
Маску проверь
Mark ☢️
Реально
Anonymous
ping -s 8000 -M do host
Anonymous
точно проходит без фрагментации?
Roman
3 сервера 2-умя портами LACP в паблик, 2 портами в 2960 LACP.
MTU 9000.
попутно сделал схему на 2960 + Nexus5k на котором подняты 3-и 10-ки.
На нексусе
class type network-qos class-default
mtu 9216
То есть вроде все в порядке.
Anonymous
а ты пингами все же внутри соседний хост
Roman
Я с двух других соседей пинговал + с самой циски.
Mentat
Mtu over 9000 не всегда и не везде работает штатно, на моей памяти
Mentat
Может урезать?
Roman
Он должен же вроде сам вмещаться в 9000, не?
Roman
главное, чтобы не меньше.
Mentat
Я помню регулярные истории что 9000 норм, а выше как проприоретарщина дров решит, в рассылках
Mentat
Ты же все равно камлаешь, почему не попробовать
Roman
Помнится мне сетевик говорил, что на этом нексусе по умолчанию идет в 9216, но сейчас попинаю его еще раз и узнаю.
Sergei
Это конечно так, но головой думать надо
я просто обычно предоставляю пользователям в компании сервис. и если дать им прямой радос - обязательно кто-то будет использовать объекты в 2 байта, а кто-то - в 2 Тб. и это не потому что у них мозгов нет, они есть. просто у них есть сервис и они не думают, что можно а что нельзя, просто пользуются.
поэтому не все сервисы можно давать пользователям.
Mark ☢️
Mark ☢️
В плане финального эффекта ?
Sergei
Mark ☢️
Да запарил. Скажи по сути
Sergei
я серьезно. я никогда не использовал сеф с rbd
Mark ☢️
Roman
Проблему решил.
Затык был во времянке, забыл на 4948 джамбу включить)
Из головы вылетело совсем.
А по-поводу нексусов, там жёсткий выбор - 9216 только / либо 1500
Евгений
Roman
[ceph@vCloud-2 ~]$ ping 10.0.10.10 -M do -s 8972
PING 10.0.10.10 (10.0.10.10) 8972(9000) bytes of data.
8980 bytes from 10.0.10.10: icmp_seq=1 ttl=64 time=1.02 ms
8980 bytes from 10.0.10.10: icmp_seq=2 ttl=64 time=0.917 ms
8980 bytes from 10.0.10.10: icmp_seq=3 ttl=64 time=0.880 ms
^C
—- 10.0.10.10 ping statistics —-
3 packets transmitted, 3 received, 0% packet loss, time 2001ms
rtt min/avg/max/mdev = 0.880/0.940/1.023/0.060 ms
[ceph@vCloud-2 ~]$ ping 10.0.10.10 -M do -s 8973
PING 10.0.10.10 (10.0.10.10) 8973(9001) bytes of data.
ping: local error: Message too long, mtu=9000
ping: local error: Message too long, mtu=9000
ping: local error: Message too long, mtu=9000
^C
Roman
сейчас в схеме учавствуют 5 устройств 😊
N5 + N7-1 + N7-2 + 4948 + 2960
Roman
Все настроил, а про стоечные каталисты как-то и забыл)
Roman
У меня просто переключение с одного устройства на другое, но с сохранением связанности. Поэтому приходится наркоманить немножк)
Anonymous
Я сразу говорил, что это MTU :). Но ты не захотел сделать команду, которую я писал вышел :)
Roman
У меня на тот момент на старой конфе крутилось, а ломать продакшн как-то не очень хочется)) Итак по суровому все. Спасибо за советы.
edo1
Roman Bogachev:
А по-поводу нексусов, там жёсткий выбор - 9216 только / либо 1500
Так это нормально, на свитче (если мы про l2 говорим) размер фрейма должен быть не меньше, чем на сетевушках. Больше можно.
Roman
Я об этом как раз выше и говорил.
Евгений
Сколько там этот mtu дает приросту-то? до 5% при потоковой работе?
Anonymous
Roman
Нагрузку с серверов как минимум снимает.
edo1
А смысл мелкими пакетами строчить?
edo1
есть возможность - надо использовать, оно же фактически бесплатно
Mark ☢️
Mark ☢️
На сетевках тцп оффлоадинг
Mark ☢️
Жи
Mark ☢️
Это с нфс давало жару. По удп
Mark ☢️
По две страницы за пакет
Mark ☢️
А с тцп один хрен реассемблить надо. Я так понял.
Mark ☢️
Джамбо поди только от 40 гигабит будет профит давать
Mentat
Roman
Ну да. С мыслью "щас все должно получиться" вылетело из головы еще раз все проверить)
edo1
С оффлоадом я уже наткнулся, что rtt с включенным rsc (под виндой) выше в некоторых случаях в разы
edo1
Зачем нужны эти эвристики "пакет большой, наверное он не последний, подождём немного прежде чем отдать ядру, вдруг ещё один придёт"?
Rsc пытается достичь того же эффекта, что и jumbo frames, но только гораздо более извращённым способом
Anonymous
А что тюнить если у qemu-rbd низкие скорости линейного чтения/записи в цеф?
Anonymous
sysctl или таки есть какие-то магические tunables в rbd?
Anonymous
readahead на стороне клиента. и mdadm RAID0 на записи. К сожалению ceph очень не любит thread=1 и depth=1
Mark ☢️
Anonymous
к сожалению мало профита будет
Mark ☢️
драйвер виртио-скайзи (а не просто виртио)
Mark ☢️
и да, имей в виду, что писание одного блока в рамках 4 мегабайт который, в итоге цефом маппится на один жесткий диск. никакой там магии и ускорения не будет. ну разве что если у тебя журнал на ссд в цефе.
edo1
edo1
Anonymous
Mark ☢️
Anonymous
вообщем то на ceph'е для сохранности данных writeback нужен обязательно быть включенным
Anonymous
без его включения fsync от виртуалки не проходит до osd
Mark ☢️
Опа. Сильно даёт прирост (за счёт чего?)
нет не сильно. но дает больше параллельных потоков и появляется возможность делать дискард в гостевухе что приведет к высвобождению места в цефе. и как частность меньше данных гонять при бекфилле
Mark ☢️
Anonymous
А вот дискард это ещё как полезно
Anonymous
Anonymous
Anonymous
Вот этого не знал
Anonymous
Mark ☢️
главное не врайтсру
Mark ☢️
он жутко тормозит и пиздец избыточное количество синков
Anonymous
банальна берем тест fio и гоняем на количество потоков, увеличение производительности будет с каждым потоком.