Mark ☢️
Лацп деконфигурировал ?
Roman
Да. Даже трафик мальца начинает бегать, но видимо системный. selinux выключен. Когда возвращаю старую конфу, то все летает.
Roman
Roman
LACP убираю вообще и переключаюсь на другой интерфейс. На нем таж сеть, тот же IP.
Roman
Схема такая
Mark ☢️
Маску проверь
Mark ☢️
Реально
Anonymous
ping -s 8000 -M do host
Anonymous
точно проходит без фрагментации?
Roman
3 сервера 2-умя портами LACP в паблик, 2 портами в 2960 LACP. MTU 9000. попутно сделал схему на 2960 + Nexus5k на котором подняты 3-и 10-ки. На нексусе class type network-qos class-default mtu 9216 То есть вроде все в порядке.
Anonymous
а ты пингами все же внутри соседний хост
Roman
Я с двух других соседей пинговал + с самой циски.
Mentat
Mtu over 9000 не всегда и не везде работает штатно, на моей памяти
Mentat
Может урезать?
Roman
Он должен же вроде сам вмещаться в 9000, не?
Roman
главное, чтобы не меньше.
Mentat
Я помню регулярные истории что 9000 норм, а выше как проприоретарщина дров решит, в рассылках
Mentat
Ты же все равно камлаешь, почему не попробовать
Roman
Помнится мне сетевик говорил, что на этом нексусе по умолчанию идет в 9216, но сейчас попинаю его еще раз и узнаю.
Sergei
Это конечно так, но головой думать надо
я просто обычно предоставляю пользователям в компании сервис. и если дать им прямой радос - обязательно кто-то будет использовать объекты в 2 байта, а кто-то - в 2 Тб. и это не потому что у них мозгов нет, они есть. просто у них есть сервис и они не думают, что можно а что нельзя, просто пользуются. поэтому не все сервисы можно давать пользователям.
Mark ☢️
В плане финального эффекта ?
Mark ☢️
Да запарил. Скажи по сути
Sergei
я серьезно. я никогда не использовал сеф с rbd
Mark ☢️
Roman
Проблему решил. Затык был во времянке, забыл на 4948 джамбу включить) Из головы вылетело совсем. А по-поводу нексусов, там жёсткий выбор - 9216 только / либо 1500
Roman
[ceph@vCloud-2 ~]$ ping 10.0.10.10 -M do -s 8972 PING 10.0.10.10 (10.0.10.10) 8972(9000) bytes of data. 8980 bytes from 10.0.10.10: icmp_seq=1 ttl=64 time=1.02 ms 8980 bytes from 10.0.10.10: icmp_seq=2 ttl=64 time=0.917 ms 8980 bytes from 10.0.10.10: icmp_seq=3 ttl=64 time=0.880 ms ^C —- 10.0.10.10 ping statistics —- 3 packets transmitted, 3 received, 0% packet loss, time 2001ms rtt min/avg/max/mdev = 0.880/0.940/1.023/0.060 ms [ceph@vCloud-2 ~]$ ping 10.0.10.10 -M do -s 8973 PING 10.0.10.10 (10.0.10.10) 8973(9001) bytes of data. ping: local error: Message too long, mtu=9000 ping: local error: Message too long, mtu=9000 ping: local error: Message too long, mtu=9000 ^C
Roman
сейчас в схеме учавствуют 5 устройств 😊 N5 + N7-1 + N7-2 + 4948 + 2960
Roman
Все настроил, а про стоечные каталисты как-то и забыл)
Roman
У меня просто переключение с одного устройства на другое, но с сохранением связанности. Поэтому приходится наркоманить немножк)
Anonymous
Я сразу говорил, что это MTU :). Но ты не захотел сделать команду, которую я писал вышел :)
Roman
У меня на тот момент на старой конфе крутилось, а ломать продакшн как-то не очень хочется)) Итак по суровому все. Спасибо за советы.
edo1
Roman Bogachev: А по-поводу нексусов, там жёсткий выбор - 9216 только / либо 1500 Так это нормально, на свитче (если мы про l2 говорим) размер фрейма должен быть не меньше, чем на сетевушках. Больше можно.
Roman
Я об этом как раз выше и говорил.
Евгений
Сколько там этот mtu дает приросту-то? до 5% при потоковой работе?
Roman
Нагрузку с серверов как минимум снимает.
edo1
А смысл мелкими пакетами строчить?
edo1
есть возможность - надо использовать, оно же фактически бесплатно
Евгений
есть возможность - надо использовать, оно же фактически бесплатно
платно-платно. Это надо на всех железках конфигурить и следить, чтоб не поехало.
Mark ☢️
На сетевках тцп оффлоадинг
Mark ☢️
Жи
Mark ☢️
Это с нфс давало жару. По удп
Mark ☢️
По две страницы за пакет
Mark ☢️
А с тцп один хрен реассемблить надо. Я так понял.
Mark ☢️
Джамбо поди только от 40 гигабит будет профит давать
Roman
Ну да. С мыслью "щас все должно получиться" вылетело из головы еще раз все проверить)
edo1
С оффлоадом я уже наткнулся, что rtt с включенным rsc (под виндой) выше в некоторых случаях в разы
edo1
Зачем нужны эти эвристики "пакет большой, наверное он не последний, подождём немного прежде чем отдать ядру, вдруг ещё один придёт"? Rsc пытается достичь того же эффекта, что и jumbo frames, но только гораздо более извращённым способом
edo1
платно-платно. Это надо на всех железках конфигурить и следить, чтоб не поехало.
Один раз включить. И не выключать (включенный на свитче jumbo frames ничего не ломает).
Anonymous
А что тюнить если у qemu-rbd низкие скорости линейного чтения/записи в цеф?
Anonymous
sysctl или таки есть какие-то магические tunables в rbd?
Anonymous
readahead на стороне клиента. и mdadm RAID0 на записи. К сожалению ceph очень не любит thread=1 и depth=1
Anonymous
к сожалению мало профита будет
Mark ☢️
драйвер виртио-скайзи (а не просто виртио)
edo1
кэш=врайтбек для начала
Как оно для чтения поможет?
Mark ☢️
и да, имей в виду, что писание одного блока в рамках 4 мегабайт который, в итоге цефом маппится на один жесткий диск. никакой там магии и ускорения не будет. ну разве что если у тебя журнал на ссд в цефе.
Mark ☢️
Как оно для чтения поможет?
не будет требовать синка от цефа если гостевуха его не требует
Anonymous
драйвер виртио-скайзи (а не просто виртио)
Опа. Сильно даёт прирост (за счёт чего?)
Mark ☢️
и да, имей в виду, что писание одного блока в рамках 4 мегабайт который, в итоге цефом маппится на один жесткий диск. никакой там магии и ускорения не будет. ну разве что если у тебя журнал на ссд в цефе.
а нет. наврал. гостевуха в конце должна отправить мегасинк на все что записала и вот тут то мы и будем ждать ПАРАЛЛЕЛЬНО. но это если у тебя кеш врайтбек. так что магия есть таки
Anonymous
вообщем то на ceph'е для сохранности данных writeback нужен обязательно быть включенным
Anonymous
без его включения fsync от виртуалки не проходит до osd
Mark ☢️
Опа. Сильно даёт прирост (за счёт чего?)
нет не сильно. но дает больше параллельных потоков и появляется возможность делать дискард в гостевухе что приведет к высвобождению места в цефе. и как частность меньше данных гонять при бекфилле
Mark ☢️
Anonymous
А вот дискард это ещё как полезно
Anonymous
Вот этого не знал
Mark ☢️
Параллельный поток создает сам клиента, тоесть софт в виртуалке. Чуда не будет
в виртио-скайзи можно больше потоков и ФУА всякие. кароч это рекомендовано теперь. почитай доки всякие от редхата в тч
Mark ☢️
главное не врайтсру
Mark ☢️
он жутко тормозит и пиздец избыточное количество синков
Anonymous
банальна берем тест fio и гоняем на количество потоков, увеличение производительности будет с каждым потоком.