Maksim
Max
🤚
Max
Коллеги, приветсвую.
Можете поделиться конфигурациями ОС и компонентов в ваших кластерах кубера?
Max
У нас есть проблема с нодами, которые периодически рестартятся из за кернел паника, в дампе каждый раз разная причина (тут есть логи https://gist.github.com/dandronov-alytics/d999698122674106cedf7fd7507daca0), проблема возникает крайне хаотично, нода может работать несколько недель (вплоть до месяца) а потом упасть 3 раза за сутки, связи с нагрузкой на сервер не обнаружено (сервер не сильно нагружен, пиков по нагрузке тоже не бывает).
версии компонентов:
OS: ubuntu 16.04 (kernel 4.10)
kubernetes 1.8.3
etcd 3.2.4
docker 17.03
CNI: calico 2.6.2
Max
Или мб есть мысли по направлению, куда еще смотреть по этому поводу..?
Anton
Может с железом проблемы?
john
похоже на битую память
john
а зачем 16 убунта на проде?
Logan
Andor
почти два года как выпустили, вполне можно прод на ней гонять (теоретически)
Maksim
Самое интереное что ещё и разные модули падают. То докер, то сваппер
john
а хост свой или удаленный?
john
если есть возможность - надо тестить память
Anton
В любой непонятной ситуации тести память (или диск)
𝚔𝚟𝚊𝚙𝚜
@mvikharev, на нодах есть swap?
Max
отдавали хосты на диагностику в хецнеру, они говорили что ок
Andor
у них можно загрузиться в rescue и потестить память
Max
Max
Max
но хецнер своими тестами проблемы железа отрицает
Andor
у вас ецц есть?
Andor
в хетцнере его на многих тарифах нету
Max
Max
Пока чекаем замечу, что самый первый кластер был стабильный. Но он был однонодный на топовой железке. Но тк на нем сетапили много тестовых окружений - поймали проблемы с превышением количества подов (когда более 100 подов на одной ноде начинает тупить докер - проблема известная и в кубер доке освещается). В итоге решили заменить топовую железку на три дешевых и начались ребуты
Max
Да, память не ECC
Andor
в хетцнере дешёвые тарифы = десктопное железо
Max
Al
Ну вот, железо исключить нельзя.
Max
ну те получается если реально память то мемтест покажет
AB 🇨🇾 🍉
Можно глупый вопрос?
Чем кубернетис кластер на одной ноде лучше простого swarm?
Anonymous
знакоки helm, подскажите плиз?
0) добавил новую переменную в values.yml
1) изменил deployment в чарте и заинкрементил версию чарта
2) при попытке сделать helm upgrade сервису ругается:
helm upgrade $RELEASE_NAME $CHART_NAME --force --recreate-pods --reuse-values --wait --set image.repository=$DOCKER_REPOSITORY,image.project=$PROJECT_NAME,image.tag=$DRONE_BUILD_NUMBER
Error: UPGRADE FAILED: render error in "service/templates/deployment.yaml": template: service/templates/deployment.yaml:48:43: executing "service/templates/deployment.yaml" at <.Values.health.liven...>: can't evaluate field livenessInitialDelaySeconds in type interface {}
я так понимаю что он должен сам определить что изменились вещи и обновить соответсвующие штукенции? или нужен какой-то флаг для этого?
Lev
по-моему он просто ругается на кривой шаблон
Anton
похоже с рендерингом шаблона проблемы
Anonymous
тогда должно тут ругаться поидее?
helm fetch test/service --untar
helm install ./service -n test --dry-run --debug
Vladimir
вот так можно проверить валидность манифестов чарта
helm lint
Lev
отрендери шаблоны и посмотри, что там на 48 строке
Anonymous
initialDelaySeconds: {{ .Values.health.livenessInitialDelaySeconds }}
Anonymous
values.yml:
...
health:
livenessInitialDelaySeconds: 10
...
Anonymous
ммм, кавычки?
Maksim
я не спец по helm, но меня смущает точка в начала объекта...
Lev
это норм, это из шаблонизатора)
Maksim
странный он какой-то...
Anonymous
я сделал:
helm fetch test/service --untar
helm install ./service -n test-deploy
helm upgrade test-deploy ./service
все норм
то есть проблема именно при апгрейде с 1.0.0 (в котором нет `initialDelaySeconds`) на 1.0.1 (в котором я добавил это свойство)
вот и спрашиваю: я чего-то не понимаю, или он должен был мне обновить деплоймент?
Lev
use force)
Anonymous
с ним и делал :) --force --reuse-values
Anonymous
а в каких случаях swarm лучше? (не холивара ради, просто хочу понять для чего инструмент больше подходит)
Maksim
Andor
wut
Andor
даладна
Andor
с какой версии?
Pasha Chalyk
на маке вроде пока только
IURII
запостите кто еще не постил.
Pasha Chalyk
)
Andor
ну это дистрибьюция в комплекте, это не значит, что в код докера кубер запилил
Andor
у меня доскер без кубера поставился, но я стейбл вроде бы ставил
Anton
https://twitter.com/solomonstre/status/941080802607222784
Andor
просто это звучит примерно как "в составе ядра linux теперь есть ещё и kde"
Anton
Kуб -- бандура и махина (не всем же кувалда нужна). Возможно, останется место и сварму.
AB 🇨🇾 🍉
как аргумент:
swarm гораздо проще, если нужно по-быстрому поднять кластер, и команда работала только с докер-композ, то со сворм не будет проблем,
из коробки есть почти все для проекта
AB 🇨🇾 🍉
Andor
кажется справа не то же самое, что слева
Andor
имхо принципиально небольшая разница
Maksim
Тут какое дело. Нету ни политики обновления ни дискавери ни описания поддержки и перезапуска контейнера, то есть по сути swarm жто тот же compose но раскинуты на несколько нод, но вот в виде кластера это не очень интересно.....да и как отделять конфиг от кода? ну и т.п.
Etki
какая разница, меньше писать же
Etki
что может быть важнее
Andor
не руками же писать это всё
AB 🇨🇾 🍉
Oleg
Ежемесячный опрос: кто что и как для централизованного логирования использует?
Etki
Graylog
AB 🇨🇾 🍉
elk
papertrail
Dmitrii
filebeat elk
Oleg
и почему
Dmitrii
А, чорт, думал я в девапс чатике. В k8s у меня пока нет централизованного.