G72K
у нас куб в AWS , оно кажется умеет к нему ходить узнавать жива ли нода. если на голом железе, то может и некуда идти и только ждать админа, чтобы удалил ноду руками?
Pavel
Походу конфиги всё также надо править...
Салтыдык
Pavel
Вручную, всмысое
Салтыдык
да нафиг тогда кубер?)
Салтыдык
ладн, завтра поковыряюсь на эту тему. Спасибо, @rossmohax
Pavel
Пока, аутринсталл у меня чотко работал, кстати, только от клаудеры
Pavel
Ну щоб кластер из коробки и всё работает
G72K
G72K
похоже про удаление руками это только к StatefulSet относится и только если из cloudprovider нельзя узнать состояние ноды , остальные контроллеры запускают новые поды взамен выпавших, но выпавшие так и висят в списках, пока ноду не удалят-таки руками
G72K
вобщем разумно :)
A
Кстати, про удаления
A
Правильно пониаю, что kubernetes за собой старые докер-образы подчищает? Или всё-таки нужно свой "сборщик мусора" прикручивать?
Ivan
надо прикручивать
G72K
надо прикручивать
здесь врут? https://kubernetes.io/docs/concepts/cluster-administration/kubelet-garbage-collection/
G72K
у нас чистит вроде, надо подождать пока диск забьется только :)
Ivan
что чистит?
G72K
образы
Ivan
какие?
G72K
image-gc-low-threshold, the percent of disk usage to which image garbage collection attempts to free. Default is 80%
G72K
те что в docker image отбражаются на нодах
Ivan
есть образы, есть слои... есть образы используемые, есть нет. есть залитые руками, есть по деплою...
Ivan
я не знаю, что конкретно чистит эта хрень, но точно далеко не всё
Ivan
может и допилили это дело, но из того, что я видел - чистила только те образы, для которых звезды сошлись
Etki
ему нужен трешолд, чтобы сработать
Etki
и чистит он только вплоть до другого трешолда
Etki
я не видел его живьем в работе, но сдается мне, он по спеке работает
A
У кого-нибудь из коробки на kubeadm заработал пример https://github.com/kubernetes/ingress/tree/master/examples/deployment/nginx/kubeadm ?
Роман
Салтыдык
Роман
Khramov
Ребят, нужна хелпа.
При запуске реббита иногда возникает ошибка -
Events:
FirstSeen LastSeen Count From SubObjectPath Type Reason Message
--------- -------- ----- ---- ------------- -------- ------ -------
3m 3m 1 default-scheduler Normal Scheduled Successfully assigned rabbitmq-1-0 to master1
2m 20s 5 kubelet, master1 Warning FailedSync Error syncing pod, skipping: failed to "CreatePodSandbox" for "rabbitmq-1-0_system(ac29a955-621b-11e7-a1f5-52540073c083)" with CreatePodSandboxError: "CreatePodSandbox for pod \"rabbitmq-1-0_system(ac29a955-621b-11e7-a1f5-52540073c083)\" failed: rpc error: code = 2 desc = NetworkPlugin cni failed to set up pod \"rabbitmq-1-0_system\" network: Get https://10.96.0.1:443/api/v1/namespaces/system/pods/rabbitmq-1-0: dial tcp 10.96.0.1:443: i/o timeout"
Такое только в реббите бывает.
Подскажите в чем может быть проблема?
Khramov
При запуске пода выполняется такой скрипт :
if [ -z "$(grep rabbitmq /etc/resolv.conf)" ]; then
sed "s/^search \([^ ]\+\)/search rabbitmq.\1 \1/" /etc/resolv.conf > /etc/resolv.conf.new;
cat /etc/resolv.conf.new > /etc/resolv.conf;
rm /etc/resolv.conf.new;
fi;
Добавляет 1 элемент в resolv.conf.
Мб из-за этого, но такое возникает не всегда, запущено так 2 реббита, как повезет, иногда возникает ошибка, а иногда нет
Khramov
В итоге эта ошибка была 9 раз, и потом под запустался. Магия какая-то, я хз
Denis
Если не сложно, поделитесь историями с полей. Тут есть люди которые реально поддерживают k8s в проде на своих железках/виртуалках? Сколько человек в команде этим занимается? Как часто что либо падает? Какие проблемы чаще всего бывают? Как с сетью дела обстоят? Подводные камни?
Khramov
4 человека, с самим кубом после настройки первоначальной проблем нет вобще.
С сетью тоже все отлично. Используем canal.
Вот сейчас на новые сервера переходим, пытаемся поставить etcd + tls, и canal. Уже дня 3 мучаемся, нихрена не выходит :D
Denis
а у вас как запущено? все кроме etcd и kubelet запущено в самом кубе? или же основные компоненты юнитами описаны?
Denis
etcd + tls имеется в виду шифрование трафика между etcd и apiserver ?
Khramov
Ну у нас свой кластер etcd, и если он просто поднят, то любой может туда достучаться и изменить там что хочет, мы его с сертификатами подняли, сам куб с ним нормально настроили, а вот когда пытаемся сделать то0-же самое с каналом, то днс нормально не поднимается. Там конфиги старые какие-то, сейчас исправляем.
Салтыдык
Есть у кого опыт работы с portworx?
Denis
Khramov
https://github.com/projectcalico/canal/tree/master/k8s-install
Khramov
Вот как мы ставим
Denis
И до переезда так ставили?
Khramov
Да, там есть как все поставить в 2 строчки, но без tls
Khramov
А с ним там отдельный файл, и он уже не работает, его и смотрим
Khramov
dns то не может достучаться до api (no route to host), то таймаут говорит.
В итоге у нас поднимается все кроме kube-dns, там вечно 2/3
Denis
просто ведь в этом конфиг используется ConfigMap и напрямую с etcd не общается ни calico ни flannel
Khramov
Ну так мы с ним и ставим
Denis
ок
Konstantin
https://habrahabr.ru/company/flant/blog/332432/
Denis
Denis
У кого нибудь есть опыт istio или linkerd ? То что они дают - реально классно, и освобождает приложения от кучи всякой фигни. Вопрос в оверхеде по памяти и сети, ну и стабильность конечно интересует?
Anonymous
думаю что ни у кого нет - технологии только начали разрабатываться, в прод все боятся таскать а в петах особенных фич не поковыряешь
Sergei
Anonymous
lego-kube-lego-3513242700-6j3p2 0/1 OOMKilled
lego-kube-lego-3513242700-6j3p2 0/1 CrashLoopBackOff
вдруг начал падать... ресурсов достаточно в нодах, куда можно начать копать?
Dmitry
продолжение вчерашней истории про само-ребутающиеся ноды на CoreOS:
сегодня утром ребутнулись два ноды. на этот раз системный раздел не вайпнулся после перезагрузки и я достал системный лог (journal). как я и думал - он обрывается ни на чем. ничего особенного не происходило. видать просто ядро ловит панику на ровном месте. что еще можно в системном разделе посмотреть, пока я его не вайпнул?
Dmitry
/sys/fs/pstore кстати пуст
Maksim
https://habrahabr.ru/post/332450/
Салтыдык
инсинуации, ИМХО
Logan
нет. В общем-то все по делу. Но это:
- старая статья
- многое из того, что там есть - это пример тюнинга боинга в бульдозер с соответствующим результатом
Салтыдык
да это личное дело каждого:
1. Страдай и используй докер.
2. Не страдай (?) и не используй.
Logan
но это не отменяет того факта, что в докере довольно много вещей сделано спорно, например из файловых систем нормально не работает ни одна
а их там три
Салтыдык
Я тоже перебирал релизы и системы, пока живет стабильно Ubuntu 16.04.2 + Docker 1.12.6 + AUFS
Logan
Салтыдык
лаконичный ответ)
Logan
еще раз - любая технология критикуется. Просто потому, что у любой технологии есть воркэраунды и слабые места. Об этом нужно знать.
Logan
Критика докера по большей части - вполне по делу. Это не "личное дело", это вопрос выбора и полноты информации
Салтыдык
да никто и не спорит) критикуйте на здоровье)
Салтыдык
так выбор стоит между чем и чем?
Роман
Khramov
Maksim
там и спроси)
Maksim
Перевод не мой (ещё и косой)
Konstantin
не, я без притензий))
Konstantin
они к автору
Konstantin
я оригинал ещё в прошлом году почитал и забыл, неочём - "мынеосилили"
Etki
Etki