G72K

у нас куб в AWS , оно кажется умеет к нему ходить узнавать жива ли нода. если на голом железе, то может и некуда идти и только ждать админа, чтобы удалил ноду руками?

Pavel

Походу конфиги всё также надо править...

Салтыдык

у нас куб в AWS , оно кажется умеет к нему ходить узнавать жива ли нода. если на голом железе, то может и некуда идти и только ждать админа, чтобы удалил ноду руками?

так не должно быть

Pavel

Вручную, всмысое

Салтыдык

да нафиг тогда кубер?)

Салтыдык

ладн, завтра поковыряюсь на эту тему. Спасибо, @rossmohax

Pavel

Пока, аутринсталл у меня чотко работал, кстати, только от клаудеры

Pavel

Ну щоб кластер из коробки и всё работает

G72K

у нас куб в AWS , оно кажется умеет к нему ходить узнавать жива ли нода. если на голом железе, то может и некуда идти и только ждать админа, чтобы удалил ноду руками?

первым же в changelog на 1.5.0: https://github.com/kubernetes/kubernetes/blob/master/CHANGELOG.md#notable-changes-to-existing-behavior

G72K

похоже про удаление руками это только к StatefulSet относится и только если из cloudprovider нельзя узнать состояние ноды , остальные контроллеры запускают новые поды взамен выпавших, но выпавшие так и висят в списках, пока ноду не удалят-таки руками

G72K

вобщем разумно :)

A

Кстати, про удаления

A

Правильно пониаю, что kubernetes за собой старые докер-образы подчищает? Или всё-таки нужно свой "сборщик мусора" прикручивать?

Ivan

надо прикручивать

G72K

надо прикручивать

здесь врут? https://kubernetes.io/docs/concepts/cluster-administration/kubelet-garbage-collection/

G72K

у нас чистит вроде, надо подождать пока диск забьется только :)

Ivan

что чистит?

G72K

образы

Ivan

какие?

G72K

image-gc-low-threshold, the percent of disk usage to which image garbage collection attempts to free. Default is 80%

G72K

те что в docker image отбражаются на нодах

Ivan

есть образы, есть слои... есть образы используемые, есть нет. есть залитые руками, есть по деплою...

Ivan

я не знаю, что конкретно чистит эта хрень, но точно далеко не всё

Ivan

может и допилили это дело, но из того, что я видел - чистила только те образы, для которых звезды сошлись

Etki

ему нужен трешолд, чтобы сработать

Etki

и чистит он только вплоть до другого трешолда

Etki

я не видел его живьем в работе, но сдается мне, он по спеке работает

A

У кого-нибудь из коробки на kubeadm заработал пример https://github.com/kubernetes/ingress/tree/master/examples/deployment/nginx/kubeadm ?

Роман

У кого-нибудь из коробки на kubeadm заработал пример https://github.com/kubernetes/ingress/tree/master/examples/deployment/nginx/kubeadm ?

Ему нужно ещё RBAC.

Салтыдык

У кого-нибудь из коробки на kubeadm заработал пример https://github.com/kubernetes/ingress/tree/master/examples/deployment/nginx/kubeadm ?

я traefik накатил попробовать

Роман

У кого-нибудь из коробки на kubeadm заработал пример https://github.com/kubernetes/ingress/tree/master/examples/deployment/nginx/kubeadm ?

https://github.com/kubernetes/ingress/issues/575 - тут почитай.

Khramov

Ребят, нужна хелпа. При запуске реббита иногда возникает ошибка - Events: FirstSeen LastSeen Count From SubObjectPath Type Reason Message --------- -------- ----- ---- ------------- -------- ------ ------- 3m 3m 1 default-scheduler Normal Scheduled Successfully assigned rabbitmq-1-0 to master1 2m 20s 5 kubelet, master1 Warning FailedSync Error syncing pod, skipping: failed to "CreatePodSandbox" for "rabbitmq-1-0_system(ac29a955-621b-11e7-a1f5-52540073c083)" with CreatePodSandboxError: "CreatePodSandbox for pod \"rabbitmq-1-0_system(ac29a955-621b-11e7-a1f5-52540073c083)\" failed: rpc error: code = 2 desc = NetworkPlugin cni failed to set up pod \"rabbitmq-1-0_system\" network: Get https://10.96.0.1:443/api/v1/namespaces/system/pods/rabbitmq-1-0: dial tcp 10.96.0.1:443: i/o timeout" Такое только в реббите бывает. Подскажите в чем может быть проблема?

Khramov

При запуске пода выполняется такой скрипт : if [ -z "$(grep rabbitmq /etc/resolv.conf)" ]; then sed "s/^search $[^ ]\+$/search rabbitmq.\1 \1/" /etc/resolv.conf > /etc/resolv.conf.new; cat /etc/resolv.conf.new > /etc/resolv.conf; rm /etc/resolv.conf.new; fi; Добавляет 1 элемент в resolv.conf. Мб из-за этого, но такое возникает не всегда, запущено так 2 реббита, как повезет, иногда возникает ошибка, а иногда нет

Khramov

В итоге эта ошибка была 9 раз, и потом под запустался. Магия какая-то, я хз

Denis

Если не сложно, поделитесь историями с полей. Тут есть люди которые реально поддерживают k8s в проде на своих железках/виртуалках? Сколько человек в команде этим занимается? Как часто что либо падает? Какие проблемы чаще всего бывают? Как с сетью дела обстоят? Подводные камни?

Khramov

4 человека, с самим кубом после настройки первоначальной проблем нет вобще. С сетью тоже все отлично. Используем canal. Вот сейчас на новые сервера переходим, пытаемся поставить etcd + tls, и canal. Уже дня 3 мучаемся, нихрена не выходит :D

Denis

а у вас как запущено? все кроме etcd и kubelet запущено в самом кубе? или же основные компоненты юнитами описаны?

Denis

etcd + tls имеется в виду шифрование трафика между etcd и apiserver ?

Khramov

Ну у нас свой кластер etcd, и если он просто поднят, то любой может туда достучаться и изменить там что хочет, мы его с сертификатами подняли, сам куб с ним нормально настроили, а вот когда пытаемся сделать то0-же самое с каналом, то днс нормально не поднимается. Там конфиги старые какие-то, сейчас исправляем.

Салтыдык

Есть у кого опыт работы с portworx?

Denis

Ну у нас свой кластер etcd, и если он просто поднят, то любой может туда достучаться и изменить там что хочет, мы его с сертификатами подняли, сам куб с ним нормально настроили, а вот когда пытаемся сделать то0-же самое с каналом, то днс нормально не поднимается. Там конфиги старые какие-то, сейчас исправляем.

а у вас canal напрямую с etcd работает? не через config map?

Khramov

https://github.com/projectcalico/canal/tree/master/k8s-install

Khramov

Вот как мы ставим

Denis

И до переезда так ставили?

Khramov

Да, там есть как все поставить в 2 строчки, но без tls

Khramov

А с ним там отдельный файл, и он уже не работает, его и смотрим

Khramov

dns то не может достучаться до api (no route to host), то таймаут говорит. В итоге у нас поднимается все кроме kube-dns, там вечно 2/3

Denis

просто ведь в этом конфиг используется ConfigMap и напрямую с etcd не общается ни calico ни flannel

Khramov

Ну так мы с ним и ставим

Denis

ок

Konstantin

https://habrahabr.ru/company/flant/blog/332432/

Denis

https://habrahabr.ru/company/flant/blog/332432/

а weave на каком механизме работает?

Denis

У кого нибудь есть опыт istio или linkerd ? То что они дают - реально классно, и освобождает приложения от кучи всякой фигни. Вопрос в оверхеде по памяти и сети, ну и стабильность конечно интересует?

Anonymous

думаю что ни у кого нет - технологии только начали разрабатываться, в прод все боятся таскать а в петах особенных фич не поковыряешь

Sergei

https://habrahabr.ru/company/flant/blog/332432/

в статье многое прекрасно

Anonymous

lego-kube-lego-3513242700-6j3p2 0/1 OOMKilled lego-kube-lego-3513242700-6j3p2 0/1 CrashLoopBackOff вдруг начал падать... ресурсов достаточно в нодах, куда можно начать копать?

Dmitry

продолжение вчерашней истории про само-ребутающиеся ноды на CoreOS: сегодня утром ребутнулись два ноды. на этот раз системный раздел не вайпнулся после перезагрузки и я достал системный лог (journal). как я и думал - он обрывается ни на чем. ничего особенного не происходило. видать просто ядро ловит панику на ровном месте. что еще можно в системном разделе посмотреть, пока я его не вайпнул?

Dmitry

/sys/fs/pstore кстати пуст

Maksim

https://habrahabr.ru/post/332450/

Салтыдык

инсинуации, ИМХО

Logan

нет. В общем-то все по делу. Но это: - старая статья - многое из того, что там есть - это пример тюнинга боинга в бульдозер с соответствующим результатом

Салтыдык

да это личное дело каждого: 1. Страдай и используй докер. 2. Не страдай (?) и не используй.

Logan

но это не отменяет того факта, что в докере довольно много вещей сделано спорно, например из файловых систем нормально не работает ни одна а их там три

Салтыдык

Я тоже перебирал релизы и системы, пока живет стабильно Ubuntu 16.04.2 + Docker 1.12.6 + AUFS

Logan

да это личное дело каждого: 1. Страдай и используй докер. 2. Не страдай (?) и не используй.

нет.

Салтыдык

лаконичный ответ)

Logan

еще раз - любая технология критикуется. Просто потому, что у любой технологии есть воркэраунды и слабые места. Об этом нужно знать.

Logan

Критика докера по большей части - вполне по делу. Это не "личное дело", это вопрос выбора и полноты информации

Салтыдык