G72K
у нас куб в AWS , оно кажется умеет к нему ходить узнавать жива ли нода. если на голом железе, то может и некуда идти и только ждать админа, чтобы удалил ноду руками?
Pavel
Походу конфиги всё также надо править...
Pavel
Вручную, всмысое
Салтыдык
да нафиг тогда кубер?)
Салтыдык
ладн, завтра поковыряюсь на эту тему. Спасибо, @rossmohax
Pavel
Пока, аутринсталл у меня чотко работал, кстати, только от клаудеры
Pavel
Ну щоб кластер из коробки и всё работает
G72K
похоже про удаление руками это только к StatefulSet относится и только если из cloudprovider нельзя узнать состояние ноды , остальные контроллеры запускают новые поды взамен выпавших, но выпавшие так и висят в списках, пока ноду не удалят-таки руками
G72K
вобщем разумно :)
A
Кстати, про удаления
A
Правильно пониаю, что kubernetes за собой старые докер-образы подчищает? Или всё-таки нужно свой "сборщик мусора" прикручивать?
Ivan
надо прикручивать
G72K
надо прикручивать
здесь врут? https://kubernetes.io/docs/concepts/cluster-administration/kubelet-garbage-collection/
G72K
у нас чистит вроде, надо подождать пока диск забьется только :)
Ivan
что чистит?
G72K
образы
Ivan
какие?
G72K
image-gc-low-threshold, the percent of disk usage to which image garbage collection attempts to free. Default is 80%
G72K
те что в docker image отбражаются на нодах
Ivan
есть образы, есть слои... есть образы используемые, есть нет. есть залитые руками, есть по деплою...
Ivan
я не знаю, что конкретно чистит эта хрень, но точно далеко не всё
Ivan
может и допилили это дело, но из того, что я видел - чистила только те образы, для которых звезды сошлись
Etki
ему нужен трешолд, чтобы сработать
Etki
и чистит он только вплоть до другого трешолда
Etki
я не видел его живьем в работе, но сдается мне, он по спеке работает
A
У кого-нибудь из коробки на kubeadm заработал пример https://github.com/kubernetes/ingress/tree/master/examples/deployment/nginx/kubeadm ?
Khramov
Ребят, нужна хелпа. При запуске реббита иногда возникает ошибка - Events: FirstSeen LastSeen Count From SubObjectPath Type Reason Message --------- -------- ----- ---- ------------- -------- ------ ------- 3m 3m 1 default-scheduler Normal Scheduled Successfully assigned rabbitmq-1-0 to master1 2m 20s 5 kubelet, master1 Warning FailedSync Error syncing pod, skipping: failed to "CreatePodSandbox" for "rabbitmq-1-0_system(ac29a955-621b-11e7-a1f5-52540073c083)" with CreatePodSandboxError: "CreatePodSandbox for pod \"rabbitmq-1-0_system(ac29a955-621b-11e7-a1f5-52540073c083)\" failed: rpc error: code = 2 desc = NetworkPlugin cni failed to set up pod \"rabbitmq-1-0_system\" network: Get https://10.96.0.1:443/api/v1/namespaces/system/pods/rabbitmq-1-0: dial tcp 10.96.0.1:443: i/o timeout" Такое только в реббите бывает. Подскажите в чем может быть проблема?
Khramov
При запуске пода выполняется такой скрипт : if [ -z "$(grep rabbitmq /etc/resolv.conf)" ]; then sed "s/^search \([^ ]\+\)/search rabbitmq.\1 \1/" /etc/resolv.conf > /etc/resolv.conf.new; cat /etc/resolv.conf.new > /etc/resolv.conf; rm /etc/resolv.conf.new; fi; Добавляет 1 элемент в resolv.conf. Мб из-за этого, но такое возникает не всегда, запущено так 2 реббита, как повезет, иногда возникает ошибка, а иногда нет
Khramov
В итоге эта ошибка была 9 раз, и потом под запустался. Магия какая-то, я хз
Denis
Если не сложно, поделитесь историями с полей. Тут есть люди которые реально поддерживают k8s в проде на своих железках/виртуалках? Сколько человек в команде этим занимается? Как часто что либо падает? Какие проблемы чаще всего бывают? Как с сетью дела обстоят? Подводные камни?
Khramov
4 человека, с самим кубом после настройки первоначальной проблем нет вобще. С сетью тоже все отлично. Используем canal. Вот сейчас на новые сервера переходим, пытаемся поставить etcd + tls, и canal. Уже дня 3 мучаемся, нихрена не выходит :D
Denis
а у вас как запущено? все кроме etcd и kubelet запущено в самом кубе? или же основные компоненты юнитами описаны?
Denis
etcd + tls имеется в виду шифрование трафика между etcd и apiserver ?
Khramov
Ну у нас свой кластер etcd, и если он просто поднят, то любой может туда достучаться и изменить там что хочет, мы его с сертификатами подняли, сам куб с ним нормально настроили, а вот когда пытаемся сделать то0-же самое с каналом, то днс нормально не поднимается. Там конфиги старые какие-то, сейчас исправляем.
Салтыдык
Есть у кого опыт работы с portworx?
Khramov
https://github.com/projectcalico/canal/tree/master/k8s-install
Khramov
Вот как мы ставим
Denis
И до переезда так ставили?
Khramov
Да, там есть как все поставить в 2 строчки, но без tls
Khramov
А с ним там отдельный файл, и он уже не работает, его и смотрим
Khramov
dns то не может достучаться до api (no route to host), то таймаут говорит. В итоге у нас поднимается все кроме kube-dns, там вечно 2/3
Denis
просто ведь в этом конфиг используется ConfigMap и напрямую с etcd не общается ни calico ни flannel
Khramov
Ну так мы с ним и ставим
Denis
ок
Konstantin
https://habrahabr.ru/company/flant/blog/332432/
Denis
https://habrahabr.ru/company/flant/blog/332432/
а weave на каком механизме работает?
Denis
У кого нибудь есть опыт istio или linkerd ? То что они дают - реально классно, и освобождает приложения от кучи всякой фигни. Вопрос в оверхеде по памяти и сети, ну и стабильность конечно интересует?
Anonymous
думаю что ни у кого нет - технологии только начали разрабатываться, в прод все боятся таскать а в петах особенных фич не поковыряешь
Sergei
https://habrahabr.ru/company/flant/blog/332432/
в статье многое прекрасно
Anonymous
lego-kube-lego-3513242700-6j3p2 0/1 OOMKilled lego-kube-lego-3513242700-6j3p2 0/1 CrashLoopBackOff вдруг начал падать... ресурсов достаточно в нодах, куда можно начать копать?
Dmitry
продолжение вчерашней истории про само-ребутающиеся ноды на CoreOS: сегодня утром ребутнулись два ноды. на этот раз системный раздел не вайпнулся после перезагрузки и я достал системный лог (journal). как я и думал - он обрывается ни на чем. ничего особенного не происходило. видать просто ядро ловит панику на ровном месте. что еще можно в системном разделе посмотреть, пока я его не вайпнул?
Dmitry
/sys/fs/pstore кстати пуст
Maksim
https://habrahabr.ru/post/332450/
Салтыдык
инсинуации, ИМХО
Logan
нет. В общем-то все по делу. Но это: - старая статья - многое из того, что там есть - это пример тюнинга боинга в бульдозер с соответствующим результатом
Салтыдык
да это личное дело каждого: 1. Страдай и используй докер. 2. Не страдай (?) и не используй.
Logan
но это не отменяет того факта, что в докере довольно много вещей сделано спорно, например из файловых систем нормально не работает ни одна а их там три
Салтыдык
Я тоже перебирал релизы и системы, пока живет стабильно Ubuntu 16.04.2 + Docker 1.12.6 + AUFS
Салтыдык
лаконичный ответ)
Logan
еще раз - любая технология критикуется. Просто потому, что у любой технологии есть воркэраунды и слабые места. Об этом нужно знать.
Logan
Критика докера по большей части - вполне по делу. Это не "личное дело", это вопрос выбора и полноты информации
Салтыдык
да никто и не спорит) критикуйте на здоровье)
Салтыдык
так выбор стоит между чем и чем?
Konstantin
https://habrahabr.ru/post/332450/
какой смысл переводить нытьё годовалое?
Maksim
там и спроси)
Maksim
Перевод не мой (ещё и косой)
Konstantin
не, я без притензий))
Konstantin
они к автору
Konstantin
я оригинал ещё в прошлом году почитал и забыл, неочём - "мынеосилили"