Maksim
22.09.2017
13:25:05
Сергей
22.09.2017
13:26:31
Ну я выше писал одну историю с доклада
ну и сугубо по классике жанра - кбуре с калико общаются между собой по апи, а не через базу, разнеся на два разных кластера - можно исключить потерю всех данных из-за сбоя в одном компоненте
Let Eat
22.09.2017
13:30:19
Google
Let Eat
22.09.2017
13:30:49
Сергей
22.09.2017
13:32:11
сбой в кубере или калико - удаляет все данные из etcd от /, разнеся базы на разные кластеры - геморой получаешь только в одном месте
хотя бы даже из этих соображений
второй момент - все же болшие кластера кубернетса
на сотню другу машин и на тыщу другую сервисов
Let Eat
22.09.2017
13:33:50
Сергей
22.09.2017
13:34:13
да много интересных моментов
любая разворачивался вообще не учитывает и не дает вохможности подтюнит систему до момента деплоя
тупо сисцтл подкрутить
лимиты
просто дергаем вируталку в амазоне и понеслась пиписька женская по кочкам
Let Eat
22.09.2017
13:35:07
Сергей
22.09.2017
13:35:27
kube-aws что-то мне не зашел, не помню из-за какой проблемы
Google
Let Eat
22.09.2017
13:36:34
единственная тулза которая весь конфиг нормльно рендерит в файлы, потом можно его в гит закатать и при этом подтягивать обновления из свежих версий при этом не теряя своих правок
Сергей
22.09.2017
13:37:52
ну с копс по факту тоже можно подредачить клоудформейшин что он создает
но я его не знаю, к сожалению или к счастью
и все равно я хочу как=то более удобно сие дело делать
да и вообще, смотря всякие там деплоилки, я сейчас не про кубер только, зачастую ловишь себя на мысли, что их пишут люди далекие от эксплуатации
Ivan
22.09.2017
13:39:51
Всем привет!
Нужна помощь по кубернетовскому апи-серверу!
У меня с ним серьёзные проблемы. Я не понимаю, в чём дело, но он у меня не поднимается никак.
Делал и по ручному мануалу и по готовым скриптам, которые сами всё поднимают - результат один и тот же всегда.
Поднимаю на короси, которая заливается по PXE.
етсд, фланел и докер стартуют нормально.
далее стартую кублет, он подтягивает конфиги и запускает аписервер, контроллер, прокси и шедулер.
контейнер с апи-сервером постоянно перезапускается.
в логах ноды ничего осмысленного:
1427 reflector.go:190] k8s.io/kubernetes/pkg/kubelet/kubelet.go:382: Failed to list *v1.Service: Get http://127.0.0.1:8080/api/v1/services?resourceV
1427 reflector.go:190] k8s.io/kubernetes/pkg/kubelet/config/apiserver.go:46: Failed to list *v1.Pod: Get http://127.0.0.1:8080/api/v1/pods?fieldSele
1427 reflector.go:190] k8s.io/kubernetes/pkg/kubelet/kubelet.go:390: Failed to list *v1.Node: Get http://127.0.0.1:8080/api/v1/nodes?fieldSelector=m
1427 kubelet_node_status.go:230] Setting node annotation to enable volume controller attach/detach
ну типа он сам к себе подключиться не может.
в логах контейнера тоже фигня
E0922 07:37:47.729469 1 status.go:62] apiserver received an error that is not an metav1.Status: rpc error: code = 13 desc = transport is closing
E0922 07:37:50.553370 1 status.go:62] apiserver received an error that is not an metav1.Status: rpc error: code = 13 desc = transport: write tcp 10.1.29.11:52106->10.1.29.12:2379: write: connection reset by peer
но вот что нашёл интересное - в каком то мануале заметил проверку того, что контейнер с апи-сервером жив, таким образом:
curl http://127.0.0.1:8080/healthz
так вот, у меня оно (пока контейнер не упал) выдаёт всегда следующее:
[+]ping ok
[-]poststarthook/bootstrap-controller failed: reason withheld
[+]poststarthook/extensions/third-party-resources ok
[-]poststarthook/rbac/bootstrap-roles failed: reason withheld
[+]poststarthook/ca-registration ok
healthz check failed
я так подозреваю, что тут надо копать глубоко в кишки апи-сервера, но какой либо инфы я на эту тему вообще не нашёл.
кому интересно - решил проблему.
оказывается в kube-apiserver.yaml нехватало опции
- —storage-backend=etcd2
?
Let Eat
22.09.2017
13:40:14
т.е. оно git merge friendly
Сергей
22.09.2017
13:40:46
может еще раз сесть за kube-aws вот не могу вспомнить что не так было
спасибо за инфу ценную
Let Eat
22.09.2017
13:46:28
вот тут описал возможный workflow https://github.com/kubernetes-incubator/kube-aws/issues/462
Maksim
22.09.2017
13:52:25
Сергей
22.09.2017
13:52:27
пошел читать)
Ivan
22.09.2017
13:57:33
Maksim
22.09.2017
13:58:09
есть вариант что чуть позже поддержку etcd2 отменят во все
Сергей
22.09.2017
14:05:23
вместо решения проблемы - делаем костыль
завтра деприкейд 2 версии етсд
послезавтра выпил в новых версиях
релиз нотосы мы не читаем
новый пост тут, ничего не работает, что делать?
Google
Maksim
22.09.2017
14:11:22
Сергей
22.09.2017
14:11:53
ну я как раз про то, что причина до конца не была выяснена, но нашли костыль и радуются
https://cs5.pikabu.ru/post_img/big/2015/12/04/5/1449210847155432089.jpg
Ivan
22.09.2017
14:14:33
Vitaliy
22.09.2017
14:14:51
у кого есть опыт:
вот допустим случилось ужасное, мастер-ноды легли (скажем конективити или просто они дохнут все разом).
ясно что kubelet/kubectl и прочее важное не работает... но что происходит с приложениями/подами уже запущенными в кластере? что должно ожидаемо отвалиться?
Maksim
22.09.2017
14:15:07
Ivan
22.09.2017
14:16:12
а на кой тогда корось нужна?
у неё же всё типа протестировано на совместимость.
и тут такой косяк - по официальным мануалам надо допиливать самому.
помоему это косяк короси!
Maksim
22.09.2017
14:16:27
Ivan
22.09.2017
14:16:41
Vitaliy
22.09.2017
14:17:08
яж и говорю что не работает.. именно в этом плане (все статично) но то что сам процесс работает - эт ясно
Ivan
22.09.2017
14:17:11
Сергей
22.09.2017
14:17:49
КорьОСЬ - это косяк
Maksim
22.09.2017
14:18:20
Ivan
22.09.2017
14:18:24
Сергей
22.09.2017
14:19:23
Вы ее еще накушаетесь)
Let Eat
22.09.2017
14:22:17
Maksim
22.09.2017
14:22:56
Я взял атомик. Взял hyperkube написал свои юниты и свой etcd
От Шляпы у меня только фланнел. Хотя вот чё-то задумался сменить его на калико...или хотя бы понюхать это самое калико
Eugene
22.09.2017
14:23:51
Фланнел от шляпы?
Google
Maksim
22.09.2017
14:24:09
ну всмысле из репы -)
Ivan
22.09.2017
14:25:39
Вы ее еще накушаетесь)
ну я хз... два года в проде - всё норм.
правда там версия старая и обновлять её пока не собираются))
Сергей
22.09.2017
14:28:00
всего два
лан то все фигня, как вы хоть системные метрики собираете с хоста, хотя бы тот же рост бэклога
Let Eat
22.09.2017
14:30:44
netdata privileged daemonset
Сергей
22.09.2017
14:31:36
не мне надо собрать со всех хостов, отправить в коллектор, отризовать графики
privileged - опять же костыль
Let Eat
22.09.2017
14:32:12
ну, таков тренд
Сергей
22.09.2017
14:32:16
я против вообще пускания чего либо в докер если надо privileged
ну тренд в корьоси и тп осях
Vitaliy
22.09.2017
14:34:49
не понял
имею ввиду что пока вроде понятно что должна быть статичность. но на работающих подах как-то отразится недоступность мастеров? к примеру сеть между хостами/подами? резолвы ? что-то такое что помещает работать до восстановления мастеров
Maksim
22.09.2017
14:35:35
ну за сеть отвечает либо фланнел либо калико, либо что-то ещё..они живут своей жизнью им на кубер пофигу
Let Eat
22.09.2017
14:35:59
Maksim
22.09.2017
14:36:20
резолвы это опять же dns процесс, который живёт на сети.....
так что в принцепе ничего там не происходит
Сергей
22.09.2017
14:36:29
нахера мне тогда контейнер, если мне надо дать контейнеру привилигированный дсотуп к системе
Vitaliy
22.09.2017
14:36:32
у нас weave.. хорошо что пофиг... но таки это размышления или опыт?
Maksim
22.09.2017
14:36:35
у меня как то мастер почти сутки валялся))
Сергей
22.09.2017
14:36:48
Короче это полемика: я уже не раз в ней участвовал - не хочу
Maksim
22.09.2017
14:36:54
я понял, только когда полез деплооить новый аппликатив)
Google
Let Eat
22.09.2017
14:37:59
контейнеры они же не только про изоляцию
Maksim
22.09.2017
14:38:45
Сергей
22.09.2017
14:38:47
чем оно удобнее нативного клиента системы мониторинга в системе, который доставляется системой управления конфигурациями?
Maksim
22.09.2017
14:39:35
Сергей
22.09.2017
14:39:46
окей мне perf top тоже из под привилигированного контейнера предлагаете запустить?
или сейчас попытка разобраться в причине проблемы - маветон? тупо пристреливаем инстанс и апаем новый?
Let Eat
22.09.2017
14:40:33
Maksim
22.09.2017
14:40:39
Сергей
22.09.2017
14:40:53
таки да?
Let Eat
22.09.2017
14:41:14
Сергей
22.09.2017
14:41:29
ВОт именно
Let Eat
22.09.2017
14:41:37
но для pr надо его ходя бы попробывать, а разбираться coreos sdk лень )
Сергей
22.09.2017
14:41:59
В случаи микросервисов отстрел ноды на которой есть проблема - это отвал всех клиентов, которых эта проблема на прямую не затронула
Let Eat
22.09.2017
14:42:09
но в целом направление мне нравится - все в кубе. вообще все. итолько минимальная прослойка в неизменямой системе
Сергей
22.09.2017
14:42:40
не все в куюе - хер с ним, я не понимаю такого желания сделать кастрат систему под ним)
в которй все хорошо, пока не плохо)
пойду чаю выпью
Let Eat
22.09.2017
14:43:34
кастрат чтобы не было соблазнов туда ансиблом лезть и крутить файлики. о которых потом никто ничгео не помнит
Сергей
22.09.2017
14:44:00
это проблема не ансиблы - а процесса
)
Let Eat
22.09.2017
14:44:06
другими словами, из самооограничений рождается более надежное решение