nvkv
🦠
Никак, это временная мера
🦠
Только рестарт демона по крону
G72K
тогда рестарт не помогал бы, если б дело в arp cache, разве нет?
🦠
Просто резолв занимает много времени
🦠
Скорость по сети та же
🦠
Пробовали и no_proxy
🦠
И /etc/resolv.conf на хостмашине в гуглоднс направлять
nvkv
nvkv
у меня именно качает медленно
Ivan
G72K
G72K
describe job что-нибудь говорит?
Салтыдык
Vitaliy
кто-то сталкивался с проблемой на ubuntu 16.04 docker 1.12.6 что контейнер зависает в состоянии started и дальше не идет.
все это вместе в кубернетесом 1.6.2-4
причем если руками докер запустить с тем-же всем то все ок.
Vitaliy
ну и кубернетес его убивает и пробует заново поднять. и так вечно
Anonymous
SchedulerPredicates failed due to PersistentVolume 'pvc-490a0030-4184-11e7-9150-000d3a298c2e' not found, which is unexpected., SchedulerPredicates failed due to PersistentVolume 'pvc-490a0030-4184-11e7-9150-000d3a298c2e' not found, which is unexpected.
блин да что не так, как это починить, я в azure уже попереподключал диски с таким кодом и всё равно pod с монгой не запускается(
Anonymous
http://kublr.com/
уже была private beta?
Anonymous
такс, helm опять спас немножко, но вот такой еще вопрос
у меня монга с 2 репликами, а в azure нельзя к одной ноде подключать сразу два диска, так что монгореплика создала два пода, а с третьей не вышло, пришлось поднимать третью ноду, так вот, как мне перезапустить создание третьей реплики, которая ругалась на то что ей негде деплоится? теперь то есть где, вот только как этот процесс рестартануть можно?
Denis
Sergey
Ребят, подскажите как поправить. Поднял k8s в локалке и сделал проброс порта 6443 из внешней сети. Теперь при попытке зайти снаружи получаю такую ошибку:
Unable to connect to the server: x509: certificate is valid for 10.96.0.1, 192.168.88.235, not "MY_EXTERNAL_IP"
Какие сертификаты нужно изменить и как правильно это сделать?
Aleksandr
А как генерились сертификаты?
Aleksandr
в openssl.conf
нужно чтобы были указаны внутрение и внешние ИПы
[alt_names]
DNS.1 = 10.96.0.1
IP.1 = 10.96.0.1
DNS.2 = 192.168.88.235
IP.2 = 192.168.88.235
DNS.3 = external_ip
IP.3 = external_ip
Sergey
ставил все через kubeadm
Sergey
где найти openssl.conf?
Aleksandr
https://kubernetes.io/docs/admin/kubeadm/
"Additional hostnames or IP addresses that should be added to the Subject Alternate Name section for the certificate that the API Server will use. If you expose the API Server through a load balancer and public DNS you could specify this with"
Aleksandr
в kubeadm похоже просто есть опция
Sergey
если запустить kubeadm на уже живом кластере он не помрет?
Sergey
я пока вижу только как это сделать при первоначальной установке
Sergey
через --apiserver-cert-extra-sans=
Aleksandr
с kubeadm не игрался, не скажу. Но вообще суть в том что нужно перегенерировать сертификаты и потом порестартить api-server и kubelet на нодах. И подождать пока новые токены сгенерятся.
Aleksandr
надо поискать есть ли возможность у kubeadm это сделать. может ключик есть какой-то
Sergey
в общем нашел решение, но руками пришлось все делать
Sergey
https://coreos.com/kubernetes/docs/latest/openssl.html#generate-the-api-server-keypair
Sergey
главное все ext поля из текущего сертификата скопировать
Aleksandr
Кто-то использовал https://rook.io/ ?
Aleksandr
интересует ceph + kubernetes :)
𝕍ℤ
Aleksandr
вы же понимаете, насколько больная это идея, правда?
объясните, пожалуйста, почему. К примеру есть в кубе prometheus / grafana, хочется чтобы в ceph'е выделялось место для сохраненния данных и при рестарте сервисов данные не пропадали. Кроме как какого-то распределенного хранилища я вменяемых вариантов не вижу.
Aleksandr
или если разработчикам понадобится чтобы какие-то их данные были доступными между сервисами. Cephfs в помощь будет.
𝕍ℤ
Vitaliy
имедж самодельный, но не мной. )
проблема не в нем вообще была.
Anonymous
внезапно стали падать часть подов:
insipid-rottweiler-elast-627756249-rqxbq 0/1 CrashLoopBackOff 350 31d
- памяти на машинах достаточно так что это не OOM
- конфигурация не менялась пода
- в логах самого пода все ровно так что перезапуск инициирован нодой
- ноды совершенно рандомные
- дескрайб инфы не дает внятной:
1d 1s 8161 kubelet, gke-usa-production-himem-f4630381-8dr4 Warning FailedSync Error syncing pod, skipping: failed to "StartContainer" for "elasticsearch" with CrashLoopBackOff: "Back-off 5m0s restarting failed container=elasticsearch pod=insipid-rottweiler-elast-627756249-rqxbq_default(c7f2501c-35a7-11e7-8ad6-42010a800009)"
подскажите плиз: что? как? почему? и, главное, как это дебажить?
G72K
перед этим какие события?
G72K
если Killing что-то там, то liveness check помирает
Anonymous
на первый вгляд - да, но я не увидел об этом инфы:
https://pastebin.com/X3e6c6sE
G72K
нету , это не liveness check
G72K
OOM может?
Anonymous
$ kubectl top nodes
NAME CPU(cores) CPU% MEMORY(bytes) MEMORY%
gke-usa-production-himem-f4630381-t9p0 476m 11% 5970Mi 22%
gke-usa-production-himem-f4630381-06z4 314m 7% 16187Mi 61%
gke-usa-production-himem-f4630381-8dr4 1695m 42% 17219Mi 65%
gke-usa-production-himem-f4630381-jfgm 460m 11% 6526Mi 24%
памяти достаточно
Anonymous
да и должен поидее после этого перекинуть на другую ноду, а не 300+ раз перезапускать под... не?
Anonymous
* контейнер в поде
G72K
надо смотрет логи kubelet и может dmesg
Anonymous
лол... пытался, там куча непонятной шняги типа Unsafe core_pattern used with suid_dumpable=2. Pipe handler or fully qualified core dump path required. (просто один из примеров) - то есть вроде бы и ошибка, но с другой стороны хз относится к теме или нет
Anonymous
нигде нет статьи по порядку разбора инцидентов кубернетеса случаем?
Anonymous
была бы полезной
G72K
ну вот та фраза говорит, что не может core dump сделать, т.к. sysctl неправильный
G72K
а раз ему пришлось core dump делать, то дело плохо)
Anonymous
может ему плохо по другой причине )
G72K
в окресностях не видно, что в корку валится?
Anonymous
не, journalctl -u kubelet например говорит все норм
G72K
сообщение до этого из dmesg же
Anonymous
из подозрительного только эти строчки:
ioremap error for 0xbffff000-0xc0000000, requested 0x2, got 0x0
dmi: Firmware registration failed
EXT4-fs (dm-0): couldn't mount as ext3 due to feature incompatibilities
EXT4-fs (dm-0): mounting ext2 file system using the ext4 subsystem
[/usr/lib/systemd/system/bindmount@.service:6] Failed to add required mount for, ignoring: %I
но система в любом случае не моя а GKE, так что единственное что я могу сделать - это пересоздать инстанс ноды :)
Bro
поясните за ceph
Bro
ceph и flocker это примерно одно и то же?
Sergei
Sergei
ceph сторадж. флокер - управлялка к разным стораджам.
Bro
cyka blyat decisions decisions...
Bro
флокер позорники уже хз сколько ссылку на доки не могут поправить
Bro
A flocker volume allows a Flocker dataset to be mounted into a pod.
Bro
A cephfs volume allows an existing CephFS volume to be mounted into your pod.
Bro
и то и то позволяет маунтить волумы в под
nvkv
какая-то скотина забывает убивать сокеты за собой
nvkv
причем эта скотина явно запущена в рамках dockerd, потому что рестарт демона сокеты закрывает
G72K