@hadoopusers

Страница 159 из 182
Artem
04.10.2018
14:21:59
каков вывод команды host 'ip of n50656.compute.internal'?

ёлки-палки

Artem
04.10.2018
14:25:25
там по 2 интерфейса на серер, хадупы бегают по bogon'ам

Artem
04.10.2018
14:25:56
вместо "ip of n50656.compute.internal" имею в виду, что здесь должен быть ip адрес ноды с именем n50656.compute.internal

Google
Artem
04.10.2018
14:26:10
PING n50656.compute.internal (172.31.0.109) 56(84) bytes of data.

Artem
04.10.2018
14:26:41
теперь host 172.31.0.109

Artem
04.10.2018
14:26:54
109.0.31.172.in-addr.arpa domain name pointer n50656.compute.internal.

Artem
04.10.2018
14:28:39
и на всякий случай - это команды были выполнены на ноде, с которой ошибка?

Artem
04.10.2018
14:28:46
да

за одну джобу 2-3 ошибки стабильно

Artem
04.10.2018
14:36:16
а ОС-то какая?

и ещё раз поподробнее про то, как проверяется отсутствие ООМ

Artem
04.10.2018
14:42:42
Ubuntu 16.04.5 LTS dmesg | egrep -i 'killed proces' например)

На всех нодах прогнал: 109.0.31.172.in-addr.arpa domain name pointer n50656.compute.internal. 109.0.31.172.in-addr.arpa domain name pointer n50656.compute.internal. 109.0.31.172.in-addr.arpa domain name pointer n50656.compute.internal. 109.0.31.172.in-addr.arpa domain name pointer n50656.compute.internal. 109.0.31.172.in-addr.arpa domain name pointer n50656.compute.internal. 109.0.31.172.in-addr.arpa domain name pointer n50656.compute.internal. 109.0.31.172.in-addr.arpa domain name pointer n50656.compute.internal. 109.0.31.172.in-addr.arpa domain name pointer n50656.compute.internal. 109.0.31.172.in-addr.arpa domain name pointer n50656.compute.internal. 109.0.31.172.in-addr.arpa domain name pointer n50656.compute.internal. 109.0.31.172.in-addr.arpa domain name pointer n50656.compute.internal. 109.0.31.172.in-addr.arpa domain name pointer n50656.compute.internal.

grep "Killed process" /var/log/syslog так тоже нет

Artem
04.10.2018
14:45:22
а grep -i oom /var/log/syslog ну так, на всякий случай

Artem
04.10.2018
14:45:51
тоже чисто

Google
Artem
04.10.2018
14:46:11
syslog актуальный на момент ошибки?

Artem
04.10.2018
14:47:20
посл. ошибка рано утром, по идее, актуальный

по journalctl -r | grep … тоже не видно ничего

Artem
04.10.2018
15:53:26
есть ещё предположение - ipv6 вкл/выкл?

Старый
04.10.2018
18:18:39
есть ещё предположение - ipv6 вкл/выкл?
ipv6 вообще чаще всего зло

Eduard
04.10.2018
18:22:26
Ловите олдфага

Старый
04.10.2018
18:23:58
Ловите олдфага
ловите человека у которого postgres от его наличия ошибки ловил, хотя в pg_hba даже слова про ipv6 нет

9к коннектов и записей в сек, периодически ошибки подключения, вырутаешь ipv6 через sysctl.conf, всё, ошибок нет

Eduard
04.10.2018
18:27:08
Это печально конечно

Artem
05.10.2018
09:01:28
есть ещё предположение - ipv6 вкл/выкл?
выключен везде через sysctl

Старый
05.10.2018
11:02:30
выключен везде через sysctl
?у меня программист убил hbase

Artem
05.10.2018
11:07:34
дай ему по шее

Stanislav
05.10.2018
11:17:47
?у меня программист убил hbase
Как будто это сложно. Присматривай за ним (хбейз) внимательнее

Старый
05.10.2018
11:35:00
@ZeratulZ /var/lib/ambari-agent/data/errors-274.txt вот как пример, ссылается на такой лог, а его нет

Рамиль
05.10.2018
11:59:25
скорее всего вывода вообще не было

еще возможно он удалился после завершения операции

Sergii
05.10.2018
12:04:15
Здравстуйте коллеги, хочу спросить у тех кто пользуется SparkStreaming (который Structured) как у вас устроен деплой и мониторинг над приложениями? На сколько стабильно он бежит? Мир стриминга для меня пока еще нов и полон сюрпризов) буду благодарен за любые советы о возможных граблях

Artem
05.10.2018
12:14:06
Всем привет) Может кто-нибудь может помочь немного начинающему? У меня тут проблемы с пониманием вещей) Смотрите Допустим у меня есть кластер, на нем хадуп + спарк Есть БД, которая лежит на другой машине, вне кластера Я стартую спарк джобу - она конектится к этой базе (jdbc, какой-то нативный коннектор - не суть) создает из данных RDD, что-нибудь фильтрует, мапает и сохраняет обратно В этом случае где будут проходить все вычисления? RDD же, насколько я понимаю, это о распределенных/удаленных данных

Grigory
05.10.2018
12:16:38
это уже зависит от твоей логики, но да - суть (если тебе это и правда нужно) - загрузить данные в спарк, сделать чтото и заперсистить конечно тут имеется ввиду что на твоих рдд / датасетах вся распределенная логика будет выполняться

Google
Artem
05.10.2018
12:17:55
Спасибо) Ну я имею ввиду - а где именно она будет выполняться? Если данные вне кластера, то они будут загружаться в кластер со спарком и там распределяться? или как-нибудь по-другому

Grigory
05.10.2018
12:18:42
если загрузил в память спарка - значит будет в памяти кластера спарка все выполняться

Artem
05.10.2018
12:19:14
вроде понятнее, спасибо)

Anton
05.10.2018
12:34:04
Только если мне память не изменяет, то если на кластере запускаешь jdbc, то надо чтобы у всех нод кластера был доступ к базюке.

Alexander
05.10.2018
12:38:14
ну в общем да, но есть нюансы. чтобы вычитка jdbc также пареллелилась, а не только последующая обработка, надо руками описать, как пратицировать данные, задать числовую колонку, min/max значения и количество партиций. без этого данные будут тянуться в один поток, подозреваю что на драйвере, но это не на 100% уверен

Anton
05.10.2018
12:45:38
Вроде все же по экзекуторам распределятся таски, поэтому если поставишь какой-нить пацанский numPartitions, то можно заддосить базу потенциально

Alexander
05.10.2018
12:49:34
это да, просто главное не забыть его поставить, чтобы не тащить как лох в один поток )) ну еще можно fetchSize поиграться, на медленных соединениях его увеличение радикально улучшало производительность. но там свои приколы начинаются

Anton
05.10.2018
13:00:51
Как-то раз тянул большие куски из оракла с fetchSize 0 (как оказалось) и сетовал админам, что у них крайне медленная база.

Artem
05.10.2018
13:01:57
а можете, плз, рассказать чуть подробнее как это распаралелить? что, где, как нужно настроить

или где об этом можно почитать)

Anton
05.10.2018
13:07:05
Вообще довольно просто гуглится: https://docs.databricks.com/spark/latest/data-sources/sql-databases.html#manage-parallelism На датабриксе в целом можно получить какую-то первичную инфу по вопросу. Ну а так чтобы параллелить, помимо опций jdbc , тебе нужно запускать на кластере и удостовериться что на всех нодах кластера есть нужный тебе jdbc драйвер

Artem
05.10.2018
13:07:48
Спасибо)

Taras
05.10.2018
13:08:45
Всем привет. Перехожу на новый проект, там активно юзается хайв. На днях будет много времени почитать литературу, в интернетах советуют "Programming Hive: Data Warehouse and Query Language for Hadoop", но у этой книги вроде как Release Date: September 2012. Подскажите плиз, есть ли смысл начать с нее или информация совсем устарела?

Alexey
05.10.2018
13:21:50
если данных не шибко много, но при этом дофига вычислений, то чтобы было быстрее, можно поднять по экземпляру базюки на каждой воркер ноде, и обращаться к базе на локалхосте, хотя бы для чтения. а то к одной базюке получается реальный ддос.

у нас был кейс, когда часть вычислений в постгисе выполнялась. пока не смигрировали на геоспарк, база была самым узким местом.

Alexander
05.10.2018
13:31:38
если не брать во внимание последние нововведения - типа Hive LLAP и ACID Transactions, то с точки зрения самой архитектуры все более менее стабильно. есть куча нюансов, которая еще будет зависеть от конкретного дистрибутива и версии Hive на ней. В качестве забавного примера - изначально в Hive ввели индексы, а с версии 3.0 - выпиливают нафиг ))

Alexander
05.10.2018
13:38:53
обоснование у них конечное любопытное для этого ) https://issues.apache.org/jira/browse/HIVE-18448?src=confmacro

Google
Alexander
05.10.2018
13:41:13
а кто-то кстати рассматривал связку HBase+Phoenix как альтернативу Hive?

хотя все эти попытки напоминают конструктор "собери СУБД сам"...

Stanislav
05.10.2018
13:42:47
Ахха. , if they need fast retrieval of larger sets of data, or fast joins, aggregations, they can use Apache Impala.

Вопрос, зачем тогда нужен хайв

Taras
05.10.2018
13:43:06
Всем спасибо ?

Mikhail
05.10.2018
13:44:12
Ахха. , if they need fast retrieval of larger sets of data, or fast joins, aggregations, they can use Apache Impala.
Забавно, т.е. даже не пытаются конкурировать?%)

Забавно что это сделал товарищ из Hortonworks

Stanislav
05.10.2018
13:45:43
Забавно, т.е. даже не пытаются конкурировать?%)
Не понятно, в чем тогда Пойнт использования хайва, если все признают его неудобным и медленным для всех видов нагрузки

Alexander
05.10.2018
13:46:28
ну получается что единственная полезная вещь от него - Hive metastore )

Dmitry Tron
05.10.2018
13:46:33
импала же не отказоустойчива по идее

и нужна скорее для аналитических запросов

Stanislav
05.10.2018
13:47:10
impala платная вроде как
А как же апач импала?

VladMl
05.10.2018
13:47:14
Impala is open source (Apache License).

Mikhail
05.10.2018
13:47:21
Evgeny
05.10.2018
13:47:36
Импала под аппачем. Она не платная. Просто инструмент для другого...

Alexander
05.10.2018
13:47:56
ну тут скорее про то, что она штатно идет с CDH, а не с HDP, а у CDH немного более строгая политика лицензирования

а так ваниллу можно и самому раскатать, как обычно ))

Evgeny
05.10.2018
13:50:14
Hive - ворочать сложные большие джобы не оглядываясь на память и ядра. Impala - быстро поработать с готовой витринной, которая к тому же ещё и кешируется при повторных запросах :)

Google
Mikhail
05.10.2018
13:50:41
Не понятно, в чем тогда Пойнт использования хайва, если все признают его неудобным и медленным для всех видов нагрузки
Ну например в том, что не смотря на то что медленная можно запускать на прерываемых мощностях, которые могут быть дешевле зарезервированных. Кроме того, если данных совсем много, а запросы долгие, то импала может испытывать проблемы с памятью, а при потере хосты запросы надо перезапускать целиком. Ну и по функциональности оно отличается немного

Evgeny
05.10.2018
13:54:12
Но упаси вас бог начать применять Импалу на проде :) Если заменить слово геморрой на слово опыт. То вы получите кучу опыта. При том опыт будет на столько глубокий, что вплоть до работы с исходниками и специфических настроек jvm’ки :)

Evgeny
05.10.2018
13:56:00
Имеется ввиду встраивание в production workflows ?
Имеется ввиду поставить джобы на продуктивную среду под SLA.

Оно не работает из коробки стабильно :(

VladMl
05.10.2018
13:58:26
Hive - ворочать сложные большие джобы не оглядываясь на память и ядра. Impala - быстро поработать с готовой витринной, которая к тому же ещё и кешируется при повторных запросах :)
У меня Hive даже на нескольких джоинах падал, Impala и Phoenix те же запросы орабатывал нормально и даже за приемлемое время

Evgeny
05.10.2018
13:59:23
И что жило под хайвом? Tez, MR, Spark?

На MR Hive как трактор. Нужно время, но прожует все.

Tez и Spark более чувствительные, но и им далеко до Impal’ы.

Страница 159 из 182