@hadoopusers

« Назад

Страница 105 из 182

Далее »

Andrei

05.06.2018
11:59:16

мы используем, а что интересует?

Sergey

05.06.2018
12:00:32

у вас кластер КХ стоит на тех же узлах. что и хадуп-ноды? КХ - используется как витрина для быстрых олап-запросов?

чем-то управляете кластером КХ? Амбари-Клаудера?

Andrei

05.06.2018
12:04:10

КХ кластер отдельный, он используется как бекенд для риалтайм апишек, а данные в него периодически льются в том числе и из хадупа

Google

Andrei

05.06.2018
12:04:22

менеджиться через Salt-Stack

у Амбари-Клаудеры не думаю что есть или будет поддержка в ближайшем будущем

_

05.06.2018
12:05:48

подскажите, что имеется ввиду под шедулингом стриминговых джобов в airflow? в чем разница с батчами?

Andrei

05.06.2018
12:06:42

еще есть желание допилить нативный драйвер для Кликхауса, который на 80% уже готов и формировать уже данные в родном формате, которые можно формировать через тот же Spark и просто подкладываеть для КХ в нужные папочки

Sergey

05.06.2018
12:06:45

в airflow стримминга нет

еще есть желание допилить нативный драйвер для Кликхауса, который на 80% уже готов и формировать уже данные в родном формате, которые можно формировать через тот же Spark и просто подкладываеть для КХ в нужные папочки

поясните. пожалуйста. драйвер = ODBC/JDBC?

_

05.06.2018
12:07:21

я понял, я хочу понять вцелом в чем отличие шедулинга стриминга от батчей?

Sergey

05.06.2018
12:08:00

я понял, я хочу понять вцелом в чем отличие шедулинга стриминга от батчей?

а чем вы реализуете стримминг?

_

05.06.2018
12:08:14

ну спарк стриминг например

Andrei

05.06.2018
12:08:24

поясните. пожалуйста. драйвер = ODBC/JDBC?

нет, кастомный, который поддерживает работу с нативным КХ протоколом

_

05.06.2018
12:09:23

а чем вы реализуете стримминг?

ну спарк стриминг например

Oleksandr

05.06.2018
12:10:42

поясните. пожалуйста. драйвер = ODBC/JDBC?

стандартный java CH драйвер, он же jdbc, читает данные по http, записывает по какому-то ещё под "нативным" имеется в виду чтение/передача данных в КХ через уже понятные (те в том виде, в котором хранятся) ему блоки байтов

Sergey

05.06.2018
12:11:54

нативный, но все-таки JDBC, верно?

Google

Sergey

05.06.2018
12:12:24

т.е. вы хотите лишь перфоманс передачи повысить и потенциальные баги с данными по HTTP убрать?

Andrei

05.06.2018
12:14:42

Идея формировать из спарка файлы в нужном формате и просто заливать их на сервера КХ. Тут Никите ODBC/Jdbc не потребуются тогда

Oleksandr

05.06.2018
12:15:07

+ jdbc не умеет стримить теоретически, ничего не мешает сделать jdbc обертку (с присущими jdbc ограничениями)

Andrei

05.06.2018
12:15:12

И драйвер для приложений, но он не JDBC

Sergey

05.06.2018
12:15:53

а, понял, спасибо

Tsh

05.06.2018
12:29:36

Идея формировать из спарка файлы в нужном формате и просто заливать их на сервера КХ. Тут Никите ODBC/Jdbc не потребуются тогда

Yandex раскрыл формат бинарного формата клик Хауса? Или вы в Яндексе работаете?

Oleksandr

05.06.2018
12:32:13

Yandex раскрыл формат бинарного формата клик Хауса? Или вы в Яндексе работаете?

он приватный (те они могут смело его менять), но не закрытый есть куча имплементаций реверс инжиниринга, гуглить по "<langname> clickhouse native driver"

беру на себя смелость ответить за @andrei_tupitcyn :)

Tsh

05.06.2018
12:36:50

он приватный (те они могут смело его менять), но не закрытый есть куча имплементаций реверс инжиниринга, гуглить по "<langname> clickhouse native driver"

Нехорошая дорога: запросто остаться с непонятным и неподдерживаемым клоном

Grigory

05.06.2018
12:37:45

такой се аргумент; можно к чему угодно применить

Oleksandr

05.06.2018
12:39:25

Нехорошая дорога: запросто остаться с непонятным и неподдерживаемым клоном

клоном чего? это просто драйвер, который будет гарантированно работать _до_ определенной версии КХ чтобы он работал с более новой версией, иногда надо будет менять код драйвера, что, вообще говоря, верно всегда неприятности будут, если вдруг полностью перепишут весь подкапотный механизм хранения данных, ну тогда да, не повезло какая вероятность этого, риск того стоит?

KrivdaAllStars

05.06.2018
13:04:43

он приватный (те они могут смело его менять), но не закрытый есть куча имплементаций реверс инжиниринга, гуглить по "<langname> clickhouse native driver"

Они ещё не выложили его нормально ?

Oleksandr

05.06.2018
13:05:17

Они ещё не выложили его нормально ?

ну они особо не скрывают детали реализации (опенсорс, в конце концов), но есть ремарка "все может поменяться"

Pavel

05.06.2018
17:37:30

Cto machine learning на 2 тыс уе) остановите землю я сойду

Это Питер детка ))

Александр

05.06.2018
22:23:33

Это Питер детка ))

Не стоит обобщать

ivanovalla

06.06.2018
08:46:53

#job друзья, буду рада пообщаться в личке с дата инженером, которому интересен киберспорт в целом и LoL в частности. *Что делать:* Анализировать статистику и реплеи игроков в League of Legends, искать и оценивать ошибки игроков, находить оптимальные айтем билды, классифицировать типы игроков, определять вероятность победы в зависимости от параметров. *Как делать:* Ты будешь работать в маленькой команде, с отличным продуктологом, дизайнером, веб-разработчиками короткими недельными итерациями по улучшению продукта. Твои модели будут завёрнуты в микросервисы, брать данные из хранилища с миллионами матчей и отдавать по запросу в апи результаты для использования. Поэтому к тебе большие требования по знанию Python в сфере веб-разработки - нужно понимать как сделать апи, как добавить кэш, как деплоить свои микросервисы, мониторить их быстродействие и отслеживать ошибки. В идеале будет отлично, если ты знакомился с аб-тестами и continuous delivery/continuous integration в data science, для постоянного мониторинга и улучшения результатов https://moikrug.ru/vacancies/1000042749 вот тут тоже подробности

KrivdaAllStars

06.06.2018
09:14:47

#job друзья, буду рада пообщаться в личке с дата инженером, которому интересен киберспорт в целом и LoL в частности. *Что делать:* Анализировать статистику и реплеи игроков в League of Legends, искать и оценивать ошибки игроков, находить оптимальные айтем билды, классифицировать типы игроков, определять вероятность победы в зависимости от параметров. *Как делать:* Ты будешь работать в маленькой команде, с отличным продуктологом, дизайнером, веб-разработчиками короткими недельными итерациями по улучшению продукта. Твои модели будут завёрнуты в микросервисы, брать данные из хранилища с миллионами матчей и отдавать по запросу в апи результаты для использования. Поэтому к тебе большие требования по знанию Python в сфере веб-разработки - нужно понимать как сделать апи, как добавить кэш, как деплоить свои микросервисы, мониторить их быстродействие и отслеживать ошибки. В идеале будет отлично, если ты знакомился с аб-тестами и continuous delivery/continuous integration в data science, для постоянного мониторинга и улучшения результатов https://moikrug.ru/vacancies/1000042749 вот тут тоже подробности

оч круто, давайте только про доту

Но вообще на ds судя по всему похоже

ivanovalla

06.06.2018
09:16:00

оч круто, давайте только про доту

про доту у нас тоже есть - moremmr.com тоже можно поговорить )

KrivdaAllStars

06.06.2018
09:16:38

про доту у нас тоже есть - moremmr.com тоже можно поговорить )

но тут датасаентист)

Google

ivanovalla

06.06.2018
09:17:03

Но вообще на ds судя по всему похоже

похоже, будет работа в паре с уже имеющимся DS

Andrey

07.06.2018
05:45:29

Привет всем, у кого нибудь получилось запускать шаги в AWS EMR параллельно? я уже все перепробовал: конфигурил CapacityScheduler на х очередей, и пушил в разные (ярн запускал их в разных очередях, но EMR все равно запускал по одному шагу за раз(один шаг RUNNING остальные PENDING)); пробовал FairScheduler тот же эффект; Пробовал PARALLEL_FAIR_SCHEDULING, PARALLEL_CAPACITY_SCHEDULING в AWS data pipelines - все ноль эффекта

Eduard

07.06.2018
06:13:06

Тоже интересен ответ на вопрос

Andrey

07.06.2018
06:42:21

пока что все что я нашел, это пушить несколько джоб в одном стэпе с помощью скрипта

https://stackoverflow.com/questions/24218865/how-do-i-submit-more-than-one-job-to-hadoop-in-a-step-using-the-elastic-mapreduc?rq=1

Roman

07.06.2018
06:50:04

Шаги параллельно запускать нельзя, запустить параллельно несколько джоб способов много

Andrey

07.06.2018
06:55:19

если есть куда меня ткнуть на эту тему буду благодарен

Polina

07.06.2018
11:37:46

Все привет! Никто не сталкивался случайно с таким? Поставила новый pig, старый удалился, но при этом query editor pig'a в hue при выполнении джобы активно пишет, что у него старый пиг. Я посмотрела, сама установка hue пиг за собой не тянет. Пиг на машине только новый. Хью я рестартила после установки пига. Что я не так сделала?

ptchol

07.06.2018
11:45:52

Кажется в hue pig подтаскивается как shared libs для oozie

и там чтобы они стали доступны oozie, делают что то типа oozie-setup lalalala

возможно, там нужно обновить.

Возможно уже инфа неактуальна.

Polina

07.06.2018
11:57:43

Вроде сетапили на тачке с узи Гляну повнимательнее, спасибо за идею)

ptchol

07.06.2018
12:06:22

не, дело в том что либы pig укладываются в какую то папку аля ./libs к oozie. Обновление в системе пига не обновит либы там, туда нужно их подложить свежие. История, аля дистрибуция наших любимых hdp/cdh, всё своё носят с собой.

Nadzeya

07.06.2018
15:09:57

#job #lead_hadoop_developer #scala #java #hadoop #spark #globallogic Krakow, Poland #Full-time, #office GlobalLogic is a full-lifecycle software development company. Our customer is the largest retail pharmacy, health and daily living destination across the USA and Europe. It is a global leader in pharmacy-led, health and wellbeing retail. Our integration teams will work on technology transformation and develop new pharmacy platform. Requirements: ✔Overall 5+ years of experience with at least 2+ years with big data. ✔Experience working with Scala ✔3+ years with Java, J2EE & databases like Oracle and/or SQL Server ✔2+ years of experience in developing systems/applications with Hadoop ecosystem including Hadoop (Hortonworks or Cloudera), Map Reduce Pig, Hive, Sqoop and Flume. ✔1+ years of experience with Spark, Spark Streaming or Storm and Kafka. ✔Experience with any ETL tool. ✔Experience with troubleshooting performance issues, SQL tuning etc. ✔Good English - communication with the USA Company offers: ?Competitive salary up to 4500$ - 5000$ net ?Relocation package ?Private medical care ?Sports facilities cards ?Group life insurance ?Travel insurance ?Vacation, sick leave Contact - @NadzeyaL

Александр

07.06.2018
17:02:14

Привет, глупый вопрос. Есть черная коробка которая считается на кластере. В какой-то момент таски зависают и в логах такое 18/06/07 12:10:56 INFO YarnAllocator: Driver requested a total number of 15 executor(s). 18/06/07 12:10:56 INFO YarnAllocator: Driver requested a total number of 14 executor(s). 18/06/07 12:10:56 INFO YarnAllocator: Driver requested a total number of 13 executor(s). 18/06/07 12:10:57 INFO YarnAllocator: Driver requested a total number of 12 executor(s). 18/06/07 12:10:58 INFO YarnAllocator: Driver requested a total number of 11 executor(s). 18/06/07 12:10:59 INFO YarnAllocator: Driver requested a total number of 10 executor(s). 18/06/07 12:11:00 INFO YarnAllocator: Driver requested a total number of 9 executor(s). 18/06/07 12:11:01 INFO YarnAllocator: Driver requested a total number of 8 executor(s). 18/06/07 12:11:01 INFO YarnAllocator: Driver requested a total number of 7 executor(s). 18/06/07 12:11:02 INFO YarnAllocator: Driver requested a total number of 6 executor(s). 18/06/07 12:11:03 INFO YarnAllocator: Driver requested a total number of 5 executor(s). 18/06/07 12:11:04 INFO YarnAllocator: Driver requested a total number of 4 executor(s). 18/06/07 12:11:05 INFO YarnAllocator: Driver requested a total number of 3 executor(s). 18/06/07 12:11:06 INFO YarnAllocator: Driver requested a total number of 2 executor(s). 18/06/07 12:11:10 INFO YarnAllocator: Driver requested a total number of 1 executor(s). 18/06/07 12:11:11 INFO YarnAllocator: Driver requested a total number of 0 executor(s). после чего они доооооолго висят посмотрел код мельком - просто фильтрация RDD по одному полю куда черную коробку потыкать чтобы что-то понять ?

Vadim

07.06.2018
17:21:16

а то что на первой странице гугла не помогает?)

Grigory

07.06.2018
17:36:01

ну и параметры джобы нам

Александр

07.06.2018
17:39:40

а то что на первой странице гугла не помогает?)

нит

/opt/spark/bin/spark-submit --master yarn --conf spark.memory.fraction=0.3 --conf spark.memory.storageFraction=0.8 --conf spark.core.connection.ack.wait.timeout=6000 --conf spark.executor.heartbeatInterval=6000 --conf spark.network.timeout=6001s --conf spark.rpc.message.maxSize=100 --conf spark.akka.timeout=6000 /opt/scalyzer/scalyzer-assembly-1.0.0.jar session --hdfs hdfs://baca105.corpnet.net:8020

Google

Vadim

07.06.2018
17:47:43

а таймаутами ты пытался залечить эту проблему?

и интеравалами

Александр

07.06.2018
17:48:43

нет еще, таймаутами и интервалами не пытался погуглю в эту сторону, спасибо

executor это же контейнер, я правильно понимаю ?

Vadim

07.06.2018
17:49:59

да а че спасибо, я вообще хз. но в плане распеределнщины, мандеж с таймаутами/битинтервалами/размерами сообщений частно связан с отпадом нод

Александр

07.06.2018
17:51:04

нода, как сервак не отпадает ощушение как будто таска сама отдает контейнеры а потом сидит и грустит есть конечно шанс что код виноват, параллельно его тоже рассмотрю

думал может известная весчь, когда кластер у контейнера забирает экзекютеров

Vadim

07.06.2018
17:54:06

а если эти ручки не крутить такое же поведение?

Александр

07.06.2018
17:55:11

ручками ты таймауты назвал ? мне оставили в наследство jar'ку и аргументы которые работали месяц назад тыжескалист

Grigory

07.06.2018
17:56:32

а алокация ехекуторов у тя динамическая или статическая?

Vadim

07.06.2018
17:56:33

ага

Grigory

07.06.2018
17:56:51

захаркдодь конкретное колво ехекуторов на константу и проверь что будет

Александр

07.06.2018
17:57:25

а алокация ехекуторов у тя динамическая или статическая?

вопрос хороший, минимальное стоит 1 а максимальное сколько есть в кластере но настраивал не я конечно

тоже проверю, спасибо за идею

Grigory

07.06.2018
17:57:43

поставь явно динамик алокейшн на фолс

Vadim

07.06.2018
17:57:48

а алокация ехекуторов у тя динамическая или статическая?

но это же первая выдача в гугле)

Grigory

07.06.2018
17:57:54

я не гуглил)))

не знал прастите

Vadim

07.06.2018
17:58:04

а куратор сказал что гуглил)

Grigory

07.06.2018
17:58:26

ну тут короче надо попробовать выставить таймаут по которому ехекутор считается мертвм (если это правда в этом дело)

Google

Александр

07.06.2018
17:58:31

Куратор просил пнуть что еще погуглить

Vadim

07.06.2018
17:58:42

)))

Grigory

07.06.2018
17:58:53

выруби динамичекую алокацию и чекни

мож чо другое вывалит

и жстек не смотрел на завсивших ехекуторах?

или на драйвере

Александр

07.06.2018
18:00:56

джестек не смотрел

Спасибо ! Это потыкаю и если не поможет - попрощу еще помоши

Zelmm

08.06.2018
07:24:45

Народ, кто может подсказать куда копать, если при попытке обратиться к ноде на порт 8042 мне отдается 500 ошибка?

Tsh

08.06.2018
07:56:50

Порт меняли на другой?

Zelmm

08.06.2018
07:57:14

Нет. И только что посмотрел в настройках кластера - прописан дефолтный 8042

Grigory

08.06.2018
07:58:13

а логи ноды какие

« Назад

Страница 105 из 182

Далее »

Открыть в Telegram