
Andrei
05.06.2018
11:59:16
мы используем, а что интересует?

Sergey
05.06.2018
12:00:32
у вас кластер КХ стоит на тех же узлах. что и хадуп-ноды? КХ - используется как витрина для быстрых олап-запросов?
чем-то управляете кластером КХ? Амбари-Клаудера?

Andrei
05.06.2018
12:04:10
КХ кластер отдельный, он используется как бекенд для риалтайм апишек, а данные в него периодически льются в том числе и из хадупа

Google

Andrei
05.06.2018
12:04:22
менеджиться через Salt-Stack
у Амбари-Клаудеры не думаю что есть или будет поддержка в ближайшем будущем

_
05.06.2018
12:05:48
подскажите, что имеется ввиду под шедулингом стриминговых джобов в airflow? в чем разница с батчами?

Andrei
05.06.2018
12:06:42
еще есть желание допилить нативный драйвер для Кликхауса, который на 80% уже готов и формировать уже данные в родном формате, которые можно формировать через тот же Spark и просто подкладываеть для КХ в нужные папочки

Sergey
05.06.2018
12:06:45
в airflow стримминга нет

_
05.06.2018
12:07:21
я понял, я хочу понять вцелом в чем отличие шедулинга стриминга от батчей?

Sergey
05.06.2018
12:08:00

_
05.06.2018
12:08:14
ну спарк стриминг например

Andrei
05.06.2018
12:08:24

_
05.06.2018
12:09:23

Oleksandr
05.06.2018
12:10:42
поясните. пожалуйста. драйвер = ODBC/JDBC?
стандартный java CH драйвер, он же jdbc, читает данные по http, записывает по какому-то ещё
под "нативным" имеется в виду чтение/передача данных в КХ через уже понятные (те в том виде, в котором хранятся) ему блоки байтов

Sergey
05.06.2018
12:11:54
нативный, но все-таки JDBC, верно?

Google

Sergey
05.06.2018
12:12:24
т.е. вы хотите лишь перфоманс передачи повысить и потенциальные баги с данными по HTTP убрать?

Andrei
05.06.2018
12:14:42
Идея формировать из спарка файлы в нужном формате и просто заливать их на сервера КХ. Тут Никите ODBC/Jdbc не потребуются тогда

Oleksandr
05.06.2018
12:15:07
+ jdbc не умеет стримить
теоретически, ничего не мешает сделать jdbc обертку (с присущими jdbc ограничениями)

Andrei
05.06.2018
12:15:12
И драйвер для приложений, но он не JDBC

Sergey
05.06.2018
12:15:53
а, понял, спасибо

Tsh
05.06.2018
12:29:36

Oleksandr
05.06.2018
12:32:13
беру на себя смелость ответить за @andrei_tupitcyn :)

Tsh
05.06.2018
12:36:50

Grigory
05.06.2018
12:37:45
такой се аргумент; можно к чему угодно применить

Oleksandr
05.06.2018
12:39:25
Нехорошая дорога: запросто остаться с непонятным и неподдерживаемым клоном
клоном чего?
это просто драйвер, который будет гарантированно работать _до_ определенной версии КХ
чтобы он работал с более новой версией, иногда надо будет менять код драйвера, что, вообще говоря, верно всегда
неприятности будут, если вдруг полностью перепишут весь подкапотный механизм хранения данных, ну тогда да, не повезло
какая вероятность этого, риск того стоит?

KrivdaAllStars
05.06.2018
13:04:43

Oleksandr
05.06.2018
13:05:17

Pavel
05.06.2018
17:37:30

Александр
05.06.2018
22:23:33


ivanovalla
06.06.2018
08:46:53
#job
друзья, буду рада пообщаться в личке с дата инженером, которому интересен киберспорт в целом и LoL в частности.
*Что делать:* Анализировать статистику и реплеи игроков в League of Legends, искать и оценивать ошибки игроков, находить оптимальные айтем билды, классифицировать типы игроков, определять вероятность победы в зависимости от параметров.
*Как делать:* Ты будешь работать в маленькой команде, с отличным продуктологом, дизайнером, веб-разработчиками короткими недельными итерациями по улучшению продукта. Твои модели будут завёрнуты в микросервисы, брать данные из хранилища с миллионами матчей и отдавать по запросу в апи результаты для использования. Поэтому к тебе большие требования по знанию Python в сфере веб-разработки - нужно понимать как сделать апи, как добавить кэш, как деплоить свои микросервисы, мониторить их быстродействие и отслеживать ошибки. В идеале будет отлично, если ты знакомился с аб-тестами и continuous delivery/continuous integration в data science, для постоянного мониторинга и улучшения результатов
https://moikrug.ru/vacancies/1000042749 вот тут тоже подробности


KrivdaAllStars
06.06.2018
09:14:47
#job
друзья, буду рада пообщаться в личке с дата инженером, которому интересен киберспорт в целом и LoL в частности.
*Что делать:* Анализировать статистику и реплеи игроков в League of Legends, искать и оценивать ошибки игроков, находить оптимальные айтем билды, классифицировать типы игроков, определять вероятность победы в зависимости от параметров.
*Как делать:* Ты будешь работать в маленькой команде, с отличным продуктологом, дизайнером, веб-разработчиками короткими недельными итерациями по улучшению продукта. Твои модели будут завёрнуты в микросервисы, брать данные из хранилища с миллионами матчей и отдавать по запросу в апи результаты для использования. Поэтому к тебе большие требования по знанию Python в сфере веб-разработки - нужно понимать как сделать апи, как добавить кэш, как деплоить свои микросервисы, мониторить их быстродействие и отслеживать ошибки. В идеале будет отлично, если ты знакомился с аб-тестами и continuous delivery/continuous integration в data science, для постоянного мониторинга и улучшения результатов
https://moikrug.ru/vacancies/1000042749 вот тут тоже подробности
оч круто, давайте только про доту
Но вообще на ds судя по всему похоже


ivanovalla
06.06.2018
09:16:00

KrivdaAllStars
06.06.2018
09:16:38

Google

ivanovalla
06.06.2018
09:17:03

Andrey
07.06.2018
05:45:29
Привет всем, у кого нибудь получилось запускать шаги в AWS EMR параллельно? я уже все перепробовал: конфигурил CapacityScheduler на х очередей, и пушил в разные (ярн запускал их в разных очередях, но EMR все равно запускал по одному шагу за раз(один шаг RUNNING остальные PENDING)); пробовал FairScheduler тот же эффект; Пробовал PARALLEL_FAIR_SCHEDULING, PARALLEL_CAPACITY_SCHEDULING в AWS data pipelines - все ноль эффекта

Eduard
07.06.2018
06:13:06
Тоже интересен ответ на вопрос

Andrey
07.06.2018
06:42:21
пока что все что я нашел, это пушить несколько джоб в одном стэпе с помощью скрипта
https://stackoverflow.com/questions/24218865/how-do-i-submit-more-than-one-job-to-hadoop-in-a-step-using-the-elastic-mapreduc?rq=1

Roman
07.06.2018
06:50:04
Шаги параллельно запускать нельзя, запустить параллельно несколько джоб способов много

Andrey
07.06.2018
06:55:19
если есть куда меня ткнуть на эту тему буду благодарен

Polina
07.06.2018
11:37:46
Все привет!
Никто не сталкивался случайно с таким?
Поставила новый pig, старый удалился, но при этом query editor pig'a в hue при выполнении джобы активно пишет, что у него старый пиг.
Я посмотрела, сама установка hue пиг за собой не тянет. Пиг на машине только новый. Хью я рестартила после установки пига.
Что я не так сделала?

ptchol
07.06.2018
11:45:52
Кажется в hue pig подтаскивается как shared libs для oozie
и там чтобы они стали доступны oozie, делают что то типа oozie-setup lalalala
возможно, там нужно обновить.
Возможно уже инфа неактуальна.

Polina
07.06.2018
11:57:43
Вроде сетапили на тачке с узи
Гляну повнимательнее, спасибо за идею)

ptchol
07.06.2018
12:06:22
не, дело в том что либы pig укладываются в какую то папку аля ./libs к oozie. Обновление в системе пига не обновит либы там, туда нужно их подложить свежие.
История, аля дистрибуция наших любимых hdp/cdh, всё своё носят с собой.


Nadzeya
07.06.2018
15:09:57
#job
#lead_hadoop_developer #scala #java #hadoop #spark #globallogic
Krakow, Poland
#Full-time, #office
GlobalLogic is a full-lifecycle software development company.
Our customer is the largest retail pharmacy, health and daily living destination across the USA and Europe. It is a global leader in pharmacy-led, health and wellbeing retail. Our integration teams will work on technology transformation and develop new pharmacy platform.
Requirements:
✔Overall 5+ years of experience with at least 2+ years with big data.
✔Experience working with Scala
✔3+ years with Java, J2EE & databases like Oracle and/or SQL Server
✔2+ years of experience in developing systems/applications with Hadoop ecosystem including Hadoop (Hortonworks or Cloudera), Map Reduce Pig, Hive, Sqoop and Flume.
✔1+ years of experience with Spark, Spark Streaming or Storm and Kafka.
✔Experience with any ETL tool.
✔Experience with troubleshooting performance issues, SQL tuning etc.
✔Good English - communication with the USA
Company offers:
?Competitive salary up to 4500$ - 5000$ net
?Relocation package
?Private medical care
?Sports facilities cards
?Group life insurance
?Travel insurance
?Vacation, sick leave
Contact - @NadzeyaL


Александр
07.06.2018
17:02:14
Привет, глупый вопрос. Есть черная коробка которая считается на кластере. В какой-то момент таски зависают и в логах такое
18/06/07 12:10:56 INFO YarnAllocator: Driver requested a total number of 15 executor(s).
18/06/07 12:10:56 INFO YarnAllocator: Driver requested a total number of 14 executor(s).
18/06/07 12:10:56 INFO YarnAllocator: Driver requested a total number of 13 executor(s).
18/06/07 12:10:57 INFO YarnAllocator: Driver requested a total number of 12 executor(s).
18/06/07 12:10:58 INFO YarnAllocator: Driver requested a total number of 11 executor(s).
18/06/07 12:10:59 INFO YarnAllocator: Driver requested a total number of 10 executor(s).
18/06/07 12:11:00 INFO YarnAllocator: Driver requested a total number of 9 executor(s).
18/06/07 12:11:01 INFO YarnAllocator: Driver requested a total number of 8 executor(s).
18/06/07 12:11:01 INFO YarnAllocator: Driver requested a total number of 7 executor(s).
18/06/07 12:11:02 INFO YarnAllocator: Driver requested a total number of 6 executor(s).
18/06/07 12:11:03 INFO YarnAllocator: Driver requested a total number of 5 executor(s).
18/06/07 12:11:04 INFO YarnAllocator: Driver requested a total number of 4 executor(s).
18/06/07 12:11:05 INFO YarnAllocator: Driver requested a total number of 3 executor(s).
18/06/07 12:11:06 INFO YarnAllocator: Driver requested a total number of 2 executor(s).
18/06/07 12:11:10 INFO YarnAllocator: Driver requested a total number of 1 executor(s).
18/06/07 12:11:11 INFO YarnAllocator: Driver requested a total number of 0 executor(s).
после чего они доооооолго висят
посмотрел код мельком - просто фильтрация RDD по одному полю
куда черную коробку потыкать чтобы что-то понять ?


Vadim
07.06.2018
17:21:16
а то что на первой странице гугла не помогает?)

Grigory
07.06.2018
17:36:01
ну и параметры джобы нам

Александр
07.06.2018
17:39:40
/opt/spark/bin/spark-submit --master yarn --conf spark.memory.fraction=0.3 --conf spark.memory.storageFraction=0.8 --conf spark.core.connection.ack.wait.timeout=6000 --conf spark.executor.heartbeatInterval=6000 --conf spark.network.timeout=6001s --conf spark.rpc.message.maxSize=100 --conf spark.akka.timeout=6000 /opt/scalyzer/scalyzer-assembly-1.0.0.jar session --hdfs hdfs://baca105.corpnet.net:8020

Google

Vadim
07.06.2018
17:47:43
а таймаутами ты пытался залечить эту проблему?
и интеравалами

Александр
07.06.2018
17:48:43
нет еще, таймаутами и интервалами не пытался
погуглю в эту сторону, спасибо
executor это же контейнер, я правильно понимаю ?

Vadim
07.06.2018
17:49:59
да а че спасибо, я вообще хз. но в плане распеределнщины, мандеж с таймаутами/битинтервалами/размерами сообщений частно связан с отпадом нод

Александр
07.06.2018
17:51:04
нода, как сервак не отпадает
ощушение как будто таска сама отдает контейнеры а потом сидит и грустит
есть конечно шанс что код виноват, параллельно его тоже рассмотрю
думал может известная весчь, когда кластер у контейнера забирает экзекютеров

Vadim
07.06.2018
17:54:06
а если эти ручки не крутить такое же поведение?

Александр
07.06.2018
17:55:11
ручками ты таймауты назвал ? мне оставили в наследство jar'ку и аргументы которые работали месяц назад тыжескалист

Grigory
07.06.2018
17:56:32
а алокация ехекуторов у тя динамическая или статическая?

Vadim
07.06.2018
17:56:33
ага

Grigory
07.06.2018
17:56:51
захаркдодь конкретное колво ехекуторов на константу и проверь что будет

Александр
07.06.2018
17:57:25
тоже проверю, спасибо за идею

Grigory
07.06.2018
17:57:43
поставь явно динамик алокейшн на фолс

Vadim
07.06.2018
17:57:48

Grigory
07.06.2018
17:57:54
я не гуглил)))
не знал прастите

Vadim
07.06.2018
17:58:04
а куратор сказал что гуглил)

Grigory
07.06.2018
17:58:26
ну тут короче надо попробовать выставить таймаут по которому ехекутор считается мертвм (если это правда в этом дело)

Google

Александр
07.06.2018
17:58:31
Куратор просил пнуть что еще погуглить

Vadim
07.06.2018
17:58:42
)))

Grigory
07.06.2018
17:58:53
выруби динамичекую алокацию и чекни
мож чо другое вывалит
и жстек не смотрел на завсивших ехекуторах?
или на драйвере

Александр
07.06.2018
18:00:56
джестек не смотрел
Спасибо ! Это потыкаю и если не поможет - попрощу еще помоши

Zelmm
08.06.2018
07:24:45
Народ, кто может подсказать куда копать, если при попытке обратиться к ноде на порт 8042 мне отдается 500 ошибка?

Tsh
08.06.2018
07:56:50
Порт меняли на другой?

Zelmm
08.06.2018
07:57:14
Нет. И только что посмотрел в настройках кластера - прописан дефолтный 8042

Grigory
08.06.2018
07:58:13
а логи ноды какие