@hadoopusers

« Назад

Страница 142 из 182

Далее »

П

05.09.2018
07:30:41

Скорее Scientist

ivanovalla

05.09.2018
07:53:25

Это ведь не Data Engineer на самом деле?

нет, именно инженер, а что смущает?

П

05.09.2018
08:14:50

Это был вопрос к чату скорее

Fedor

05.09.2018
08:17:32

Господа, а кто-нибудь имел дело с Apache Kylin?

Google

Paul

05.09.2018
08:22:29

Скорее Scientist

Data Science немного другое в отличии от тематики текущего чата.

Linus

05.09.2018
08:31:01

Господа, а кто-нибудь имел дело с Apache Kylin?

Имел дело год назад

Тогда был сырой для прода

П

05.09.2018
08:49:15

Data Science немного другое в отличии от тематики текущего чата.

Вы вакансию откройте

Paul

05.09.2018
08:51:16

Вы вакансию откройте

А, речь о вакансии, то да выглядит как Science больше.

Andrei

05.09.2018
10:30:58

Господа, а кто-нибудь имел дело с Apache Kylin?

Уже где-то выше по чатику отписывался. Да сыроват, но использовать можно, осторожно.

Fedor

05.09.2018
11:17:17

А вообще профит от Kylin ощутимый?

Andrei

05.09.2018
11:18:38

Сложный вопрос, смотря в чем. Но запросики на нем бегали шустрее, чем на MSSQL. При том, что в Kylin и данных больше примерно в 2 раза

Kirill

05.09.2018
11:40:44

Всем привет, нужет совет, есть граф (не нормализованный) с N уроней глубины, на каждом уровне может быть N узлов, у каждого узла есть два поля, personalScore и groupScore, необходимо обсчитать для каждого узла groupScore . Подскажите, как лучше это сохранять в БД и как лучше обсчитывать??

Александр

05.09.2018
11:52:27

Всем привет. Выложил материалы сюда https://www.youtube.com/watch?v=VsfsjqDPB58 и сюда https://goo.gl/4ziXCy За качество на YouTube прощу прощения, платформа что-то небыстро перемалывает нашу запись. Думаю через несколько часов fullhd версия подтянется

>This video has been removed by the user =(

Kirill

05.09.2018
12:04:43

>This video has been removed by the user =(

спасибо!)

Fedor

05.09.2018
12:05:55

Всем привет, нужет совет, есть граф (не нормализованный) с N уроней глубины, на каждом уровне может быть N узлов, у каждого узла есть два поля, personalScore и groupScore, необходимо обсчитать для каждого узла groupScore . Подскажите, как лучше это сохранять в БД и как лучше обсчитывать??

А если те же данные положить в паркете в HDFS и бегать по ним спарком или импалой, это сильно медленнее?

Александр

05.09.2018
12:06:55

спасибо!)

?

Google

Kirill

05.09.2018
12:07:49

за ссылку на видео или это не то ??

Александр

05.09.2018
12:08:22

видео не доступно, я скорее на это хотел обратить внимание, к сожалению не ответ на ваш вопрос

Kirill

05.09.2018
12:09:54

понял, значит гляну для общего развития

Александр

05.09.2018
13:03:34

пробовал кто чтобы спарк по-профайлить ? https://github.com/uber-common/jvm-profiler

Ali

05.09.2018
13:20:13

в рантайме постоянно?

Nikolay

05.09.2018
17:12:05

Объясните почему импала быстрее http://blog.cloudera.com/blog/2017/04/apache-impala-leads-traditional-analytic-database/

Андрей

05.09.2018
18:28:28

Объясните почему импала быстрее http://blog.cloudera.com/blog/2017/04/apache-impala-leads-traditional-analytic-database/

Еще бы она у клаудеры была медленнее :)

Sergioss

05.09.2018
19:06:38

:))

sherzod

06.09.2018
05:28:09

Подскажите, может кто встречал в сети детальный разбор join в спарке, от самого верха до самого low-level?

Andrey

06.09.2018
05:36:46

Подскажите, может кто встречал в сети детальный разбор join в спарке, от самого верха до самого low-level?

https://youtu.be/fp53QhSfQcI От самого верха до середины :)

sherzod

06.09.2018
05:41:57

Спасибо, посмотрю

Andrey

06.09.2018
08:05:43

Товарищи, кто с Spark Thrift Server имел дело? На HDP 2.6 он в упор не хочет подтягивать параметры воркеров и драйвера. В запущенном трифт сервере в переменных окружениях эти параметры корректно отображаются, но по факту воркеры и драйвер работают со своими дефолтными параметрами. Пробовал добавлять через spark_thrift_cmds_opts и через custom spark-thrift-sparkconf

sherzod

06.09.2018
08:15:07

https://youtu.be/fp53QhSfQcI От самого верха до середины :)

Оч хорошее видео. Жаль, когда я подумал: "о вот самая интересная часть началась", она сказала: "А теперь перейдём к вопросам" :)

Реально до середины, то есть я думал она каждый случай ещё более детально разберёт)

Ребят, а как можно понять в мониторинге тасков спарка (конкретно тасков в UI), что это за таск сейчас выполняется?

Вот здесь имею в виду

Eduard

06.09.2018
08:19:41

В джобе выводится номер строки и класс

Andrey

06.09.2018
08:28:54

Привет всем, а какие варианты есть оптимизации джоинов? у нас сейчас весь дата пайплайн заключен в подготовке данных и джоину всего этого на основную таблицу, получается к основной таблице надо заджоинить 200-300 фич. Сейчас это решается броадкастом всех таблиц с фичами чтобы предотвратить шафлы, но я понимаю что вечно все в память влезать не будет. так как джоин каждый раз происходит по разным филдам, то отсортировать все красиво по одному полю я не могу, попытка как то уменьшить количество джоинов все равно приводит к их появлению просто в другом месте, я немного в растерянности что можно сделать?

вот так примерно выглядит физический план запроса https://gist.github.com/pilgrimkst/cbb4fcc45c4682eb700afa45e7dbdef6

Google

KrivdaAllStars

06.09.2018
08:35:25

Реально до середины, то есть я думал она каждый случай ещё более детально разберёт)

Доклад Павла послушай про каталист

Grigory

06.09.2018
09:51:05

https://amplab.cs.berkeley.edu/jenkins/view/Spark%20QA%20Test/job/spark-master-test-maven-hadoop-2.7-ubuntu-scala-2.12/229/

^ первый зеелный билд спарка на 2.12

https://amplab.cs.berkeley.edu/jenkins/view/Spark%20QA%20Test/job/spark-master-test-maven-hadoop-2.7-ubuntu-scala-2.12/

Александр

06.09.2018
09:51:46

кто когда в прод покатит ?

Grigory

06.09.2018
09:53:30

учитывая что пара дней гринбилды

sherzod

06.09.2018
11:17:12

В джобе выводится номер строки и класс

Там только очень высокоуровнего, для action-а.

Доклад Павла послушай про каталист

На курсере? Это я вроде смотрел. Вот хотелось бы по типа джойнов которые он описал, конкретный разбор со ссылками на код. Ну видимо надо самому не полениться и поискать по коду.

KrivdaAllStars

06.09.2018
11:20:33

На курсере? Это я вроде смотрел. Вот хотелось бы по типа джойнов которые он описал, конкретный разбор со ссылками на код. Ну видимо надо самому не полениться и поискать по коду.

Вроде 2 или 3 спарк москоу

Katerina

06.09.2018
11:25:22

доклад я вот тут нашла. и спасибо за наводку https://www.facebook.com/afishamansarda/videos/1648050321885680/

sherzod

06.09.2018
11:34:50

Ну да, на курсере почти то же самое, даже чуть более системно: https://www.coursera.org/lecture/big-data-analysis/catalyst-NrDEC

Katerina

06.09.2018
11:53:21

оу . спасибо тоже гляну

Rui

10.09.2018
08:58:11

Hello anyone helps with streaming call api json url to hive?

Stanislav

10.09.2018
09:15:01

Hello anyone helps with streaming call api json url to hive?

InvokeHTTP + puthiveql. And some processors between

Rui

10.09.2018
09:16:34

with nifi?

thanks @barloc

Stanislav

10.09.2018
09:18:27

with nifi?

Yep. It's simple with nifi.

Rui

10.09.2018
09:19:21

simple :)

like node-red concept

:D

Google

Admin

ERROR: S client not available

Rui

10.09.2018
09:22:17

i only in user interface overview :)

Stanislav

10.09.2018
09:24:54

For a man, who will work with your code in future, it'll be more hard :) remember, nifi is slow :( if you have some skills in python, try airflow.

Rui

10.09.2018
09:26:55

but i think it's a better way

to other teams work with

it's more simple i think

i have a lot of api calls

url calls and the returns are in json or csv or xml

Stanislav

10.09.2018
09:42:22

Xml + nifi = ?‍♂ there are patterns for typical etl operations on nifi site or hortonworks site. Csv is very simple in work, json is ok too. But xml with transformation from tree to table is pain with slow speed of standart processors in nifi. In the end, you write scripts outside and use nifi only for scheduling and some operatons (puthdfs etc)

Rui

10.09.2018
10:25:09

yap

i'm reading about

but i need to start a docker container with nifi to test

@barloc https://github.com/hortonworks-gallery/nifi-templates/tree/master/templates

some templates :))

Stanislav

10.09.2018
10:52:11

2 years old ) some processors are removed or marked as deprecared. Be carefull )

Rui

10.09.2018
10:55:40

:S

ssl http :S

the call api https /

Stanislav

10.09.2018
13:53:28

Данный колумбиец пишет, что node-red прям мегакрут как средство етля. Кто-нибудь его пробовал? А то пугает: написано айбиэм, да ещё на ноде. По сравнению с другими гуй подделками?

Andriy