
П
05.09.2018
07:30:41
Скорее Scientist

ivanovalla
05.09.2018
07:53:25

П
05.09.2018
08:14:50
Это был вопрос к чату скорее

Fedor
05.09.2018
08:17:32
Господа, а кто-нибудь имел дело с Apache Kylin?

Google

Paul
05.09.2018
08:22:29
Скорее Scientist
Data Science немного другое в отличии от тематики текущего чата.

Linus
05.09.2018
08:31:01
Тогда был сырой для прода

П
05.09.2018
08:49:15

Paul
05.09.2018
08:51:16

Andrei
05.09.2018
10:30:58

Fedor
05.09.2018
11:17:17
А вообще профит от Kylin ощутимый?

Andrei
05.09.2018
11:18:38
Сложный вопрос, смотря в чем. Но запросики на нем бегали шустрее, чем на MSSQL. При том, что в Kylin и данных больше примерно в 2 раза

Kirill
05.09.2018
11:40:44
Всем привет, нужет совет, есть граф (не нормализованный) с N уроней глубины, на каждом уровне может быть N узлов, у каждого узла есть два поля, personalScore и groupScore, необходимо обсчитать для каждого узла groupScore .
Подскажите, как лучше это сохранять в БД и как лучше обсчитывать??

Александр
05.09.2018
11:52:27

Kirill
05.09.2018
12:04:43

Fedor
05.09.2018
12:05:55

Александр
05.09.2018
12:06:55

Google

Kirill
05.09.2018
12:07:49
за ссылку на видео или это не то ??

Александр
05.09.2018
12:08:22
видео не доступно, я скорее на это хотел обратить внимание, к сожалению не ответ на ваш вопрос

Kirill
05.09.2018
12:09:54
понял, значит гляну для общего развития

Александр
05.09.2018
13:03:34
пробовал кто чтобы спарк по-профайлить ?
https://github.com/uber-common/jvm-profiler

Ali
05.09.2018
13:20:13
в рантайме постоянно?

Nikolay
05.09.2018
17:12:05
Объясните почему импала быстрее http://blog.cloudera.com/blog/2017/04/apache-impala-leads-traditional-analytic-database/

Андрей
05.09.2018
18:28:28

Sergioss
05.09.2018
19:06:38
:))

sherzod
06.09.2018
05:28:09
Подскажите, может кто встречал в сети детальный разбор join в спарке, от самого верха до самого low-level?

Andrey
06.09.2018
05:36:46

sherzod
06.09.2018
05:41:57
Спасибо, посмотрю

Andrey
06.09.2018
08:05:43
Товарищи, кто с Spark Thrift Server имел дело? На HDP 2.6 он в упор не хочет подтягивать параметры воркеров и драйвера. В запущенном трифт сервере в переменных окружениях эти параметры корректно отображаются, но по факту воркеры и драйвер работают со своими дефолтными параметрами. Пробовал добавлять через spark_thrift_cmds_opts и через custom spark-thrift-sparkconf

sherzod
06.09.2018
08:15:07
Реально до середины, то есть я думал она каждый случай ещё более детально разберёт)
Ребят, а как можно понять в мониторинге тасков спарка (конкретно тасков в UI), что это за таск сейчас выполняется?
Вот здесь имею в виду

Eduard
06.09.2018
08:19:41
В джобе выводится номер строки и класс

Andrey
06.09.2018
08:28:54
Привет всем, а какие варианты есть оптимизации джоинов? у нас сейчас весь дата пайплайн заключен в подготовке данных и джоину всего этого на основную таблицу, получается к основной таблице надо заджоинить 200-300 фич. Сейчас это решается броадкастом всех таблиц с фичами чтобы предотвратить шафлы, но я понимаю что вечно все в память влезать не будет. так как джоин каждый раз происходит по разным филдам, то отсортировать все красиво по одному полю я не могу, попытка как то уменьшить количество джоинов все равно приводит к их появлению просто в другом месте, я немного в растерянности что можно сделать?
вот так примерно выглядит физический план запроса https://gist.github.com/pilgrimkst/cbb4fcc45c4682eb700afa45e7dbdef6

Google

KrivdaAllStars
06.09.2018
08:35:25

Grigory
06.09.2018
09:51:05
https://amplab.cs.berkeley.edu/jenkins/view/Spark%20QA%20Test/job/spark-master-test-maven-hadoop-2.7-ubuntu-scala-2.12/229/
^ первый зеелный билд спарка на 2.12
https://amplab.cs.berkeley.edu/jenkins/view/Spark%20QA%20Test/job/spark-master-test-maven-hadoop-2.7-ubuntu-scala-2.12/

Александр
06.09.2018
09:51:46
кто когда в прод покатит ?

Grigory
06.09.2018
09:53:30
учитывая что пара дней гринбилды

sherzod
06.09.2018
11:17:12
Доклад Павла послушай про каталист
На курсере? Это я вроде смотрел. Вот хотелось бы по типа джойнов которые он описал, конкретный разбор со ссылками на код.
Ну видимо надо самому не полениться и поискать по коду.

KrivdaAllStars
06.09.2018
11:20:33

Katerina
06.09.2018
11:25:22
доклад я вот тут нашла. и спасибо за наводку https://www.facebook.com/afishamansarda/videos/1648050321885680/

sherzod
06.09.2018
11:34:50
Ну да, на курсере почти то же самое, даже чуть более системно: https://www.coursera.org/lecture/big-data-analysis/catalyst-NrDEC

Katerina
06.09.2018
11:53:21
оу . спасибо тоже гляну

Rui
10.09.2018
08:58:11
Hello anyone helps with streaming call api json url to hive?

Stanislav
10.09.2018
09:15:01

Rui
10.09.2018
09:16:34
with nifi?
thanks @barloc

Stanislav
10.09.2018
09:18:27

Rui
10.09.2018
09:19:21
simple :)
like node-red concept
:D

Google

Rui
10.09.2018
09:22:17
i only in user interface overview :)

Stanislav
10.09.2018
09:24:54
For a man, who will work with your code in future, it'll be more hard :) remember, nifi is slow :( if you have some skills in python, try airflow.

Rui
10.09.2018
09:26:55
but i think it's a better way
to other teams work with
it's more simple i think
i have a lot of api calls
url calls and the returns are in json or csv or xml

Stanislav
10.09.2018
09:42:22
Xml + nifi = ?♂ there are patterns for typical etl operations on nifi site or hortonworks site. Csv is very simple in work, json is ok too. But xml with transformation from tree to table is pain with slow speed of standart processors in nifi. In the end, you write scripts outside and use nifi only for scheduling and some operatons (puthdfs etc)

Rui
10.09.2018
10:25:09
yap
i'm reading about
but i need to start a docker container with nifi to test
@barloc https://github.com/hortonworks-gallery/nifi-templates/tree/master/templates
some templates :))

Stanislav
10.09.2018
10:52:11
2 years old ) some processors are removed or marked as deprecared. Be carefull )

Rui
10.09.2018
10:55:40
:S
ssl http :S
the call api https /

Stanislav
10.09.2018
13:53:28
Данный колумбиец пишет, что node-red прям мегакрут как средство етля. Кто-нибудь его пробовал? А то пугает: написано айбиэм, да ещё на ноде. По сравнению с другими гуй подделками?

Andriy
10.09.2018
16:31:49
Португалец

Ilya
10.09.2018
17:04:22
Я юзаю нифи

Google

Ilya
10.09.2018
17:04:59
Для етл хороший продукт, легко расширить если надо
XML + avro коллега настроил, потоково десятки гигов гоняет быстро
А вы про node red, сори, не юзал

Stanislav
10.09.2018
17:09:44

Ilya
10.09.2018
17:10:47
В найфай, на каких процессорах интересует?

Stanislav
10.09.2018
17:12:29

Ilya
10.09.2018
17:14:19
Это да,и много чего нет. На нашем проекте тоже много дописали.
Посмотрю что там он настроил потом скажу.