@hadoopusers

« Назад

Страница 107 из 182

Далее »

Mikhail

13.06.2018
14:17:58

Ну т.е. имеет смысл применять когда в другом регионе (удалённом) лежат данные в s3, а посчитать хотим здесь.

KrivdaAllStars

13.06.2018
14:18:17

Я слышал с этой штукой искала не работает , но работает престо

Tsh

13.06.2018
14:19:33

Импалу не терплю как класс ибо это средство передержки для оракл наркоманов

Да с престо работает какая то версия

Google

Tsh

13.06.2018
14:22:10

Мне понравился hazelcast в платном исполнении, ещё gemfire

Лучше смотрите в сторону Apache geode, для банков они могут дать платную поддержку

KrivdaAllStars

13.06.2018
14:26:58

Лучше смотрите в сторону Apache geode, для банков они могут дать платную поддержку

Спасибо

Антон

13.06.2018
15:28:33

Спасибо

Игнайт

KrivdaAllStars

13.06.2018
15:31:10

Игнайт

Игнайт не оч и кривой :( его ни один банк - не разработчик. , я думаю к себе не подпустит

Grigory

13.06.2018
15:31:53

зато хуипа скок вокруг него

Tsh

13.06.2018
15:32:35

Я работал с бывшими кор разрабами игнайта - на вопрос стоит ли использовать - немедленное "нах"

KrivdaAllStars

13.06.2018
15:34:14

Я работал с бывшими кор разрабами игнайта - на вопрос стоит ли использовать - немедленное "нах"

У вас банковское применение ?

Александр

13.06.2018
15:35:33

Я работал с бывшими кор разрабами игнайта - на вопрос стоит ли использовать - немедленное "нах"

ну это как люди с колбасного завода которые не едят колбасу, я по этой причиной тиньковым пользуюсь

Tsh

13.06.2018
15:36:27

Да инвестмент банкинг

Sergey

13.06.2018
17:20:04

Лучше игнайта (полный отстой) но не надо верить алюксио рпзрабам

А вот все ругают, а чем он плох (на самом деле интересно)?

Эшер

13.06.2018
19:42:31

а дата сайэнтологам платят больше

Eduard

13.06.2018
19:44:03

Двачую

Google

Александр

13.06.2018
19:44:40

Если ты не лох, отправь смс я "не лох" на короткий номер 5252

Евгений

13.06.2018
19:51:50

Чёт спамеры активизировались прям в последние пару дней

Oleksandr

13.06.2018
20:13:37

Время написать предективную аналитику для прогнозирования спама. Сегментировать спам. И конечно же детектировать спам.

Eduard

13.06.2018
20:17:53

А потом сделать свой генератор

Евгений

13.06.2018
20:57:06

А потом сделать свой генератор

Хотя...сейчас вся индустрия свелась к тому, чтобы рассылать спам максимально адресно)

Oleksandr

13.06.2018
21:01:07

Intelligent Spam

KrivdaAllStars

14.06.2018
09:05:04

Да инвестмент банкинг

Tsh а это пробовали https://www.snappydata.io/ ?

Tsh

14.06.2018
09:06:21

Да

Там одни индусы если не стремно

KrivdaAllStars

14.06.2018
09:07:10

мне стремно)

Tsh

14.06.2018
09:07:58

С одной стороны там куча интересных идей (может украденных ещё где)

С другой господа не доводят до конца идеи, пришлось перепроверять и вычитывать код

В результате пришлось пилить свое с нуля

KrivdaAllStars

14.06.2018
09:09:11

а на чем пилите?

Tsh

14.06.2018
09:09:30

а на чем пилите?

С ума сойдёте

На петоне

KrivdaAllStars

14.06.2018
09:12:22

На петоне

ну то есть джобы прям спарковские рисуете им и вам хорошо?

а scala/java врапперы какие есть?*

Tsh

14.06.2018
09:13:45

Да, все есть, куда без них

Google

Tsh

14.06.2018
09:14:20

Multilanguage project - make your own spark

Svyatoslav

14.06.2018
12:09:17

Коллеги, добрый) Каким образом можно заставить yarn ротейтить логи для long running applications? Или еще лучше, как корректно их отправить в ES и локально делать ротейт.

Alexander

14.06.2018
12:21:30

Коллеги, добрый) Каким образом можно заставить yarn ротейтить логи для long running applications? Или еще лучше, как корректно их отправить в ES и локально делать ротейт.

Для каких-то определенных app master? Для Spark можно переопределить Log4j. Если из-под Oozie, то оный агрессивно забирает логи в процесс-launcher, но для него тоже можно прокинуть конфигурацию лога через props запуска.

Svyatoslav

14.06.2018
12:22:52

Для каких-то определенных app master? Для Spark можно переопределить Log4j. Если из-под Oozie, то оный агрессивно забирает логи в процесс-launcher, но для него тоже можно прокинуть конфигурацию лога через props запуска.

Т.е. средствами самого приложения, окей. Спасибо. У меня Flink и logback вместо Log4j в нем.

Alexander

14.06.2018
12:24:00

Не всегда нужно все процессы YARN менять...или все? Например, если писать логи локально, можно потом проще забрать в ES.

Svyatoslav

14.06.2018
12:35:43

Там только один процесс на ноду. Вопрос в том, можно ли это сделать средствами yarn+ какой-то шиппер или надо пилить велосипед?

Не понял вопроса

Aleksey

15.06.2018
09:23:28

Добрый день. Подскажите плиз, стоит задача поработать с паректом из скалы без спарка, т.е. просто хочется использовать паркет как файловую бд. Нужно будет делать операции двух типов: 1) дописывать в файлы, 2) читать с конца с условием пока. Вопрос, достаточно ли будет библиотеки apache/parquet-mr или что-то другое взять (проще/удобнее) ?

Vlad

15.06.2018
09:24:52

а разве в паркет можно дописывать?

Aleksey

15.06.2018
09:30:20

Было у меня что-то вроде df_tdata.write.mode(SaveMode.Append).format("parquet").insertInto("T_DATA") но это через spark

Grigory

15.06.2018
09:30:41

он просто рядом создает новый файл насколько я помню

Aleksey

15.06.2018
09:30:58

да

Daniel

15.06.2018
18:02:08

Добрый вечер, читаю в спарк rdd таблицу с кассандры коннектором datastax, делаю над ней map и reduceByKey, после чего сжирается все место на серве под промежуточные результаты. То есть сначала делается map, сохраняет результаты в spark.local.dir и только потом редьюсит? Как можно организовать редьюс на каждом партишене и только после этого уже сохранять результаты? (Работаю на одной ноде)

Сожрался терабайт, дальше пришлось вырубить

Так же будет ли tungsten компактнее сериализовать, если ичользовать dataframe вместо rdd

Блин, похоже вопрос отпал, надо было просто через mapPartitions делать и сохранять результат каждого партишена

Grigory

15.06.2018
18:15:57

вообще если говорить о кассандра коннектере то он тупой (:

Daniel

15.06.2018
18:18:59

Слышал об этом, а сейчас сам об него споткнулся) но вообще он все правильно сделал, это я не так агрегировал

Grigory

15.06.2018
18:21:01

в большинстве случаев он хорошо работает, пробелмы начнутся со сложными или с хотяб рендж запросами

Евгений

15.06.2018
18:37:16

Добрый вечер, читаю в спарк rdd таблицу с кассандры коннектором datastax, делаю над ней map и reduceByKey, после чего сжирается все место на серве под промежуточные результаты. То есть сначала делается map, сохраняет результаты в spark.local.dir и только потом редьюсит? Как можно организовать редьюс на каждом партишене и только после этого уже сохранять результаты? (Работаю на одной ноде)

Попробуйте mapPartitions, и возвращать свой массив key-value

Google

Евгений

15.06.2018
18:37:48

Это как раз позволит посчитать на маппере предварительные агрегаты

Daniel

15.06.2018
18:37:55

Ага, вот я так и подумал, почему-то сразу в голову не пришло

Евгений

15.06.2018
18:38:10

Но вручную немного больше придётся написать)

Daniel

15.06.2018
18:38:31

Отложилось в голове, что редьсить должен был на партишенах, а не на каждой ноде) которая у меня одна)

_

15.06.2018
18:38:38

Попробуйте mapPartitions, и возвращать свой массив key-value

надо не забыть отсортировать ключи в mapPartitions

и repartition(key) можно перед этим

Евгений

15.06.2018
18:40:07

Не, так проблема как раз в шаффле, репартишен тоже его делает, как и reduceByKey

Grigory

15.06.2018
18:40:29

да улчше шафл дополсднего отложить уже какихнить только нужных данных в малом объеме

Евгений

15.06.2018
18:41:35

надо не забыть отсортировать ключи в mapPartitions

А зачем сортировать ключи? Достаточно просто одну запись на ключ вроде вернуть, чтобы уменьшить размер шафла, а редьюсбайкей всё равно сделает шафл

_

15.06.2018
18:42:24

А зачем сортировать ключи? Достаточно просто одну запись на ключ вроде вернуть, чтобы уменьшить размер шафла, а редьюсбайкей всё равно сделает шафл

это если нужно ключи 1 1 1 1 1 1 1 1 = > 8 превратить

типа groupped iterator можно сделать

Евгений

15.06.2018
18:42:37

Хотя стоп, редьюс не делается ли сам частично на маппере?

_

15.06.2018
18:42:49

вот так его и можно сделать

частично

Евгений

15.06.2018
18:43:07

Да можно просто хэш-таблицу на каждом партишене

_

15.06.2018
18:43:14

в mapPartitions придет iterator

ты отслеживаешь когда сменяется ключ и можешь применить преобразование ко всей группе

и тоже вернуть итератор

Да можно просто хэш-таблицу на каждом партишене

пока ООМ не словишь - можно

Евгений

15.06.2018
18:45:08

Зависит от размера партишена, но согласен)

Google

Grigory

15.06.2018
18:47:38

А зачем сортировать ключи? Достаточно просто одну запись на ключ вроде вернуть, чтобы уменьшить размер шафла, а редьюсбайкей всё равно сделает шафл

редьюс байк ки сделает шафл в смысле доставки значений на драйвер по дефолту он делает презерв партишонинг операции, если конечно ключ партицирования верный то все ок будет; ну а если нет то перепутает все да.

Daniel

15.06.2018
18:51:39

Не, так проблема как раз в шаффле, репартишен тоже его делает, как и reduceByKey

Шаффл же как раз маленьким будет, если каждый партишен редьсить

это если нужно ключи 1 1 1 1 1 1 1 1 = > 8 превратить

Кстати, круто, это и нужно будет сделать)

The mirror

16.06.2018
09:43:28

Проблема: Spark на AWS EMR не читает данные из Kinesis стрима, Streaming tab в UI показывает батчи по 0 записей. Если запустить приложение на голом EC2 с master = local[*], то все работает.

в EMR 1 мастер и 2 слейва все по 2 ядра, выставлен флаг "maximizeResourceAllocation"

« Назад

Страница 107 из 182

Далее »

Открыть в Telegram