
Mikhail
13.06.2018
14:17:58
Ну т.е. имеет смысл применять когда в другом регионе (удалённом) лежат данные в s3, а посчитать хотим здесь.

KrivdaAllStars
13.06.2018
14:18:17
Я слышал с этой штукой искала не работает , но работает престо

Tsh
13.06.2018
14:19:33
Импалу не терплю как класс ибо это средство передержки для оракл наркоманов
Да с престо работает какая то версия

Google

Tsh
13.06.2018
14:22:10
Мне понравился hazelcast в платном исполнении, ещё gemfire
Лучше смотрите в сторону Apache geode, для банков они могут дать платную поддержку

KrivdaAllStars
13.06.2018
14:26:58

Антон
13.06.2018
15:28:33

KrivdaAllStars
13.06.2018
15:31:10
Игнайт
Игнайт не оч и кривой :( его ни один банк - не разработчик. , я думаю к себе не подпустит

Grigory
13.06.2018
15:31:53
зато хуипа скок вокруг него

Tsh
13.06.2018
15:32:35
Я работал с бывшими кор разрабами игнайта - на вопрос стоит ли использовать - немедленное "нах"

KrivdaAllStars
13.06.2018
15:34:14

Александр
13.06.2018
15:35:33

Tsh
13.06.2018
15:36:27
Да инвестмент банкинг

Sergey
13.06.2018
17:20:04

Эшер
13.06.2018
19:42:31
а дата сайэнтологам платят больше

Eduard
13.06.2018
19:44:03
Двачую

Google

Александр
13.06.2018
19:44:40
Если ты не лох, отправь смс я "не лох" на короткий номер 5252

Евгений
13.06.2018
19:51:50
Чёт спамеры активизировались прям в последние пару дней

Oleksandr
13.06.2018
20:13:37
Время написать предективную аналитику для прогнозирования спама. Сегментировать спам. И конечно же детектировать спам.

Eduard
13.06.2018
20:17:53
А потом сделать свой генератор

Евгений
13.06.2018
20:57:06
Хотя...сейчас вся индустрия свелась к тому, чтобы рассылать спам максимально адресно)

Oleksandr
13.06.2018
21:01:07
Intelligent Spam

KrivdaAllStars
14.06.2018
09:05:04

Tsh
14.06.2018
09:06:21
Да
Там одни индусы если не стремно

KrivdaAllStars
14.06.2018
09:07:10
мне стремно)

Tsh
14.06.2018
09:07:58
С одной стороны там куча интересных идей (может украденных ещё где)
С другой господа не доводят до конца идеи, пришлось перепроверять и вычитывать код
В результате пришлось пилить свое с нуля

KrivdaAllStars
14.06.2018
09:09:11
а на чем пилите?

Tsh
14.06.2018
09:09:30
На петоне

KrivdaAllStars
14.06.2018
09:12:22
На петоне
ну то есть джобы прям спарковские рисуете им и вам хорошо?
а scala/java врапперы какие есть?*

Tsh
14.06.2018
09:13:45
Да, все есть, куда без них

Google

Tsh
14.06.2018
09:14:20
Multilanguage project - make your own spark

Svyatoslav
14.06.2018
12:09:17
Коллеги, добрый)
Каким образом можно заставить yarn ротейтить логи для long running applications? Или еще лучше, как корректно их отправить в ES и локально делать ротейт.

Alexander
14.06.2018
12:21:30

Svyatoslav
14.06.2018
12:22:52

Alexander
14.06.2018
12:24:00
Не всегда нужно все процессы YARN менять...или все? Например, если писать логи локально, можно потом проще забрать в ES.

Svyatoslav
14.06.2018
12:35:43
Там только один процесс на ноду. Вопрос в том, можно ли это сделать средствами yarn+ какой-то шиппер или надо пилить велосипед?
Не понял вопроса

Aleksey
15.06.2018
09:23:28
Добрый день. Подскажите плиз, стоит задача поработать с паректом из скалы без спарка, т.е. просто хочется использовать паркет как файловую бд. Нужно будет делать операции двух типов: 1) дописывать в файлы, 2) читать с конца с условием пока. Вопрос, достаточно ли будет библиотеки apache/parquet-mr или что-то другое взять (проще/удобнее) ?

Vlad
15.06.2018
09:24:52
а разве в паркет можно дописывать?

Aleksey
15.06.2018
09:30:20
Было у меня что-то вроде
df_tdata.write.mode(SaveMode.Append).format("parquet").insertInto("T_DATA")
но это через spark

Grigory
15.06.2018
09:30:41
он просто рядом создает новый файл насколько я помню

Aleksey
15.06.2018
09:30:58
да

Daniel
15.06.2018
18:02:08
Добрый вечер, читаю в спарк rdd таблицу с кассандры коннектором datastax, делаю над ней map и reduceByKey, после чего сжирается все место на серве под промежуточные результаты. То есть сначала делается map, сохраняет результаты в spark.local.dir и только потом редьюсит? Как можно организовать редьюс на каждом партишене и только после этого уже сохранять результаты? (Работаю на одной ноде)
Сожрался терабайт, дальше пришлось вырубить
Так же будет ли tungsten компактнее сериализовать, если ичользовать dataframe вместо rdd
Блин, похоже вопрос отпал, надо было просто через mapPartitions делать и сохранять результат каждого партишена

Grigory
15.06.2018
18:15:57
вообще если говорить о кассандра коннектере то он тупой (:

Daniel
15.06.2018
18:18:59
Слышал об этом, а сейчас сам об него споткнулся) но вообще он все правильно сделал, это я не так агрегировал

Grigory
15.06.2018
18:21:01
в большинстве случаев он хорошо работает, пробелмы начнутся со сложными или с хотяб рендж запросами

Евгений
15.06.2018
18:37:16

Google

Евгений
15.06.2018
18:37:48
Это как раз позволит посчитать на маппере предварительные агрегаты

Daniel
15.06.2018
18:37:55
Ага, вот я так и подумал, почему-то сразу в голову не пришло

Евгений
15.06.2018
18:38:10
Но вручную немного больше придётся написать)

Daniel
15.06.2018
18:38:31
Отложилось в голове, что редьсить должен был на партишенах, а не на каждой ноде) которая у меня одна)

_
15.06.2018
18:38:38
и repartition(key) можно перед этим

Евгений
15.06.2018
18:40:07
Не, так проблема как раз в шаффле, репартишен тоже его делает, как и reduceByKey

Grigory
15.06.2018
18:40:29
да улчше шафл дополсднего отложить уже какихнить только нужных данных в малом объеме

Евгений
15.06.2018
18:41:35

_
15.06.2018
18:42:24
типа groupped iterator можно сделать

Евгений
15.06.2018
18:42:37
Хотя стоп, редьюс не делается ли сам частично на маппере?

_
15.06.2018
18:42:49
вот так его и можно сделать
частично

Евгений
15.06.2018
18:43:07
Да можно просто хэш-таблицу на каждом партишене

_
15.06.2018
18:43:14
в mapPartitions придет iterator
ты отслеживаешь когда сменяется ключ и можешь применить преобразование ко всей группе
и тоже вернуть итератор

Евгений
15.06.2018
18:45:08
Зависит от размера партишена, но согласен)

Google

Grigory
15.06.2018
18:47:38

Daniel
15.06.2018
18:51:39

The mirror
16.06.2018
09:43:28
Проблема: Spark на AWS EMR не читает данные из Kinesis стрима, Streaming tab в UI показывает батчи по 0 записей. Если запустить приложение на голом EC2 с master = local[*], то все работает.
в EMR 1 мастер и 2 слейва все по 2 ядра, выставлен флаг "maximizeResourceAllocation"