@hadoopusers

Страница 85 из 182
Dmitry
15.03.2018
13:41:50
взять спарк, лучше стриминг

адаптировать какой нибудь алгоритм под стриминг

Dmitry
15.03.2018
13:42:17
по классике типа blabla for sliding window

Google
Dmitry
15.03.2018
13:42:39
кто здесь юзает Caffe2?

agathis
15.03.2018
14:47:38
Какой у кого любимый способ сбора логов со всего зоопарка клаудеры? Кибана? Какое-то клаудеровское решение? Ещё что-то?

Tsh
15.03.2018
14:49:29
В хдфс пишутся логи, потом забрать с хдфс, не помню где в цдх активировать

Grigory
15.03.2018
14:51:50
кибана норм

agathis
15.03.2018
14:51:56
Ну тут скорее вопрос - чем забирать. Надо чтобы и для анализа было удобно.

Aleksey
15.03.2018
16:58:00
а круг тем хоть определен или что угодно? @fire_Rising
Что угодно связанное с этой технологией

Скорее анализ данных с помощью hadoop, чем углубление в его внутренее устройство

Ilya
15.03.2018
18:02:21
Скорее анализ данных с помощью hadoop, чем углубление в его внутренее устройство
Анализ данных это одно. Hadoop это другое. Что вкладываешь в понятие Hadoop?

Aleksey
15.03.2018
18:03:21
Стек технологий для работы с Big Data

Я имел ввиду к примеру кластеризацию больших данных с использованием MLib

Но если даже не брать это во внимание, то какие есть варианты?)

Хотелось бы также при этом покодить на java

Grigory
15.03.2018
18:09:46
mlib?

Google
Ilya
15.03.2018
18:09:54
На мой взгляд, тема может быть прикладной - конкретное исследование - не наш случай или ‘Математика’ - как вариант, кластеризация - не зависит от реализации. Hadoop просто инструмент. Если делать упор на него, то это должна быть инженерная часть

Grigory
15.03.2018
18:10:55
да, какаянить теория N и реализация с использованием M (мистичский хадуп с млиб и жавой)

Andrey
16.03.2018
08:56:49
Привет

народ, есть у кого нить опыт с апачевым фэлконом?

Andrey
16.03.2018
13:53:25
Всем привет! Может кто-то сталкивался с подобным или направит в какую сторону копать: Есть два клоудеровских кластер на обоих установлен spark2.2.0.cloudera2 , есть structured streaming джоба, которая читает из кафки (кафка стоит на отдельном кластере), джоба собираеться в uber jar со всеми зависимостями. Сабмитятся джобы c одинаковыми параметрами, но на одном кластере она стартует и все отрабатывает, а на другом джоба стартует, но при этом ничего не происходит. В логах вроде тоже ничего подозрительного нет.

Pavel
16.03.2018
13:57:43
Кажется они читают одну и ту же consumer group. Порядок старта джоб определён или рандомный?

Andrey
16.03.2018
13:58:40
Кажется они читают одну и ту же consumer group. Порядок старта джоб определён или рандомный?
Рандомный, точнее так, попробовал на одном - не работает, попробовал на другом работает! И так не однократно!

Pavel
16.03.2018
13:58:51
Хм, оокей

Artem
16.03.2018
17:08:13
Kirill
16.03.2018
17:10:18
Можно и Котлин

Сейчас доклад идёт про это)

Oleksandr
16.03.2018
17:10:41
пиздеж

Kirill
16.03.2018
17:11:57


Oleksandr
16.03.2018
17:14:17
пиздеж
удобство ровно то же, что и с джавой, тк он и есть джава

Nick
16.03.2018
17:15:59
А скала это язык богов

Oleksandr
16.03.2018
17:16:53
ну всяко удобнее

Dmitry
16.03.2018
20:54:04
Scala для Spark однозначно удобнее, чем Java.

Google
Oleksandr
16.03.2018
21:09:46
А скала это язык богов
Вот только кроме спарка ее нигде не применяют.

Yury
16.03.2018
21:20:05
также можно и про котлин сказать

Oleksandr
16.03.2018
21:27:28
также можно и про котлин сказать
Ну скалу хоть где то применяют.

ag0n1k
16.03.2018
21:32:38
Oleksandr
16.03.2018
21:33:10
Это сарказм?)
Статистика.

ag0n1k
16.03.2018
21:34:52
Статистика.
Простите за оффтоп, но вы слышали про google? Про ОС android?

Александр
16.03.2018
21:56:25
Простите за оффтоп, но вы слышали про google? Про ОС android?
не хочу врываться в тред но scala вакансий крайний раз когда я проверял было на порядок меньше чем java(10 раз) а котлин в 2 раза меньше чем scala

смотрел на stackoverflow jobs и hh по России

Dmitry
16.03.2018
22:02:55
Вот только кроме спарка ее нигде не применяют.
Применяют. REST API могут на ней делать. Я как раз с этим работаю сейчас.

Grigory
17.03.2018
00:05:46
Статистика.
Если ты не применяешь, не значит что никто не применяет ;) так можно говорить и всех фп языках ну и конечно же о коболе

Nick
17.03.2018
06:12:43
Вот только кроме спарка ее нигде не применяют.
Я на ней Микросервисы пишу, не надо мне тут

Daniel
17.03.2018
06:17:42
у нас половина банковских ключевых компонент на скалке

твиттер, пейпал на скалке

Nick
17.03.2018
06:21:53
А вторая половина?

Daniel
17.03.2018
06:22:15
а про 2ую я почти ничего не знаю)

Nick
17.03.2018
06:22:24
На го значит

Daniel
17.03.2018
06:23:17
не, этого нет там скорее энтерпрайзная классика (эпохи джавово-ораклового импрессионизма)

Nick
17.03.2018
06:24:15
Оо

По-любому там Кирилл)

Daniel
17.03.2018
06:24:38
нет, но давай не будем оффтопить

Google
Daniel
17.03.2018
06:24:46
это не ПОНВ

Nick
17.03.2018
06:33:20
Разве

По-моему тут тебе правила, да @pomadchin ?)

Grigory
17.03.2018
10:34:20
да тут теже рожи

sherzod
17.03.2018
10:41:22
Вообще интеграционное тестирование в бигдата для небольших команд непомерная ноша. Если меньше 5-6 человек, лучше не запариваться. Подготовка данных и их изменение будет требовать уйму времени. Хотя наверное зависит от специфики (нет).

Katerina
17.03.2018
10:48:02
Да, меньше 6) но почему то часто какая то странная фигня с производительностью случается. Хотелось как то более точно понимать что на что и как повлияло. Особенно в свете того что скоро увеличится объём данных и у меня есть смутные сомнения что мы не выгребем по памяти

Grigory
17.03.2018
10:48:55
а тут никак кроме как тестированием на конкретном объеме и не проверить в итоге

Katerina
17.03.2018
10:51:13
Значит буду страдать) pain driven development наше все. Но было полезно знать что других вариантов нет

sherzod
17.03.2018
10:57:25
Ну, "проблемы с производительностью" это слишком общо. Но в целом, надо начинать от общекластерных метрик В какое время сколько джобов работают, посмотреть графики CPU, Mem, DiskIO, Network IO за день, неделю, месяц. Сразу очень много чего станет понятно. Они обычно из коробки собираются в Cloudera и Ambari Но это я простые вещи говорю, наверное и так понятно.

Katerina
17.03.2018
10:59:30
Собираем отправляем в датадог смотрим

Спарк на Амазоне стенд элон... Пока так. Пересматриваем это в пользу emr сейчас

sherzod
17.03.2018
11:01:51
о да вы облачные, ну круто

Katerina
17.03.2018
12:21:48
:)

Akceptor
19.03.2018
08:38:29
Нид хелп. Есть одна спарковская джоба, тестили ее на сендбоксе хртонворкса (сингл нода) и все работало. запускают на Ажуре и в результате вот такое, висит по часу



org.apache.spark.rpc.RpcTimeoutException: Futures timed out after [10 seconds]. This timeout is controlled by spark.executor.heartbeatInterval at org.apache.spark.rpc.RpcTimeout.org$apache$spark$rpc$RpcTimeout$$createRpcTimeoutException(RpcTimeout.scala:48) at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:63) at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59) at scala.PartialFunction$OrElse.apply(PartialFunction.scala:167) at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:83) at org.apache.spark.rpc.RpcEndpointRef.askWithRetry(RpcEndpointRef.scala:102) at org.apache.spark.executor.Executor.org$apache$spark$executor$Executor$$reportHeartBeat(Executor.scala:689) at org.apache.spark.executor.Executor$$anon$1$$anonfun$run$1.apply$mcV$sp(Executor.scala:718) at org.apache.spark.executor.Executor$$anon$1$$anonfun$run$1.apply(Executor.scala:718) at org.apache.spark.executor.Executor$$anon$1$$anonfun$run$1.apply(Executor.scala:718) at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1963) at org.apache.spark.executor.Executor$$anon$1.run(Executor.scala:718) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.runAndReset(FutureTask.java:308) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:180) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:294) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748) Caused by: java.util.concurrent.TimeoutException: Futures timed out after [10 seconds] at scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:219) at scala.concurrent.impl.Promise$DefaultPromise.result(Promise.scala:223) at scala.concurrent.Await$$anonfun$result$1.apply(package.scala:190) at scala.concurrent.BlockContext$DefaultBlockContext$.blockOn(BlockContext.scala:53) at scala.concurrent.Await$.result(package.scala:190) at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:81) ... 14 more 18/03/19 08:15:08 WARN NettyRpcEndpointRef: Error sending message [message = Heartbeat(1,[Lscala.Tuple2;@2a8cd73b,BlockManagerId(1, wn1-IDCTes.n3ia0yy4npiubjzdcpev0hkpgd.bx.internal.cloudapp.net, 43243, None))] in 2 attempts org.apache.spark.rpc.RpcTimeoutException: Futures timed out after [10 seconds]. This timeout is controlled by spark.executor.heartbeatInterval at org.apache.spark.rpc.RpcTimeout.org$apache$spark$rpc$RpcTimeout$$createRpcTimeoutException(RpcTimeout.scala:48) at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:63) at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59) at scala.PartialFunction$OrElse.apply(PartialFunction.scala:167) at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:83) at org.apache.spark.rpc.RpcEndpointRef.askWithRetry(RpcEndpointRef.scala:102) at org.apache.spark.executor.Executor.org$apache$spark$executor$Executor$$reportHeartBeat(Executor.scala:689) at org.apache.spark.executor.Executor$$anon$1$$anonfun$run$1.apply$mcV$sp(Executor.scala:718) at org.apache.spark.executor.Executor$$anon$1$$anonfun$run$1.apply(Executor.scala:718) at org.apache.spark.executor.Executor$$anon$1$$anonfun$run$1.apply(Executor.scala:718) at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1963) at org.apache.spark.executor.Executor$$anon$1.run(Executor.scala:718) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.runAndReset(FutureTask.java:308) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:180)

at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:294) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748)

оно майкрософт надо пинать?

Google
Grigory
19.03.2018
08:40:31
может доступов куда то нет? ио таймаут с кучей ретраев

другой вариант побольше экзекуторов выделить но каждому по меньше памяти и меньше ядер, может быстрее валиться будет

Akceptor
19.03.2018
08:43:51
Спасибо . прикол в том что я на том кластере ничего посмотреть не могу, они его поднимают шаблоном и типа как есть. просто чтоб знать кто виноват, а что делать будем думать.

Страница 85 из 182