@hadoopusers

« Назад

Страница 85 из 182

Далее »

Dmitry

15.03.2018
13:41:50

взять спарк, лучше стриминг

адаптировать какой нибудь алгоритм под стриминг

Daniel

15.03.2018
13:42:02

hadoop очень широкая тема, смотря какие интересы, и насколько глубоко любите копать вот я бы выбрал описание устройства HDFS in depth

а круг тем хоть определен или что угодно? @fire_Rising

Dmitry

15.03.2018
13:42:17

по классике типа blabla for sliding window

Google

Dmitry

15.03.2018
13:42:39

кто здесь юзает Caffe2?

agathis

15.03.2018
14:47:38

Какой у кого любимый способ сбора логов со всего зоопарка клаудеры? Кибана? Какое-то клаудеровское решение? Ещё что-то?

Tsh

15.03.2018
14:49:29

В хдфс пишутся логи, потом забрать с хдфс, не помню где в цдх активировать

Grigory

15.03.2018
14:51:50

кибана норм

agathis

15.03.2018
14:51:56

Ну тут скорее вопрос - чем забирать. Надо чтобы и для анализа было удобно.

Aleksey

15.03.2018
16:58:00

а круг тем хоть определен или что угодно? @fire_Rising

Что угодно связанное с этой технологией

Скорее анализ данных с помощью hadoop, чем углубление в его внутренее устройство

Ilya

15.03.2018
18:02:21

Скорее анализ данных с помощью hadoop, чем углубление в его внутренее устройство

Анализ данных это одно. Hadoop это другое. Что вкладываешь в понятие Hadoop?

Aleksey

15.03.2018
18:03:21

Стек технологий для работы с Big Data

Я имел ввиду к примеру кластеризацию больших данных с использованием MLib

Но если даже не брать это во внимание, то какие есть варианты?)

Хотелось бы также при этом покодить на java

Grigory

15.03.2018
18:09:46

mlib?

Google

Ilya

15.03.2018
18:09:54

На мой взгляд, тема может быть прикладной - конкретное исследование - не наш случай или ‘Математика’ - как вариант, кластеризация - не зависит от реализации. Hadoop просто инструмент. Если делать упор на него, то это должна быть инженерная часть

Grigory

15.03.2018
18:10:55

да, какаянить теория N и реализация с использованием M (мистичский хадуп с млиб и жавой)

Andrey

16.03.2018
08:56:49

Привет

народ, есть у кого нить опыт с апачевым фэлконом?

Andrey

16.03.2018
13:53:25

Всем привет! Может кто-то сталкивался с подобным или направит в какую сторону копать: Есть два клоудеровских кластер на обоих установлен spark2.2.0.cloudera2 , есть structured streaming джоба, которая читает из кафки (кафка стоит на отдельном кластере), джоба собираеться в uber jar со всеми зависимостями. Сабмитятся джобы c одинаковыми параметрами, но на одном кластере она стартует и все отрабатывает, а на другом джоба стартует, но при этом ничего не происходит. В логах вроде тоже ничего подозрительного нет.

Pavel

16.03.2018
13:57:43

Кажется они читают одну и ту же consumer group. Порядок старта джоб определён или рандомный?

Andrey

16.03.2018
13:58:40

Кажется они читают одну и ту же consumer group. Порядок старта джоб определён или рандомный?

Рандомный, точнее так, попробовал на одном - не работает, попробовал на другом работает! И так не однократно!

Pavel

16.03.2018
13:58:51

Хм, оокей

Dmitry

16.03.2018
17:05:32

Скорее анализ данных с помощью hadoop, чем углубление в его внутренее устройство

Forget about it. There is Spark.

Хотелось бы также при этом покодить на java

Forget about it. Spark assumes Scala.

Artem

16.03.2018
17:08:13

Forget about it. Spark assumes Scala.

+1

Kirill

16.03.2018
17:10:18

Forget about it. Spark assumes Scala.

Можно и Котлин

Сейчас доклад идёт про это)

Oleksandr

16.03.2018
17:10:41

пиздеж

Kirill

16.03.2018
17:11:57

Oleksandr

16.03.2018
17:14:17

пиздеж

удобство ровно то же, что и с джавой, тк он и есть джава

Nick

16.03.2018
17:15:59

А скала это язык богов

Oleksandr

16.03.2018
17:16:53

ну всяко удобнее

Dmitry

16.03.2018
20:54:04

Scala для Spark однозначно удобнее, чем Java.

Google

Oleksandr

16.03.2018
21:09:46

А скала это язык богов

Вот только кроме спарка ее нигде не применяют.

Yury

16.03.2018
21:20:05

также можно и про котлин сказать

Oleksandr

16.03.2018
21:27:28

также можно и про котлин сказать

Ну скалу хоть где то применяют.

ag0n1k

16.03.2018
21:32:38

Ну скалу хоть где то применяют.

Это сарказм?)

Oleksandr

16.03.2018
21:33:10

Это сарказм?)

Статистика.

ag0n1k

16.03.2018
21:34:52

Статистика.

Простите за оффтоп, но вы слышали про google? Про ОС android?

Александр

16.03.2018
21:56:25

Простите за оффтоп, но вы слышали про google? Про ОС android?

не хочу врываться в тред но scala вакансий крайний раз когда я проверял было на порядок меньше чем java(10 раз) а котлин в 2 раза меньше чем scala

смотрел на stackoverflow jobs и hh по России

Dmitry

16.03.2018
22:02:55

Вот только кроме спарка ее нигде не применяют.

Применяют. REST API могут на ней делать. Я как раз с этим работаю сейчас.

Grigory

17.03.2018
00:05:46

Статистика.

Если ты не применяешь, не значит что никто не применяет ;) так можно говорить и всех фп языках ну и конечно же о коболе

Nick

17.03.2018
06:12:43

Вот только кроме спарка ее нигде не применяют.

Я на ней Микросервисы пишу, не надо мне тут

Daniel

17.03.2018
06:17:42

у нас половина банковских ключевых компонент на скалке

твиттер, пейпал на скалке

Nick

17.03.2018
06:21:53

А вторая половина?

Daniel

17.03.2018
06:22:15

а про 2ую я почти ничего не знаю)

Nick

17.03.2018
06:22:24

На го значит

Daniel

17.03.2018
06:23:17

не, этого нет там скорее энтерпрайзная классика (эпохи джавово-ораклового импрессионизма)

Nick

17.03.2018
06:24:15

Оо

По-любому там Кирилл)

Daniel

17.03.2018
06:24:38

нет, но давай не будем оффтопить

Google

Daniel

17.03.2018
06:24:46

это не ПОНВ

Nick

17.03.2018
06:33:20

Разве

По-моему тут тебе правила, да @pomadchin ?)

Grigory

17.03.2018
10:34:20

да тут теже рожи

sherzod

17.03.2018
10:41:22

Вообще интеграционное тестирование в бигдата для небольших команд непомерная ноша. Если меньше 5-6 человек, лучше не запариваться. Подготовка данных и их изменение будет требовать уйму времени. Хотя наверное зависит от специфики (нет).

Katerina

17.03.2018
10:48:02

Да, меньше 6) но почему то часто какая то странная фигня с производительностью случается. Хотелось как то более точно понимать что на что и как повлияло. Особенно в свете того что скоро увеличится объём данных и у меня есть смутные сомнения что мы не выгребем по памяти

Grigory

17.03.2018
10:48:55

а тут никак кроме как тестированием на конкретном объеме и не проверить в итоге

Katerina

17.03.2018
10:51:13

Значит буду страдать) pain driven development наше все. Но было полезно знать что других вариантов нет

sherzod

17.03.2018
10:57:25

Ну, "проблемы с производительностью" это слишком общо. Но в целом, надо начинать от общекластерных метрик В какое время сколько джобов работают, посмотреть графики CPU, Mem, DiskIO, Network IO за день, неделю, месяц. Сразу очень много чего станет понятно. Они обычно из коробки собираются в Cloudera и Ambari Но это я простые вещи говорю, наверное и так понятно.

Katerina

17.03.2018
10:59:30

Собираем отправляем в датадог смотрим

Спарк на Амазоне стенд элон... Пока так. Пересматриваем это в пользу emr сейчас

sherzod

17.03.2018
11:01:51

о да вы облачные, ну круто

Grigory

17.03.2018
11:03:53

Спарк на Амазоне стенд элон... Пока так. Пересматриваем это в пользу emr сейчас

emr удобно

Sergey

17.03.2018
11:57:57

Значит буду страдать) pain driven development наше все. Но было полезно знать что других вариантов нет

записал, очень емко и верно!

Katerina

17.03.2018
12:21:48

:)

Akceptor

19.03.2018
08:38:29

Нид хелп. Есть одна спарковская джоба, тестили ее на сендбоксе хртонворкса (сингл нода) и все работало. запускают на Ажуре и в результате вот такое, висит по часу

org.apache.spark.rpc.RpcTimeoutException: Futures timed out after [10 seconds]. This timeout is controlled by spark.executor.heartbeatInterval at org.apache.spark.rpc.RpcTimeout.org$apache$spark$rpc$RpcTimeout$$createRpcTimeoutException(RpcTimeout.scala:48) at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:63) at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59) at scala.PartialFunction$OrElse.apply(PartialFunction.scala:167) at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:83) at org.apache.spark.rpc.RpcEndpointRef.askWithRetry(RpcEndpointRef.scala:102) at org.apache.spark.executor.Executor.org$apache$spark$executor$Executor$$reportHeartBeat(Executor.scala:689) at org.apache.spark.executor.Executor$$anon$1$$anonfun$run$1.apply$mcV$sp(Executor.scala:718) at org.apache.spark.executor.Executor$$anon$1$$anonfun$run$1.apply(Executor.scala:718) at org.apache.spark.executor.Executor$$anon$1$$anonfun$run$1.apply(Executor.scala:718) at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1963) at org.apache.spark.executor.Executor$$anon$1.run(Executor.scala:718) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.runAndReset(FutureTask.java:308) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:180) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:294) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748) Caused by: java.util.concurrent.TimeoutException: Futures timed out after [10 seconds] at scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:219) at scala.concurrent.impl.Promise$DefaultPromise.result(Promise.scala:223) at scala.concurrent.Await$$anonfun$result$1.apply(package.scala:190) at scala.concurrent.BlockContext$DefaultBlockContext$.blockOn(BlockContext.scala:53) at scala.concurrent.Await$.result(package.scala:190) at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:81) ... 14 more 18/03/19 08:15:08 WARN NettyRpcEndpointRef: Error sending message [message = Heartbeat(1,[Lscala.Tuple2;@2a8cd73b,BlockManagerId(1, wn1-IDCTes.n3ia0yy4npiubjzdcpev0hkpgd.bx.internal.cloudapp.net, 43243, None))] in 2 attempts org.apache.spark.rpc.RpcTimeoutException: Futures timed out after [10 seconds]. This timeout is controlled by spark.executor.heartbeatInterval at org.apache.spark.rpc.RpcTimeout.org$apache$spark$rpc$RpcTimeout$$createRpcTimeoutException(RpcTimeout.scala:48) at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:63) at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59) at scala.PartialFunction$OrElse.apply(PartialFunction.scala:167) at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:83) at org.apache.spark.rpc.RpcEndpointRef.askWithRetry(RpcEndpointRef.scala:102) at org.apache.spark.executor.Executor.org$apache$spark$executor$Executor$$reportHeartBeat(Executor.scala:689) at org.apache.spark.executor.Executor$$anon$1$$anonfun$run$1.apply$mcV$sp(Executor.scala:718) at org.apache.spark.executor.Executor$$anon$1$$anonfun$run$1.apply(Executor.scala:718) at org.apache.spark.executor.Executor$$anon$1$$anonfun$run$1.apply(Executor.scala:718) at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1963) at org.apache.spark.executor.Executor$$anon$1.run(Executor.scala:718) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.runAndReset(FutureTask.java:308) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:180)

at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:294) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748)

оно майкрософт надо пинать?

Google

Grigory

19.03.2018
08:40:31

может доступов куда то нет? ио таймаут с кучей ретраев

другой вариант побольше экзекуторов выделить но каждому по меньше памяти и меньше ядер, может быстрее валиться будет

Akceptor

19.03.2018
08:43:51

Спасибо . прикол в том что я на том кластере ничего посмотреть не могу, они его поднимают шаблоном и типа как есть. просто чтоб знать кто виноват, а что делать будем думать.

« Назад

Страница 85 из 182

Далее »

Открыть в Telegram