@hadoopusers

« Назад

Страница 38 из 182

Далее »

Ruslan

13.09.2017
18:22:38

Даже объявление нашли

Ilia

14.09.2017
11:20:57

А кто-нибудь пытался установить pyspark-cassandra так чтобы он был доступен в pythonpath? Пока всё что видел это запуск pyspark/spark-submit c аргументами —jars и —py-files в которых прописан путь к jar файлу.

Andrey

14.09.2017
15:40:20

а стриминг с датафреймами чекпоинтинг поддерживает?

Google

Andrey

14.09.2017
15:40:25

1.6.3

Andrew

14.09.2017
16:08:38

Если речь о Structured streaming, то, если мне память не изменяет, он только с 2.0 версии впилен

Andrey

14.09.2017
16:13:06

речь о чекпоинтах в 1.6.3

не о structured streaming :)

Andrew

14.09.2017
16:22:36

А, понял о чем речь). На 1.6 не должен поддерживать.

ag0n1k

16.09.2017
21:33:36

В общем настройками на ОС правильного бонда кафка начала норм принимать месседжи при отключении свитчей

Andrey

17.09.2017
00:33:42

обоих?

Nick

17.09.2017
07:36:45

Ты там и не нарисовал схему

Andrew

17.09.2017
08:24:34

Proposed API Some concerns: The best way to keep Java compatibility is writing the API in java. It’s easy to deal with Java classes/interfaces in Scala, but not vice-versa.

а где Вы это нашли? я не нашел такого ни в их джире, ни в гугле.

ag0n1k

17.09.2017
10:01:19

Ты там и не нарисовал схему

Да и не потребовалось)

KrivdaTheTriewe

19.09.2017
17:31:40

nifi и hdf есть пользователи ? как вам нифи, сильно сложно кастомный источник писать для него ?

Artem

19.09.2017
18:47:26

Ребята с прошлой работы писали, могу познакомить

Вроде не сложно но есть нюансы

Google

KrivdaTheTriewe

19.09.2017
19:01:54

давай их сюда)

Artem

19.09.2017
19:04:02

@whiterobocat привет, глянь плз пару сообщений выше, если ты занимался :)

Андрей

19.09.2017
19:15:06

привет) с nifi работал очень недолго, поэтому про нагрузки и обслуживание рассказать нечего, кроме того, что люди его используют и, значит, это возможно) в работе штука приятная, но требует более вдумчивого чтения документации, чем, например, flume. много терминологии, много компонентов и лучше разобраться в них сразу. писать кастомные источники просто. проблемы могут возникнуть только, если пытаешься переиспользовать что-то уже готовое из набора nifi. нужно очень аккуратно вписать все зависимости и наследование. в остальном всё просто и есть наглядные примеры.

ещё из нюансов - сложно понимать, где допустил ошибку в своём компоненте. со стороны это может выглядеть как неработающий ui (когда всё настроил, но либо что-то не отображается, либо не включается). это тоже неудобно и может отнимать много времени

KrivdaTheTriewe

19.09.2017
19:48:53

спасибо за фидбек!

возникла идея собирать и парсить удп трафик нифи )

Nick

19.09.2017
21:33:49

Парсят хмл!

Andrey

20.09.2017
04:01:15

nifi и hdf есть пользователи ? как вам нифи, сильно сложно кастомный источник писать для него ?

есть, мы собираем логи по tcp и пишем в хайв :)

распиши чуть подробнее, что ты делать планируешь

Vladimir

20.09.2017
06:50:07

Всем привет. Используем hadoop от hortonworks. Возникла такая проблема, при записи в файл вылетают ошибки рода: - ERROR c.x.i.hivewriter.service.HdfsService - Failed to APPEND_FILE /apps/inga/install.2017_07_26/events.csv for DFSClient_NONMAPREDUCE_224584032_11 on 10.1.1.8 because this file lease is currently owned by DFSClient_NONMAPREDUCE_-553246758_12 on 10.1.1.8 - DEBUG o.a.h.security.UserGroupInformation - PrivilegedActionException as:hive (auth:SIMPLE) cause:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.RecoveryInProgressException): Failed to APPEND_FILE /apps/inga/install.2017_09_10/events.csv for DFSClient_NONMAPREDUCE_-1443254679_12 on 10.1.1.8 because lease recovery is in progress. Try again later. Вот как мы записываем фаил: val ugi: UserGroupInformation = UserGroupInformation.createRemoteUser("someUser") protected def createOrAppend(file: Path): FSDataOutputStream = { if (fs.exists(file)) fs.append(file) else { fs.mkdirs(file.getParent) fs.create(file, false) } } def write(path: Path, data: Array[Byte]): Unit = ugi.doAs[Unit](new PrivilegedExceptionAction[Unit] { def run(): Unit = { val stream = createOrAppend(path) try { stream.write(data) } finally { stream.close() } } }) Может кто встречал такое?

Всем спасибо, разобрался, поправил )

Nikita

20.09.2017
12:22:25

Пожалуйста =)

Ruslan

20.09.2017
13:32:49

Владимир, в чем была засада?

Vladimir

20.09.2017
14:09:32

Владимир, в чем была засада?

Оказалось все банально, т.к. у нас все работает в системе акторов, получалось так, что запись в файл производилась до того как закрывался стрим предыдущей записи.

Oleksandr

21.09.2017
11:03:25

может кто сталкивался с таким: есть spark sql запрос, через хайв он отрабатывает 3-4 минуты, но при запуске на ярне тупит где-то час, тупит в методе Dataset.collect ресурсы выделены

Andrey

21.09.2017
11:07:48

что ты имеешь ввиду под “spark sql” через хайв?

spark thrift?

или ты просто аналогичный запрос через хайв делаешь

Oleksandr

21.09.2017
11:09:44

последнее

с соотв engine

Google

Oleksandr

21.09.2017
11:10:51

причем есть ряд вроде бы похожих запросов, и у них этот collect отрабатывает моментально — там ожидается макс 1 число

Andrey

21.09.2017
11:12:42

а датафрейм большой перед коллект?

если вместе коллекта, данные собрать в groupBy(..).count.show быстро делается?

Oleksandr

21.09.2017
11:15:36

а датафрейм большой перед коллект?

запрос вида select count (*) from ... where year=... and month=... and day=... and user_id not in (select distinct id from ...) group by user_id так что макс 1 ряд

если вместе коллекта, данные собрать в groupBy(..).count.show быстро делается?

попробую, спасибо сейчас переписал запрос через left join вместо not in и group by user_id вместо distinct, в хайве ускорилось в два раза

Andrey

22.09.2017
15:00:00

как быть с sc.broadcast(something) и включенным spark.cleaner.ttl? Не использовать broadcast?

KrivdaTheTriewe

22.09.2017
15:09:13

вообще в доке сказано ,что это для рдд Duration (seconds) of how long Spark will remember any metadata (stages generated, tasks generated, etc.). Periodic cleanups will ensure that metadata older than this duration will be forgotten. This is useful for running Spark for many hours / days (for example, running 24/7 in case of Spark Streaming applications). Note that any RDD that persists in memory for more than this duration will be cleared as well.

можно следственный эксперимент провести)

Andrey

22.09.2017
15:13:51

как только мы включили ттл, у нас с периодичностью ттл стали вылетать экзекуторы, в которых используется бродакст val'а

Daniel

22.09.2017
15:15:55

опция похожа на костыль %)

Andrey

22.09.2017
15:29:43

опция похожа на костыль %)

похожа, да ? Еще в интернетах про нее много негативного говорят

но без нее на одном из стримеров вроде как утекает память

примечательно, что, начиная с 2.0, ее убрали

из документации по крайней мере

KrivdaTheTriewe

22.09.2017
15:35:02

обновлять нужно !

Andrey

22.09.2017
15:35:28

я жду когда хортон переведет спарк 2.0 в GA ?

KrivdaTheTriewe

22.09.2017
15:49:10

чтобы хоть 2.11 скалу использовать

Oleksandr

26.09.2017
14:44:09

запускаю через spark-submit на ярне (spark-streaming), периодически создается "копия" аппликухи, но и старая, и новая живут и процессят данные одновременно (хорошо, что там такой сценарий не страшен дубликатами) есть идеи, почему может быть такое? в логах каких-то эксепшнов нет

Andrey

26.09.2017
15:05:57

О_о

а можно скрипт запуска сюда? И на какой платформе делаете?

Google

Grigory

26.09.2017
15:11:42

запускаю через spark-submit на ярне (spark-streaming), периодически создается "копия" аппликухи, но и старая, и новая живут и процессят данные одновременно (хорошо, что там такой сценарий не страшен дубликатами) есть идеи, почему может быть такое? в логах каких-то эксепшнов нет

Точно две проги? Он иногда для того чтоб логи показывать вторую создает; в первой логи гзипированы, во второй онгоинг

Oleksandr

26.09.2017
15:11:55

Точно две проги? Он иногда для того чтоб логи показывать вторую создает; в первой логи гзипированы, во второй онгоинг

до 4 доходит

Grigory

26.09.2017
15:11:59

я такое видел только у лонгранинг джобов с кучей логов

Oleksandr

26.09.2017
15:12:11

да, там потенциально вечный стриминг

Grigory

26.09.2017
15:12:18

А посмотри как ресусры выделены

консоль спарка

там 4 эппа?

Oleksandr

26.09.2017
15:12:33

ага

точнее это в ярне 4

Grigory

26.09.2017
15:12:49

В спарке 1?

« Назад

Страница 38 из 182

Далее »

Открыть в Telegram