
Ruslan
13.09.2017
18:22:38
Даже объявление нашли

Ilia
14.09.2017
11:20:57
А кто-нибудь пытался установить pyspark-cassandra так чтобы он был доступен в pythonpath? Пока всё что видел это запуск pyspark/spark-submit c аргументами —jars и —py-files в которых прописан путь к jar файлу.

Andrey
14.09.2017
15:40:20
а стриминг с датафреймами чекпоинтинг поддерживает?

Google

Andrey
14.09.2017
15:40:25
1.6.3

Andrew
14.09.2017
16:08:38
Если речь о Structured streaming, то, если мне память не изменяет, он только с 2.0 версии впилен

Andrey
14.09.2017
16:13:06
речь о чекпоинтах в 1.6.3
не о structured streaming :)

Andrew
14.09.2017
16:22:36
А, понял о чем речь). На 1.6 не должен поддерживать.

ag0n1k
16.09.2017
21:33:36
В общем настройками на ОС правильного бонда кафка начала норм принимать месседжи при отключении свитчей

Andrey
17.09.2017
00:33:42
обоих?

Nick
17.09.2017
07:36:45
Ты там и не нарисовал схему

Andrew
17.09.2017
08:24:34

ag0n1k
17.09.2017
10:01:19

KrivdaTheTriewe
19.09.2017
17:31:40
nifi и hdf есть пользователи ? как вам нифи, сильно сложно кастомный источник писать для него ?

Artem
19.09.2017
18:47:26
Ребята с прошлой работы писали, могу познакомить
Вроде не сложно но есть нюансы

Google

KrivdaTheTriewe
19.09.2017
19:01:54
давай их сюда)

Artem
19.09.2017
19:04:02
@whiterobocat привет, глянь плз пару сообщений выше, если ты занимался :)

Андрей
19.09.2017
19:15:06
привет)
с nifi работал очень недолго, поэтому про нагрузки и обслуживание рассказать нечего, кроме того, что люди его используют и, значит, это возможно)
в работе штука приятная, но требует более вдумчивого чтения документации, чем, например, flume. много терминологии, много компонентов и лучше разобраться в них сразу.
писать кастомные источники просто. проблемы могут возникнуть только, если пытаешься переиспользовать что-то уже готовое из набора nifi. нужно очень аккуратно вписать все зависимости и наследование. в остальном всё просто и есть наглядные примеры.
ещё из нюансов - сложно понимать, где допустил ошибку в своём компоненте. со стороны это может выглядеть как неработающий ui (когда всё настроил, но либо что-то не отображается, либо не включается). это тоже неудобно и может отнимать много времени

KrivdaTheTriewe
19.09.2017
19:48:53
спасибо за фидбек!
возникла идея собирать и парсить удп трафик нифи )

Nick
19.09.2017
21:33:49
Парсят хмл!

Andrey
20.09.2017
04:01:15
распиши чуть подробнее, что ты делать планируешь


Vladimir
20.09.2017
06:50:07
Всем привет.
Используем hadoop от hortonworks. Возникла такая проблема, при записи в файл вылетают ошибки рода:
- ERROR c.x.i.hivewriter.service.HdfsService - Failed to APPEND_FILE /apps/inga/install.2017_07_26/events.csv for DFSClient_NONMAPREDUCE_224584032_11 on 10.1.1.8 because this file lease is currently owned by DFSClient_NONMAPREDUCE_-553246758_12 on 10.1.1.8
- DEBUG o.a.h.security.UserGroupInformation - PrivilegedActionException as:hive (auth:SIMPLE) cause:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.RecoveryInProgressException): Failed to APPEND_FILE /apps/inga/install.2017_09_10/events.csv for DFSClient_NONMAPREDUCE_-1443254679_12 on 10.1.1.8 because lease recovery is in progress. Try again later.
Вот как мы записываем фаил:
val ugi: UserGroupInformation = UserGroupInformation.createRemoteUser("someUser")
protected def createOrAppend(file: Path): FSDataOutputStream = {
if (fs.exists(file))
fs.append(file)
else {
fs.mkdirs(file.getParent)
fs.create(file, false)
}
}
def write(path: Path, data: Array[Byte]): Unit = ugi.doAs[Unit](new PrivilegedExceptionAction[Unit] {
def run(): Unit = {
val stream = createOrAppend(path)
try {
stream.write(data)
} finally {
stream.close()
}
}
})
Может кто встречал такое?
Всем спасибо, разобрался, поправил )


Nikita
20.09.2017
12:22:25
Пожалуйста =)

Ruslan
20.09.2017
13:32:49
Владимир, в чем была засада?

Vladimir
20.09.2017
14:09:32
Владимир, в чем была засада?
Оказалось все банально, т.к. у нас все работает в системе акторов, получалось так, что запись в файл производилась до того как закрывался стрим предыдущей записи.

Oleksandr
21.09.2017
11:03:25
может кто сталкивался с таким:
есть spark sql запрос, через хайв он отрабатывает 3-4 минуты, но при запуске на ярне тупит где-то час, тупит в методе Dataset.collect
ресурсы выделены

Andrey
21.09.2017
11:07:48
что ты имеешь ввиду под “spark sql” через хайв?
spark thrift?
или ты просто аналогичный запрос через хайв делаешь

Oleksandr
21.09.2017
11:09:44
последнее
с соотв engine

Google

Oleksandr
21.09.2017
11:10:51
причем есть ряд вроде бы похожих запросов, и у них этот collect отрабатывает моментально — там ожидается макс 1 число

Andrey
21.09.2017
11:12:42
а датафрейм большой перед коллект?
если вместе коллекта, данные собрать в groupBy(..).count.show быстро делается?

Oleksandr
21.09.2017
11:15:36
а датафрейм большой перед коллект?
запрос вида
select count (*)
from ...
where year=... and month=... and day=...
and user_id not in (select distinct id from ...)
group by user_id
так что макс 1 ряд

Andrey
22.09.2017
15:00:00
как быть с sc.broadcast(something) и включенным spark.cleaner.ttl? Не использовать broadcast?

KrivdaTheTriewe
22.09.2017
15:09:13
вообще в доке сказано ,что это для рдд
Duration (seconds) of how long Spark will remember any metadata (stages generated, tasks generated, etc.). Periodic cleanups will ensure that metadata older than this duration will be forgotten. This is useful for running Spark for many hours / days (for example, running 24/7 in case of Spark Streaming applications). Note that any RDD that persists in memory for more than this duration will be cleared as well.
можно следственный эксперимент провести)

Andrey
22.09.2017
15:13:51
как только мы включили ттл, у нас с периодичностью ттл стали вылетать экзекуторы, в которых используется бродакст val'а

Daniel
22.09.2017
15:15:55
опция похожа на костыль %)

Andrey
22.09.2017
15:29:43
но без нее на одном из стримеров вроде как утекает память
примечательно, что, начиная с 2.0, ее убрали
из документации по крайней мере

KrivdaTheTriewe
22.09.2017
15:35:02
обновлять нужно !

Andrey
22.09.2017
15:35:28
я жду когда хортон переведет спарк 2.0 в GA ?

KrivdaTheTriewe
22.09.2017
15:49:10
чтобы хоть 2.11 скалу использовать

Oleksandr
26.09.2017
14:44:09
запускаю через spark-submit на ярне (spark-streaming), периодически создается "копия" аппликухи, но и старая, и новая живут и процессят данные одновременно (хорошо, что там такой сценарий не страшен дубликатами)
есть идеи, почему может быть такое?
в логах каких-то эксепшнов нет

Andrey
26.09.2017
15:05:57
О_о
а можно скрипт запуска сюда? И на какой платформе делаете?

Google

Grigory
26.09.2017
15:11:42

Oleksandr
26.09.2017
15:11:55

Grigory
26.09.2017
15:11:59
я такое видел только у лонгранинг джобов с кучей логов

Oleksandr
26.09.2017
15:12:11
да, там потенциально вечный стриминг

Grigory
26.09.2017
15:12:18
А посмотри как ресусры выделены
консоль спарка
там 4 эппа?

Oleksandr
26.09.2017
15:12:33
ага
точнее это в ярне 4

Grigory
26.09.2017
15:12:49
В спарке 1?