
KrivdaTheTriewe
07.06.2017
16:02:08
Готовится к публикации весьма интересная книга: https://www.safaribooksonline.com/library/view/hadoop-in-the/9781491969267/ Будет полезна для тех, кто будет свой кластер строить

Andrey
07.06.2017
16:36:01
круто, спасибо за инфо :)

Kirill
07.06.2017
16:39:47

Google

KrivdaTheTriewe
07.06.2017
16:41:48
Пока только сафарибукс , оно прям там пишется ( то есть очень много текста тип (добавить ссылку, провести сравнение )) . Поэтому есть смысл попробовать триал на 7 дней
или купить подписку

Nick
08.06.2017
08:56:27

Grigory
08.06.2017
09:02:08
а какжи кастомные сборки и всякие кривые класспасы?

KrivdaTheTriewe
08.06.2017
09:06:07
на какую ноду поставить клоудеру

Nick
08.06.2017
09:09:37

KrivdaTheTriewe
08.06.2017
09:13:20

Nick
08.06.2017
09:13:48
Я если честно не пробовал хадуп в дцос, но скоро попробую

KrivdaTheTriewe
08.06.2017
09:14:33
книжку прочитай тогда

Nick
08.06.2017
09:17:35
Я думаю пока ее писали, она устарела
Да и врядли там есть специфика дцос
Мне кажется там даже ярн не нужен

Google

KrivdaTheTriewe
08.06.2017
09:18:01

Evgeniya
08.06.2017
11:48:10
#вакансия #москва #devops
Коллеги, привет!
Отличная вакансия для тех, кто давно мечтал окунуться в мир Big Data! Мы ищем специалиста на администрирование парка Big Data систем (Apache Hadoop, Vertica, Pentaho), готовы смотреть людей без опыта, но реально готовых учиться. В начале задачи будут преимущественно по Big Data, затем и по Linux инфраструктуре.
Обязателен отличный опыт работы с *nix системами, виртуализацией, также приветствуется опыт в разработке архитектурных решений.
Самостоятельность — ОБЯЗАТЕЛЬНО.
Если интересно, пишите на e.kikoina@youdo.ru

Pavel
08.06.2017
14:13:58
@hiphopstaruhi пошумим, блядь? )

Хипхоп
09.06.2017
02:34:01
Дневник альфача - @sexterror
Кулстори из жизни, полезные советы, гайды по шкурам.
Заходи - https://t.me/sexterror

Koder25
09.06.2017
03:38:50
@marvel_dc_official Лучший канал о вселенной Marvel & DC, подпишись и зови друзей?

Grigory
09.06.2017
09:26:54
@krivdatheliggen ^

KrivdaTheTriewe
09.06.2017
09:30:19

Grigory
09.06.2017
09:34:58
hz ):

KrivdaTheTriewe
09.06.2017
18:37:52
Использовал кто-нибудь? http://nats.io

GNU/Patchouli
12.06.2017
15:35:38
Доброго времени суток. Есть тут те, кто работает с pyspark?

KrivdaTheTriewe
12.06.2017
15:39:17

Andrey
12.06.2017
15:45:45

GNU/Patchouli
12.06.2017
15:52:51
вопрос то какой?:)
Я думаю, не первая такая и вопрос классический:
Py4JJavaError: An error occurred while calling o186.collectToPython.
: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 47 tasks (2.0 GB) is bigger than spark.driver.maxResultSize (2.0 GB)
У меня есть датафрейм, есть запрос к нему
sorted(df.groupby('commands').agg({"commands": "count"}).collect())
Суть в том, что как написано выше, мне не хватает памяти на вычисления, но я знаю, что можно решить эту задачу вписываясь в лимит по памяти. Может кто подсказать, в какую сторону копать?

Andrey
12.06.2017
16:09:45
а если убрать collect, ошибка будет?

Grigory
12.06.2017
16:10:39
не будет ошибки без коллекта

GNU/Patchouli
12.06.2017
16:10:43

Grigory
12.06.2017
16:11:11
попробуй не собирать на драйвер все; что нужно на драйвере иметь?

Andrey
12.06.2017
16:11:36
не будет
а что дальше с данными происходит?
как минимум сортировку можно сделать до коллекта

GNU/Patchouli
12.06.2017
16:13:25

Google

Grigory
12.06.2017
16:14:08
Да, Андрей верно сказал, сортируй до коллекта
после мапни, .map(_.command); и после этого только коллект делай,чтоб на драйвер только список комманд пришел
не факт что он тоже влезет

Andrey
12.06.2017
16:16:27
как вариант, если с памятью туго, сохраните df.write.json() куда нибудь и дальше считывайте по строчке на здоровье

GNU/Patchouli
12.06.2017
16:17:32

Andrey
12.06.2017
16:18:20
df.orderBy('count.desc) в скале
в питоне почти также, только вроде к колонке надо явно обратиться
еще можно сделать df.withColumn("count_sorted", sort('count))

GNU/Patchouli
12.06.2017
16:27:07
сейчас потестим

Andrey
12.06.2017
16:27:17
нзчт)

Grigory
13.06.2017
04:43:51
@krivdatheliggen ^

KrivdaTheTriewe
13.06.2017
09:16:13
@pomadchin ты по таймзоне восточного берега живешь?

Grigory
13.06.2017
09:17:17

GNU/Patchouli
13.06.2017
09:17:18
/ban

KrivdaTheTriewe
13.06.2017
09:17:32
да когда как
Админа дал,можешь удалять ) я кожалению не придумал как с ними в 5 утра бороться

Grigory
13.06.2017
09:19:08
ну все новые порядки. только мемасы постить сюда можно

Timur
13.06.2017
13:00:54
Господа, а кто использует Hue для спарка?

Kirill
13.06.2017
13:04:02
у меня hue смотрит историю тасок через livy, для большего я хз как его использовать для спарка

KrivdaTheTriewe
13.06.2017
13:14:14

Google

KrivdaTheTriewe
13.06.2017
13:14:31
через координатор и воркфлоу рисовали задачки

Andrew
13.06.2017
13:15:01
oozie?

Kirill
13.06.2017
13:25:34
oozie сами собирали или в составе платформы?

KrivdaTheTriewe
13.06.2017
13:25:55
ну в cdh и hdp он был