@hadoopusers

Страница 11 из 182
KrivdaTheTriewe
07.06.2017
16:02:08
Готовится к публикации весьма интересная книга: https://www.safaribooksonline.com/library/view/hadoop-in-the/9781491969267/ Будет полезна для тех, кто будет свой кластер строить



Andrey
07.06.2017
16:36:01
круто, спасибо за инфо :)

Google
KrivdaTheTriewe
07.06.2017
16:41:48
Пока только сафарибукс , оно прям там пишется ( то есть очень много текста тип (добавить ссылку, провести сравнение )) . Поэтому есть смысл попробовать триал на 7 дней

или купить подписку

Grigory
08.06.2017
09:02:08
а какжи кастомные сборки и всякие кривые класспасы?

KrivdaTheTriewe
08.06.2017
09:06:07
Открываешь dcos universe , тык по халупу и все)
ну нет, там про какие хдд выбиратт, сколько сервисов на ноду ставить, как разделить их по ракам

на какую ноду поставить клоудеру

KrivdaTheTriewe
08.06.2017
09:13:20
Ну там эт есть тоже)))
это и в клаудере есть

Nick
08.06.2017
09:13:48
Я если честно не пробовал хадуп в дцос, но скоро попробую

KrivdaTheTriewe
08.06.2017
09:14:33
книжку прочитай тогда

Nick
08.06.2017
09:17:35
Я думаю пока ее писали, она устарела

Да и врядли там есть специфика дцос

Мне кажется там даже ярн не нужен

Google
KrivdaTheTriewe
08.06.2017
09:18:01
Evgeniya
08.06.2017
11:48:10
#вакансия #москва #devops Коллеги, привет! Отличная вакансия для тех, кто давно мечтал окунуться в мир Big Data! Мы ищем специалиста на администрирование парка Big Data систем (Apache Hadoop, Vertica, Pentaho), готовы смотреть людей без опыта, но реально готовых учиться. В начале задачи будут преимущественно по Big Data, затем и по Linux инфраструктуре. Обязателен отличный опыт работы с *nix системами, виртуализацией, также приветствуется опыт в разработке архитектурных решений. Самостоятельность — ОБЯЗАТЕЛЬНО. Если интересно, пишите на e.kikoina@youdo.ru

Pavel
08.06.2017
14:13:58
@hiphopstaruhi пошумим, блядь? )

Хипхоп
09.06.2017
02:34:01
Дневник альфача - @sexterror Кулстори из жизни, полезные советы, гайды по шкурам. Заходи - https://t.me/sexterror

Koder25
09.06.2017
03:38:50
@marvel_dc_official Лучший канал о вселенной Marvel & DC, подпишись и зови друзей?

Grigory
09.06.2017
09:26:54
@krivdatheliggen ^

KrivdaTheTriewe
09.06.2017
09:30:19
@krivdatheliggen ^
как с ними бороться то?

Grigory
09.06.2017
09:34:58
hz ):

KrivdaTheTriewe
09.06.2017
18:37:52
Использовал кто-нибудь? http://nats.io

GNU/Patchouli
12.06.2017
15:35:38
Доброго времени суток. Есть тут те, кто работает с pyspark?

KrivdaTheTriewe
12.06.2017
15:39:17
Доброго времени суток. Есть тут те, кто работает с pyspark?
народ был точно, осталось дождаться ответа

GNU/Patchouli
12.06.2017
15:52:51
вопрос то какой?:)
Я думаю, не первая такая и вопрос классический: Py4JJavaError: An error occurred while calling o186.collectToPython. : org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 47 tasks (2.0 GB) is bigger than spark.driver.maxResultSize (2.0 GB) У меня есть датафрейм, есть запрос к нему sorted(df.groupby('commands').agg({"commands": "count"}).collect()) Суть в том, что как написано выше, мне не хватает памяти на вычисления, но я знаю, что можно решить эту задачу вписываясь в лимит по памяти. Может кто подсказать, в какую сторону копать?

Andrey
12.06.2017
16:09:45
а если убрать collect, ошибка будет?

Grigory
12.06.2017
16:10:39
не будет ошибки без коллекта

GNU/Patchouli
12.06.2017
16:10:43
Grigory
12.06.2017
16:11:11
попробуй не собирать на драйвер все; что нужно на драйвере иметь?

Andrey
12.06.2017
16:11:36
не будет
а что дальше с данными происходит?

как минимум сортировку можно сделать до коллекта

GNU/Patchouli
12.06.2017
16:13:25
попробуй не собирать на драйвер все; что нужно на драйвере иметь?
У меня в таблице, полученной из логов, есть столбец с коммандами, которые вызывались. Мне нужно получить список комманд отсортированных по количеству вхождений в этот самый столбец и количество вхождений в этот столбец.

Google
Grigory
12.06.2017
16:14:08
Да, Андрей верно сказал, сортируй до коллекта

после мапни, .map(_.command); и после этого только коллект делай,чтоб на драйвер только список комманд пришел не факт что он тоже влезет

Andrey
12.06.2017
16:16:27
как вариант, если с памятью туго, сохраните df.write.json() куда нибудь и дальше считывайте по строчке на здоровье

GNU/Patchouli
12.06.2017
16:17:32
Да, Андрей верно сказал, сортируй до коллекта
сорт по каунту будет выглядеть как df.sort(df.commands.count().desc())?

Andrey
12.06.2017
16:18:20
df.orderBy('count.desc) в скале

в питоне почти также, только вроде к колонке надо явно обратиться

еще можно сделать df.withColumn("count_sorted", sort('count))

GNU/Patchouli
12.06.2017
16:27:07
еще можно сделать df.withColumn("count_sorted", sort('count))
О, спасибо, нашла в PySpark этот метод

сейчас потестим

Andrey
12.06.2017
16:27:17
нзчт)

Grigory
13.06.2017
04:43:51
@krivdatheliggen ^

KrivdaTheTriewe
13.06.2017
09:16:13
@pomadchin ты по таймзоне восточного берега живешь?

GNU/Patchouli
13.06.2017
09:17:18
/ban

KrivdaTheTriewe
13.06.2017
09:17:32
/ban
кого?

да когда как
Админа дал,можешь удалять ) я кожалению не придумал как с ними в 5 утра бороться

Grigory
13.06.2017
09:19:08
ну все новые порядки. только мемасы постить сюда можно

Timur
13.06.2017
13:00:54
Господа, а кто использует Hue для спарка?

Kirill
13.06.2017
13:04:02
у меня hue смотрит историю тасок через livy, для большего я хз как его использовать для спарка

KrivdaTheTriewe
13.06.2017
13:14:14
Господа, а кто использует Hue для спарка?
а какой юзкейз интересует?

Google
KrivdaTheTriewe
13.06.2017
13:14:31
через координатор и воркфлоу рисовали задачки

Andrew
13.06.2017
13:15:01
oozie?

Kirill
13.06.2017
13:25:34
oozie сами собирали или в составе платформы?

KrivdaTheTriewe
13.06.2017
13:25:55
ну в cdh и hdp он был

Страница 11 из 182