@hadoopusers

Страница 11 из 182

KrivdaTheTriewe

07.06.2017
16:02:08

Готовится к публикации весьма интересная книга: https://www.safaribooksonline.com/library/view/hadoop-in-the/9781491969267/ Будет полезна для тех, кто будет свой кластер строить

Andrey

07.06.2017
16:36:01

круто, спасибо за инфо :)

Kirill

07.06.2017
16:39:47

Готовится к публикации весьма интересная книга: https://www.safaribooksonline.com/library/view/hadoop-in-the/9781491969267/ Будет полезна для тех, кто будет свой кластер строить

А есть pdf?

Google

KrivdaTheTriewe

07.06.2017
16:41:48

Пока только сафарибукс , оно прям там пишется ( то есть очень много текста тип (добавить ссылку, провести сравнение )) . Поэтому есть смысл попробовать триал на 7 дней

или купить подписку

Nick

08.06.2017
08:56:27

Готовится к публикации весьма интересная книга: https://www.safaribooksonline.com/library/view/hadoop-in-the/9781491969267/ Будет полезна для тех, кто будет свой кластер строить

Открываешь dcos universe , тык по халупу и все)

Grigory

08.06.2017
09:02:08

а какжи кастомные сборки и всякие кривые класспасы?

KrivdaTheTriewe

08.06.2017
09:06:07

Открываешь dcos universe , тык по халупу и все)

ну нет, там про какие хдд выбиратт, сколько сервисов на ноду ставить, как разделить их по ракам

на какую ноду поставить клоудеру

Nick

08.06.2017
09:09:37

а какжи кастомные сборки и всякие кривые класспасы?

Ну там эт есть тоже)))

KrivdaTheTriewe

08.06.2017
09:13:20

Ну там эт есть тоже)))

это и в клаудере есть

Nick

08.06.2017
09:13:48

Я если честно не пробовал хадуп в дцос, но скоро попробую

KrivdaTheTriewe

08.06.2017
09:14:33

книжку прочитай тогда

Nick

08.06.2017
09:17:35

Я думаю пока ее писали, она устарела

Да и врядли там есть специфика дцос

Мне кажется там даже ярн не нужен

Google

KrivdaTheTriewe

08.06.2017
09:18:01

Я думаю пока ее писали, она устарела

она ещё не вышла

Evgeniya

08.06.2017
11:48:10

#вакансия #москва #devops Коллеги, привет! Отличная вакансия для тех, кто давно мечтал окунуться в мир Big Data! Мы ищем специалиста на администрирование парка Big Data систем (Apache Hadoop, Vertica, Pentaho), готовы смотреть людей без опыта, но реально готовых учиться. В начале задачи будут преимущественно по Big Data, затем и по Linux инфраструктуре. Обязателен отличный опыт работы с *nix системами, виртуализацией, также приветствуется опыт в разработке архитектурных решений. Самостоятельность — ОБЯЗАТЕЛЬНО. Если интересно, пишите на e.kikoina@youdo.ru

Pavel

08.06.2017
14:13:58

@hiphopstaruhi пошумим, блядь? )

Хипхоп

09.06.2017
02:34:01

Дневник альфача - @sexterror Кулстори из жизни, полезные советы, гайды по шкурам. Заходи - https://t.me/sexterror

Koder25

09.06.2017
03:38:50

@marvel_dc_official Лучший канал о вселенной Marvel & DC, подпишись и зови друзей?

Grigory

09.06.2017
09:26:54

@krivdatheliggen ^

KrivdaTheTriewe

09.06.2017
09:30:19

@krivdatheliggen ^

как с ними бороться то?

Grigory

09.06.2017
09:34:58

hz ):

KrivdaTheTriewe

09.06.2017
18:37:52

Использовал кто-нибудь? http://nats.io

GNU/Patchouli

12.06.2017
15:35:38

Доброго времени суток. Есть тут те, кто работает с pyspark?

KrivdaTheTriewe

12.06.2017
15:39:17

Доброго времени суток. Есть тут те, кто работает с pyspark?

народ был точно, осталось дождаться ответа

Andrey

12.06.2017
15:45:45

Доброго времени суток. Есть тут те, кто работает с pyspark?

вопрос то какой?:)

GNU/Patchouli

12.06.2017
15:52:51

вопрос то какой?:)

Я думаю, не первая такая и вопрос классический: Py4JJavaError: An error occurred while calling o186.collectToPython. : org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 47 tasks (2.0 GB) is bigger than spark.driver.maxResultSize (2.0 GB) У меня есть датафрейм, есть запрос к нему sorted(df.groupby('commands').agg({"commands": "count"}).collect()) Суть в том, что как написано выше, мне не хватает памяти на вычисления, но я знаю, что можно решить эту задачу вписываясь в лимит по памяти. Может кто подсказать, в какую сторону копать?

Andrey

12.06.2017
16:09:45

а если убрать collect, ошибка будет?

Grigory

12.06.2017
16:10:39

не будет ошибки без коллекта

GNU/Patchouli

12.06.2017
16:10:43

а если убрать collect, ошибка будет?

не будет

Grigory

12.06.2017
16:11:11

попробуй не собирать на драйвер все; что нужно на драйвере иметь?

Andrey

12.06.2017
16:11:36

не будет

а что дальше с данными происходит?

как минимум сортировку можно сделать до коллекта

GNU/Patchouli

12.06.2017
16:13:25

попробуй не собирать на драйвер все; что нужно на драйвере иметь?

У меня в таблице, полученной из логов, есть столбец с коммандами, которые вызывались. Мне нужно получить список комманд отсортированных по количеству вхождений в этот самый столбец и количество вхождений в этот столбец.

Google

Grigory

12.06.2017
16:14:08

Да, Андрей верно сказал, сортируй до коллекта

после мапни, .map(_.command); и после этого только коллект делай,чтоб на драйвер только список комманд пришел не факт что он тоже влезет

Andrey

12.06.2017
16:16:27

как вариант, если с памятью туго, сохраните df.write.json() куда нибудь и дальше считывайте по строчке на здоровье

GNU/Patchouli

12.06.2017
16:17:32

Да, Андрей верно сказал, сортируй до коллекта

сорт по каунту будет выглядеть как df.sort(df.commands.count().desc())?

Andrey

12.06.2017
16:18:20

df.orderBy('count.desc) в скале

в питоне почти также, только вроде к колонке надо явно обратиться

еще можно сделать df.withColumn("count_sorted", sort('count))

GNU/Patchouli

12.06.2017
16:27:07

еще можно сделать df.withColumn("count_sorted", sort('count))

О, спасибо, нашла в PySpark этот метод

сейчас потестим

Andrey

12.06.2017
16:27:17

нзчт)

Grigory

13.06.2017
04:43:51

@krivdatheliggen ^

KrivdaTheTriewe

13.06.2017
09:16:13

@pomadchin ты по таймзоне восточного берега живешь?

Grigory

13.06.2017
09:17:17

@pomadchin ты по таймзоне восточного берега живешь?

да когда как

GNU/Patchouli

13.06.2017
09:17:18

/ban

KrivdaTheTriewe

13.06.2017
09:17:32

/ban

кого?

да когда как

Админа дал,можешь удалять ) я кожалению не придумал как с ними в 5 утра бороться

Grigory

13.06.2017
09:19:08

ну все новые порядки. только мемасы постить сюда можно

Timur

13.06.2017
13:00:54

Господа, а кто использует Hue для спарка?

Kirill

13.06.2017
13:04:02

у меня hue смотрит историю тасок через livy, для большего я хз как его использовать для спарка

KrivdaTheTriewe

13.06.2017
13:14:14

Господа, а кто использует Hue для спарка?

а какой юзкейз интересует?

Google

KrivdaTheTriewe

13.06.2017
13:14:31

через координатор и воркфлоу рисовали задачки

Andrew

13.06.2017
13:15:01

oozie?

Kirill

13.06.2017
13:25:34

oozie сами собирали или в составе платформы?

KrivdaTheTriewe

13.06.2017
13:25:55

ну в cdh и hdp он был

« Назад

Страница 11 из 182

Далее »

Открыть в Telegram