@hadoopusers

Страница 14 из 182
GNU/Patchouli
14.06.2017
09:00:35
https://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.Column

проглядела с первого раза

KrivdaTheTriewe
14.06.2017
09:06:06
дракон же на аве

Grigory
14.06.2017
09:11:19
у кривды мяу у чистоты дракон

Google
Grigory
14.06.2017
09:11:24
совпадение?

поставлю фей валентайн чтоб не выбиываться из трендов (нет, лень)

Aleksander
15.06.2017
09:09:37
Вопрос про машинки со спарком: какие примерно нужны машинки для развёртывания кластера ?

Меня интересует количество оперативки на ноде в основном :)

GNU/Patchouli
15.06.2017
09:13:06
в этом промежутке

Nikolai
15.06.2017
09:13:23
Ничоси

Aleksander
15.06.2017
09:13:28
Ага, а сколько нод?

Nikolai
15.06.2017
09:13:28
У нас по 30

Драйвер + 2-4 ноды

Aleksander
15.06.2017
09:14:11
И расскажите ещё, вы использование памяти спарком через офф хип ставите ?

GNU/Patchouli
15.06.2017
09:14:44
Ага, а сколько нод?
9 слейв нод и три мастера

Aleksander
15.06.2017
09:17:22
У нас по 30
Я думаю остановлюсь на твоём варианте :)))

Google
Andrew
15.06.2017
09:18:11
а какой объем данных предполагается лопатить в памяти?

Grigory
15.06.2017
09:18:13
А у нас поменьше ноды но их больше; m3.2xlarge от 10 до 100 под задачи

под мастер можно m3.xlarge

Andrew
15.06.2017
09:19:40
именно обрабатывать, а не просто хранить на кластере

Grigory
15.06.2017
09:20:14
еще такой момент, что тачек может быть много и они не сильно толстые могут быть главное чтобы в IO не упираться и процессоры сильные если каждая тачка не сильно много оперативки имеет задачи должны хорошо разбиваться на ноды это надо учитывать 512 гигов мозгов на каждой ноде - это конечно хорошо)

Aleksander
15.06.2017
09:21:56
именно обрабатывать, а не просто хранить на кластере
Обрабатывать постоянно - это гигабайты. Строить модели машинного обучения раз в промежуток времени, вероятно по всем данным

Andrew
15.06.2017
09:23:49
вот вопрос с машинкой лучше бы уточнить и прикинуть, сколько данных вам придется персистить в памяти

Grigory
15.06.2017
09:25:06
да мне кажется империческим путем подберешь. я так скажу что для дев среды достаточно тачки 4 любых

Aleksander
15.06.2017
09:25:12
Мы пока сами точно не представляем

Если будем падать, докупим

У меня была свободная тачка с 4 гб :)) я там развернул спарк и она зависла :))

Grigory
15.06.2017
09:26:32
если деньги важны то 3-4 тачки купите на хетснере в одном дата центре к примеру

32 ram / 8 cpu / 600 ssd (ссды можно вставить если мало, главное чтоб побыстрее были)

Aleksander
15.06.2017
09:27:38
Grigory
15.06.2017
09:28:07
они могут в одну стойку иногда тачки запихать

будет шикарно вообще)

Aleksander
15.06.2017
09:28:37
Как раз его и рассматриваем

Grigory
15.06.2017
09:29:30
для прототипа за глаза хватит

Aleksander
15.06.2017
09:29:49
Спасибо!!

Google
Grigory
15.06.2017
09:43:07
и так все медленно а ты хочешь ио сделать медленным еще

для спарка точно нужно

KrivdaTheTriewe
15.06.2017
09:43:52
учитывая , что все хадупориентированное читает с диска последовательно

и там другие скорости

GNU/Patchouli
15.06.2017
09:44:13
подтверждаю, с ссд и так не очень приятно ждать, пока таск выполняется полчаса-час

а на хдд так вообще бы померла, пока все сделается

Grigory
15.06.2017
09:44:50
ну мои джобы все реально долго на хдд / EBS окторые быстрее хдд

KrivdaTheTriewe
15.06.2017
09:44:50
у вас последовательное чтение , ссд на нем не даёт сильного прироста

Grigory
15.06.2017
09:45:51
ну постой спарк очень много сжирает пока пишет логи ну и если ты кешировать что-то на диск будешь то это пока вообще все иопсы пожрет джоба у тебя

хотя у меня и просто так все иопсы спарк пожирает если это хдд / если тмп файлы любые в процессе делаются

Grigory
15.06.2017
09:48:10
не думаю, все хдд имеют мало иопс

Aleksander
15.06.2017
09:49:58
Если можно выбрать ssd и обычным hdd. Я возьму ссд :)))

Деньги все равно не мои

Grigory
15.06.2017
09:51:00
ну да) если локалка то хдд у тебя 65мбпс все ограничат а у хетснера гигабитная локалка; ссд выбор очевиден)

KrivdaTheTriewe
15.06.2017
09:51:23
как вы петебайт хранить будете

Grigory
15.06.2017
09:51:53
как вы петебайт хранить будете
это уже для сторадж нод а не для спарк нод как минимум

Andrey
15.06.2017
09:58:24
SSD на последовательной записи имеют ряд архитектурных проблем, поэтому осторожнее с этим :)

Google
Andrey
15.06.2017
09:58:47
Особенно если строите свою инфру, нужно аккуратно выбирать модели

Aleksander
15.06.2017
10:04:42
но это тогда не бигдата ((
будут отдельные ноды под хранилище конечно же

KrivdaTheTriewe
15.06.2017
10:06:16
тогда нарушается основная идея хадупа

Там где данные хранятся должны и обрабатываться

Andrew
15.06.2017
10:06:36
чот отстал я от жизни, видимо. просветите, плиз - теперь таски запускают не на тех нодах, на которых данные лежат?

Andrey
15.06.2017
10:25:32
запустить можно с разных мест, но спарк оптимизирован под вычитывание локальных данных

то есть там executor вычитывает данные с ноды, на которой запущен

ну это что касается HDP, CDH, Datastax

Andrew
15.06.2017
10:26:49
а если данных на ноде с запустившимся таском нет, то они туда копируются, правильно?

Andrey
15.06.2017
10:27:08
да, по сети

поэтому как раз и советуют убирать шафл по возможности, чтобы executor'ы по максимуму работали с локальными данными

Andrew
15.06.2017
10:48:34
ну слава б-гу, а то я уж боялся, что какие-то новые архитектуры в ход пошли.

GNU/Patchouli
16.06.2017
10:03:21
Так, тут кто-нибудь через spark-submit программы на питоне запускал?

Andrew
16.06.2017
10:03:55
в связке с Jupyter'ом

GNU/Patchouli
16.06.2017
10:04:15
в связке с Jupyter'ом
Можно поподробнее, пожалуйста?

Andrew
16.06.2017
10:04:40
а что конкретно интересует?

GNU/Patchouli
16.06.2017
10:09:07
Да я тут мучаюсь просто. Я написала небольшую утилиту, которая выполняет некоторую операцию с логами, считая на кластере и потом сохраняет свои результаты обратно в директорию на HDFS. Дело в том, что на старом кластере, который под spark 1.6.2, я спокойно запускаю скрипт через spark-submit --master mesos://zk://<address> --deploy-mode client <script> <script args>

если же я запускаю из под кластера, на котором spark 2.1, он скрипт не запускается, ругаясь, что это это is not a Jupyter command

Вот и думаю, что именно с этим делать

Andrew
16.06.2017
10:13:15
https://stackoverflow.com/questions/42263691/jupyter-notebook-interferes-with-spark-submit

Google
Andrew
16.06.2017
10:13:18
ваша проблема?

GNU/Patchouli
16.06.2017
10:15:42
ваша проблема?
Угу. Только ансет последних двух переменных ничего не дает, кроме очередных ошибок

Exception in thread "main" java.io.IOException: Cannot run program "": error=2, No such file or directory

KrivdaTheTriewe
16.06.2017
10:18:53
--files попроботвать ?

GNU/Patchouli
16.06.2017
10:22:32
Andrew
16.06.2017
10:24:32
а почему, интересно, он ругается на "" ? что-то не так с именем скрипта?

GNU/Patchouli
16.06.2017
10:25:18
вроде с этим все норм

Alexander
16.06.2017
10:27:56
ну чудес то не бывает... скрпит против различных кластеров запускается с одной и той же машины? Win/Lin ?

GNU/Patchouli
16.06.2017
10:28:22
Так, ага

прогресс пошел

мануально unset'нула PYSPARK_DRIVER_PYTHON и PYSPARK_DRIVER_PYTHON_OPTS

Страница 14 из 182