@hadoopusers

« Назад

Страница 14 из 182

Далее »

GNU/Patchouli

14.06.2017
09:00:35

https://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.Column

проглядела с первого раза

KrivdaTheTriewe

14.06.2017
09:06:06

дракон же на аве

Grigory

14.06.2017
09:11:19

у кривды мяу у чистоты дракон

Google

Grigory

14.06.2017
09:11:24

совпадение?

поставлю фей валентайн чтоб не выбиываться из трендов (нет, лень)

Aleksander

15.06.2017
09:09:37

Вопрос про машинки со спарком: какие примерно нужны машинки для развёртывания кластера ?

Меня интересует количество оперативки на ноде в основном :)

GNU/Patchouli

15.06.2017
09:13:06

Меня интересует количество оперативки на ноде в основном :)

у нас 256-512gb на нодах

в этом промежутке

Nikolai

15.06.2017
09:13:23

Ничоси

Aleksander

15.06.2017
09:13:28

Ага, а сколько нод?

Nikolai

15.06.2017
09:13:28

У нас по 30

Драйвер + 2-4 ноды

Aleksander

15.06.2017
09:14:11

И расскажите ещё, вы использование памяти спарком через офф хип ставите ?

GNU/Patchouli

15.06.2017
09:14:44

Ага, а сколько нод?

9 слейв нод и три мастера

Aleksander

15.06.2017
09:17:22

У нас по 30

Я думаю остановлюсь на твоём варианте :)))

Google

Andrew

15.06.2017
09:18:11

а какой объем данных предполагается лопатить в памяти?

Grigory

15.06.2017
09:18:13

А у нас поменьше ноды но их больше; m3.2xlarge от 10 до 100 под задачи

под мастер можно m3.xlarge

Aleksander

15.06.2017
09:18:52

а какой объем данных предполагается лопатить в памяти?

Терабайты

Andrew

15.06.2017
09:19:40

именно обрабатывать, а не просто хранить на кластере

Grigory

15.06.2017
09:20:14

еще такой момент, что тачек может быть много и они не сильно толстые могут быть главное чтобы в IO не упираться и процессоры сильные если каждая тачка не сильно много оперативки имеет задачи должны хорошо разбиваться на ноды это надо учитывать 512 гигов мозгов на каждой ноде - это конечно хорошо)

Aleksander

15.06.2017
09:21:56

именно обрабатывать, а не просто хранить на кластере

Обрабатывать постоянно - это гигабайты. Строить модели машинного обучения раз в промежуток времени, вероятно по всем данным

Andrew

15.06.2017
09:23:49

вот вопрос с машинкой лучше бы уточнить и прикинуть, сколько данных вам придется персистить в памяти

Grigory

15.06.2017
09:25:06

да мне кажется империческим путем подберешь. я так скажу что для дев среды достаточно тачки 4 любых

Aleksander

15.06.2017
09:25:12

Мы пока сами точно не представляем

Если будем падать, докупим

У меня была свободная тачка с 4 гб :)) я там развернул спарк и она зависла :))

Grigory

15.06.2017
09:26:32

если деньги важны то 3-4 тачки купите на хетснере в одном дата центре к примеру

32 ram / 8 cpu / 600 ssd (ссды можно вставить если мало, главное чтоб побыстрее были)

Aleksander

15.06.2017
09:27:38

32 ram / 8 cpu / 600 ssd (ссды можно вставить если мало, главное чтоб побыстрее были)

Во норм, спасибо, примерно так и думал

Grigory

15.06.2017
09:28:07

они могут в одну стойку иногда тачки запихать

будет шикарно вообще)

Aleksander

15.06.2017
09:28:37

Как раз его и рассматриваем

Grigory

15.06.2017
09:29:30

для прототипа за глаза хватит

Aleksander

15.06.2017
09:29:49

Спасибо!!

Google

KrivdaTheTriewe

15.06.2017
09:42:31

32 ram / 8 cpu / 600 ssd (ссды можно вставить если мало, главное чтоб побыстрее были)

ссд зачем

Grigory

15.06.2017
09:43:07

и так все медленно а ты хочешь ио сделать медленным еще

для спарка точно нужно

KrivdaTheTriewe

15.06.2017
09:43:52

учитывая , что все хадупориентированное читает с диска последовательно

и там другие скорости

GNU/Patchouli

15.06.2017
09:44:13

подтверждаю, с ссд и так не очень приятно ждать, пока таск выполняется полчаса-час

а на хдд так вообще бы померла, пока все сделается

Grigory

15.06.2017
09:44:50

ну мои джобы все реально долго на хдд / EBS окторые быстрее хдд

KrivdaTheTriewe

15.06.2017
09:44:50

у вас последовательное чтение , ссд на нем не даёт сильного прироста

Grigory

15.06.2017
09:45:51

ну постой спарк очень много сжирает пока пишет логи ну и если ты кешировать что-то на диск будешь то это пока вообще все иопсы пожрет джоба у тебя

хотя у меня и просто так все иопсы спарк пожирает если это хдд / если тмп файлы любые в процессе делаются

KrivdaTheTriewe

15.06.2017
09:47:19

ну постой спарк очень много сжирает пока пишет логи ну и если ты кешировать что-то на диск будешь то это пока вообще все иопсы пожрет джоба у тебя

ну может это особенности hdd от амазона ?

Grigory

15.06.2017
09:48:10

не думаю, все хдд имеют мало иопс

Aleksander

15.06.2017
09:49:58

Если можно выбрать ssd и обычным hdd. Я возьму ссд :)))

Деньги все равно не мои

Grigory

15.06.2017
09:51:00

ну да) если локалка то хдд у тебя 65мбпс все ограничат а у хетснера гигабитная локалка; ссд выбор очевиден)

KrivdaTheTriewe

15.06.2017
09:51:23

Если можно выбрать ssd и обычным hdd. Я возьму ссд :)))

но это тогда не бигдата ((

как вы петебайт хранить будете

Grigory

15.06.2017
09:51:53

как вы петебайт хранить будете

это уже для сторадж нод а не для спарк нод как минимум

Andrey

15.06.2017
09:58:24

SSD на последовательной записи имеют ряд архитектурных проблем, поэтому осторожнее с этим :)

Google

Andrey

15.06.2017
09:58:47

Особенно если строите свою инфру, нужно аккуратно выбирать модели

Aleksander

15.06.2017
10:04:42

но это тогда не бигдата ((

будут отдельные ноды под хранилище конечно же

KrivdaTheTriewe

15.06.2017
10:06:16

тогда нарушается основная идея хадупа

Там где данные хранятся должны и обрабатываться

Andrew

15.06.2017
10:06:36

чот отстал я от жизни, видимо. просветите, плиз - теперь таски запускают не на тех нодах, на которых данные лежат?

Andrey

15.06.2017
10:25:32

запустить можно с разных мест, но спарк оптимизирован под вычитывание локальных данных

то есть там executor вычитывает данные с ноды, на которой запущен

ну это что касается HDP, CDH, Datastax

Andrew

15.06.2017
10:26:49

а если данных на ноде с запустившимся таском нет, то они туда копируются, правильно?

Andrey

15.06.2017
10:27:08

да, по сети

поэтому как раз и советуют убирать шафл по возможности, чтобы executor'ы по максимуму работали с локальными данными

Andrew

15.06.2017
10:48:34

ну слава б-гу, а то я уж боялся, что какие-то новые архитектуры в ход пошли.

GNU/Patchouli

16.06.2017
10:03:21

Так, тут кто-нибудь через spark-submit программы на питоне запускал?

Andrew

16.06.2017
10:03:55

в связке с Jupyter'ом

GNU/Patchouli

16.06.2017
10:04:15

в связке с Jupyter'ом

Можно поподробнее, пожалуйста?

Andrew

16.06.2017
10:04:40

а что конкретно интересует?

GNU/Patchouli

16.06.2017
10:09:07

Да я тут мучаюсь просто. Я написала небольшую утилиту, которая выполняет некоторую операцию с логами, считая на кластере и потом сохраняет свои результаты обратно в директорию на HDFS. Дело в том, что на старом кластере, который под spark 1.6.2, я спокойно запускаю скрипт через spark-submit --master mesos://zk://<address> --deploy-mode client <script> <script args>

если же я запускаю из под кластера, на котором spark 2.1, он скрипт не запускается, ругаясь, что это это is not a Jupyter command

Вот и думаю, что именно с этим делать

Andrew

16.06.2017
10:13:15

https://stackoverflow.com/questions/42263691/jupyter-notebook-interferes-with-spark-submit

Google

Andrew

16.06.2017
10:13:18

ваша проблема?

GNU/Patchouli

16.06.2017
10:15:42

ваша проблема?