@hadoopusers

Страница 1 из 182

KrivdaTheTriewe

20.01.2017
15:26:04

Собственно предлагаю обсуждать все вопросы связанные с Apache Hadoop стеком: Деплой Spark джоб, работат с дистрибутивам от Hortonworks , Cloudera и так далее

Кто, как спарк джобы деплоит?

Emil

20.01.2017
15:28:56

Кто-нибудь запускает Спарк в jupyter?

KrivdaTheTriewe

20.01.2017
15:30:13

Кто-нибудь запускает Спарк в jupyter?

Насколько мне известно, датасайнтисты делают там свою науку, после чего показывают свой ноутбук разработчику. и он его уже на Scala реализует

Google

KrivdaTheTriewe

20.01.2017
15:30:28

Мы ноутбуки не используем

Emil

20.01.2017
15:32:09

Хотел тоже попробовать

Alex

20.01.2017
15:33:43

Сам не пробовал но вроде не сложно: https://docs.continuum.io/anaconda-scale/howto/spark-overview#

Sergey

20.01.2017
15:34:18

Хочу ручками попробовать hadoop, как сделать свой кластер и тд и тп и как бы в домашних условиях, а не в конторе с готовой инфраструктурой. Это вообще реально? Как вы начинали осваивать hadoop?

KrivdaTheTriewe

20.01.2017
15:34:47

Хочу ручками попробовать hadoop, как сделать свой кластер и тд и тп и как бы в домашних условиях, а не в конторе с готовой инфраструктурой. Это вообще реально? Как вы начинали осваивать hadoop?

Есть дистрибутивы от CLoudera и Hortonworks

Sergey

20.01.2017
15:35:10

в чём их особенность? они для локальных машин?

KrivdaTheTriewe

20.01.2017
15:35:23

У них есть сандбоксы, где все предустановлено. Единственное, нужна машина у которой памяти хотябы 8 , алучше 16 гигабайт.

Ты просто качаешь образ диска и запускаешьп под виртуальной машиной, если всё лагает и тормозит, то стоит отключить что0нибудь из сервисов

Sergey

20.01.2017
15:36:35

спасиб) сегодня начну

а как с книжками/курсами рускоязычными?

или норм только на english?

KrivdaTheTriewe

20.01.2017
15:37:17

Нормально только на английском

Хотя по самому хадупу вышла книга на русском от орейли, Apache Hadoop полное руководство.

Google

KrivdaTheTriewe

20.01.2017
15:37:55

Она в качестве основ подойдет

Sergey

20.01.2017
15:38:06

?

KrivdaTheTriewe

20.01.2017
15:38:22

Но сейчас непосредственно на хадупе мало кто считает ( считай леджаси уже)

Sergey

20.01.2017
15:39:13

а со спарком вроде получше для локальных машин

Emil

20.01.2017
15:46:42

Кто какие задачи решает на работе хадупом/спарком?

KrivdaTheTriewe

20.01.2017
15:49:16

Кто какие задачи решает на работе хадупом/спарком?

ETL обычный, как правило , причём решаем периодически тем же хайвом с тезом, очень удобно получается

Для тех кто интересуется послледними новостями рекомендую подписаться на https://www.hadoopweekly.com/

Alex

20.01.2017
16:00:55

Про внутренее устроиство Spark лучше этого я ничего не видел (не для новичков) https://www.gitbook.com/book/jaceklaskowski/mastering-apache-spark/details

KrivdaTheTriewe

20.01.2017
16:06:29

Про внутренее устроиство Spark лучше этого я ничего не видел (не для новичков) https://www.gitbook.com/book/jaceklaskowski/mastering-apache-spark/details

Очень хорошо по исхоникам лазить :)

Alex

20.01.2017
16:08:07

а как с книжками/курсами рускоязычными?

для совсем новичка например вот курс на русском https://stepik.org/course/Hadoop-%D0%A1%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0-%D0%B4%D0%BB%D1%8F-%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B8-%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85-%D0%BE%D0%B1%D1%8A%D0%B5%D0%BC%D0%BE%D0%B2-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85-150/syllabus

Очень хорошо по исхоникам лазить :)

Согласен. Но имхо исходники + Mastering Apache Spark 2.0 профит быстрей.

KrivdaTheTriewe

20.01.2017
16:12:38

религия кривой мордочки

Grigory

20.01.2017
16:14:43

ну да

KrivdaTheTriewe

20.01.2017
16:22:37

Приглашайте народ :)

Artem

20.01.2017
16:34:58

Чокого

KrivdaTheTriewe

21.01.2017
12:01:13

https://www.coursera.org/learn/big-data-analysys

Admin

KrivdaTheTriewe

21.01.2017
19:07:40

Свершилось, курс по спарку от EPFL таки обещают выпустить в ближайшее время. Заэнроллиться можно тут: https://www.coursera.org/learn/big-data-analysys Собственно, если покопаться в опциях, то он бесплатный.

Anvar

21.01.2017
19:09:02

Да неужели

KrivdaTheTriewe

21.01.2017
19:09:34

ага, собственно , обещают в феврале

Google

KrivdaTheTriewe

21.01.2017
19:09:58

я, вроде как, разрабатываю под спарк, но собираюсь пройти

Anvar

21.01.2017
19:10:27

Буду знать, кого мучить если что ?

Grigory

21.01.2017
21:15:46

курсы под спарк

KrivdaTheTriewe

21.01.2017
21:23:42

курсы под спарк

хорошо же

Я наконец увижу, как выглядит автор курса )

Farruh

22.01.2017
08:17:58

Привет всем, где нибудь пошаговое инструкция есть использование Amazon кластеры для запуска R Spark или вообще можно в amazon запустить R Spark?

Grigory

22.01.2017
11:40:15

Привет всем, где нибудь пошаговое инструкция есть использование Amazon кластеры для запуска R Spark или вообще можно в amazon запустить R Spark?

https://aws.amazon.com/blogs/big-data/running-sparklyr-rstudios-r-interface-to-spark-on-amazon-emr/

Farruh

22.01.2017
15:06:37

Спасибо???

KrivdaTheTriewe

25.01.2017
17:18:09

Решал ли кто проблему сохранения рдд на хдфс на фиксированное количество файлов?

Grigory

25.01.2017
17:18:39

это бин пэкинг; слишокм обще задачу ты поставил)

KrivdaTheTriewe

25.01.2017
17:20:56

а куда обще, есть рдд , по которому нужно сделать сейв ту хдфс и чтобы получилось после сохранения ровно столько то файлов ( или меньше )

В Хайве это решается относительно просто

Страница 1 из 182

Далее »

Открыть в Telegram