@hadoopusers

Страница 4 из 182
Grigory
28.02.2017
19:37:08
а что слуичлось с кассандрой?

KrivdaTheTriewe
28.02.2017
19:37:19
ну я так понял, у них прения с апачем

почему драйвер никак для спарка не выйдет новый

ток релиз кандидат вышел

Google
ptchol
28.02.2017
19:38:11
да кто нить приберет

вангую эпл

Evgeniy
28.02.2017
19:38:37
хм, там вроде прямым текстом написано "Download the latest open-source versions from Apache Cassandra." и еще ссылка что они свое комьюнити прибивают

ну т.е вроде нет слов что мы больше не будем коммитить туда

или это кто то внешний их изменения портировал из DataStax Community version в Apache Cassandra?

Grigory
28.02.2017
19:40:30
я думал что они чуть ли не единственные кто деньги вливают в кассандру

но все же вопрос конечно насоклько сильно они были вовлечены в опенсорсную разработку кассандры

потому что ентерпрайз все же ентерпрайз

https://github.com/datastax/java-driver все еще ращрабатывается

https://www.theregister.co.uk/2016/11/14/datastax_versus_asf_staxeit/

Evgeniy
28.02.2017
20:01:14
насколько я понял весь замес в том что только у datastax есть драйвер с полной поддержкой cql, а в остальных только частично имеется?

судя по всему там apple и другие компании тоже не мало контрибютят, так что скорее всего не так все плохо учитывая что datastax и дальше будут что то делать - замес начался осенью, а они до сих пор комитят https://github.com/apache/cassandra/graphs/contributors

вот тут кстати интересно http://www.mail-archive.com/dev@cassandra.apache.org/msg09104.html пишут что чуваки делали фичи которые кофликтились с интересами datastax и все равно сотрудники datastax помогали

Google
Group Butler [beta]
01.03.2017
07:07:49
Hi Pavel!

Hi Nikita!

Roman
02.03.2017
16:54:34
https://t.me/vr_developers Всем привет! Объединяем VR разработчиков

Grigory
02.03.2017
22:07:43
Мнe кажeтся это ужe откровенно спам

Pavel
02.03.2017
22:39:12
Хадуп живи

KrivdaTheTriewe
02.03.2017
22:41:04
живёт

Evgeniy
02.03.2017
22:44:56
может кто посоветует, что стоит почитать или посмотреть чтобы по лучше понять как hdfs внутри устроенна?

Evgeniy
02.03.2017
22:48:54
спасибо гляну, я смотрел как то мне показалось что там тоже как то по верхам все - но может я просто не заметил

ptchol
03.03.2017
07:37:19
Блог клаудеры

Там бывает про всякие мелочи , про которые не было в дифинитив гайде

Есть еще подписочка хадуп викли

Там бывают интересные статьи проскакивают

Dmitry
07.03.2017
09:28:51
Всем привет. Пытаюсь в spark добавить конфу, через команду spark-submit --master yarn --deploy-mode cluster --files tables.conf SparkFiles.getRootDirectory() SparkFiles.get("tables.conf") val conf = ConfigFactory.parseFile(new java.io.File(SparkFiles.get("tables.conf"))) Выводит пути, но по факту файла там не оказывается Подскажите пожалуйста, как лечить?

Vitaliy
07.03.2017
12:25:41
привет всем

KrivdaTheTriewe
07.03.2017
12:28:46
Привет

Grigory
07.03.2017
12:29:19
\0

Vitaliy
07.03.2017
12:30:24
кто-нибудь hadoop для machine learning держит?

интересует стоит ли еге в облаке поднимать

или лучше сразу железные сервера

Google
Grigory
07.03.2017
12:31:25
Зависит от бюджета и потребностей

и от того как его обслуживать планируется

Vitaliy
07.03.2017
12:31:59
бюджет пока не считаем, важно выбрать направление cloud vs metal

на что стоит внимание обратить при выборе

Grigory
07.03.2017
12:36:11
ну если это облако то скорее всего там есть своя возможность разворачивать кластер, это сократит часы на обслуживание кластера; и будет удобно настраивать конфигурации; можно будет сосредоточиться на настройках самого хадупо кластера а не на оркестровке (пример emr, cf) --------- на железе придется самим приватность сетки поддерживать (если локалки не достаточно), самим оркестровкой заниматься и обновлением кластера; за то чисто в теории может быстрее работать, если весь кластер будет в стойках которые рядом и общаются по очень широкой локалке

но в реальности, я не пробовал оценивать проихводительность обоих подходов

в плане сравнивать скажем 10 нод на хетцнере // или 10 нод emr

а там чем больше машин надо; у физ машин начинают появляться ограничения простарнственные; к примеру они могут поставить их во дном датацентре но не могут поставить их рядом;

Vitaliy
07.03.2017
12:39:46
emr все таки выделенное облако, тут больше вопрос был поднять ноды на том же EC2

Grigory
07.03.2017
12:39:57
а; разницы никакой

Vitaliy
07.03.2017
12:39:57
или в России у ИТГрад

Grigory
07.03.2017
12:40:08
я б не стал в россии поднимать)

Vitaliy
07.03.2017
12:40:27
проект русский, аудитория в России

Grigory
07.03.2017
12:41:24
ну попробуй; разница где нету; есть разница железки это или готовая инфраструктура

у меня 2 года назад на хецнере была проблема, что локалку между машинами в одном датацентре протолкнуть не могли; нод было не так много - 10 воркеров и 1 мастер

и вот этот мастер был не рядом и не в локалке; и он был хорошим ботелнеком ;\

Vitaliy
07.03.2017
12:43:05
жестоко

Grigory
07.03.2017
12:43:06
и почемут любил падать :D

диски сыпались

а ну и самая большая пробелма была что не все ноды могли физически быть связаны локалкой; по каким-то странным причинам (времени выяснять не было)

Google
Admin


Vitaliy
07.03.2017
12:44:36
понятно

минимальную конфигурацию с которой стоило бы начать пилот, какую можешь подсказать?

нагрузка скорее всего будет на CPU

Grigory
07.03.2017
12:46:01
ну зависит от потребностей; сколько данных есть; а для пилота хватит самой дешевой техники)) а какой объем данных в пилоте планируется?

главное iopsов побольше, тачек хватит как m3.xlarge или m3.2xlarge с головой

даже не для пилота

да и 2-3 ноды имхо хватит)

больше не надо

Vitaliy
07.03.2017
12:48:15
то есть всего 2-3 сервера, по ним размазать все роли

m3.2xlarge 8 30 2 x 80

не шибко то и много

Grigory
07.03.2017
12:49:01
я только хадуп будет?

Vitaliy
07.03.2017
12:49:21
+ apache mahout

Grigory
07.03.2017
12:49:53
ммм я больше под спарк конфигурацию дал; думаю что под просто хадупо мр хватит с головой; менее прожорливый

сча мож эксперты еще придут которые непосредственно хадупомр тискают

мне кажется, что для пилота пофигу на самом деле что там будет какое железо; чтоб не слишком медленно работало и переваривало объемы данных нужные можешь попробовать в опендатасайнс сообщество постучаться; там очень много людей которые именно хадупом, хадупомлом занимаются, без всяких спарков

Vitaliy
07.03.2017
12:52:54
можешь ссылкой поделиться?

Grigory
07.03.2017
12:53:14
https://opendatascience.slack.com/

сейчас на регистрацию поищу

Google
Grigory
07.03.2017
12:53:24
чтоб письмо не отправлять

ptchol
07.03.2017
12:56:31
под хдфс те нада 5 нод

под зк тож желательно отдельные

Grigory
07.03.2017
12:57:19
можешь ссылкой поделиться?
чет не могу найти, помню находил; ods.ai тут только формочка

ptchol
07.03.2017
12:57:35
а где гонять махаут это как бы пофигу, всё равно скорее всего придёшь к тому, что придётся сигруппами резать приложения

Grigory
07.03.2017
12:58:05
а почему именно 5?)

3 чтоб проверить / посмотерть как мажется хватит

ptchol
07.03.2017
13:01:35
ну что б проверить и одной хватит

Страница 4 из 182