@hadoopusers

Страница 178 из 182
KrivdaAllStars
25.10.2018
12:37:48
?я по бабло другое не тяну
а больше нод взять?

Grigory
25.10.2018
12:37:55
а зачем такие большие тачки тогда

у тя будут ресурсы и все в простое

KrivdaAllStars
25.10.2018
12:38:02
вы упираетесь в цпу юниты

Google
Grigory
25.10.2018
12:38:09
зачем те оператива и диски если спу нет

Старый
25.10.2018
12:38:12
а больше нод взять?
а ноды дешёвые по твоему?

KrivdaAllStars
25.10.2018
12:38:38
а ноды дешёвые по твоему?
взять три ноды в два раза послабее

по той же цене

да глянь книжку

на нее ссылаться можно

Старый
25.10.2018
12:39:29
на нее ссылаться можно
мне заявили похрен на практики и тд, у нас бюджет

KrivdaAllStars
25.10.2018
12:39:41
Старый
25.10.2018
12:39:47
мне заявили галвное обеспечить чтобы работало и хранило, а скорость вопрос тертий

KrivdaAllStars
25.10.2018
12:40:03
оно когда отвалится

потому что у вас кластер из двух нод

но БОГАТЫРСКИХ

Старый
25.10.2018
12:40:28
потому что у вас кластер из двух нод
у меня разраб - архитектор вообще предлагал брать блейды с 1230v5 и 64 рамы, и туда 10 тб диск

Google
KrivdaAllStars
25.10.2018
12:40:32
да я образно

книжку для себя прочитать можно

Anton
25.10.2018
12:41:35
зачем вообще хадуп если кластер из двух нод? просто файл сервер, а если данные структурированные изначально - базу данных

спарк можно гонять против нфс шары или даже локальной файловой системы

Старый
25.10.2018
12:42:16
я еле отговорил от этого

KrivdaAllStars
25.10.2018
12:42:52
ну прост чуваки, может вам рил купить лицензии на по которое решает вашу пробелму на малом количестве нод, оно и хранит и считает

Старый
25.10.2018
12:43:53
ну прост чуваки, может вам рил купить лицензии на по которое решает вашу пробелму на малом количестве нод, оно и хранит и считает
тебе сказали 1,5 пб чистого и репликация в требованиях, ну расскажи какое по будет дешевле?

Anton
25.10.2018
12:44:15
linux + rsync

Grigory
25.10.2018
12:44:23
да рил короч есть сетапы

жирные тачки всегда дороже

Anton
25.10.2018
12:44:45
жирные тачки всегда лучше

есть узкий набор кейсов когда удобнее иметь худые тачки, но в общем жирные лучше

Старый
25.10.2018
12:45:21
жирные тачки всегда дороже
увы нет, например память по 32 тб за обьём выходит дешевле чем по 4-8-16

да и на процах не сэкономишь

KrivdaAllStars
25.10.2018
12:46:20
Grigory
25.10.2018
12:46:49
проц время дорогое в жирных тачилах прсот

KrivdaAllStars
25.10.2018
12:46:53
у тебя все равно должно быть определенное количество цпу юнитов на гиг

Anton
25.10.2018
12:47:12
жирные тачки лучше кода у тебя их много
тут же канал про хадуп, их должно быть много

Google
Grigory
25.10.2018
12:47:14
спарки взлетать не будут

тут же канал про хадуп, их должно быть много
хадуп может и на мертвых трупах с дисками работать

существовать

Anton
25.10.2018
12:47:34
но кому он такой нужен? :)

Grigory
25.10.2018
12:47:41
ну хдфс если то вполне

KrivdaAllStars
25.10.2018
12:47:52
хдфс так задизайнен

Anton
25.10.2018
12:47:59
про какой объем данных мы говорим?

KrivdaAllStars
25.10.2018
12:48:01
ему не нужны дорогие процы и дорогие диски

Grigory
25.10.2018
12:48:05
да хоть тбы

много тбов

Anton
25.10.2018
12:48:20
просто ФС будет намного лучше

Grigory
25.10.2018
12:48:23
медленные диски быстрая сеть нужна и тачки рядом

Anton
25.10.2018
12:48:31
ext4, xfs

Grigory
25.10.2018
12:48:32
на самом деле согласен

KrivdaAllStars
25.10.2018
12:48:44
Grigory
25.10.2018
12:48:47
эта ваша бигдата

просто рибята

ext4

и все рсинком

Google
Grigory
25.10.2018
12:49:01
вместо спарка много апликух на голанге

профит

Anton
25.10.2018
12:49:06
одна жирная тачка файл сервер, реплика на другую, компьют на бездисковых тачках спарком против nfs

летает просто

Grigory
25.10.2018
12:49:19
пока иопсов хватает

Anton
25.10.2018
12:49:38
да, но мы говорим же про десятки терабайт

Grigory
25.10.2018
12:49:39
актинвые рид райты кластера спарка

ну и что

Anton
25.10.2018
12:50:26
я не из головы придумал, было несколько маленьких проектов где мы просто на толстом файлере данные держали - все отлично работает

Grigory
25.10.2018
12:50:33
я тоже не из головы придумал

делал все на рсинках и голанге - лучшией сетап

Старый
25.10.2018
12:52:25
какие ужасы

Anton
25.10.2018
12:52:35
на hetzner тачки SX - самая большая дает 75 ТБ в RAID1, стоит 300 евро в месяц

Grigory
25.10.2018
12:52:56
мне кажется он не может хетснер юзать

KrivdaAllStars
25.10.2018
12:52:57
да, но мы говорим же про десятки терабайт
но потом вам нужно переделоывать решение , внося ошибки в бизнесслогику

Anton
25.10.2018
12:52:58
если данных больше 30 ТБ никогда не будет - отличный вариант, все летает просто

но потом вам нужно переделоывать решение , внося ошибки в бизнесслогику
смотря как написать, для spark путь есть путь, просто file:// вместо hdfs:// впереди

Grigory
25.10.2018
12:54:38
если данных больше 30 ТБ никогда не будет - отличный вариант, все летает просто
а ты под спарки отдельные тачки без дисков предлагаешь? но со много спу

KrivdaAllStars
25.10.2018
12:54:50
смотря как написать, для spark путь есть путь, просто file:// вместо hdfs:// впереди
мы говорим о решении комплексном, когда нам нужно и обрабатывать данные и реплицировать и использовать несколько инструментов сразу

Google
Grigory
25.10.2018
12:55:28
если прям жирные джобы - да
ну это можно, согласен, хороший вариант в принципе

главное не упираться в боттленк на чтении

и записи

Anton
25.10.2018
12:56:07
мы говорим о решении комплексном, когда нам нужно и обрабатывать данные и реплицировать и использовать несколько инструментов сразу
ну вот если речь не про нищебродские решения, то можно построить и масштабируемое решение на такой архитектуре, только вместо NFS брать толстый NAS

Andrey
25.10.2018
12:57:03
смотря как написать, для spark путь есть путь, просто file:// вместо hdfs:// впереди
хм, а если на ноде где выполняется task спарка этого файла не будет, то что тогда?

Старый
25.10.2018
12:57:09
если прям жирные джобы - да
?у меня джоба может 3 суток делаться без претензий

которая в спарке

Anton
25.10.2018
12:57:31
у меня есть клиент с EMC Isilon под сторадж, он умеет S3, HDFS и кучу апишек показывать, сеть там инфинибенд от меланокса, посадили на это кучу компьют нод - промышленное решение, даже Ranger прикрутили

Anton
25.10.2018
12:58:17
и потерять локальность данных
локальность преувеличена для батча

(она не нужна)

KrivdaAllStars
25.10.2018
12:59:09
Anton
25.10.2018
12:59:20
у тебя сеть на узле шире чем диск, только low latency операции будут тормозить, а потоковое чтение не будет

KrivdaAllStars
25.10.2018
12:59:29
вы говорите о вендор лок решениях, которые могут работать быстрее

Anton
25.10.2018
12:59:38
нет

ну isilon это вендор лок

KrivdaAllStars
25.10.2018
12:59:52
ну как нет

Страница 178 из 182