
??Dmitry????
02.02.2018
14:58:25

Kirill
02.02.2018
14:58:32
го в личку
посоветую, чем смогу
неделю убил

Google

KrivdaAllStars
02.02.2018
14:58:57
там прям таблица и у клаудеры и у хдп

Grigory
02.02.2018
15:17:51

Stanislav
02.02.2018
16:05:42
В докере лежат готовые образы
Для хдп по крайней мере

?Ivan
02.02.2018
17:44:09

??Dmitry????
02.02.2018
17:44:18
R

?Ivan
02.02.2018
17:46:02

??Dmitry????
02.02.2018
17:47:26
В CSV файлах

?Ivan
02.02.2018
17:50:28
а файлы где лежат?

Grigory
02.02.2018
20:53:29
гластер или просто по тачкам?

Nick
02.02.2018
20:54:48
гластер?
фу же

Google

??Dmitry????
02.02.2018
20:55:41
на тачке
локально
данных не так много
менее 500гб
это пока
потом будет больше
сколько не могу сказать
не известно

Nick
02.02.2018
20:56:47
значит
надо
брать
хдфс

Grigory
02.02.2018
20:57:01
Ну если будет тер то зачем хдфс
На диски положить одной тачке и все

Nick
02.02.2018
20:57:22
он
не
знает
сколько
будет
потом

Google

Nick
02.02.2018
20:57:29
о
чем
тут
можно
говорить?

Grigory
02.02.2018
20:57:58
порядки мож прикидывает? Тер два три 20 200?

??Dmitry????
02.02.2018
20:58:24
врятли рост будет взрывным
данные приростают линейно равномерно
в год может 150гб
если запилят новые фичи - будет больше

Nick
02.02.2018
20:59:17
а есть требования к консистентности?
или может реплик несколько надо?

??Dmitry????
02.02.2018
20:59:26
какие?
желательно не терять
реплики не надо

Grigory
02.02.2018
20:59:41
С моей точки зрения можно потом думать о хранении если так медленно прибывают

??Dmitry????
02.02.2018
20:59:45
средствами хадупа не надо

Nick
02.02.2018
20:59:47
а требования к скорости чтения ?

Grigory
02.02.2018
20:59:56
Лет 20 есть чтоб выбрать
или 30

Google

??Dmitry????
02.02.2018
21:00:27
я хочу ускорить все раз в сто

Nick
02.02.2018
21:00:27
требования к скорости записи?

??Dmitry????
02.02.2018
21:00:35
не, пишут мееедленно и равномерно

Nick
02.02.2018
21:00:40
пиши в постгрес)

??Dmitry????
02.02.2018
21:00:50
ибо сейчас питоном читают цс файл на несколько гб в озу
а потом что-то делают с данными
это медленно
надо БД

Grigory
02.02.2018
21:00:58
Пиши в постгрес на ссд

??Dmitry????
02.02.2018
21:01:14
девелоперы попросили хадуп поставить
они хотят технологию попробовтаь

Grigory
02.02.2018
21:01:27
Да уж не про скорость это

??Dmitry????
02.02.2018
21:01:56
сейчас запрос обсчитывается секунд 40
сложный - дольше

Nick
02.02.2018
21:02:12

Sergey
02.02.2018
21:03:26
попробуйте лучше КликХаус...

Grigory
02.02.2018
21:03:51

Nick
02.02.2018
21:04:04

Grigory
02.02.2018
21:04:16
Хотя если чтение запись и формирование файлов распределить по тачкам

Google

Nick
02.02.2018
21:04:24
нужно брать спарк и держать все в памяти
или apache ignite

Grigory
02.02.2018
21:04:30
Да
не
не игнайт
Он возьмет в память и потеряет

Nick
02.02.2018
21:04:54
ну ты можешь кафку взять))))
и юзать как базу

Grigory
02.02.2018
21:05:22
хранить терабайтные тифы как стрим байтов из кафки

Nick
02.02.2018
21:05:41
сбертех хотел файлы по кафке посылать)
полюбому сделали