
Daniel
26.10.2016
15:14:20
математики, заведите себе инженеров для таких вопросов
а то сплошь трешак какой-то, оторванный от действительности
CASSANDRA
хватит уже спамить одно и тоже
требований не сформулировано, а ты постоянно пихаешь касандру как серебрянную пулю прям

Uncel
26.10.2016
15:15:42
tl;dr вам больше нужно CP, чтобы не сливать майора словами отсутствует техническая возможность
сам грепал 500tb netflow за пару часов

Google

Евгений
26.10.2016
15:16:48
ну вот в задаче в 10 раз больше, и кажется, что даже "пара часов" - это не то время, которое устроит спрашивающего
а сколько серверов было параллельно на задаче?
ну и в чем, хадуп?

Сергей
26.10.2016
15:17:36
может просто файликами на дисках
целая комната под диски
я такое видел

Uncel
26.10.2016
15:17:44

Сергей
26.10.2016
15:17:50
но объемы там были не петабайтные

Uncel
26.10.2016
15:17:55
без мапредбюсов и т.д

Eduard
26.10.2016
15:18:31
Сейчас так и есть)
может просто файликами на дисках

Сергей
26.10.2016
15:18:49
бля так вам еще надо это все куда-то залить)

Eduard
26.10.2016
15:18:55
Только диски вынимают из железок при заподнении

Google

Евгений
26.10.2016
15:19:33
ну да, если 100Мб/с диск, 500тб - это 5 миллионов секунд, 1400 часов, если за 2 часа погрепалось, то 700 дисков?
700 дисков не подключатся к одному серверу

Uncel
26.10.2016
15:20:06

Евгений
26.10.2016
15:20:28
вы же написали, что 500 терабайт

Daniel
26.10.2016
15:20:41

Uncel
26.10.2016
15:20:48
3 полки по 50 дисков на 4 терабайта

Eduard
26.10.2016
15:21:34
А на запросы мвд отвечают подключением и грепом)

Daniel
26.10.2016
15:21:57
только репликацию забыли посчитать

Евгений
26.10.2016
15:22:11
к одному серверу не подключатся, там же саташная-сказевая шина не прокачает столько

Сергей
26.10.2016
15:22:22
коды избыточности)

Uncel
26.10.2016
15:22:57

Евгений
26.10.2016
15:23:24
сеть всяко медленнее встроенного канала, сколько там 40 гигабит максимум?

Сергей
26.10.2016
15:23:33
IB
?

Евгений
26.10.2016
15:24:21
топовый IB FDR - это 56, а так у всех максимум 40

Uncel
26.10.2016
15:24:29

Сергей
26.10.2016
15:24:53
ну у if латенси поменьше будет

Евгений
26.10.2016
15:24:59
у нас мелланокс на тех же чипах, что и ethernet, 40 тянет

Сергей
26.10.2016
15:24:59
rdma всякие
малланокс, знаем плавали,знаю как панику вызвать)

Google

Uncel
26.10.2016
15:25:38
топикстартеру, посмотрите на spark и любую CP бд, у ростелека vertica + hp ium

Eduard
26.10.2016
15:25:56
Другая посоветовал рассмотреть hdfs и spark.

Евгений
26.10.2016
15:26:09
вертика до 2тб бесплатная, дальше за такой ценник, что не в эту группу вопросы задавать

Eduard
26.10.2016
15:26:14
Спасибо всем неравнодушным)

Сергей
26.10.2016
15:26:31
Другая посоветовал рассмотреть hdfs и spark. - очень даже да

Eduard
26.10.2016
15:26:51

Сергей
26.10.2016
15:26:54
хотя все равно не дешево будет на таких объемах
так китайцев наймите
в сибири можно поотлавливать

Eduard
26.10.2016
15:27:26
?

Сергей
26.10.2016
15:27:38
тоже кейс
их там больше милиарда
можно у каждого на телефоне запускать задачи
и хранить
дешево и сердито

Eduard
26.10.2016
15:29:42
Кстати, а hive?

Сергей
26.10.2016
15:30:57
sql пободное поверх хадупа?

Uncel
26.10.2016
15:31:25
для рисковых ребят presto + scylla

Евгений
26.10.2016
15:32:29
scylla же не работает - постоянно падает, сильно слабее кассандры

Uncel
26.10.2016
15:32:57

Google

Евгений
26.10.2016
15:34:00
может быть на специальном железе, чтобы нормально поддерживало dpdk, и с небольшим объемом...

Uncel
26.10.2016
15:34:44

Евгений
26.10.2016
15:34:46
issue, серьезно? мы попробовали, запустили, поигрались, несколько раз уронили серверы - это как бы не тот уровень, когда хочется погружаться в технологию и бороться за светлое будущее

Uncel
26.10.2016
15:39:38
coredump посмотреть не rocket science

これはスタスか…ロマンですか
26.10.2016
15:45:47

Eduard
26.10.2016
15:51:36
мне кажется, если данные дополнительно не размазывать по нодам кластера, то прироста в производительности особо не будет от мап редьюса
так как изначально данные партиционированы

これはスタスか…ロマンですか
26.10.2016
15:51:59
distributed computing
that's what HDFS is for

Eduard
26.10.2016
15:52:48
типа город-дата-BRAS
ок, я просто нубас, если что, простите за глупость
да, я сейчас сообразил, что это первоочередная операция над данными, которую нужно сделать :)
В общем, всем спасибо. Пошел соберу песочнику на вирталках :)

Magistr
26.10.2016
16:37:58
а ничего что hdfs еще данные в х3 умножит просто для хранения
я бы стенд с кликхаусом сделал
т.к по сути там шардированые сервера + агрегация по запросу того что помещаеться в память
https://youtu.be/9ANuWEZqCUg?t=9402 Они 3Пб хранят там уже

これはスタスか…ロマンですか
26.10.2016
16:43:25

Pavel
26.10.2016
16:57:47
これはスタスか…ロマンですか А почему мы с тобой ночью по-английски общались? )

Google

Lepus
26.10.2016
17:10:04
Потому что капибара

これはスタスか…ロマンですか
26.10.2016
17:27:57
lazy
не люблю на русском писать

Tom
26.10.2016
20:15:27
@justedro насколько я понял, вопрос в построении модели, которая будет классифицировать новый IP. Так? Тогда 5ПТб вам нужны 1 раз— для построения модели.

Eduard
26.10.2016
20:15:52
Не так
Вопрос в быстром поиске по этому массиву данных
ответ должен быть точным, само собой

Tom
26.10.2016
20:17:02
Надо в этих 5 ПТб искать уже существующую запись?
https://prestodb.io/
Или Impala

これはスタスか…ロマンですか
26.10.2016
20:31:23

Eduard
26.10.2016
20:36:29
Привет, коллеги. Нужны рекомендации.
Есть 5Пб netflow - записи вида ip серый, ip белый, ip назначения, время, байты. Нужно построить систему, с помощью которой максимально быстро отвечать на вопросы типа: какой серый ip ходил с такого-то белого ip на такой-то сайт в такой-то промежуток времени. Какой стек технологий посоветуете рассмотреть для решения такой задачи?

KrivdaTheTriewe
26.10.2016
20:37:20
автор
вы про железо так и не сказали

Eduard
26.10.2016
20:37:30
т.е находим n записей, удовлетворяющих условиям поиска и смотрим

KrivdaTheTriewe
26.10.2016
20:37:54
короче

Eduard
26.10.2016
20:41:51
железо потом
сейчас концепция