@bigdata_ru

Страница 21 из 327
Daniel
26.10.2016
15:14:20
математики, заведите себе инженеров для таких вопросов а то сплошь трешак какой-то, оторванный от действительности

CASSANDRA
хватит уже спамить одно и тоже требований не сформулировано, а ты постоянно пихаешь касандру как серебрянную пулю прям

Uncel
26.10.2016
15:15:42
tl;dr вам больше нужно CP, чтобы не сливать майора словами отсутствует техническая возможность

сам грепал 500tb netflow за пару часов

Google
Евгений
26.10.2016
15:16:48
ну вот в задаче в 10 раз больше, и кажется, что даже "пара часов" - это не то время, которое устроит спрашивающего

а сколько серверов было параллельно на задаче?

ну и в чем, хадуп?

Сергей
26.10.2016
15:17:36
может просто файликами на дисках

целая комната под диски

я такое видел

Uncel
26.10.2016
15:17:44
Сергей
26.10.2016
15:17:50
но объемы там были не петабайтные

Uncel
26.10.2016
15:17:55
без мапредбюсов и т.д

Eduard
26.10.2016
15:18:31
Сейчас так и есть)

может просто файликами на дисках

Сергей
26.10.2016
15:18:49
бля так вам еще надо это все куда-то залить)

Eduard
26.10.2016
15:18:55
Только диски вынимают из железок при заподнении

Google
Евгений
26.10.2016
15:19:33
ну да, если 100Мб/с диск, 500тб - это 5 миллионов секунд, 1400 часов, если за 2 часа погрепалось, то 700 дисков?

700 дисков не подключатся к одному серверу

Евгений
26.10.2016
15:20:28
вы же написали, что 500 терабайт

Daniel
26.10.2016
15:20:41
сжатие например
ок, поделить на 3-5

Uncel
26.10.2016
15:20:48
3 полки по 50 дисков на 4 терабайта

Eduard
26.10.2016
15:21:34
А на запросы мвд отвечают подключением и грепом)

Daniel
26.10.2016
15:21:57
только репликацию забыли посчитать

Евгений
26.10.2016
15:22:11
к одному серверу не подключатся, там же саташная-сказевая шина не прокачает столько

Сергей
26.10.2016
15:22:22
коды избыточности)

Евгений
26.10.2016
15:23:24
сеть всяко медленнее встроенного канала, сколько там 40 гигабит максимум?

Сергей
26.10.2016
15:23:33
IB

?

Евгений
26.10.2016
15:24:21
топовый IB FDR - это 56, а так у всех максимум 40

Сергей
26.10.2016
15:24:53
ну у if латенси поменьше будет

Евгений
26.10.2016
15:24:59
у нас мелланокс на тех же чипах, что и ethernet, 40 тянет

Сергей
26.10.2016
15:24:59
rdma всякие

малланокс, знаем плавали,знаю как панику вызвать)

Google
Uncel
26.10.2016
15:25:38
топикстартеру, посмотрите на spark и любую CP бд, у ростелека vertica + hp ium

Eduard
26.10.2016
15:25:56
Другая посоветовал рассмотреть hdfs и spark.

Евгений
26.10.2016
15:26:09
вертика до 2тб бесплатная, дальше за такой ценник, что не в эту группу вопросы задавать

Eduard
26.10.2016
15:26:14
Спасибо всем неравнодушным)

Сергей
26.10.2016
15:26:31
Другая посоветовал рассмотреть hdfs и spark. - очень даже да

Eduard
26.10.2016
15:26:51
вертика до 2тб бесплатная, дальше за такой ценник, что не в эту группу вопросы задавать
Да, будет дешевле кучу народа посадить в кладовку и заставить грепать

Сергей
26.10.2016
15:26:54
хотя все равно не дешево будет на таких объемах

так китайцев наймите

в сибири можно поотлавливать

Eduard
26.10.2016
15:27:26
?

Сергей
26.10.2016
15:27:38
тоже кейс

их там больше милиарда

можно у каждого на телефоне запускать задачи

и хранить

дешево и сердито

Eduard
26.10.2016
15:29:42
Кстати, а hive?

Сергей
26.10.2016
15:30:57
sql пободное поверх хадупа?

Uncel
26.10.2016
15:31:25
для рисковых ребят presto + scylla

Евгений
26.10.2016
15:32:29
scylla же не работает - постоянно падает, сильно слабее кассандры

Google
Евгений
26.10.2016
15:34:00
может быть на специальном железе, чтобы нормально поддерживало dpdk, и с небольшим объемом...

Евгений
26.10.2016
15:34:46
issue, серьезно? мы попробовали, запустили, поигрались, несколько раз уронили серверы - это как бы не тот уровень, когда хочется погружаться в технологию и бороться за светлое будущее

Uncel
26.10.2016
15:39:38
coredump посмотреть не rocket science

Eduard
26.10.2016
15:51:36
мне кажется, если данные дополнительно не размазывать по нодам кластера, то прироста в производительности особо не будет от мап редьюса

так как изначально данные партиционированы

Eduard
26.10.2016
15:52:48
типа город-дата-BRAS

ок, я просто нубас, если что, простите за глупость

да, я сейчас сообразил, что это первоочередная операция над данными, которую нужно сделать :)

В общем, всем спасибо. Пошел соберу песочнику на вирталках :)

Magistr
26.10.2016
16:37:58
а ничего что hdfs еще данные в х3 умножит просто для хранения

я бы стенд с кликхаусом сделал

т.к по сути там шардированые сервера + агрегация по запросу того что помещаеться в память

https://youtu.be/9ANuWEZqCUg?t=9402 Они 3Пб хранят там уже

これはスタスか…ロマンですか
26.10.2016
16:43:25
Pavel
26.10.2016
16:57:47
これはスタスか…ロマンですか А почему мы с тобой ночью по-английски общались? )

Google
Lepus
26.10.2016
17:10:04
Потому что капибара

これはスタスか…ロマンですか
26.10.2016
17:27:57
lazy

не люблю на русском писать

Tom
26.10.2016
20:15:27
@justedro насколько я понял, вопрос в построении модели, которая будет классифицировать новый IP. Так? Тогда 5ПТб вам нужны 1 раз— для построения модели.

Eduard
26.10.2016
20:15:52
Не так

Вопрос в быстром поиске по этому массиву данных

ответ должен быть точным, само собой

Tom
26.10.2016
20:17:02
Надо в этих 5 ПТб искать уже существующую запись?

https://prestodb.io/

Или Impala

これはスタスか…ロマンですか
26.10.2016
20:31:23
Eduard
26.10.2016
20:36:29
Привет, коллеги. Нужны рекомендации. Есть 5Пб netflow - записи вида ip серый, ip белый, ip назначения, время, байты. Нужно построить систему, с помощью которой максимально быстро отвечать на вопросы типа: какой серый ip ходил с такого-то белого ip на такой-то сайт в такой-то промежуток времени. Какой стек технологий посоветуете рассмотреть для решения такой задачи?

KrivdaTheTriewe
26.10.2016
20:37:20
автор

вы про железо так и не сказали

Eduard
26.10.2016
20:37:30
т.е находим n записей, удовлетворяющих условиям поиска и смотрим

KrivdaTheTriewe
26.10.2016
20:37:54
короче

Eduard
26.10.2016
20:41:51
железо потом

сейчас концепция

Страница 21 из 327