@bigdata_ru

« Назад

Страница 20 из 327

Далее »

yopp

20.10.2016
22:26:14

1.5 млн строк в монге будет плохо

хотя для 20 символов покатит

хотя магии никакой нет, там btree

или hash-key, который тоже в итоге btree только по отпечатку

Google

Sergey

20.10.2016
22:27:04

1.5 млн строк в монге будет плохо

Отнюдь. Даже текстовый индекс легко зайдет

yopp

20.10.2016
22:28:00

задача так себе сформулированна

так что не зайдёт :)

Sergey

20.10.2016
22:28:27

Согласен про формулировку.

yopp

20.10.2016
22:28:36

непонятно что такое «наиболее вероятных»

совпадает начало? тогда можно обычный текстовый индекс

по степени фонетической схожети? типа Jo -> Jose | Joshua | Ioan? тогда не зайдёт даже текстовый

совпадает начало? тогда можно обычный текстовый индекс

в смысле просто обычный индекс

Sergey

20.10.2016
22:30:40

Опять же смотря что за язык

これはスタスか…ロマンですか

25.10.2016
21:36:34

why is x(1)^2 considered a separate feature from x(1)?

Pavel

25.10.2016
22:01:53

why is x(1)^2 considered a separate feature from x(1)?

I suppose because they're linearly independent

これはスタスか…ロマンですか

25.10.2016
22:03:11

they're still dependant tho, aren't they?

Pavel

25.10.2016
22:04:21

yep

Google

これはスタスか…ロマンですか

25.10.2016
22:05:30

does that mean that you can use temperature expressed in different scales as different features/

Pavel

25.10.2016
22:06:26

most likely that's not a good idea since they're linearly dependent

これはスタスか…ロマンですか

25.10.2016
22:07:30

what if one of the scales is logarithmic?

Pavel

25.10.2016
22:10:00

logarithm might be a good idea, then it depends on your data

rule of thumb: a model shouldn't be able to kind of re-construct a feature from some other features

e.g. if you have linear regression, then a feature shouldn't be linearly defined via other features

(someone please correct me if i'm wrong)

Lepus

26.10.2016
07:10:48

rule of thumb: a model shouldn't be able to kind of re-construct a feature from some other features

Not sure about this

there are some advices to construct new features like x_1^2

Oleksandr

26.10.2016
08:34:00

for regularization, that's completely different beast

also some models are fine with dependent features anyway, in most cases, features are somewhat dependent

Eduard

26.10.2016
14:49:56

Привет, коллеги. Нужны рекомендации. Есть 5Пб netflow - записи вида ip серый, ip белый, ip назначения, время, байты. Нужно построить систему, с помощью которой максимально быстро отвечать на вопросы типа: какой серый ip ходил с такого-то белого ip на такой-то сайт в такой-то промежуток времени. Какой стек технологий посоветуете рассмотреть для решения такой задачи?

KrivdaTheTriewe

26.10.2016
14:55:09

Спарк плюс Кассандра

Евгений

26.10.2016
15:01:22

5Pb - это в штуках сколько? сколько уникальных адресов? вторичные индексы кассандры могут не справиться, нужно будет шардировать по времени, но если растет нагрузка, то нужно будет еще что-то придумывать. скорее всего смотреть старое время не нужно, и этот кусок можно сгрузить в какой-ниьбудь хадуп или спарк, а свежий горячий положить в hbase

Сергей

26.10.2016
15:01:49

5Пб netflow - это за сколько лет и на какой абон базе?

ptchol

26.10.2016
15:04:35

5Pb - это в штуках сколько? сколько уникальных адресов? вторичные индексы кассандры могут не справиться, нужно будет шардировать по времени, но если растет нагрузка, то нужно будет еще что-то придумывать. скорее всего смотреть старое время не нужно, и этот кусок можно сгрузить в какой-ниьбудь хадуп или спарк, а свежий горячий положить в hbase

вроде druid имеет оптимизации в архитектуре как раз для такого кейса. или мне показалось :)

Eduard

26.10.2016
15:06:31

5Пб netflow - это за сколько лет и на какой абон базе?

3 года, около 3млн чел вроде

Сергей

26.10.2016
15:06:57

ого

Eduard

26.10.2016
15:07:57

Запрос может прийти в теории за любую дату

Евгений

26.10.2016
15:08:05

в druid 5петабайт еще загрузить надо, при этом у него создаются специальные индексы под конкретные запросы, и если запрос потом поменяется, то это снова full scan

Google

Сергей

26.10.2016
15:08:21

https://www.kentik.com/

не смотрели

Eduard

26.10.2016
15:08:24

Тут цель на запрос оперативно отвечать

А не доставать диск из шкафа и грепать отчет на 1000 страниц

?

Сергей

26.10.2016
15:09:05

ну хадут кластер и свой мепредьюс )

KrivdaTheTriewe

26.10.2016
15:09:07

Cassandra

Евгений

26.10.2016
15:09:14

я не видел системы, которая на 5 петабайт отвечает на раз-два-три, и не видел системы, в которой на самом-то деле нужно по 5 петабайтам в реальном времени шариться, обычно это горячие данные в реальном времени и архивные в каком-то более или менее оффлайновом режиме

Сергей

26.10.2016
15:09:16

а потмо результаты в какую-то дб

これはスタスか…ロマンですか

26.10.2016
15:09:16

ну хадут кластер и свой мепредьюс )

kek

Евгений

26.10.2016
15:09:30

кассандра на 5 петабайт? нет

これはスタスか…ロマンですか

26.10.2016
15:09:39

>оперативно

KrivdaTheTriewe

26.10.2016
15:09:42

Распихать спарком в касандру

Uncel

26.10.2016
15:09:45

scylla

Сергей

26.10.2016
15:09:47

касндра разве будет быстро отвечать?

KrivdaTheTriewe

26.10.2016
15:09:48

и касандра быстро отдавать будет

всё

да

Uncel

26.10.2016
15:09:50

если сроки не жмут

KrivdaTheTriewe

26.10.2016
15:09:54

она на чтение быстрая

Google

これはスタスか…ロマンですか

26.10.2016
15:09:54

>хадут кластер и свой мепредьюc

Eduard

26.10.2016
15:10:09

Оперативно - за несколько часов хотя бы)

これはスタスか…ロマンですか

26.10.2016
15:10:10

maybe impala

Сергей

26.10.2016
15:10:20

одни люди говорят сасандра быстрая на запись, другие н ачтение, третьи вообще говорят у нее главное не это)

Eduard

26.10.2016
15:10:37

?

これはスタスか…ロマンですか

26.10.2016
15:10:51

hadoop is high throughput instead of low latency

Uncel

26.10.2016
15:10:57

btw ростелек?

Евгений

26.10.2016
15:11:06

кассандра быстрая на запись, но она не потянет такой массив, как key-value может быть, с индексами нет

Eduard

26.10.2016
15:11:08

ЭР-Телеком

KrivdaTheTriewe

26.10.2016
15:11:10

Оперативно - за несколько часов хотя бы)

я думаю несколько секунд

Евгений

26.10.2016
15:11:20

почти наверняка никто не потянет в реальном времени

KrivdaTheTriewe

26.10.2016
15:11:26

кассандра быстрая на запись, но она не потянет такой массив, как key-value может быть, с индексами нет

массив то масив

Сергей

26.10.2016
15:11:28

5 петабайт несколько секунд?

о народ кликхаус у яндекса

Евгений

26.10.2016
15:11:52

разбивать на архив-свежее, тогда много вариантов, по архиву за минуты-часы, по свежему в реальном времени

KrivdaTheTriewe

26.10.2016
15:11:55

но почему не потянет

Сергей

26.10.2016
15:11:57

а ккурат у них там данные большие и они для своей аналитики по яндекс метрикам ее писали

Евгений

26.10.2016
15:12:06

кликхаус - это не про то

Uncel

26.10.2016
15:12:25

ЭР-Телеком

попинайте датафактори у яндекса

Евгений

26.10.2016
15:12:36

кликхаус - это как раз свежие данные, из них быстро получить отчет

Google

Сергей

26.10.2016
15:12:37

думаете?

Eduard

26.10.2016
15:12:40

Ну и вообще прирост гдет 15 тб в день

Евгений

26.10.2016
15:12:49

положить 5 петабайт в кликхаус, ну... попробуйте)

Сергей

26.10.2016
15:12:56

ну положил их в кликхаус вот они и свежие)

ну я так на уровне бреда

Uncel

26.10.2016
15:13:25

Нечто аналогичное tetrayon у cisco

только там ехала java через java

Евгений

26.10.2016
15:13:37

сколько у вас серверов-то "на уровне бреда"?

KrivdaTheTriewe

26.10.2016
15:14:02

CASSANDRA

« Назад

Страница 20 из 327

Далее »

Открыть в Telegram