
yopp
20.10.2016
22:26:14
1.5 млн строк в монге будет плохо
хотя для 20 символов покатит
хотя магии никакой нет, там btree
или hash-key, который тоже в итоге btree только по отпечатку

Google

Sergey
20.10.2016
22:27:04

yopp
20.10.2016
22:28:00
задача так себе сформулированна
так что не зайдёт :)

Sergey
20.10.2016
22:28:27
Согласен про формулировку.

yopp
20.10.2016
22:28:36
непонятно что такое «наиболее вероятных»
совпадает начало? тогда можно обычный текстовый индекс
по степени фонетической схожети? типа Jo -> Jose | Joshua | Ioan? тогда не зайдёт даже текстовый

Sergey
20.10.2016
22:30:40
Опять же смотря что за язык

これはスタスか…ロマンですか
25.10.2016
21:36:34
why is x(1)^2 considered a separate feature from x(1)?

Pavel
25.10.2016
22:01:53

これはスタスか…ロマンですか
25.10.2016
22:03:11
they're still dependant tho, aren't they?

Pavel
25.10.2016
22:04:21
yep

Google

これはスタスか…ロマンですか
25.10.2016
22:05:30
does that mean that you can use temperature expressed in different scales as different features/

Pavel
25.10.2016
22:06:26
most likely that's not a good idea since they're linearly dependent

これはスタスか…ロマンですか
25.10.2016
22:07:30
what if one of the scales is logarithmic?

Pavel
25.10.2016
22:10:00
logarithm might be a good idea, then it depends on your data
rule of thumb: a model shouldn't be able to kind of re-construct a feature from some other features
e.g. if you have linear regression, then a feature shouldn't be linearly defined via other features
(someone please correct me if i'm wrong)

Lepus
26.10.2016
07:10:48
there are some advices to construct new features like x_1^2

Oleksandr
26.10.2016
08:34:00
for regularization, that's completely different beast
also some models are fine with dependent features
anyway, in most cases, features are somewhat dependent

Eduard
26.10.2016
14:49:56
Привет, коллеги. Нужны рекомендации.
Есть 5Пб netflow - записи вида ip серый, ip белый, ip назначения, время, байты. Нужно построить систему, с помощью которой максимально быстро отвечать на вопросы типа: какой серый ip ходил с такого-то белого ip на такой-то сайт в такой-то промежуток времени. Какой стек технологий посоветуете рассмотреть для решения такой задачи?

KrivdaTheTriewe
26.10.2016
14:55:09
Спарк плюс Кассандра

Евгений
26.10.2016
15:01:22
5Pb - это в штуках сколько? сколько уникальных адресов? вторичные индексы кассандры могут не справиться, нужно будет шардировать по времени, но если растет нагрузка, то нужно будет еще что-то придумывать. скорее всего смотреть старое время не нужно, и этот кусок можно сгрузить в какой-ниьбудь хадуп или спарк, а свежий горячий положить в hbase

Сергей
26.10.2016
15:01:49
5Пб netflow - это за сколько лет и на какой абон базе?

ptchol
26.10.2016
15:04:35

Eduard
26.10.2016
15:06:31

Сергей
26.10.2016
15:06:57
ого

Eduard
26.10.2016
15:07:57
Запрос может прийти в теории за любую дату

Евгений
26.10.2016
15:08:05
в druid 5петабайт еще загрузить надо, при этом у него создаются специальные индексы под конкретные запросы, и если запрос потом поменяется, то это снова full scan

Google

Сергей
26.10.2016
15:08:21
https://www.kentik.com/
не смотрели

Eduard
26.10.2016
15:08:24
Тут цель на запрос оперативно отвечать
А не доставать диск из шкафа и грепать отчет на 1000 страниц
?

Сергей
26.10.2016
15:09:05
ну хадут кластер и свой мепредьюс )

KrivdaTheTriewe
26.10.2016
15:09:07
Cassandra

Евгений
26.10.2016
15:09:14
я не видел системы, которая на 5 петабайт отвечает на раз-два-три, и не видел системы, в которой на самом-то деле нужно по 5 петабайтам в реальном времени шариться, обычно это горячие данные в реальном времени и архивные в каком-то более или менее оффлайновом режиме

Сергей
26.10.2016
15:09:16
а потмо результаты в какую-то дб

これはスタスか…ロマンですか
26.10.2016
15:09:16

Евгений
26.10.2016
15:09:30
кассандра на 5 петабайт? нет

これはスタスか…ロマンですか
26.10.2016
15:09:39
>оперативно

KrivdaTheTriewe
26.10.2016
15:09:42
Распихать спарком в касандру

Uncel
26.10.2016
15:09:45
scylla

Сергей
26.10.2016
15:09:47
касндра разве будет быстро отвечать?

KrivdaTheTriewe
26.10.2016
15:09:48
и касандра быстро отдавать будет
всё
да

Uncel
26.10.2016
15:09:50
если сроки не жмут

KrivdaTheTriewe
26.10.2016
15:09:54
она на чтение быстрая

Google

これはスタスか…ロマンですか
26.10.2016
15:09:54
>хадут кластер и свой мепредьюc

Eduard
26.10.2016
15:10:09
Оперативно - за несколько часов хотя бы)

これはスタスか…ロマンですか
26.10.2016
15:10:10
maybe impala

Сергей
26.10.2016
15:10:20
одни люди говорят сасандра быстрая на запись, другие н ачтение, третьи вообще говорят у нее главное не это)

Eduard
26.10.2016
15:10:37
?

これはスタスか…ロマンですか
26.10.2016
15:10:51
hadoop is high throughput instead of low latency

Uncel
26.10.2016
15:10:57
btw ростелек?

Евгений
26.10.2016
15:11:06
кассандра быстрая на запись, но она не потянет такой массив, как key-value может быть, с индексами нет

Eduard
26.10.2016
15:11:08
ЭР-Телеком

KrivdaTheTriewe
26.10.2016
15:11:10

Евгений
26.10.2016
15:11:20
почти наверняка никто не потянет в реальном времени

KrivdaTheTriewe
26.10.2016
15:11:26

Сергей
26.10.2016
15:11:28
5 петабайт несколько секунд?
о народ кликхаус у яндекса

Евгений
26.10.2016
15:11:52
разбивать на архив-свежее, тогда много вариантов, по архиву за минуты-часы, по свежему в реальном времени

KrivdaTheTriewe
26.10.2016
15:11:55
но почему не потянет

Сергей
26.10.2016
15:11:57
а ккурат у них там данные большие и они для своей аналитики по яндекс метрикам ее писали

Евгений
26.10.2016
15:12:06
кликхаус - это не про то

Uncel
26.10.2016
15:12:25

Евгений
26.10.2016
15:12:36
кликхаус - это как раз свежие данные, из них быстро получить отчет

Google

Сергей
26.10.2016
15:12:37
думаете?

Eduard
26.10.2016
15:12:40
Ну и вообще прирост гдет 15 тб в день

Евгений
26.10.2016
15:12:49
положить 5 петабайт в кликхаус, ну... попробуйте)

Сергей
26.10.2016
15:12:56
ну положил их в кликхаус вот они и свежие)
ну я так на уровне бреда

Uncel
26.10.2016
15:13:25
Нечто аналогичное tetrayon у cisco
только там ехала java через java

Евгений
26.10.2016
15:13:37
сколько у вас серверов-то "на уровне бреда"?

KrivdaTheTriewe
26.10.2016
15:14:02
CASSANDRA