
Vladislav
08.11.2016
15:49:35

yopp
08.11.2016
15:49:48
чувак чот несёт хуйню

Eduard
08.11.2016
15:49:56
ага

yopp
08.11.2016
15:50:02
про бабки прямо не ответил

Google

yopp
08.11.2016
15:50:12
про dooms day ничо не ответил

Vladislav
08.11.2016
15:50:15
по вопросам сразу видно, что система нефига не идеальная...

yopp
08.11.2016
15:51:01
короче в кликхауз щас можно заливать данные из прометея :)
в долгосрочное хранение
метрики серверов прямо отлично хранить

Eduard
08.11.2016
15:54:54
ага

Vladislav
08.11.2016
15:55:13
на самом деле, для аналитики, а это БД позиционируется для аналитики, кликхаус полное Г, синтаксис запросов нефига не юзабилен
"1% данных касячный, ну и ладно" ?
в общем, продукт сырой, а дальше будет видно

yopp
08.11.2016
15:58:09
чувак в футболке словари чтоли пишет?
но ваще на Q&A стало понятно что это игрушка
а главное я так и не понял нахуя они туда идут
если они туда щас вгрузили миллионы человекочасов, экономии на лицензии судя по всему не выйдет

Google

yopp
08.11.2016
15:58:56
и на железе тоже
и от вертики они не отказывают, ни в коем случае
(чувак видать побоялся обидеть hp)

Eduard
08.11.2016
15:59:31
лель

Vladislav
08.11.2016
15:59:32
В общем, я сижу дальше на попе ровно на Vertica 7.2.
Если у меня будет время и мне выделят железки, я постараюсь постестить последние версии и сравнить

yopp
08.11.2016
15:59:35
судя по последней части, в производительности они тоже не особо выйграли
тоесть нахуя это всё?

Vladislav
08.11.2016
16:00:14

Eduard
08.11.2016
16:00:15
мб в долгосрочной перспективе окупится?
+ им там действительно похую на маленькие куски данных

yopp
08.11.2016
16:00:41

Vladislav
08.11.2016
16:01:07

yopp
08.11.2016
16:01:25
да какая разница в 2016 году сколько места?

Vladislav
08.11.2016
16:01:54
издержки на железо

yopp
08.11.2016
16:02:01
стоимость СХД падают с такой скоростью, что на 20% можно свободно положить хуй

Eduard
08.11.2016
16:02:04
скольок примерно стоит лецуха на вертику для их данных? )

Vladislav
08.11.2016
16:02:17
как-бы не фига не пофига, особенно 20% на таких масштабах данных

yopp
08.11.2016
16:02:25
кстати, интересный вопрос: у них зонирование у шардов есть?

Vladislav
08.11.2016
16:02:54

Google

Eduard
08.11.2016
16:03:11
судя по всему терабайт 300 у них

Vladislav
08.11.2016
16:03:14

yopp
08.11.2016
16:04:33
между событием в 10 байт и 100 байт разница на порядок

Vladislav
08.11.2016
16:05:37
смотря как хранить, по справочнику разницы вообще не будет ?

yopp
08.11.2016
16:06:16
у тебя у события 20 справочных атрибутов или 2
тебе ссылку на справочник хранить то один хер надо
дальше всё зависит от того как ссылки складываются

Serg
09.11.2016
11:04:55
привествую всех, дайте линк на чатик по R, если есть такой, буду весьма благодарен.

Ech
09.11.2016
11:34:54
Привет всем. Размышляю над своей диссертацией и думаю пойти в сторону разработки звукового софта, который бы обучался привычкам юзера по мере работы. Пока не уверен в адекватности идеи, т.к. не спец в ml и ds. Подскажите, пожалуйста, есть ли алгоритмы или методы, которые бы позволяли обновлять модель итеративно, без переобучения?

これはスタスか…ロマンですか
09.11.2016
11:37:24
stochastic learning?
like stochastic gradient descent orsmth

Ech
09.11.2016
11:39:48
Спасибо, посмотрю. Не знал, в какую сторону гуглить. А ты не видел еще что-нибудь по теме knowledge engineering + machine learning? Интересно, используют ли онтологии в ml и как

これはスタスか…ロマンですか
09.11.2016
11:40:28
https://www.coursera.org/learn/machine-learning

Ech
09.11.2016
12:08:09
Спасибо, посмотрю там про stochastic gradient descent и т.п.

/dev
09.11.2016
12:08:45

これはスタスか…ロマンですか
09.11.2016
12:09:38

/dev
09.11.2016
12:10:05
А с переобучением есть классический работающий способ — введение регуляризации

Admin
ERROR: S client not available

Леонид
09.11.2016
12:14:40

Google

Леонид
09.11.2016
12:16:39

/dev
09.11.2016
12:17:05

Ech
09.11.2016
12:20:12
Спасибо! Смотрю соответствующую вики статью, похоже на то, что надо! Я пока работаю над постановкой задачи, поэтому конкретной модели нет.
Думаю сделать онтологию предметной области, чтобы был controlled vocabulary, и использовать его термины как признаки

Andrey
09.11.2016
12:35:27
Для них есть это самое closed form solution, чтобы обновлять веса при добавлении нового наблюдения
Но можно в @datasciencechat постить

Oleksandr
09.11.2016
13:08:48

Misha
10.11.2016
08:22:05
привествую всех, вот дохожу курсы AndreNg, куда дальше двигаться? Какие направления есть?
основы понятны, как бы понять, какие задачи какие технологии используются, я сам на яве прогаю
Заранее спасибо за ответы

Andrey
10.11.2016
08:31:47
С какой целью интересуешься?

Misha
10.11.2016
08:37:28
дальше думаю развиваться по этой теме
работать там и прочее
мб какой то тестовый проект запилить, ну и построить, на том что в индустрии активно используется, чтобы это было полезно на рынке труда

Andrey
10.11.2016
08:41:44
Если работать, то смотри в конкретной сфере, кого ищут и с какими требованиями.
Но для ява-программиста это будет скорее всего даунгрейд и дауншифтинг

Misha
10.11.2016
08:43:17
а решения на Hadoop, там как раз же Java + машинное обучение?

Andrew
10.11.2016
08:43:49
Spark тогда уж

Google

Andrey
10.11.2016
08:43:54
Кому оно реально надо?
Ажиотаж уже не тот, чтобы продавать это всем подряд

Misha
10.11.2016
08:53:21
а что сейчас в тренде? На чем большинство решений строятся? Или такой однозначности нет?

Andrey
10.11.2016
08:54:24
В какой стране, опять же?

Misha
10.11.2016
08:54:50
в Рашке?

Andrey
10.11.2016
08:55:09
Нейросети с картинками кругом самая модная тема.