
Nick
25.02.2017
20:37:42
Визуализировать слои и посмотреть на каком слое получился результат. Это рабочая гипотеза ;)

Matwey
25.02.2017
20:38:27

Timoti11
25.02.2017
20:39:34
Окей
Сейчас гляну

Google

Timoti11
25.02.2017
20:39:47
Мы общались с ним 2 недели

Nick
25.02.2017
20:47:17

Matwey
25.02.2017
20:50:08

Nick
25.02.2017
20:59:51

Matwey
25.02.2017
21:00:22

Nick
25.02.2017
21:03:46
У меня нет, я поэтому и спрашиваю =)
Была идея просто накидать побольше сырых данных, сделать побольше слоёв нейросети и на выходе получить важные фичи. Возможно степень важности фич будет косвенно указывать на причину

Vladimir
26.02.2017
09:49:47

Ksenia
26.02.2017
09:57:33

Nick
26.02.2017
10:04:18

Леонид
26.02.2017
12:30:33

Nick
26.02.2017
12:46:19

Google

Andrey
26.02.2017
12:49:02
Интересные кластеры можно получить, если они объективно существуют, то есть данные реально делятся на осмысленные группы. Как-то кластеризовать можно любые данные.

Леонид
26.02.2017
12:51:07
+1. Количество фич вторично

Nick
26.02.2017
12:51:19

Леонид
26.02.2017
13:05:10
Например, взять центр кластера и посмотреть значения фич в нем. А дальше классически - смотреть, какие фичи объясняют variance.

Владимир
26.02.2017
13:47:28
А как можно вообще понять по каким признакам были сформированы эти кластеры?
Зависит от алгоритма, использованного для кластеризации. Вообще советую посмотреть какие бывают для этого алгоритмы. Плюс, задачу можно начать решать не с кластеризации, а с метода главных компонент. К тому же, вообще не понимаю зачем копать в кластеризацию, если вам подходят бинарные модели, то есть логрегрессии ИМХО вполне достаточно, по крайней мере для начала.

/dev
26.02.2017
14:11:17

Ksenia
26.02.2017
15:57:15
когда я подумала немного над задачей, то есть)


Nick
26.02.2017
17:21:56
когда я подумала немного над задачей, то есть)
Ксения, подскажите, а как лучше применить логрегрессию для time series data? У меня есть фичи, описывающие поведение пользователя в мобильном приложении по дням в течение года. Данные очень разрежены, то есть есть дни, когда приложение не использовалось. Насколько я понимаю, для логрегрессии мне надо сконструировать искусственные переменные, которые будут непрерывными: среднее время использования приложения, среднее количество использований за сессию и т.п.


Ksenia
27.02.2017
10:04:14
Ксения, подскажите, а как лучше применить логрегрессию для time series data? У меня есть фичи, описывающие поведение пользователя в мобильном приложении по дням в течение года. Данные очень разрежены, то есть есть дни, когда приложение не использовалось. Насколько я понимаю, для логрегрессии мне надо сконструировать искусственные переменные, которые будут непрерывными: среднее время использования приложения, среднее количество использований за сессию и т.п.
Первая ссылка из гугла хорошая, имхо: http://stats.stackexchange.com/questions/263715/binary-classification-on-time-series-data
?
И я бы в вашем случае data mining of time series погуглила еще бы на предмет того, что делать с отсутствующими точками, это специальный вопрос, я не сталкивалась, но верю, что уже миллион методов придумали.
Это 3 ссылка из гугла http://mlsurveys.s3.amazonaws.com/98.pdf

Владимир
27.02.2017
10:29:07


Rinat
27.02.2017
10:35:46
Ребята, а правильно ли было бы задавать тут вопрос о том как лучше организовать хранение данных?
У меня есть первоначальные данные в формате csv, на основе них форируются данные в других видах для удобства дальнешего использования. Сейчас всё просто лежит на диске на одной машине. Хочется: 1) распределённое решение, для отказоустойчивости и для того что бы использовать свободное место на нескольих машинах 2) иметь возможность обращаться к этому хранилищу из Spark 3) это менее приоритетно: иметь возможность хранить неструктурированные данные

Alexander
27.02.2017
10:44:56
А самое главное то забыл...Чего с данными то делать будешь? ;) Читать/писать/ как читать/как писать/ объемы? А то мож можно и копеечным не big data решением обойтись?
Там вон у людей проблемы террабайты в секунду надо писать ,например, что народ выдумывает как их оцифровать ..Ибо микросхем ацп таких нет...А у тебя что?

Rinat
27.02.2017
10:50:28

Alexander
27.02.2017
10:51:08
Как долго хранить это добро надо?

Nick
27.02.2017
10:51:19

Google

Rinat
27.02.2017
10:52:05
хочется иметь такое решение в которое можно было бы сливать все данные всех вспомогательных сервисов (штук 10), и некоторые ротировать, а некоторые хранить "вечно"

Alexander
27.02.2017
10:52:22
После генерации отчетов данные нужны?

Rinat
27.02.2017
10:53:06

Владимир
27.02.2017
10:53:26
Какие тогда надо?
Чтобы не ухудшить модель, нужно оставить числовые переменные (любого типа) как есть.

Nick
27.02.2017
10:54:40

Alexander
27.02.2017
10:55:58

Rinat
27.02.2017
10:57:21

Alexander
27.02.2017
10:58:07
Если вопрос денег не стоит или уложить в террабайт можно : vertica

Rinat
27.02.2017
10:58:33

Владимир
27.02.2017
10:58:39

Alexander
27.02.2017
10:59:43
Логи в СУБД - это роскошь по умолчанию ;)) логи базы, бекапы и т.д и тп

Владимир
27.02.2017
10:59:55
Потом замучаетесь приводить данные в нормальную форму. Для нормального пользования clickhouse нужно хорошее понимание СУБД, иначе потом повылазят косяки.

Admin
ERROR: S client not available

Rinat
27.02.2017
11:00:37

Владимир
27.02.2017
11:01:22
Либо игнорировать такие данные в модели, либо сначала их дополнить на основе другой регрессионной модели.

Alexander
27.02.2017
11:02:23

Rinat
27.02.2017
11:03:57
Файлы не самый плохой вариант для логов
У меня куча серваков на которых диски недоиспользованы, поэтому захотелось все файлы куда-нибудь сунуть, как я уже писал выше, ради большего места хранение и надёжности

Владимир
27.02.2017
11:04:26

Nick
27.02.2017
11:19:45

Google

Rinat
27.02.2017
11:21:00

Andrey
27.02.2017
11:27:07
Можно бинарные форматы использовать, типа feather

Vitalii
27.02.2017
11:37:58
а кто нибудь сталкивался с задачай распозанавание производителей телефонов по картинке, например мне нужно выбрать все телефоны от huawei с какого сета
?
заказчик пробовал на visual-recognition-demo.mybluemix.net
но результаты довольно плохие
в какую строну можно посмотреть (тулзы, сервисы)

Ivan
27.02.2017
11:42:43
а выборка есть?
если есть то примеров реализации было много - первое что на ум приходит кегля от авито на классификацию по фоточкам

Vitalii
27.02.2017
11:53:41
да, выборка есть

Andrey
27.02.2017
12:00:06
Наверное, лучше обучать нейросетку с нуля, предобученные модели на других датасетах могут оказаться бесполезными

/dev
27.02.2017
15:55:31

Andrey
27.02.2017
15:59:06
С тыльной стороны есть кое-какие различия. Если экран включен, то интерфейсы тоже отличаются

Nick
27.02.2017
16:14:00
На Амазоне память можно докупить, но это стоит денег. Зато запросы почти реалтайм

Rinat
27.02.2017
16:17:29