@bigdata_ru

Страница 48 из 327
Nick
25.02.2017
20:37:42
Визуализировать слои и посмотреть на каком слое получился результат. Это рабочая гипотеза ;)

Matwey
25.02.2017
20:38:27
Timoti11
25.02.2017
20:39:34
Окей

Сейчас гляну

Google
Timoti11
25.02.2017
20:39:47




Мы общались с ним 2 недели

Matwey
25.02.2017
20:50:08
Мне кажется, что есть некая последовательность "ритуальных танцев" которую пользователь совершает, перед тем как уйти.
Но как это приближает к ответу на вопрос "почему?"? Все-равно придется потом додумывать что означает эта последовательность действий

Nick
25.02.2017
20:59:51
Но как это приближает к ответу на вопрос "почему?"? Все-равно придется потом додумывать что означает эта последовательность действий
Согласен. Это скорее указывает направление, в котором нужно искать причину. Возможно, у вас есть идеи как найти причину?

Nick
25.02.2017
21:03:46
У меня нет, я поэтому и спрашиваю =)
Была идея просто накидать побольше сырых данных, сделать побольше слоёв нейросети и на выходе получить важные фичи. Возможно степень важности фич будет косвенно указывать на причину

Ksenia
26.02.2017
09:57:33
Есть у кого идеи как подступиться к предсказанию ухода пользователя из платного аккаунта? По-английски Customer Churning. Пробовал разные подходы из гугла, в основном sliding window + RNN. Что-то не едут лыжи, сетка тренируется на 100 и предсказывает ересь.
По мне так сюда кластеризация просится какая-нибудь. И потом изучать, чем кластеры похожи, тут можно увидеть инсайты. Ну или логистическа многомерная регрессия какая-нибудь, я не знаю. А лучше и то и то посмотреть.

Nick
26.02.2017
10:04:18
По мне так сюда кластеризация просится какая-нибудь. И потом изучать, чем кластеры похожи, тут можно увидеть инсайты. Ну или логистическа многомерная регрессия какая-нибудь, я не знаю. А лучше и то и то посмотреть.
Спасибо! Самая простая кластеризация, как мне кажется, сравнивать пользователей, по длительности платного аккаунта: короткие, средние, длинные. И смотреть,что у них общего/разного.

Nick
26.02.2017
12:46:19
Самая простая кластеризация - автоматическая. А потом смотреть, почему так кластеризовалось
Как я понимаю, интересные (для бизнеса) кластеры можно получить если количество фич будет большим?

Google
Andrey
26.02.2017
12:49:02
Интересные кластеры можно получить, если они объективно существуют, то есть данные реально делятся на осмысленные группы. Как-то кластеризовать можно любые данные.

Леонид
26.02.2017
12:51:07
+1. Количество фич вторично

Леонид
26.02.2017
13:05:10
Например, взять центр кластера и посмотреть значения фич в нем. А дальше классически - смотреть, какие фичи объясняют variance.

Владимир
26.02.2017
13:47:28
А как можно вообще понять по каким признакам были сформированы эти кластеры?
Зависит от алгоритма, использованного для кластеризации. Вообще советую посмотреть какие бывают для этого алгоритмы. Плюс, задачу можно начать решать не с кластеризации, а с метода главных компонент. К тому же, вообще не понимаю зачем копать в кластеризацию, если вам подходят бинарные модели, то есть логрегрессии ИМХО вполне достаточно, по крайней мере для начала.

Nick
26.02.2017
17:21:56
когда я подумала немного над задачей, то есть)
Спасибо, попробую логрегрессию

когда я подумала немного над задачей, то есть)
Ксения, подскажите, а как лучше применить логрегрессию для time series data? У меня есть фичи, описывающие поведение пользователя в мобильном приложении по дням в течение года. Данные очень разрежены, то есть есть дни, когда приложение не использовалось. Насколько я понимаю, для логрегрессии мне надо сконструировать искусственные переменные, которые будут непрерывными: среднее время использования приложения, среднее количество использований за сессию и т.п.

Ksenia
27.02.2017
10:04:14
Это 3 ссылка из гугла http://mlsurveys.s3.amazonaws.com/98.pdf

Rinat
27.02.2017
10:35:46
Ребята, а правильно ли было бы задавать тут вопрос о том как лучше организовать хранение данных?

У меня есть первоначальные данные в формате csv, на основе них форируются данные в других видах для удобства дальнешего использования. Сейчас всё просто лежит на диске на одной машине. Хочется: 1) распределённое решение, для отказоустойчивости и для того что бы использовать свободное место на нескольих машинах 2) иметь возможность обращаться к этому хранилищу из Spark 3) это менее приоритетно: иметь возможность хранить неструктурированные данные

Alexander
27.02.2017
10:44:56
А самое главное то забыл...Чего с данными то делать будешь? ;) Читать/писать/ как читать/как писать/ объемы? А то мож можно и копеечным не big data решением обойтись?

Там вон у людей проблемы террабайты в секунду надо писать ,например, что народ выдумывает как их оцифровать ..Ибо микросхем ацп таких нет...А у тебя что?

Rinat
27.02.2017
10:50:28
А самое главное то забыл...Чего с данными то делать будешь? ;) Читать/писать/ как читать/как писать/ объемы? А то мож можно и копеечным не big data решением обойтись?
Это вебсервис, все данные - это логи действий пользователей. Данные поступают на данный момент примерно 200 Гб в месяц, но будет больше, раза в два. Раз в сутки сейчас генерируется более удобные форматы данных на основе "сырых" и раз в месяц генерируются отчёты, никакого realtime.

Alexander
27.02.2017
10:51:08
Как долго хранить это добро надо?

Google
Rinat
27.02.2017
10:52:05
хочется иметь такое решение в которое можно было бы сливать все данные всех вспомогательных сервисов (штук 10), и некоторые ротировать, а некоторые хранить "вечно"

Alexander
27.02.2017
10:52:22
После генерации отчетов данные нужны?

Rinat
27.02.2017
10:53:06
После генерации отчетов данные нужны?
первоначальные нет, а "более удобные структуры" ещё пару-тройку месяцев надо хранить

Владимир
27.02.2017
10:53:26
Какие тогда надо?
Чтобы не ухудшить модель, нужно оставить числовые переменные (любого типа) как есть.

Nick
27.02.2017
10:54:40
Чтобы не ухудшить модель, нужно оставить числовые переменные (любого типа) как есть.
Нужно ли данные нормализовывать и что делать с периодами, когда данных нет - везде 0 ?

Rinat
27.02.2017
10:57:21
clickhouse вполне себе
спасибо, почитаю, может что-нибудь ещё для ... альтернативы?)

Alexander
27.02.2017
10:58:07
Если вопрос денег не стоит или уложить в террабайт можно : vertica

Владимир
27.02.2017
10:58:39
спасибо, почитаю, может что-нибудь ещё для ... альтернативы?)
Для ваших объёмов подойдёт нормальная реляционная СУБД, clickhouse далеко не идеальное решение. Слишком многим он жертвует ради скорости.

Alexander
27.02.2017
10:59:43
Логи в СУБД - это роскошь по умолчанию ;)) логи базы, бекапы и т.д и тп

Владимир
27.02.2017
10:59:55
Потом замучаетесь приводить данные в нормальную форму. Для нормального пользования clickhouse нужно хорошее понимание СУБД, иначе потом повылазят косяки.

Admin
ERROR: S client not available

Rinat
27.02.2017
11:00:37
Для ваших объёмов подойдёт нормальная реляционная СУБД, clickhouse далеко не идеальное решение. Слишком многим он жертвует ради скорости.
Ну, кстати может быть и да, почему то про реляционные БД я даже не думал, а начал смотреть сразу в nosql

Владимир
27.02.2017
11:01:22
Нужно ли данные нормализовывать и что делать с периодами, когда данных нет - везде 0 ?
Нормализовать не нужно, к нулю ни в коем случае приводить нельзя!

Либо игнорировать такие данные в модели, либо сначала их дополнить на основе другой регрессионной модели.

Rinat
27.02.2017
11:03:57
Файлы не самый плохой вариант для логов
У меня куча серваков на которых диски недоиспользованы, поэтому захотелось все файлы куда-нибудь сунуть, как я уже писал выше, ради большего места хранение и надёжности

Владимир
27.02.2017
11:04:26
Google
Andrey
27.02.2017
11:27:07
Можно бинарные форматы использовать, типа feather

Vitalii
27.02.2017
11:37:58
а кто нибудь сталкивался с задачай распозанавание производителей телефонов по картинке, например мне нужно выбрать все телефоны от huawei с какого сета

?

заказчик пробовал на visual-recognition-demo.mybluemix.net

но результаты довольно плохие

в какую строну можно посмотреть (тулзы, сервисы)

Ivan
27.02.2017
11:42:43
а выборка есть?

если есть то примеров реализации было много - первое что на ум приходит кегля от авито на классификацию по фоточкам

Vitalii
27.02.2017
11:53:41
да, выборка есть

Andrey
27.02.2017
12:00:06
Наверное, лучше обучать нейросетку с нуля, предобученные модели на других датасетах могут оказаться бесполезными

/dev
27.02.2017
15:55:31
Наверное, лучше обучать нейросетку с нуля, предобученные модели на других датасетах могут оказаться бесполезными
Интересно, что модель скажет про черный прямоугольник. Чей же он, кому принадлежит? Apple или Samsung?

Andrey
27.02.2017
15:59:06
С тыльной стороны есть кое-какие различия. Если экран включен, то интерфейсы тоже отличаются

Nick
27.02.2017
16:14:00
У меня куча серваков на которых диски недоиспользованы, поэтому захотелось все файлы куда-нибудь сунуть, как я уже писал выше, ради большего места хранение и надёжности
Если вам нужны логи по которым можно делать запросы, в одном проекте мы делали logstash + elastic search (обязательно не менее 3ех нод!) Пару сотен ГБ держит нормально. Дальше упирается в размер оперативной памяти.

На Амазоне память можно докупить, но это стоит денег. Зато запросы почти реалтайм

Страница 48 из 327