
Vladimir
07.12.2017
09:59:31
Всем привет, подскажите, пожалуйста, что почитать для решения довольно стандартной задачи
Есть таблица с пользователями, у каждого пользователя 17 описательных атрибутов.
Есть таблица с посещениями пользователя разных страниц сайта
Задача - сгруппировать пользователей на N сегментов по признакам из таблицы 1 так, чтобы их поведение в таблице 2 было наиболее похожим.

Henadz
07.12.2017
10:02:17

Vladimir
07.12.2017
10:07:15

Henadz
07.12.2017
10:08:46

Google

Vladimir
07.12.2017
10:10:31

Henadz
07.12.2017
10:14:15
ну расстояние можно считать по разному, L1, L2, L0, cosine distance, Jaccard distance, etc. Всё зависит от того, как Вы захотите перевести вектора посещённых сайтов в расстояния
ну а по линейной регрессии гайдов навалом на любой вкус
пожалуй один из самых простых алгоритмов машинного обучения
вон банально sklearn.linear_model.LinearRegression можете попробовать

Vladimir
07.12.2017
10:20:07

Henadz
07.12.2017
10:21:23
ну попробуйте тогда L2. Оно же классическое расстояние между векторами (как в школе учили). Т.е. корень из суммы квадратов
тут нет универсальных рецептов, надо брать свои данные, ворох всех возможных вариантов модели и пробовать

Vladimir
07.12.2017
10:26:27

Henadz
07.12.2017
10:27:24
если подобная модель сработала, то теперь это мой бейзлайн, и я ищу модель получше среди более сложных
в данном случае я не знаю, что может быть проще линейной регрессии

Google

Vladimir
07.12.2017
10:28:34
Спасибо, мне простота действительно очень важна на первом этапе

/dev
07.12.2017
10:35:43

Henadz
07.12.2017
10:36:19
найбайес
но для него нужны уже размеченные группы пользователей

/dev
07.12.2017
10:36:37
Строишь распределение для |R — и делов-то

Henadz
07.12.2017
10:38:35

/dev
07.12.2017
10:39:23

Henadz
07.12.2017
10:41:09
а ё-моё, числа действительные

Andrey
07.12.2017
12:26:09
Язык R, очевидно же

Andrey
07.12.2017
14:29:06
Всем привет! Учусь проектировать топологию сети под задачу. Пока не очень получается.
Задача: научить сеть прибавлять единицу к числу.
X: 1, 2 ,3, 4, 5, ..... 50
Y: 2, 3, 4, 5, 6, ..... 51
Для представления сети делю матрицы поэлементно на 100.
6-и слойная сеть с увеличивающимся до предпоследнего слоя количеством нейронов. В последнем, соответственно, 1.
Функция активации у всех слоев tanh.
Правильно отвечает только до ≈55. Что я делаю не так?

Timofey
07.12.2017
15:30:59
?
А, все
Может, переобучение?

Andrey
07.12.2017
15:37:12
Сильно увеличил количество эпох, и стало нормально работать

Bohdan
07.12.2017
15:40:03
Приветствую, офицеры, натренировал SVC из scikit векторами от 0 до 1, а оно при классификации всегда один и тот же результат выдаёт из 4-х, куда копать?
Входные вектора X вида
[[ 0.00000000e+00 1.00000000e+00 1.00051777e-01 3.50539154e-01
1.59082325e-04]
[ 0.00000000e+00 2.71799755e-01 1.00000000e+00 6.16571838e-01
1.72787807e-02]
[ 0.00000000e+00 9.99764000e-01 0.00000000e+00 1.00000000e+00
0.00000000e+00]
Выходные — 4 класса, от 0 до 3

Andrey
07.12.2017
15:43:42
А структура сети какая?

Arslan
07.12.2017
15:47:25

Andrey
07.12.2017
15:48:04
Ок, невнимательно прочитал

Andrey
07.12.2017
15:49:20
Параметры обучения попробовать поменять - может регуляризация слишком сильная, или опорных объектов мало

Google

Andrey
07.12.2017
18:14:17
???

Mars
07.12.2017
18:49:20
У меня есть библиотека на Go для парсинга дат/времени на естественном языке

Pipito
07.12.2017
19:48:08
занимается кто исследованиями в области психологии ?
стистистической психологии*

Rushan
07.12.2017
20:23:51

Pipito
07.12.2017
20:31:41
СТАТИСТИЧЕСКАЯ ПСИХОЛОГИЯ
Устаревшая форма обозначения использования статистики и статистических принципов для выведения общих законов и принципов в психологии. Более широкий термин математическая психология сейчас включает в себя этот термин. Обратите внимание, что этот термин не относится к использованию статистики для оценки эмпирических данных с целью проверки гипотез.

Aleksandr
08.12.2017
04:49:04

Крис
08.12.2017
10:17:29
Всем привет) а кто шарит в блокчейне, как правильно на русский перевести Distributed Ledgers Technology? Гугл выдает либо распределенная книга бухучета или распределение баз данных на основе ценных бумаг. Но хочется какое-то одно мнение, если оно есть)

Павел
08.12.2017
10:21:00
Технология блокчейн, которая сейчас также часто упоминается как «технология распределенных реестров» (Distributed Ledger Technology, DLT), стремительно захватывает сферу финансовых услуг.
яндекс 5 ссылка

Крис
08.12.2017
10:21:37
чот не додумалась пойти в яндекс) спасибо!

Kek
08.12.2017
10:21:38
ну это надо еще догадаться яндекс использовать

Павел
08.12.2017
10:22:39
Слава Яндексу )
в рунете он ищет лучше гугола, кмк

Крис
08.12.2017
10:23:50
это да, но я уже сутки вообще только на гугл сколар сижу, чтобы каким-то чудом родить статью до сегодняшнего вечера на 6 страниц 10 шрифтом, лол)

Павел
08.12.2017
10:24:42
Держись, братан, мы в тебя верим (но это не точно)

Крис
08.12.2017
10:24:59
ахах, спасибо)

Admin
ERROR: S client not available

Vova
08.12.2017
12:08:24

Google

yopp
08.12.2017
12:09:41
Молитвами отдела Data saints закрыли четвёртый квартал без убытков

Артем
08.12.2017
12:10:02
Прекрасно ) даже лучше Дата сайентологов)

Igor
08.12.2017
12:10:31
Не согласен. Дата сайентологи пока что побеждают

Павел
08.12.2017
12:12:53
ИИнологи призывают искуственный интеллект в сервера

Evgeniy
08.12.2017
12:15:57
кто не хочет побыть святым

Артем
08.12.2017
12:16:59
Никто не хочет, я думаю. К святым причисляют после смерти.

MD
08.12.2017
12:25:55
Народ, подскажите, пожалуйста, как лучше решать задачу: есть некий текст на английском (не научная статья, а популярная), в котором ученые описывают некоторую технологию. Нужно определить:
1) что за технология, возможно несколько, ничего страшного
2) перспектива технологии с точки зрения автора, пока достаточно "+" или "-"
Я новичок, не представляю какие библиотеки уже есть по этой теме, как разбивать на этапы. Но готов изучать статьи, читать книги.
Спасибо.


Andrey
08.12.2017
12:28:53
Народ, подскажите, пожалуйста, как лучше решать задачу: есть некий текст на английском (не научная статья, а популярная), в котором ученые описывают некоторую технологию. Нужно определить:
1) что за технология, возможно несколько, ничего страшного
2) перспектива технологии с точки зрения автора, пока достаточно "+" или "-"
Я новичок, не представляю какие библиотеки уже есть по этой теме, как разбивать на этапы. Но готов изучать статьи, читать книги.
Спасибо.
Здесь подойдёт топик молеллинг
Моделлинг
Lda, bigartm

alex
08.12.2017
12:32:57
Можно попробовать на алгоритмии поискать уже готовые подходы
https://algorithmia.com/algorithms/SummarAI/Summarizer

MD
08.12.2017
12:34:57

alex
08.12.2017
12:40:04
А на оценку перспектив можно натравить sentiment analysis

Vladimir
08.12.2017
14:48:58
Всем привет, у меня есть ват такая табличка. Мне нужно всех client_id разбить на 5 групп наиболее похожих между собой. Подскажите, посжалуйста, куда почитать?

Alexander
08.12.2017
14:50:03
K means?

Vladimir
08.12.2017
15:00:58
K means?
Я плавую в терминах, можно ссылку?

Kirill
08.12.2017
15:01:38
http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

Alex
08.12.2017
15:01:39
http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

Google

Alexander
08.12.2017
15:01:43

Vladimir
08.12.2017
15:02:04
Спасибо!

MIkhail
08.12.2017
15:13:12
Всем привет! NLP какой самый норм подход, либы, архитектура?
интересует в первую очередь обучение влоб на больших объемах, на очень больших, семантический веб туда же, или как вы это всё делаете?
желательно реалтайм дообучение через подкрепление при комбинированном подходе боты+люди на бэкенде