@bigdata_ru

Страница 190 из 327
Vladimir
07.12.2017
09:59:31
Всем привет, подскажите, пожалуйста, что почитать для решения довольно стандартной задачи Есть таблица с пользователями, у каждого пользователя 17 описательных атрибутов. Есть таблица с посещениями пользователя разных страниц сайта Задача - сгруппировать пользователей на N сегментов по признакам из таблицы 1 так, чтобы их поведение в таблице 2 было наиболее похожим.

Henadz
07.12.2017
10:08:46
Нет ли у вас ссылки как это сделать в более подробном варианте?
сделать что именно? линейную регрессию или подсчёт расстояния?

Google
Henadz
07.12.2017
10:14:15
ну расстояние можно считать по разному, L1, L2, L0, cosine distance, Jaccard distance, etc. Всё зависит от того, как Вы захотите перевести вектора посещённых сайтов в расстояния

ну а по линейной регрессии гайдов навалом на любой вкус

пожалуй один из самых простых алгоритмов машинного обучения

вон банально sklearn.linear_model.LinearRegression можете попробовать

Vladimir
07.12.2017
10:20:07
ну расстояние можно считать по разному, L1, L2, L0, cosine distance, Jaccard distance, etc. Всё зависит от того, как Вы захотите перевести вектора посещённых сайтов в расстояния
Как вы понимаете, я не очень разбираюсь во всём многообразии алгоритмов, потому и прошу совета. Я бы перевел как количестов посещений. Т.е. для каждого пользователя у меня будет примерно 800 столбцов с количесвом посещения каждого из них.

Henadz
07.12.2017
10:21:23
ну попробуйте тогда L2. Оно же классическое расстояние между векторами (как в школе учили). Т.е. корень из суммы квадратов

тут нет универсальных рецептов, надо брать свои данные, ворох всех возможных вариантов модели и пробовать

Vladimir
07.12.2017
10:26:27
тут нет универсальных рецептов, надо брать свои данные, ворох всех возможных вариантов модели и пробовать
Это понятно, просто хочется взять их не в алфавитном порядке, а основываясь на опыте бывалых. Спасибо за советы, начну с корня суммы

Henadz
07.12.2017
10:27:24
Это понятно, просто хочется взять их не в алфавитном порядке, а основываясь на опыте бывалых. Спасибо за советы, начну с корня суммы
ну я придерживаюсь следующего подхода: я начинаю всегда с максимально простой модели, которая была бы способна дать хоть какой-то ответ лучше случайного

если подобная модель сработала, то теперь это мой бейзлайн, и я ищу модель получше среди более сложных

в данном случае я не знаю, что может быть проще линейной регрессии

Google
Vladimir
07.12.2017
10:28:34
Спасибо, мне простота действительно очень важна на первом этапе

Henadz
07.12.2017
10:36:19
найбайес
но для него нужны уже размеченные группы пользователей

/dev
07.12.2017
10:36:37
Строишь распределение для |R — и делов-то

Henadz
07.12.2017
10:38:35
/dev
07.12.2017
10:39:23
Henadz
07.12.2017
10:41:09
а ё-моё, числа действительные

Andrey
07.12.2017
12:26:09
Язык R, очевидно же

Andrey
07.12.2017
14:29:06
Всем привет! Учусь проектировать топологию сети под задачу. Пока не очень получается. Задача: научить сеть прибавлять единицу к числу. X: 1, 2 ,3, 4, 5, ..... 50 Y: 2, 3, 4, 5, 6, ..... 51 Для представления сети делю матрицы поэлементно на 100. 6-и слойная сеть с увеличивающимся до предпоследнего слоя количеством нейронов. В последнем, соответственно, 1. Функция активации у всех слоев tanh. Правильно отвечает только до ≈55. Что я делаю не так?

Timofey
07.12.2017
15:30:59
?

А, все

Может, переобучение?

Andrey
07.12.2017
15:37:12
Сильно увеличил количество эпох, и стало нормально работать

Bohdan
07.12.2017
15:40:03
Приветствую, офицеры, натренировал SVC из scikit векторами от 0 до 1, а оно при классификации всегда один и тот же результат выдаёт из 4-х, куда копать?

Входные вектора X вида [[ 0.00000000e+00 1.00000000e+00 1.00051777e-01 3.50539154e-01 1.59082325e-04] [ 0.00000000e+00 2.71799755e-01 1.00000000e+00 6.16571838e-01 1.72787807e-02] [ 0.00000000e+00 9.99764000e-01 0.00000000e+00 1.00000000e+00 0.00000000e+00] Выходные — 4 класса, от 0 до 3

Andrey
07.12.2017
15:43:42
А структура сети какая?

Arslan
07.12.2017
15:47:25
Andrey
07.12.2017
15:48:04
Ок, невнимательно прочитал

Andrey
07.12.2017
15:49:20
Параметры обучения попробовать поменять - может регуляризация слишком сильная, или опорных объектов мало

Google
Andrey
07.12.2017
18:14:17
???

Mars
07.12.2017
18:49:20
У меня есть библиотека на Go для парсинга дат/времени на естественном языке

Pipito
07.12.2017
19:48:08
занимается кто исследованиями в области психологии ?

стистистической психологии*

Rushan
07.12.2017
20:23:51
Pipito
07.12.2017
20:31:41
СТАТИСТИЧЕСКАЯ ПСИХОЛОГИЯ Устаревшая форма обозначения использования статистики и статистических принципов для выведения общих законов и принципов в психологии. Более широкий термин математическая психология сейчас включает в себя этот термин. Обратите внимание, что этот термин не относится к использованию статистики для оценки эмпирических данных с целью проверки гипотез.

Aleksandr
08.12.2017
04:49:04


Крис
08.12.2017
10:17:29
Всем привет) а кто шарит в блокчейне, как правильно на русский перевести Distributed Ledgers Technology? Гугл выдает либо распределенная книга бухучета или распределение баз данных на основе ценных бумаг. Но хочется какое-то одно мнение, если оно есть)

Павел
08.12.2017
10:21:00
Технология блокчейн, которая сейчас также часто упоминается как «технология распределенных реестров» (Distributed Ledger Technology, DLT), стремительно захватывает сферу финансовых услуг.

яндекс 5 ссылка

Крис
08.12.2017
10:21:37
чот не додумалась пойти в яндекс) спасибо!

Kek
08.12.2017
10:21:38
ну это надо еще догадаться яндекс использовать

Павел
08.12.2017
10:22:39
Слава Яндексу )

в рунете он ищет лучше гугола, кмк

Крис
08.12.2017
10:23:50
это да, но я уже сутки вообще только на гугл сколар сижу, чтобы каким-то чудом родить статью до сегодняшнего вечера на 6 страниц 10 шрифтом, лол)

Павел
08.12.2017
10:24:42
Держись, братан, мы в тебя верим (но это не точно)

Крис
08.12.2017
10:24:59
ахах, спасибо)

Admin
ERROR: S client not available

Vova
08.12.2017
12:08:24


Google
yopp
08.12.2017
12:09:41
Молитвами отдела Data saints закрыли четвёртый квартал без убытков

Артем
08.12.2017
12:10:02
Прекрасно ) даже лучше Дата сайентологов)

Igor
08.12.2017
12:10:31
Не согласен. Дата сайентологи пока что побеждают

Павел
08.12.2017
12:12:53
ИИнологи призывают искуственный интеллект в сервера

Evgeniy
08.12.2017
12:15:57
кто не хочет побыть святым

Артем
08.12.2017
12:16:59
Никто не хочет, я думаю. К святым причисляют после смерти.

MD
08.12.2017
12:25:55
Народ, подскажите, пожалуйста, как лучше решать задачу: есть некий текст на английском (не научная статья, а популярная), в котором ученые описывают некоторую технологию. Нужно определить: 1) что за технология, возможно несколько, ничего страшного 2) перспектива технологии с точки зрения автора, пока достаточно "+" или "-" Я новичок, не представляю какие библиотеки уже есть по этой теме, как разбивать на этапы. Но готов изучать статьи, читать книги. Спасибо.

alex
08.12.2017
12:32:57
Можно попробовать на алгоритмии поискать уже готовые подходы https://algorithmia.com/algorithms/SummarAI/Summarizer

alex
08.12.2017
12:40:04
А на оценку перспектив можно натравить sentiment analysis

Vladimir
08.12.2017
14:48:58
Всем привет, у меня есть ват такая табличка. Мне нужно всех client_id разбить на 5 групп наиболее похожих между собой. Подскажите, посжалуйста, куда почитать?



Alexander
08.12.2017
14:50:03
K means?

Vladimir
08.12.2017
15:00:58
K means?
Я плавую в терминах, можно ссылку?

Kirill
08.12.2017
15:01:38
http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

Alex
08.12.2017
15:01:39
http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

Google
Alexander
08.12.2017
15:01:43
Я плавую в терминах, можно ссылку?
https://ru.m.wikipedia.org/wiki/Метод_k-средних

Vladimir
08.12.2017
15:02:04
Спасибо!

MIkhail
08.12.2017
15:13:12
Всем привет! NLP какой самый норм подход, либы, архитектура?

интересует в первую очередь обучение влоб на больших объемах, на очень больших, семантический веб туда же, или как вы это всё делаете?

желательно реалтайм дообучение через подкрепление при комбинированном подходе боты+люди на бэкенде

Страница 190 из 327