
Алексей
03.07.2017
12:08:13
Здравствуйте
Выбираю тему на дипломку, заинтересовали боты. Начинаю копать инфу...
Вообще, как устроены умные боты? Кто то может дать мне направление?
Заранее спасибо
Вот что то типо этого beeline.kg-асистент Айдана.

Marperia
03.07.2017
12:13:07

Алексей
03.07.2017
12:22:07
https://beeline.kg/chuiskaya-obl/customers/mobile
Вот бот, который советует о выборе тарифа. И тд. Выполняет вообщем базовую работу оператора

Google

Yaroslav
03.07.2017
12:33:36

Marperia
03.07.2017
12:35:28
Тут та же техника, что и в клавиатурах на Windows Phone: чтобы предсказать ответ, смотрят не только на то, какие слова есть, но и в каком порядке они стоят, есть ли отрицание и пр.
С этой темой хорошо разобрался Тындекс, см. смысловые вектора.

Алексей
03.07.2017
12:52:48
Спасибо, а есть ещё ресурсы с данной тематикой?

Azat
03.07.2017
12:57:59
У Шакира Мохамеда был спич на эту тему
https://youtu.be/AggqBRdz6CQ
Перспективы видят во всяких тюнингах гиперпараметров, оценке неопределённости, ARD и прочем.
Там в 2016 нипсовском воркшопе много размышлений на эту тему
подскажите пожалуйста, какие преимущества у bayes reinforcement learning над обычным обучением с подкрепленеием?

Dan
03.07.2017
13:01:33
Я предупреждал выше, что лимит на вакансии закончен. Ещё раз и блокировка ?

Проксимов
03.07.2017
13:03:36

b0g3r
03.07.2017
13:04:15
Всем привет! Знакомый хочет перекатиться в питон и его интересует ML. хочет знать, что нужно изучить, чтобы его взяли на работу
есть у кого-нибудь подобный чеклист?

Marperia
03.07.2017
13:05:26

b0g3r
03.07.2017
13:05:53
Может и просто так висит, откуда ж мне знать? Мой вопрос не про книги и ресурсы. А про чеклист ml применительно к питону

Oleksandr
03.07.2017
13:06:36
ml питону ортогонален почти
в смысле самого питона надо там 1%

Google

b0g3r
03.07.2017
13:07:09
ну так и отлично. вот за 1% я и спрашиваю :)

Oleksandr
03.07.2017
13:07:39
kaggle.com => titanic => берешь, чего нравится из туториалов

Dan
03.07.2017
13:08:26
Лимит на вакансии?
там чуть выше в чате есть. сегодня просто немного переборщили с количеством, и мягко говоря уже достало
я понимаю что тема модная, но это не место для агитации и хантинга

b0g3r
03.07.2017
13:08:58

Daniil
04.07.2017
03:29:26
Ребят, всем привет. Такой вопрос: я интересовался вычислительной сложностью методов извлечения тем из текстов (lsa, plsa, lda). Понял так, что алгоритмов быстрее полиномиального времени для этой задачи ещё не придумали. Верно я понимаю? Или есть ещё какие-то разработки, более совершенные в этом плане ?
Еще, если знаете что-то на эту тему по поводу алгоритмов тегирования документов, то подскажите пожалуйста

tonko
04.07.2017
05:49:09
как же ты doc2vec то упустил
paragraph vector
lsh еще

Andrey
04.07.2017
06:35:13

tonko
04.07.2017
07:14:48
А выходной результат (вектор документа) можно использовать как хочешь, хоть unsupervised

Andrey
04.07.2017
07:20:38
а что лучше использовать, если нет известных тем? у меня есть набор коротких разговоров ( 5-100 реплик) , хочу узнать, о чем каждый разговор
lda выдает не очень хороший результат

tonko
04.07.2017
07:23:23
Нет известных тем - кластеризация
Это может быть и doc2vec+dbscan
Архитектуру под задачу подгонять надо в любом случае

Andrey
04.07.2017
07:26:12
да, зайду с этой стороны, спасибо

Daniil
04.07.2017
14:03:12
как же ты doc2vec то упустил
так он же векторное представление просто даёт. интерпретировать такой результат автоматически, в виде названия темы будет тяжело

Google

Art
04.07.2017
14:08:45

Andrey
04.07.2017
14:13:15

tonko
04.07.2017
14:16:58

Daniil
04.07.2017
14:17:36

tonko
04.07.2017
14:19:57
я сам еще её не пробовал, но идея в том чтобы доставать из содержаний документов наиболее определяющие кластер токены
важность токенов в кластере можно попробовать через PCA взять

Sergey
04.07.2017
14:22:09

Daniil
04.07.2017
14:23:28
Ну смотрите, ребят, я пытаюсь ещё вот что понять. как в итоге в продакшене-то это всё делается? Надо мне для документа получить уже интерпретированный результат
например, документ Х, темы: "питон", "бигдата"
чтобы конечный юзер мог это понять

Admin
ERROR: S client not available

Oleksandr
04.07.2017
14:24:47
а какие есть подходы для оценки игры команды?
в команде N человек, они между собой общаются, в игре набирается дискретное количество очков, игры независимы между собой, игра идет "против судьи"
оценивать, допустим, надо профит от замены одного человека, или там сколько такой-то состав наберет очков на такой-то игре

Sergey
04.07.2017
14:25:33
https://github.com/bigartm/bigartm-book/tree/master/applications/habrahabr

Daniil
04.07.2017
14:27:28

Sergey
04.07.2017
14:28:04
ну по токенам, которые попадают в топик, ты можешь понять темы
vw точно может выдавать текст аля топик [токен1, токен2, ...]

Daniil
04.07.2017
14:34:02

Sergey
04.07.2017
14:35:47
ну сколько у тебя тем?

Daniil
04.07.2017
14:36:10
Я не знаю даже, в каждом документе своё число скорее всего

Google

Sergey
04.07.2017
14:37:15
ну все эти алгоритмы требуют всегда одной вещи: четко зафиксированного количества топиков

Daniil
04.07.2017
14:38:34
В этом и соль)

tonko
04.07.2017
14:39:04
Всмысле, что у тебя всего тем должно быть конечное количество
У каждого дока может быть сколько угодно тем, неизвестно даже заранее, например
Но тебе еще надо разметить обучающую выборку тогда
Охапка дров и продакшен готов

Daniil
04.07.2017
14:40:40
Ну их конечное кол-во, но мы же это число фиксируем
А в каждом документе оно своё. Тогда как проверить?

tonko
04.07.2017
14:41:13
Ты учишь сеть предсказывать топики. Проверять через заранее размеченный датасет
Вопрос только как определить объем выборки
Тут нужен реальный эксперт

Daniil
04.07.2017
14:42:23
Не, погоди... Почему объём выборки? А если у меня нет этого знания на счёт числа тем, тогда как быть?
Алгоритм же будет ошибаться тогда на разных докмуентах