@bigdata_ru

Страница 96 из 327
Алексей
03.07.2017
12:08:13
Здравствуйте

Выбираю тему на дипломку, заинтересовали боты. Начинаю копать инфу... Вообще, как устроены умные боты? Кто то может дать мне направление? Заранее спасибо Вот что то типо этого beeline.kg-асистент Айдана.

Алексей
03.07.2017
12:22:07
https://beeline.kg/chuiskaya-obl/customers/mobile Вот бот, который советует о выборе тарифа. И тд. Выполняет вообщем базовую работу оператора

Google
Yaroslav
03.07.2017
12:33:36
https://beeline.kg/chuiskaya-obl/customers/mobile Вот бот, который советует о выборе тарифа. И тд. Выполняет вообщем базовую работу оператора
В этом боте просто описаны паттерны поведения в зависимости от ключевых слов (база вопросов и ответов к ним) + есть классификация тем, если вы начали спрашивать о тарифах, то ответ на следующий вопрос подразумевает вывод нужного тарифа

Marperia
03.07.2017
12:35:28
Тут та же техника, что и в клавиатурах на Windows Phone: чтобы предсказать ответ, смотрят не только на то, какие слова есть, но и в каком порядке они стоят, есть ли отрицание и пр. С этой темой хорошо разобрался Тындекс, см. смысловые вектора.

Алексей
03.07.2017
12:52:48
Спасибо, а есть ещё ресурсы с данной тематикой?

Azat
03.07.2017
12:57:59
У Шакира Мохамеда был спич на эту тему https://youtu.be/AggqBRdz6CQ Перспективы видят во всяких тюнингах гиперпараметров, оценке неопределённости, ARD и прочем. Там в 2016 нипсовском воркшопе много размышлений на эту тему

подскажите пожалуйста, какие преимущества у bayes reinforcement learning над обычным обучением с подкрепленеием?

Dan
03.07.2017
13:01:33
Я предупреждал выше, что лимит на вакансии закончен. Ещё раз и блокировка ?

b0g3r
03.07.2017
13:04:15
Всем привет! Знакомый хочет перекатиться в питон и его интересует ML. хочет знать, что нужно изучить, чтобы его взяли на работу

есть у кого-нибудь подобный чеклист?

Marperia
03.07.2017
13:05:26
есть у кого-нибудь подобный чеклист?
А что, пост в закрепе просто так висит?

b0g3r
03.07.2017
13:05:53
Может и просто так висит, откуда ж мне знать? Мой вопрос не про книги и ресурсы. А про чеклист ml применительно к питону

Oleksandr
03.07.2017
13:06:36
ml питону ортогонален почти

в смысле самого питона надо там 1%

Google
b0g3r
03.07.2017
13:07:09
ну так и отлично. вот за 1% я и спрашиваю :)

Oleksandr
03.07.2017
13:07:39
kaggle.com => titanic => берешь, чего нравится из туториалов

Dan
03.07.2017
13:08:26
Лимит на вакансии?
там чуть выше в чате есть. сегодня просто немного переборщили с количеством, и мягко говоря уже достало

я понимаю что тема модная, но это не место для агитации и хантинга

Daniil
04.07.2017
03:29:26
Ребят, всем привет. Такой вопрос: я интересовался вычислительной сложностью методов извлечения тем из текстов (lsa, plsa, lda). Понял так, что алгоритмов быстрее полиномиального времени для этой задачи ещё не придумали. Верно я понимаю? Или есть ещё какие-то разработки, более совершенные в этом плане ?

Еще, если знаете что-то на эту тему по поводу алгоритмов тегирования документов, то подскажите пожалуйста

tonko
04.07.2017
05:49:09
как же ты doc2vec то упустил

paragraph vector

lsh еще

Andrey
04.07.2017
06:35:13
как же ты doc2vec то упустил
я правильно понимаю, что doc2vec в данном случае это supervised learning ?

tonko
04.07.2017
07:14:48
А выходной результат (вектор документа) можно использовать как хочешь, хоть unsupervised

Andrey
04.07.2017
07:20:38
а что лучше использовать, если нет известных тем? у меня есть набор коротких разговоров ( 5-100 реплик) , хочу узнать, о чем каждый разговор

lda выдает не очень хороший результат

tonko
04.07.2017
07:23:23
Нет известных тем - кластеризация

Это может быть и doc2vec+dbscan

Архитектуру под задачу подгонять надо в любом случае

Andrey
04.07.2017
07:26:12
да, зайду с этой стороны, спасибо

Daniil
04.07.2017
14:03:12
как же ты doc2vec то упустил
так он же векторное представление просто даёт. интерпретировать такой результат автоматически, в виде названия темы будет тяжело

Google
Art
04.07.2017
14:08:45
да, зайду с этой стороны, спасибо
BigARTM хорошая библиотека для unsupervised извлечения тем.

Andrey
04.07.2017
14:13:15
BigARTM хорошая библиотека для unsupervised извлечения тем.
спасибо) как раз сегодня тоже посоветовали ее, значит действительно хорошая)

tonko
04.07.2017
14:16:58
так он же векторное представление просто даёт. интерпретировать такой результат автоматически, в виде названия темы будет тяжело
можно именовать кластеры вручную, а можно и автоматизировать, но для этого нужна одна хитрость

tonko
04.07.2017
14:19:57
я сам еще её не пробовал, но идея в том чтобы доставать из содержаний документов наиболее определяющие кластер токены

важность токенов в кластере можно попробовать через PCA взять

Daniil
04.07.2017
14:23:28
Ну смотрите, ребят, я пытаюсь ещё вот что понять. как в итоге в продакшене-то это всё делается? Надо мне для документа получить уже интерпретированный результат

например, документ Х, темы: "питон", "бигдата"

чтобы конечный юзер мог это понять

Admin
ERROR: S client not available

Oleksandr
04.07.2017
14:24:47
а какие есть подходы для оценки игры команды? в команде N человек, они между собой общаются, в игре набирается дискретное количество очков, игры независимы между собой, игра идет "против судьи" оценивать, допустим, надо профит от замены одного человека, или там сколько такой-то состав наберет очков на такой-то игре

Daniil
04.07.2017
14:27:28
бери BigARTM или VW и дальше ручками размечай темы
У меня 20к документов с неизвестными темами (

Sergey
04.07.2017
14:28:04
ну по токенам, которые попадают в топик, ты можешь понять темы

vw точно может выдавать текст аля топик [токен1, токен2, ...]

Daniil
04.07.2017
14:34:02
ну по токенам, которые попадают в топик, ты можешь понять темы
Конечно. Но если я хочу автоматически понять и не хочу этот вопрос выяснять для 20к документов?

Sergey
04.07.2017
14:35:47
ну сколько у тебя тем?

Daniil
04.07.2017
14:36:10
Я не знаю даже, в каждом документе своё число скорее всего

Google
Sergey
04.07.2017
14:37:15
ну все эти алгоритмы требуют всегда одной вещи: четко зафиксированного количества топиков

Daniil
04.07.2017
14:38:34
В этом и соль)

tonko
04.07.2017
14:39:04
Всмысле, что у тебя всего тем должно быть конечное количество

У каждого дока может быть сколько угодно тем, неизвестно даже заранее, например

Но тебе еще надо разметить обучающую выборку тогда

Охапка дров и продакшен готов

Daniil
04.07.2017
14:40:40
Ну их конечное кол-во, но мы же это число фиксируем

А в каждом документе оно своё. Тогда как проверить?

tonko
04.07.2017
14:41:13
Ты учишь сеть предсказывать топики. Проверять через заранее размеченный датасет

Вопрос только как определить объем выборки

Тут нужен реальный эксперт

Daniil
04.07.2017
14:42:23
Не, погоди... Почему объём выборки? А если у меня нет этого знания на счёт числа тем, тогда как быть?

Алгоритм же будет ошибаться тогда на разных докмуентах

Страница 96 из 327