@bigdata_ru

Страница 96 из 327

Алексей

03.07.2017
12:08:13

Здравствуйте

Выбираю тему на дипломку, заинтересовали боты. Начинаю копать инфу... Вообще, как устроены умные боты? Кто то может дать мне направление? Заранее спасибо Вот что то типо этого beeline.kg-асистент Айдана.

Marperia

03.07.2017
12:13:07

Выбираю тему на дипломку, заинтересовали боты. Начинаю копать инфу... Вообще, как устроены умные боты? Кто то может дать мне направление? Заранее спасибо Вот что то типо этого beeline.kg-асистент Айдана.

Умные боты — не продукт, чтобы его описать, это целый класс продуктов. Все по-разному. Давай конкретнее.

Алексей

03.07.2017
12:22:07

https://beeline.kg/chuiskaya-obl/customers/mobile Вот бот, который советует о выборе тарифа. И тд. Выполняет вообщем базовую работу оператора

Google

Yaroslav

03.07.2017
12:33:36

https://beeline.kg/chuiskaya-obl/customers/mobile Вот бот, который советует о выборе тарифа. И тд. Выполняет вообщем базовую работу оператора

В этом боте просто описаны паттерны поведения в зависимости от ключевых слов (база вопросов и ответов к ним) + есть классификация тем, если вы начали спрашивать о тарифах, то ответ на следующий вопрос подразумевает вывод нужного тарифа

Marperia

03.07.2017
12:35:28

Тут та же техника, что и в клавиатурах на Windows Phone: чтобы предсказать ответ, смотрят не только на то, какие слова есть, но и в каком порядке они стоят, есть ли отрицание и пр. С этой темой хорошо разобрался Тындекс, см. смысловые вектора.

Алексей

03.07.2017
12:52:48

Спасибо, а есть ещё ресурсы с данной тематикой?

Azat

03.07.2017
12:57:59

У Шакира Мохамеда был спич на эту тему https://youtu.be/AggqBRdz6CQ Перспективы видят во всяких тюнингах гиперпараметров, оценке неопределённости, ARD и прочем. Там в 2016 нипсовском воркшопе много размышлений на эту тему

подскажите пожалуйста, какие преимущества у bayes reinforcement learning над обычным обучением с подкрепленеием?

Dan

03.07.2017
13:01:33

Я предупреждал выше, что лимит на вакансии закончен. Ещё раз и блокировка ?

Проксимов

03.07.2017
13:03:36

Я предупреждал выше, что лимит на вакансии закончен. Ещё раз и блокировка ?

Лимит на вакансии?

b0g3r

03.07.2017
13:04:15

Всем привет! Знакомый хочет перекатиться в питон и его интересует ML. хочет знать, что нужно изучить, чтобы его взяли на работу

есть у кого-нибудь подобный чеклист?

Marperia

03.07.2017
13:05:26

есть у кого-нибудь подобный чеклист?

А что, пост в закрепе просто так висит?

b0g3r

03.07.2017
13:05:53

Может и просто так висит, откуда ж мне знать? Мой вопрос не про книги и ресурсы. А про чеклист ml применительно к питону

Oleksandr

03.07.2017
13:06:36

ml питону ортогонален почти

в смысле самого питона надо там 1%

Google

b0g3r

03.07.2017
13:07:09

ну так и отлично. вот за 1% я и спрашиваю :)

Oleksandr

03.07.2017
13:07:39

kaggle.com => titanic => берешь, чего нравится из туториалов

Dan

03.07.2017
13:08:26

Лимит на вакансии?

там чуть выше в чате есть. сегодня просто немного переборщили с количеством, и мягко говоря уже достало

я понимаю что тема модная, но это не место для агитации и хантинга

b0g3r

03.07.2017
13:08:58

kaggle.com => titanic => берешь, чего нравится из туториалов

good

Daniil

04.07.2017
03:29:26

Ребят, всем привет. Такой вопрос: я интересовался вычислительной сложностью методов извлечения тем из текстов (lsa, plsa, lda). Понял так, что алгоритмов быстрее полиномиального времени для этой задачи ещё не придумали. Верно я понимаю? Или есть ещё какие-то разработки, более совершенные в этом плане ?

Еще, если знаете что-то на эту тему по поводу алгоритмов тегирования документов, то подскажите пожалуйста

tonko

04.07.2017
05:49:09

как же ты doc2vec то упустил

paragraph vector

lsh еще

Andrey

04.07.2017
06:35:13

как же ты doc2vec то упустил

я правильно понимаю, что doc2vec в данном случае это supervised learning ?

tonko

04.07.2017
07:14:48

я правильно понимаю, что doc2vec в данном случае это supervised learning ?

это encoder(по сути можно назвать supervised)

А выходной результат (вектор документа) можно использовать как хочешь, хоть unsupervised

Andrey

04.07.2017
07:20:38

а что лучше использовать, если нет известных тем? у меня есть набор коротких разговоров ( 5-100 реплик) , хочу узнать, о чем каждый разговор

lda выдает не очень хороший результат

tonko

04.07.2017
07:23:23

Нет известных тем - кластеризация

Это может быть и doc2vec+dbscan

Архитектуру под задачу подгонять надо в любом случае

Andrey

04.07.2017
07:26:12

да, зайду с этой стороны, спасибо

Daniil

04.07.2017
14:03:12

как же ты doc2vec то упустил

так он же векторное представление просто даёт. интерпретировать такой результат автоматически, в виде названия темы будет тяжело

Google

Art

04.07.2017
14:08:45

да, зайду с этой стороны, спасибо

BigARTM хорошая библиотека для unsupervised извлечения тем.

Andrey

04.07.2017
14:13:15

BigARTM хорошая библиотека для unsupervised извлечения тем.

спасибо) как раз сегодня тоже посоветовали ее, значит действительно хорошая)

tonko

04.07.2017
14:16:58

так он же векторное представление просто даёт. интерпретировать такой результат автоматически, в виде названия темы будет тяжело

можно именовать кластеры вручную, а можно и автоматизировать, но для этого нужна одна хитрость

Daniil

04.07.2017
14:17:36

можно именовать кластеры вручную, а можно и автоматизировать, но для этого нужна одна хитрость

какая?

tonko

04.07.2017
14:19:57

я сам еще её не пробовал, но идея в том чтобы доставать из содержаний документов наиболее определяющие кластер токены

важность токенов в кластере можно попробовать через PCA взять

Sergey

04.07.2017
14:22:09

Ребят, всем привет. Такой вопрос: я интересовался вычислительной сложностью методов извлечения тем из текстов (lsa, plsa, lda). Понял так, что алгоритмов быстрее полиномиального времени для этой задачи ещё не придумали. Верно я понимаю? Или есть ещё какие-то разработки, более совершенные в этом плане ?

основной алгоритм BigARTM - PLSA, только есть множество регуляризаторов, которые подгоняют модель под реальную жизнь

Daniil

04.07.2017
14:23:28

Ну смотрите, ребят, я пытаюсь ещё вот что понять. как в итоге в продакшене-то это всё делается? Надо мне для документа получить уже интерпретированный результат

например, документ Х, темы: "питон", "бигдата"

чтобы конечный юзер мог это понять

Admin

ERROR: S client not available

Oleksandr

04.07.2017
14:24:47

а какие есть подходы для оценки игры команды? в команде N человек, они между собой общаются, в игре набирается дискретное количество очков, игры независимы между собой, игра идет "против судьи" оценивать, допустим, надо профит от замены одного человека, или там сколько такой-то состав наберет очков на такой-то игре

Sergey

04.07.2017
14:25:33

Ну смотрите, ребят, я пытаюсь ещё вот что понять. как в итоге в продакшене-то это всё делается? Надо мне для документа получить уже интерпретированный результат

бери BigARTM или VW и дальше ручками размечай темы

https://github.com/bigartm/bigartm-book/tree/master/applications/habrahabr

Daniil

04.07.2017
14:27:28

бери BigARTM или VW и дальше ручками размечай темы

У меня 20к документов с неизвестными темами (

Sergey

04.07.2017
14:28:04

ну по токенам, которые попадают в топик, ты можешь понять темы

vw точно может выдавать текст аля топик [токен1, токен2, ...]

Daniil

04.07.2017
14:34:02

ну по токенам, которые попадают в топик, ты можешь понять темы

Конечно. Но если я хочу автоматически понять и не хочу этот вопрос выяснять для 20к документов?

Sergey

04.07.2017
14:35:47

ну сколько у тебя тем?

Daniil

04.07.2017
14:36:10

Я не знаю даже, в каждом документе своё число скорее всего

Google

Sergey

04.07.2017
14:37:15

ну все эти алгоритмы требуют всегда одной вещи: четко зафиксированного количества топиков

Daniil

04.07.2017
14:38:34

В этом и соль)

tonko

04.07.2017
14:39:04

Всмысле, что у тебя всего тем должно быть конечное количество

У каждого дока может быть сколько угодно тем, неизвестно даже заранее, например

Но тебе еще надо разметить обучающую выборку тогда

Охапка дров и продакшен готов

Daniil

04.07.2017
14:40:40

Ну их конечное кол-во, но мы же это число фиксируем

А в каждом документе оно своё. Тогда как проверить?

tonko

04.07.2017
14:41:13

Ты учишь сеть предсказывать топики. Проверять через заранее размеченный датасет

Вопрос только как определить объем выборки

Тут нужен реальный эксперт

Daniil

04.07.2017
14:42:23

Не, погоди... Почему объём выборки? А если у меня нет этого знания на счёт числа тем, тогда как быть?

Алгоритм же будет ошибаться тогда на разных докмуентах

« Назад

Страница 96 из 327

Далее »

Открыть в Telegram