@bigdata_ru

Страница 97 из 327
Daniil
04.07.2017
14:43:07
Он не ошибётся

Но на других?..

tonko
04.07.2017
14:43:23
Зависит от репрезентативности выборки

Вот просто подумай

Google
tonko
04.07.2017
14:44:16
На каггле топик моделинг датасет по мэйлам составлял 500к размеченных писем вручную

Daniil
04.07.2017
14:46:10
Ндэ

Ну в любом случае

Алгоритм к этому параметру очень чувствителен

Frank
04.07.2017
19:21:27
Коллеги, подскажите куда копать? Есть херова туча услуг, около 250 тыс в текстовом поле. Написаны людьми. Есть справочники фирм которые эти услуги оказывают. Задача сделать единый справочник и новые приходящие услуги привязывать к справочнику. Накидайте ссылок и идей куда рыть. Пока склоняюсь к различным дистанциям в тч косинус в word2vec

Oleksandr
04.07.2017
19:33:00
а какие есть подходы для оценки игры команды? в команде N человек, они между собой общаются, в игре набирается дискретное количество очков, игры независимы между собой, игра идет "против судьи" оценивать, допустим, надо профит от замены одного человека, или там сколько такой-то состав наберет очков на такой-то игре

(нелинрегрессия, экспертные знания, коллаборативная фильтрация для сравнения игроков, какие ещё идеи?

Oleksandr
05.07.2017
05:54:24
как пример, да

Oleg
05.07.2017
05:55:50
в ЧГК можно очки соотносить с игроками, здесь нет такого?

Oleksandr
05.07.2017
05:58:08
типа статистика по играм?

или кто сколько набрал за игру?

Google
Oleksandr
05.07.2017
05:58:53
можно, да

хотя интересный вопрос, если нельзя, и считаются сугубо командные очки -- но это немного не сабж

Oleg
05.07.2017
06:06:22
можно, да
Сам не игрок, но проконсультировался с женой. Есть ещё психологическая составляющая,зависящая от игрового момента. Я бы попробовал оценить вероятность того, что этот человек (эта команда) наберёт ещё очко при текущем счёте в данном составе. А потом моделировал бы для каждого состава

Oleksandr
05.07.2017
06:08:01
скажем, связь "как игрок А работает с игроком Б" можно угадывать нелинейной регрессией

"как неизвестный в команде К1 игрок В будет влиять на результат, заменив игрока А" -- я бы смотрел в сторону "похожести" игроков, например, через коллаборативную фильтрацию

в случае конкретной игры (пусть ЧГК) можно рассмотреть фичи вроде типов вопросов

и так далее, потом навернуть ансамбль

вот что ещё в "и так далее", интересно

Oleg
05.07.2017
06:15:34
а чем именно моделировать-то?)
под моделированием имед в виду посчитать матожидание результата на основе вероятностей отдельных исходов раундов

Oleksandr
05.07.2017
06:22:17
под моделированием имед в виду посчитать матожидание результата на основе вероятностей отдельных исходов раундов
а откуда взять "вероятность раунда" ? ("судья" не статичен -- в аналогии с ЧГК, вопросы разные для одного и того же состава)

Метод решения сильно зависит от набора данных что мы имеем. Статистика по прошлым играм, параметры игроков, побочные факторы конкретной игры, сложность вопросов конкретной игры и т.д.,
статистика игр есть (вплоть до "в раунде 1 игрок А набрал 1 балл, а игроки В и С -- по 3") доступных параметров игроков нет, но у судьи (ЧГК -- у вопроса) есть ряд своих характеристик (например, тема вопроса, кто автор, количество логических переходов, хз что ещё), это доступно побочные факторы (как-то "игроки обучаются") есть, но их количественной характеристики нет

Oleg
05.07.2017
06:30:27
а откуда взять "вероятность раунда" ? ("судья" не статичен -- в аналогии с ЧГК, вопросы разные для одного и того же состава)
ну я полагал, что можно попробовать обучать предсказывать вероятность взятия очка одним из игроков

А что если так. Ты для каждого игрока учишь что-то типа маленького actor - нейронку, которая генерит фичи отдельного игрока, и большого что-то типа critic, которая цеплят в качестве инпута N маленьких и пытается предсказать результат, обучаясь вместе с ними.

tonko
05.07.2017
06:36:53
А что ты будешь делать с такими уникальными фичами?

Oleg
05.07.2017
06:37:35
А что ты будешь делать с такими уникальными фичами?
Предсказывать результат, перебором искать оптимальный состав

Oleksandr
05.07.2017
06:39:43
А что если так. Ты для каждого игрока учишь что-то типа маленького actor - нейронку, которая генерит фичи отдельного игрока, и большого что-то типа critic, которая цеплят в качестве инпута N маленьких и пытается предсказать результат, обучаясь вместе с ними.
что-то в этом духе можно сделать, да отталкиваться от характеристик игрока в общем случае обычно не работает, но для ЧГК (предполагаю, что этих характеристик +-сотня) может сработать но и тут главный минус идеи -- из нейронки не вытащить "атомарные" навыки, и для разных датасетов будут несопоставимые напрямую характеристики

впрочем, это я усложняю уже, для оценки "замены игрока" это должно что-то полезное делать

так что идея неплохая, спасибо

Google
Sergey
05.07.2017
06:44:51
А как будет использоваться данная система, для чего вобще ?

Oleksandr
05.07.2017
06:45:52
для угадывания результатов будущих игр

(игроки те же (ну мб с новым опытом, и это хорошо бы учесть), составы и судьи меняются)

Oleg
05.07.2017
06:54:17
но вообще, для всего этого данных может не хватить

Oleksandr
05.07.2017
06:56:48
ну это хотелка минорная, относительно основной цели несущественная

в крайнем случае, всегда можно перезапускать все обучение раз в какой-то период (по данным за этот период)

и вообще "обучение" игроков, то есть меняющиеся со временем статы, очень нетривиально моделировать

неблагодарное это дело, такие модели плохо работают в реальном мире человек учил матан, учил, нарисовалась красивая прямая экстраполяции, а потом он внезапно перестал улучшаться -- и данных про это "внезапно" нет

Sergey
05.07.2017
07:04:31
а вопросы же из разных категорий ? один игрок силён в одной категории, другой в другой

За сколько игр есть статистика ? и сколько в ней игроков числится ? Я строил подобную модель для покера, расчитывал ожидаемую прибыль для хода

Sergey
05.07.2017
07:08:37
а игроков при этом сколько там ?

Oleksandr
05.07.2017
07:09:08
а игроков при этом сколько там ?
вот не скажу сейчас, думаю, счет на десятки

Sergey
05.07.2017
07:16:47
Я вижу такое решение : нужно посчитать коэфициенты вероятности ответа конкретного игрока на тему вопроса. учитывая состав, давайть прогноз ответа командой 1000 игр это маловато ! всреднем получается десятки ответов на игрока Для сравнения, я закупал статистику, приходило по 20т рук(аналог ответа на вопрос) в день. В среднем на игрока было ~2000-5000 рук

Sergey
05.07.2017
07:25:50
а точно, тема то не известна для предстоящей игры

я почти такое же предлагал, только не для темы вопроса, учитывая, что её заранее нет, а при данном счёте в данной команде
можно и так, а если игроки часто переходят из команды в команду то лучше взвешивать игрока

Google
Admin
ERROR: S client not available

Sergey
05.07.2017
07:32:02
вот не скажу сейчас, думаю, счет на десятки
что то какаято область узкая, данных для анализа мало ! какие ставки там ? ) Как часто эти игры проводятся ?

Oleksandr
05.07.2017
07:36:25
что то какаято область узкая, данных для анализа мало ! какие ставки там ? ) Как часто эти игры проводятся ?
ага, данных немного плохо, но что поделаешь денежных ставок как таковых нет, это любительские соревнования 5-10 игр в неделю

Art
05.07.2017
07:49:33
ага, данных немного плохо, но что поделаешь денежных ставок как таковых нет, это любительские соревнования 5-10 игр в неделю
Можно попробовать следующий подход: В ЧГК очень сильно влияет на игру присутствие в команде хотя бы одного профессионального игрока. С двумя-тремя профессионалами команда значительно отличается по результатам от тех команд, в составе которых только любители. У профессиональных игроков есть индивидуальные рейтинги. От этого можно отталкиваться. Далее есть возможность сравнивать одну команду с другой по методу TrueSkill, но в данной задаче придется кое-что модифицировать, т.к. сравниваются команды, а не индивиды. У каждого игрока своя гауссиана рейтинга, у команды — например среднее гауссиан (здесь возможны варианты). А далее можно подключать различие тем: у каждого игрока в каждой теме свой рейтинг. И далее вопрос накопления статистики.

преимущество такого подхода: не надо переобучаться, рейтинг каждого игрока будет дрейфовать в нужную сторону по мере накопления статистики. Если игрок становится сильнее, то его рейтинг постепенно повышается скаждым "сравнением" в TrueSkill.

сложность: надо как-то прикрутить метод индивидуального сравнения к командной игре.

Boris
05.07.2017
08:08:50
сложность: надо как-то прикрутить метод индивидуального сравнения к командной игре.
trueskill позволяет дать каждому игроку индивидуальный рейтинг

Art
05.07.2017
08:09:54
trueskill позволяет дать каждому игроку индивидуальный рейтинг
именно, про это и говорю: от индивидуального рейтинга надо прийти к командному.

Boris
05.07.2017
08:15:31
Art
05.07.2017
08:22:07
в самом ts предусмотрено это: ts(team) = sum(ts(players))
значит дело за малым: накопить достаточно статистики по каждой из тем

Boris
05.07.2017
08:34:58
значит дело за малым: накопить достаточно статистики по каждой из тем
ну кстати в трускилл надо чтобы у соперника тоже был рейтинг, а тут игра идет против казино. как дать рейтинг поступающим вопросам?

Oleksandr
05.07.2017
08:51:03
Можно попробовать следующий подход: В ЧГК очень сильно влияет на игру присутствие в команде хотя бы одного профессионального игрока. С двумя-тремя профессионалами команда значительно отличается по результатам от тех команд, в составе которых только любители. У профессиональных игроков есть индивидуальные рейтинги. От этого можно отталкиваться. Далее есть возможность сравнивать одну команду с другой по методу TrueSkill, но в данной задаче придется кое-что модифицировать, т.к. сравниваются команды, а не индивиды. У каждого игрока своя гауссиана рейтинга, у команды — например среднее гауссиан (здесь возможны варианты). А далее можно подключать различие тем: у каждого игрока в каждой теме свой рейтинг. И далее вопрос накопления статистики.
это для задач "лучше состав А или состав Б" ? если да, то это неплохая фича — не учитывает взаимоотношения между игроками и "специализацию", но работать будет

Art
05.07.2017
08:52:13
ну кстати в трускилл надо чтобы у соперника тоже был рейтинг, а тут игра идет против казино. как дать рейтинг поступающим вопросам?
на каждый вопрос команда отвечает или не отвечает. Сравнить две команды просто: кто ответил на вопрос, тот и выиграл.

это для задач "лучше состав А или состав Б" ? если да, то это неплохая фича — не учитывает взаимоотношения между игроками и "специализацию", но работать будет
Для учета специализации для каждого игрока необходимо вести отдельный рейтинг в рамках каждой специализации (или теме). Если хватит статистики — этого можно достичь.

Oleksandr
05.07.2017
09:24:37
Для учета специализации для каждого игрока необходимо вести отдельный рейтинг в рамках каждой специализации (или теме). Если хватит статистики — этого можно достичь.
допустим, темы я выковыряю дальше думаю считать как-то так (пока без отношений между игроками): у игрока Pi есть рейтинг R_i_j (в j-ой теме) сумму сил команды T_i складывать как ∑ R_i_j ^ ß для всех игроков (для первого приближения ß пусть =2, чтобы как-то отразить тот факт, что более опытный игрок куда более важен) чтобы "взять вопрос" сложностью Di, надо набрать Di * α, где α — запас прочности ("угадывания")

"отношения" можно встроить путем ещё одного коэфф при подсчете командного рейтинга

TrueSkill можно разложить по темам

какое, черт возьми, отношение к тематике этого чата имеют frontend и qa? Юлия

Timur
05.07.2017
09:37:22
А вакансии бухгалтера или уборщика в сфере BIG DATA нет у вас?

Google
tonko
05.07.2017
09:38:46


Dan
05.07.2017
09:42:32
Юлия, с вакансиями подождём. Пока что на публикации вакансий тут мораторий.

Юлия
05.07.2017
09:43:41
Art
05.07.2017
10:12:44
допустим, темы я выковыряю дальше думаю считать как-то так (пока без отношений между игроками): у игрока Pi есть рейтинг R_i_j (в j-ой теме) сумму сил команды T_i складывать как ∑ R_i_j ^ ß для всех игроков (для первого приближения ß пусть =2, чтобы как-то отразить тот факт, что более опытный игрок куда более важен) чтобы "взять вопрос" сложностью Di, надо набрать Di * α, где α — запас прочности ("угадывания")
Начать лучше всего с того, что у каждого человека есть рейтинг R_i_j (в j-ой теме). Команда будет иметь рейтинг ∑ R_i_j Соответсвенно, на каждый вопрос можно сравнить две команды в теме вопроса (j): победа той команды, которая отгадала вопрос. Получается коррекция общего рейтинга команды. А далее по новому рейтингу команды надо откорректировать рейтинги R_i_j каждого из игроков в теме j.

Art
05.07.2017
10:19:43
порой сами игроки не могут дать эту информацию :)

Dan
05.07.2017
11:58:13
Получи высшее ИТ-образование мирового уровня в Университете Иннополис! Подай заявку до 12 июля и выиграй грант, который покрывает 100% стоимости обучения: https://apply.innopolis.ru/~AJtUs. Открыт ограниченный приём заявок на обучение в магистратуре по программам: «Secure Systems and Network Engineering» и «Software Engineering». Программы разработаны совместно с Университетом Карнеги-Меллон и Университетом Амстердама. Обучение ведётся преподавателями мирового уровня на английском языке. Университет Иннополис специализируется на образовании и научных исследованиях в области информационных технологий. Магистры получают стипендию до 42 000 руб./мес. и проживают в современном кампусе. Успей подать заявку на отбор до 12 июля: https://apply.innopolis.ru/~AJtUs!

Antonio
05.07.2017
13:19:34


Страница 97 из 327