@bigdata_ru

« Назад

Страница 97 из 327

Далее »

Daniil

04.07.2017
14:43:07

Он не ошибётся

Но на других?..

tonko

04.07.2017
14:43:23

Зависит от репрезентативности выборки

Вот просто подумай

Google

tonko

04.07.2017
14:44:16

На каггле топик моделинг датасет по мэйлам составлял 500к размеченных писем вручную

Daniil

04.07.2017
14:46:10

Ндэ

Ну в любом случае

Алгоритм к этому параметру очень чувствителен

Frank

04.07.2017
19:21:27

Коллеги, подскажите куда копать? Есть херова туча услуг, около 250 тыс в текстовом поле. Написаны людьми. Есть справочники фирм которые эти услуги оказывают. Задача сделать единый справочник и новые приходящие услуги привязывать к справочнику. Накидайте ссылок и идей куда рыть. Пока склоняюсь к различным дистанциям в тч косинус в word2vec

Oleksandr

04.07.2017
19:33:00

а какие есть подходы для оценки игры команды? в команде N человек, они между собой общаются, в игре набирается дискретное количество очков, игры независимы между собой, игра идет "против судьи" оценивать, допустим, надо профит от замены одного человека, или там сколько такой-то состав наберет очков на такой-то игре

(нелинрегрессия, экспертные знания, коллаборативная фильтрация для сравнения игроков, какие ещё идеи?

Oleg

05.07.2017
05:53:40

а какие есть подходы для оценки игры команды? в команде N человек, они между собой общаются, в игре набирается дискретное количество очков, игры независимы между собой, игра идет "против судьи" оценивать, допустим, надо профит от замены одного человека, или там сколько такой-то состав наберет очков на такой-то игре

Что Где Когда?

Oleksandr

05.07.2017
05:54:24

как пример, да

Oleg

05.07.2017
05:55:50

в ЧГК можно очки соотносить с игроками, здесь нет такого?

Oleksandr

05.07.2017
05:58:08

типа статистика по играм?

или кто сколько набрал за игру?

Oleg

05.07.2017
05:58:47

или кто сколько набрал за игру?

вот это

Google

Oleksandr

05.07.2017
05:58:53

можно, да

хотя интересный вопрос, если нельзя, и считаются сугубо командные очки -- но это немного не сабж

Oleg

05.07.2017
06:06:22

можно, да

Сам не игрок, но проконсультировался с женой. Есть ещё психологическая составляющая,зависящая от игрового момента. Я бы попробовал оценить вероятность того, что этот человек (эта команда) наберёт ещё очко при текущем счёте в данном составе. А потом моделировал бы для каждого состава

Oleksandr

05.07.2017
06:08:01

Сам не игрок, но проконсультировался с женой. Есть ещё психологическая составляющая,зависящая от игрового момента. Я бы попробовал оценить вероятность того, что этот человек (эта команда) наберёт ещё очко при текущем счёте в данном составе. А потом моделировал бы для каждого состава

а чем именно моделировать-то?)

скажем, связь "как игрок А работает с игроком Б" можно угадывать нелинейной регрессией

"как неизвестный в команде К1 игрок В будет влиять на результат, заменив игрока А" -- я бы смотрел в сторону "похожести" игроков, например, через коллаборативную фильтрацию

в случае конкретной игры (пусть ЧГК) можно рассмотреть фичи вроде типов вопросов

и так далее, потом навернуть ансамбль

вот что ещё в "и так далее", интересно

Oleg

05.07.2017
06:15:34

а чем именно моделировать-то?)

под моделированием имед в виду посчитать матожидание результата на основе вероятностей отдельных исходов раундов

Sergey

05.07.2017
06:19:02

а какие есть подходы для оценки игры команды? в команде N человек, они между собой общаются, в игре набирается дискретное количество очков, игры независимы между собой, игра идет "против судьи" оценивать, допустим, надо профит от замены одного человека, или там сколько такой-то состав наберет очков на такой-то игре

Метод решения сильно зависит от набора данных что мы имеем. Статистика по прошлым играм, параметры игроков, побочные факторы конкретной игры, сложность вопросов конкретной игры и т.д.,

Oleksandr

05.07.2017
06:22:17

под моделированием имед в виду посчитать матожидание результата на основе вероятностей отдельных исходов раундов

а откуда взять "вероятность раунда" ? ("судья" не статичен -- в аналогии с ЧГК, вопросы разные для одного и того же состава)

Метод решения сильно зависит от набора данных что мы имеем. Статистика по прошлым играм, параметры игроков, побочные факторы конкретной игры, сложность вопросов конкретной игры и т.д.,

статистика игр есть (вплоть до "в раунде 1 игрок А набрал 1 балл, а игроки В и С -- по 3") доступных параметров игроков нет, но у судьи (ЧГК -- у вопроса) есть ряд своих характеристик (например, тема вопроса, кто автор, количество логических переходов, хз что ещё), это доступно побочные факторы (как-то "игроки обучаются") есть, но их количественной характеристики нет

Oleg

05.07.2017
06:30:27

а откуда взять "вероятность раунда" ? ("судья" не статичен -- в аналогии с ЧГК, вопросы разные для одного и того же состава)

ну я полагал, что можно попробовать обучать предсказывать вероятность взятия очка одним из игроков

А что если так. Ты для каждого игрока учишь что-то типа маленького actor - нейронку, которая генерит фичи отдельного игрока, и большого что-то типа critic, которая цеплят в качестве инпута N маленьких и пытается предсказать результат, обучаясь вместе с ними.

tonko

05.07.2017
06:36:53

А что ты будешь делать с такими уникальными фичами?

Oleg

05.07.2017
06:37:35

А что ты будешь делать с такими уникальными фичами?

Предсказывать результат, перебором искать оптимальный состав

Oleksandr

05.07.2017
06:39:43

А что если так. Ты для каждого игрока учишь что-то типа маленького actor - нейронку, которая генерит фичи отдельного игрока, и большого что-то типа critic, которая цеплят в качестве инпута N маленьких и пытается предсказать результат, обучаясь вместе с ними.

что-то в этом духе можно сделать, да отталкиваться от характеристик игрока в общем случае обычно не работает, но для ЧГК (предполагаю, что этих характеристик +-сотня) может сработать но и тут главный минус идеи -- из нейронки не вытащить "атомарные" навыки, и для разных датасетов будут несопоставимые напрямую характеристики

впрочем, это я усложняю уже, для оценки "замены игрока" это должно что-то полезное делать

так что идея неплохая, спасибо

Google

Sergey

05.07.2017
06:44:51

А как будет использоваться данная система, для чего вобще ?

Oleksandr

05.07.2017
06:45:52

для угадывания результатов будущих игр

(игроки те же (ну мб с новым опытом, и это хорошо бы учесть), составы и судьи меняются)

Oleg

05.07.2017
06:54:17

(игроки те же (ну мб с новым опытом, и это хорошо бы учесть), составы и судьи меняются)

можно на маленьких lstm прикрутить

но вообще, для всего этого данных может не хватить

Oleksandr

05.07.2017
06:56:48

ну это хотелка минорная, относительно основной цели несущественная

в крайнем случае, всегда можно перезапускать все обучение раз в какой-то период (по данным за этот период)

и вообще "обучение" игроков, то есть меняющиеся со временем статы, очень нетривиально моделировать

неблагодарное это дело, такие модели плохо работают в реальном мире человек учил матан, учил, нарисовалась красивая прямая экстраполяции, а потом он внезапно перестал улучшаться -- и данных про это "внезапно" нет

Sergey

05.07.2017
07:04:31

а вопросы же из разных категорий ? один игрок силён в одной категории, другой в другой

За сколько игр есть статистика ? и сколько в ней игроков числится ? Я строил подобную модель для покера, расчитывал ожидаемую прибыль для хода

Oleksandr

05.07.2017
07:07:22

а вопросы же из разных категорий ? один игрок силён в одной категории, другой в другой

все так

Oleksandr

05.07.2017
07:08:13

За сколько игр есть статистика ? и сколько в ней игроков числится ? Я строил подобную модель для покера, расчитывал ожидаемую прибыль для хода

за несколько лет, пара тысяч игр

(биг дата:)

Sergey

05.07.2017
07:08:37

а игроков при этом сколько там ?

Oleksandr

05.07.2017
07:09:08

а игроков при этом сколько там ?

вот не скажу сейчас, думаю, счет на десятки

Sergey

05.07.2017
07:16:47

Я вижу такое решение : нужно посчитать коэфициенты вероятности ответа конкретного игрока на тему вопроса. учитывая состав, давайть прогноз ответа командой 1000 игр это маловато ! всреднем получается десятки ответов на игрока Для сравнения, я закупал статистику, приходило по 20т рук(аналог ответа на вопрос) в день. В среднем на игрока было ~2000-5000 рук

Oleg

05.07.2017
07:17:43

Я вижу такое решение : нужно посчитать коэфициенты вероятности ответа конкретного игрока на тему вопроса. учитывая состав, давайть прогноз ответа командой 1000 игр это маловато ! всреднем получается десятки ответов на игрока Для сравнения, я закупал статистику, приходило по 20т рук(аналог ответа на вопрос) в день. В среднем на игрока было ~2000-5000 рук

я почти такое же предлагал, только не для темы вопроса, учитывая, что её заранее нет, а при данном счёте в данной команде

Sergey

05.07.2017
07:25:50

а точно, тема то не известна для предстоящей игры

я почти такое же предлагал, только не для темы вопроса, учитывая, что её заранее нет, а при данном счёте в данной команде

можно и так, а если игроки часто переходят из команды в команду то лучше взвешивать игрока

Google

Admin

ERROR: S client not available

Sergey

05.07.2017
07:32:02

вот не скажу сейчас, думаю, счет на десятки

что то какаято область узкая, данных для анализа мало ! какие ставки там ? ) Как часто эти игры проводятся ?

Oleksandr

05.07.2017
07:36:25

что то какаято область узкая, данных для анализа мало ! какие ставки там ? ) Как часто эти игры проводятся ?

ага, данных немного плохо, но что поделаешь денежных ставок как таковых нет, это любительские соревнования 5-10 игр в неделю

Art

05.07.2017
07:49:33

ага, данных немного плохо, но что поделаешь денежных ставок как таковых нет, это любительские соревнования 5-10 игр в неделю

Можно попробовать следующий подход: В ЧГК очень сильно влияет на игру присутствие в команде хотя бы одного профессионального игрока. С двумя-тремя профессионалами команда значительно отличается по результатам от тех команд, в составе которых только любители. У профессиональных игроков есть индивидуальные рейтинги. От этого можно отталкиваться. Далее есть возможность сравнивать одну команду с другой по методу TrueSkill, но в данной задаче придется кое-что модифицировать, т.к. сравниваются команды, а не индивиды. У каждого игрока своя гауссиана рейтинга, у команды — например среднее гауссиан (здесь возможны варианты). А далее можно подключать различие тем: у каждого игрока в каждой теме свой рейтинг. И далее вопрос накопления статистики.

преимущество такого подхода: не надо переобучаться, рейтинг каждого игрока будет дрейфовать в нужную сторону по мере накопления статистики. Если игрок становится сильнее, то его рейтинг постепенно повышается скаждым "сравнением" в TrueSkill.

сложность: надо как-то прикрутить метод индивидуального сравнения к командной игре.

Boris

05.07.2017
08:08:50

сложность: надо как-то прикрутить метод индивидуального сравнения к командной игре.

trueskill позволяет дать каждому игроку индивидуальный рейтинг

Art

05.07.2017
08:09:54

trueskill позволяет дать каждому игроку индивидуальный рейтинг

именно, про это и говорю: от индивидуального рейтинга надо прийти к командному.

Boris

05.07.2017
08:15:31

именно, про это и говорю: от индивидуального рейтинга надо прийти к командному.

в самом ts предусмотрено это: ts(team) = sum(ts(players))

Art

05.07.2017
08:22:07

в самом ts предусмотрено это: ts(team) = sum(ts(players))

значит дело за малым: накопить достаточно статистики по каждой из тем

Boris

05.07.2017
08:34:58

значит дело за малым: накопить достаточно статистики по каждой из тем

ну кстати в трускилл надо чтобы у соперника тоже был рейтинг, а тут игра идет против казино. как дать рейтинг поступающим вопросам?

Oleksandr

05.07.2017
08:51:03

Можно попробовать следующий подход: В ЧГК очень сильно влияет на игру присутствие в команде хотя бы одного профессионального игрока. С двумя-тремя профессионалами команда значительно отличается по результатам от тех команд, в составе которых только любители. У профессиональных игроков есть индивидуальные рейтинги. От этого можно отталкиваться. Далее есть возможность сравнивать одну команду с другой по методу TrueSkill, но в данной задаче придется кое-что модифицировать, т.к. сравниваются команды, а не индивиды. У каждого игрока своя гауссиана рейтинга, у команды — например среднее гауссиан (здесь возможны варианты). А далее можно подключать различие тем: у каждого игрока в каждой теме свой рейтинг. И далее вопрос накопления статистики.

это для задач "лучше состав А или состав Б" ? если да, то это неплохая фича — не учитывает взаимоотношения между игроками и "специализацию", но работать будет

Art

05.07.2017
08:52:13

ну кстати в трускилл надо чтобы у соперника тоже был рейтинг, а тут игра идет против казино. как дать рейтинг поступающим вопросам?

на каждый вопрос команда отвечает или не отвечает. Сравнить две команды просто: кто ответил на вопрос, тот и выиграл.

это для задач "лучше состав А или состав Б" ? если да, то это неплохая фича — не учитывает взаимоотношения между игроками и "специализацию", но работать будет

Для учета специализации для каждого игрока необходимо вести отдельный рейтинг в рамках каждой специализации (или теме). Если хватит статистики — этого можно достичь.

Oleksandr

05.07.2017
09:24:37

Для учета специализации для каждого игрока необходимо вести отдельный рейтинг в рамках каждой специализации (или теме). Если хватит статистики — этого можно достичь.

допустим, темы я выковыряю дальше думаю считать как-то так (пока без отношений между игроками): у игрока Pi есть рейтинг R_i_j (в j-ой теме) сумму сил команды T_i складывать как ∑ R_i_j ^ ß для всех игроков (для первого приближения ß пусть =2, чтобы как-то отразить тот факт, что более опытный игрок куда более важен) чтобы "взять вопрос" сложностью Di, надо набрать Di * α, где α — запас прочности ("угадывания")

"отношения" можно встроить путем ещё одного коэфф при подсчете командного рейтинга

TrueSkill можно разложить по темам

какое, черт возьми, отношение к тематике этого чата имеют frontend и qa? Юлия

Andrey

05.07.2017
09:33:30

какое, черт возьми, отношение к тематике этого чата имеют frontend и qa? Юлия

Написано же "QA в сфере BIG DATA" )))

Timur

05.07.2017
09:37:22

А вакансии бухгалтера или уборщика в сфере BIG DATA нет у вас?

Google

tonko

05.07.2017
09:38:46

Dan

05.07.2017
09:42:32

Юлия, с вакансиями подождём. Пока что на публикации вакансий тут мораторий.

Юлия

05.07.2017
09:43:41

Юлия, с вакансиями подождём. Пока что на публикации вакансий тут мораторий.

Спасибо за информацию. Сейчас удалю

Art

05.07.2017
10:12:44

допустим, темы я выковыряю дальше думаю считать как-то так (пока без отношений между игроками): у игрока Pi есть рейтинг R_i_j (в j-ой теме) сумму сил команды T_i складывать как ∑ R_i_j ^ ß для всех игроков (для первого приближения ß пусть =2, чтобы как-то отразить тот факт, что более опытный игрок куда более важен) чтобы "взять вопрос" сложностью Di, надо набрать Di * α, где α — запас прочности ("угадывания")

Начать лучше всего с того, что у каждого человека есть рейтинг R_i_j (в j-ой теме). Команда будет иметь рейтинг ∑ R_i_j Соответсвенно, на каждый вопрос можно сравнить две команды в теме вопроса (j): победа той команды, которая отгадала вопрос. Получается коррекция общего рейтинга команды. А далее по новому рейтингу команды надо откорректировать рейтинги R_i_j каждого из игроков в теме j.

Oleksandr

05.07.2017
10:16:33

Начать лучше всего с того, что у каждого человека есть рейтинг R_i_j (в j-ой теме). Команда будет иметь рейтинг ∑ R_i_j Соответсвенно, на каждый вопрос можно сравнить две команды в теме вопроса (j): победа той команды, которая отгадала вопрос. Получается коррекция общего рейтинга команды. А далее по новому рейтингу команды надо откорректировать рейтинги R_i_j каждого из игроков в теме j.

если есть возможность узнать, кто именно отвечал на конкретный вопрос (я надеюсь, такое будет), то задача упрощается — достаточно пересчитывать рейтинг ответивших

Art

05.07.2017
10:19:43

порой сами игроки не могут дать эту информацию :)

Dan

05.07.2017
11:58:13

Получи высшее ИТ-образование мирового уровня в Университете Иннополис! Подай заявку до 12 июля и выиграй грант, который покрывает 100% стоимости обучения: https://apply.innopolis.ru/~AJtUs. Открыт ограниченный приём заявок на обучение в магистратуре по программам: «Secure Systems and Network Engineering» и «Software Engineering». Программы разработаны совместно с Университетом Карнеги-Меллон и Университетом Амстердама. Обучение ведётся преподавателями мирового уровня на английском языке. Университет Иннополис специализируется на образовании и научных исследованиях в области информационных технологий. Магистры получают стипендию до 42 000 руб./мес. и проживают в современном кампусе. Успей подать заявку на отбор до 12 июля: https://apply.innopolis.ru/~AJtUs!

Antonio

05.07.2017
13:19:34

« Назад

Страница 97 из 327

Далее »

Открыть в Telegram