@bigdata_ru

« Назад

Страница 147 из 327

Далее »

Valeriy

24.09.2017
11:36:45

Есть кто-нибудь кто занимался определением положения тел в реальном времени?

На видео

Dmitry

24.09.2017
13:26:18

блин, чертов антиспам бот =/

Antonio

24.09.2017
13:26:51

а чего хотел написать то?

Google

Dmitry

24.09.2017
13:26:58

У дипстака есть статья от авторов (я её не читал): https://static1.squarespace.com/static/58a75073e6f2e1c1d5b36630/t/58b7a3dce3df28761dd25e54/1488430045412/DeepStack.pdf Но у покера более-менее дискретное пространство действий, поэтому там можно сделать перебор по дереву.

кмк, авторы бота недостаточно хорошо разбираются или игнорируют принципы оценки силы живых игроков

там упоминался винрейт, так вот, этот винрейт рассчитывается статистически с помощью оценки банкролла (сколько на длинной дистанции ты выиграл или проиграл денег) с разными игроками

т.е. не корректно сравнивать силу бота против силы человека, т.к. сила игры человека оценена в одной системе координат - относительно разных игроков в покеррумах, но при этом бот у нас играет только с одним человеком - а это несколько другой навык, он напрямую не будет коррелировать с общим винрейтом

ну это так же как сравнить, скажем, бот vs геймер в стратегии/стрелялке 1 на 1, при том что изначально сильным игрока-человека мы считаем исходя из его эффективности в командных играх (немного сумбурно, но надеюсь понятно)

одна из самых крупных несостыковок - плюсовые игроки люди выигрывают не только благодаря более правильной стратегии игры. Но и за счет выбора противников. Регуляры (проф игроки в онлайн покер) - целенаправленно ищут игры/противников слабее - чтобы увеличить прибыль

и играют с кучей разных игроков, даже если мы берем игры 1 на 1

а когда мы сажаем бота играть с плюсовым регуляром - человек уже в заведомо слабой позиции, т.к. он должен играть только с ботом и не может выбрать более слабых игроков.

Drino

24.09.2017
13:34:37

кмк, авторы бота недостаточно хорошо разбираются или игнорируют принципы оценки силы живых игроков

Мопед не мой, я только ссылку на статью бросил в ответ на упоминание.

Dmitry

24.09.2017
13:34:42

тут либо подход менять, либо отказаться от оценки силы игры человека через общий винрейт

ну я так, мысли в слух )) может кто присоединится. Я просто одно время увлекался покером и знаю как думают покерные игроки и на чем базируется их стратегия на базовом уровне (если мы берем онлайн покер и проф игроков, которые занимаются игрой как работой - целый рабочий день, играя одновременно на 4-6-12 столах)

Drino

24.09.2017
13:37:58

ну я так, мысли в слух )) может кто присоединится. Я просто одно время увлекался покером и знаю как думают покерные игроки и на чем базируется их стратегия на базовом уровне (если мы берем онлайн покер и проф игроков, которые занимаются игрой как работой - целый рабочий день, играя одновременно на 4-6-12 столах)

Я с удовольствием послушаю, если вам не лень объяснять :) Где авторы статьи используют винрейт?

Dmitry

24.09.2017
13:38:54

с оффлайн регулярами бота сравнивать ещё хуже. Если онлайн-покеристы хотя бы +\- соревнуются с ботом на основе очень похожих подходов, то у оффлайн игроков скилл ощутимо будет зависеть уже от понимания психологии человека, внимательности, эмоционального интеллекта и т.п. И ощутимо меньше (по сравнению с офлайном) от чистой математики

Я с удовольствием послушаю, если вам не лень объяснять :) Где авторы статьи используют винрейт?

если говорить о пдфке, которую недавно кидали, то 19 сноска

Google

Dmitry

24.09.2017
13:40:08

Weusemilli-big-blindspergame(mbb/g)tomeasureperformanceinpoker,whereamillibig-blind is one thousandth of the forced big blind bet amount that starts the game. This normalizes performance for the number of games played and the size of stakes. For comparison, a win rate of 50 mbb/g is considered a sizable margin by professional players and 750mbb/gistheratethatwouldbelostifaplayerfoldedeachgame.Thepokercommunity commonlyusesbigblindsperonehundredgames(bb/100)tomeasurewinrates,where10 mbb/g equals 1 bb/100. криво скопировалось из пдф, это текст 19 сноски

Sergey

24.09.2017
13:40:18

Чисто на видеоряде никто модели не учит, потому что это дорого и долго. Игрушки на Atari учились хорошо, потому что там видеоряд был довольно простой, плюс у гугла очень много ресурсов.

Любой школьник сейчас на 1060 может тренировать модель водить машину в гта 5

Dmitry

24.09.2017
13:41:48

ну на входе - видеоряд, на выходе - управление курсором и некоторыми клавишами

https://www.youtube.com/watch?v=ks4MPfMq8aQ&list=PLQVvvaa0QuDeETZEOy4VdocT7TOjfSA8a вот неплохие обучающие видео на тему как раз ГТА

Drino

24.09.2017
13:42:53

Weusemilli-big-blindspergame(mbb/g)tomeasureperformanceinpoker,whereamillibig-blind is one thousandth of the forced big blind bet amount that starts the game. This normalizes performance for the number of games played and the size of stakes. For comparison, a win rate of 50 mbb/g is considered a sizable margin by professional players and 750mbb/gistheratethatwouldbelostifaplayerfoldedeachgame.Thepokercommunity commonlyusesbigblindsperonehundredgames(bb/100)tomeasurewinrates,where10 mbb/g equals 1 bb/100. криво скопировалось из пдф, это текст 19 сноски

Спасибо, понял.

Любой школьник сейчас на 1060 может тренировать модель водить машину в гта 5

Мне хочется сказать, что это не сложнее игр на атари, потому что по факту все очень ситуативно.

Antonio

24.09.2017
13:51:13

да мне вообще эта проблема пока не парит с видеовходом, меня интерсует какой алгоритм машинного обучения использовать для победы, хотя бы знать какие подходы существуют в играх с неполной информацией. Неужели только обучение с подкреплением эффективно?

Sergey

24.09.2017
13:54:15

Можешь генерить правила по которым будет действовать экспертная система

Dmitry

24.09.2017
13:56:34

да мне вообще эта проблема пока не парит с видеовходом, меня интерсует какой алгоритм машинного обучения использовать для победы, хотя бы знать какие подходы существуют в играх с неполной информацией. Неужели только обучение с подкреплением эффективно?

для победы в чем? У людей при игре в покерруме - критерий это общий винрейт, выраженный в увеличении банкролла. Если берем бота - у него критерий это частный винрейт в игре 1 на 1. Соответственно подходы разные

Antonio

24.09.2017
13:56:57

MOBA игра

по типа LoL, dota

Dmitry

24.09.2017
13:58:40

MOBA игра

опять же - игра 1 на 1 или командная? Если командная - то бот контролирует всю команду? (уже разные условия против команды людей), или команда ботов играет против команды людей?

Antonio

24.09.2017
14:00:57

тут единственный критерий уничтожить трон противника, поэтому количесттво убийств - не показатель, враги могу вас много убивать но стратегия "сплит-пуша" (когда рстягиваешь противников по карте и пока они отвлечены - уничтожаешь башни) может помочь выиграть игру.

и к тому же часто по карте не видно где находится враг из за тумана войны, нужно уметь предполагать где находится враг и когда именно он появится

5 на 5, бот контролирует всю команду

Drino

24.09.2017
14:04:33

Можно подождать, пока OpenAI что-нибудь релизнет для доты 5 на 5 и посмотреть у них рабочий подход.

Antonio

24.09.2017
14:04:56

там очень много выислительных мощностей используется

у меня суперкомпьютера нет к сожалению

Andrey

24.09.2017
14:05:59

Это явно не скоро будет - игра 5х5 на порядки сложнее

Dmitry

24.09.2017
14:06:34

кмк, на данном этапе необходимо будет вручную прописывать стратегии. В отличии от покера, вариативность на порядки больше, и тупо генерить сотни тысяч игр - никаких мощностей не хватит, чтобы бот самообучался. Т.е. на это нет пока адекватного источника ресурсов

Antonio

24.09.2017
14:06:46

Это явно не скоро будет - игра 5х5 на порядки сложнее

про Alphago тоже самое говорили, но там работала команда лучших

Google

Drino

24.09.2017
14:07:12

Альфаго всё-таки про очень большие вычислительные мощности

у меня суперкомпьютера нет к сожалению

Мне кажется, что лучшее, что тут можно сделать - написать бота самому и машинку использовать для микро, например.

Antonio

24.09.2017
14:09:05

микроконтроль для обучения с подкреплением - идельно подходит, а вот что делать с макро?

Dmitry

24.09.2017
14:09:14

про Alphago тоже самое говорили, но там работала команда лучших

в ГО у тебя есть поле с клетками на которые можно ставить камни. Тут нужны большие мощности, но их уже хватает (если ты гугл или обладаешь сравнимыми ресурсами) для того чтобы тупо моделировать миллионы игр. А в доте и т.п. все сложнее, без прописывания стратегии ты все варианты будешь вечность перебирать. Один юнит сколько может получить точек для движения на карте, хотя бы?

кмк это уже больше, чем число вариантов постановки камня на 1 ход в ГО. При этом юнитов много, есть вещи, есть разные абилки (которые тоже могут в разные места применяться). В общем число вариантов при подходе "тренировать так же как тренировали в ГО" - просто безумное

Antonio

24.09.2017
14:10:49

ну гугл так то не тупо моделировал миллионы игр

Drino

24.09.2017
14:11:13

ну гугл так то не тупо моделировал миллионы игр

Гугл _не только_ тупо моделировал миллионы игр.

Andrey

24.09.2017
14:11:38

Даже если взять покер где больше 3 участников - уже все что применялось ранее становиться непригодным из-за роста сложности

Drino

24.09.2017
14:12:28

микроконтроль для обучения с подкреплением - идельно подходит, а вот что делать с макро?

Написать свой ИИ, захардкоженный, умеющий играть N стратегий.

Dmitry

24.09.2017
14:13:18

Даже если взять покер где больше 3 участников - уже все что применялось ранее становиться непригодным из-за роста сложности

я бы поспорил. Если отталкиваться от теории игры в покер, то статистический анализ и матметоды вполне ещё можно использовать. Люди-профи в онлайн покер играют как раз от математики и статистики

Antonio

24.09.2017
14:13:25

Даже если взять покер где больше 3 участников - уже все что применялось ранее становиться непригодным из-за роста сложности

т.е. ты считаешь алгоритмов, которые уменьшают рост сложности - нет?

или не уменьшают, но всё равно могут работать при таком комбинаторном взрыве

Dmitry

24.09.2017
14:15:09

причем, я уверен, подавляющее большинство профи-покеристов при игре онлайн - юзают вспомогательный софт типа Holdem Manager (более простой вариант - вручную обсчитывают и записывают статистику игры оппонента) - он позволяет адаптировать стратегию, получая инфу о стратегии соперника

нейросеть с этим будет справляться куда лучше человека, в этом я не сомневаюсь

вообще не удивлюсь, если топовые онлайн игроки уже вовсю используют нейросеть для подсказок в режиме реального времени, контролируя процесс лишь в некоторых моментах. По сути использование софта типа Holdem Manager - это использование скрипта, собирающего и рассчитывающего статистику и матан. И практики/алгоритмы игры человека не сложно по большей части прописать даже в скрипте. Новички так вообще начинают играть тупо "по учебнику". При этом они играют лучше неподготовленных людей, плохо знающих матан и матожидания для ходов и карт. Но сливаются более опытным игрокам, которые знают схемы игры "по учебнику" и поэтому могут вычислять карты на руках у новичка

как пример, бьются два рыцаря в доспехах на холодном оружии. Новичок при этом - рыцарь освоивший общепринятую технику боя. Он сильнее обычного человека в том же экипе за счет совершенства навыков. Но при этом с тем же экипом профессионал - будет сильнее подготовленного новичка. Потому что он знает куда будет бить подготовленный новичек и соответственно обладает преимуществом, благодаря получению информации о том, что новичок будет делать

Andrey

24.09.2017
14:23:48

Некоторые профи используют подсказчики - но это единицы и работают эти подсказчики только дла ХА раздач

Dmitry

24.09.2017
14:25:52

Некоторые профи используют подсказчики - но это единицы и работают эти подсказчики только дла ХА раздач

ну я себя профи в покере назвать не могу, но когда я играл много - стал использовать такой подсказчик. Эта прога не требует особого ума или выдающегося интеллекта, она инструмент, который упрощает игру. Разве что кто-то не использует их потому что не хочет/не знает, но это глупо, кмк

Ivan

24.09.2017
14:26:06

какой смысл делать бота для покера, если на это придется положить годы своей жизни, а инфраструктуру вывода денег придется делать с нуля натыкаясь на каждые грабли, которые покерсайты давно изучили и некоторые даже положили?

это как заняться вирусописательством - гора труда, а на выходе мышь в виде бессмысленности инвестиций

Google

Andrey

24.09.2017
14:26:48

ну я себя профи в покере назвать не могу, но когда я играл много - стал использовать такой подсказчик. Эта прога не требует особого ума или выдающегося интеллекта, она инструмент, который упрощает игру. Разве что кто-то не использует их потому что не хочет/не знает, но это глупо, кмк

Конкретнее?

Ivan

24.09.2017
14:27:39

пушфолд калькуляторы многие используют, если поленились запомнить нужные цифры

Dmitry

24.09.2017
14:28:37

по сути она просто собирает инфу и записывает её вместо тебя. Я могу держать в памяти ходы противника, а могу отдать это она откуп проге. Результат будет одинаковый, но при этом мне будет проще, т.к. за меня эти простые задачи (запомнить действия, посчитать статистическую вероятность их в будущем) - решает прога. Кто-то в заметки о другом игроке сам записывает. Типа "с рукой A10 на префлопе на мой рейз повел себя так-то"

Конкретнее?

просто вбей в поиск на ютубе Holdem Manager. Например: https://www.youtube.com/watch?v=5IA2U2i-aMs

в видео строки с цифрами - xx/xx/xx/x.y - это не инфа из покеррума. Это наложенное изображение как раз такой проги

Andrey

24.09.2017
14:30:43

Ну как-бы есть программы типа StarsHelper которые выводят тебе последовательность действий в реал-тайме, на других румах незапрещено выводить таблицы с таблицами ренжей. Все это простейшие утилиты

Dmitry

24.09.2017
14:31:23

она на лету перехватывает лог игры, обсчитывает статистику и в виде цифр отрисовывает её. Такого функционала в ПО покеррумов нет (во всяком случае не было, когда я играл). Можно даже сказать, что это такой чит ))

Andrey

24.09.2017
14:37:22

Есть куча наработок для ХА-спотов в покере. Можете посмотреть PIO Solver или Simple Postflop - там для заданых ренжей расчитываются равновесные стратегии. И это уже как 2 года доступно для профи игроков. Стоит всего ~700$

Если мы рассматриваем игра с 6 участниками - то для начала всплывает проблема данных - статистика для мультипотов накапливается на порядок медленнее.

Dmitry

24.09.2017
14:41:38

какой смысл делать бота для покера, если на это придется положить годы своей жизни, а инфраструктуру вывода денег придется делать с нуля натыкаясь на каждые грабли, которые покерсайты давно изучили и некоторые даже положили?

я забил на покер (после месяца плюсовой игры в начале, вывев 100$) ещё лет пять назад. Уже тогда сложилось ощущение, что тема себя все больше исчерпывает за счет популярности идеи игры против рыбы. Уже тогда, кмк, онлайн-покер страдал от избытка регуляров. И очевидно что дальше будет только хуже. Теперь ещё и боты добавились. Совершенно согласен, что проф игра в онлайн покер - занятие весьма сомнительное. Не, даже сейчас, наверное, можно зарабатывать этим, но стоит ли...

Antonio

24.09.2017
14:42:30

я тут посмотрел у майла чемпионаты проводятся, так вот там как раз moba игра https://habrahabr.ru/post/319518/

Dmitry

24.09.2017
14:42:31

поэтому играю иногда вживую с друзьями ) это хотя бы весело да и психологический аспект игры пока-что не так испорчен профессионалами и машинным обучением (но, чую, это ненадолго)

Sergey

24.09.2017
14:59:00

Сейчас вот заканчивается сбербанковский хакатон по разработке покерботов

Есть куча наработок для ХА-спотов в покере. Можете посмотреть PIO Solver или Simple Postflop - там для заданых ренжей расчитываются равновесные стратегии. И это уже как 2 года доступно для профи игроков. Стоит всего ~700$

Команда simple poker, кстати, заняла 3 место

Herman

24.09.2017
15:06:24

Посоветуйте ноут для МЛ

любой, на котором можно программировать. в 350 баксов можно уложиться тренировать надо на внешней видюхе, а не на ноуте. если ты адекватный человек, конечно

Dmitry

24.09.2017
15:09:10

причем видюху лучше от NVIDIA. На волне популярности обработки картинок нейросетками пытался приспособить свою видюху от AMD - все было грустно, так и не смог.

Serhii

24.09.2017
15:15:09

Господа, кто с GAN'ами имел дело? Есть вопрос по работе дискриминатора, подробного ответа на который я не могу найти

Evgeniy

24.09.2017
15:15:19

нет, сразу

Господа, кто с GAN'ами имел дело? Есть вопрос по работе дискриминатора, подробного ответа на который я не могу найти

могу попробовать

Google

Serhii

24.09.2017
15:19:05

Такое дело. Вот задача дискриминатора - отличить реальное изображение от сгенерированного. При этом во всех работах пишут что найти баланс между G и D - самая сложная часть, иначе G перестаёт тренироваться. Вопрос вот в чем - почему так происходит и почему нельзя заранее натренировать D на базе реальных и сгенерированных изображений и потом просто использовать как loss function при тренировке G?

Evgeniy

24.09.2017
15:35:16

Такое дело. Вот задача дискриминатора - отличить реальное изображение от сгенерированного. При этом во всех работах пишут что найти баланс между G и D - самая сложная часть, иначе G перестаёт тренироваться. Вопрос вот в чем - почему так происходит и почему нельзя заранее натренировать D на базе реальных и сгенерированных изображений и потом просто использовать как loss function при тренировке G?

ну во первых обычно на такой вопрос лучший ответ "потому что не будет работать"

но можно попредполагать

например потому что отличать картинки конкретного генератора гораздо проще, чем абстрактного любого

Sergey

24.09.2017
15:38:15

ну во первых обычно на такой вопрос лучший ответ "потому что не будет работать"

Хороший ответ, он объясняет все sota по ганам, рл

За последние два года

Evgeniy

24.09.2017
15:39:34

Хороший ответ, он объясняет все sota по ганам, рл

ну если бы на любой вопрос почему был бы ответ, sota были бы покруче

Drino

24.09.2017
15:41:45

я тут посмотрел у майла чемпионаты проводятся, так вот там как раз moba игра https://habrahabr.ru/post/319518/

Там каждый агент отдельно от остальных написан. И бот захардкожен.

Я не прав, конкретно эта статья не про то. Но побеждали в прошлогоднем соревновании не нейросетки

Serhii

24.09.2017
15:45:57

Хм, а возможно ли теоретически их тренировать все же сколько нибудь раздельно?

Drino

24.09.2017
15:46:39

Такое дело. Вот задача дискриминатора - отличить реальное изображение от сгенерированного. При этом во всех работах пишут что найти баланс между G и D - самая сложная часть, иначе G перестаёт тренироваться. Вопрос вот в чем - почему так происходит и почему нельзя заранее натренировать D на базе реальных и сгенерированных изображений и потом просто использовать как loss function при тренировке G?

Потому что для фиксированной нейросетки (даже с неизвестной архитектурой) довольно просто найти adversarial example. А вот если эта нейросетка на нем сразу дообучится - задача становится сложнее.

Хм, а возможно ли теоретически их тренировать все же сколько нибудь раздельно?

Возможно, но не нужно.

Serhii

24.09.2017
15:48:42

What is adversarial example?

Drino

24.09.2017
15:49:50

What is adversarial example?

Я имею в виду картинку, которая сгенерирована, но выглядит для этой нейросетки как настоящая.

Serhii

24.09.2017
15:51:02

Ну скажем если у нас есть иные метрики кроме выхода D, возможно ли скажем 10 эпох учить G, потом 1 эпоху D, и снова G... вопрос возник от того, что навороченный G и D боюсь в память не влезут) гуглу то попроще с их мощностями

Drino

24.09.2017
15:52:38

Ну скажем если у нас есть иные метрики кроме выхода D, возможно ли скажем 10 эпох учить G, потом 1 эпоху D, и снова G... вопрос возник от того, что навороченный G и D боюсь в память не влезут) гуглу то попроще с их мощностями

Увы, не знаю ответа. Можно попробовать, но совсем переставать обучаться точно не стоит.

« Назад

Страница 147 из 327

Далее »

Открыть в Telegram