@bigdata_ru

Страница 302 из 327
Проксимов
25.08.2018
15:37:53
https://tproger.ru/news/openai-five-vs-gamers/amp/
Это была первая игра ИИ в Dota 2 против геймеров-профессионалов. 5 августа 2018 года OpenAI провела матч по Dota 2 между ботами и командами любителей и полупрофессионалов. Соревнование завершилось победой ИИ со счетом 2:0.

Так кто кого обыграл?

Oleksandr
25.08.2018
15:38:31
боты разгромно проиграли команде профи, но выиграли у рандомной несыгранной команды

Проксимов
25.08.2018
15:40:01
Ну выиграли хотя бы, уже хорошо

Google
Oleksandr
25.08.2018
15:40:59
ну как сказать, с моей точки зрения (много играл в д1, в д2 ориентируюсь "по памяти") у ботов уровень стратегической игры чуть выше нулевого

но скорость реакции используют классно, это да

Artyom
25.08.2018
16:58:32
Roc_auc она хорошо работает для тех случаев, когда данные сбалансированы
ей по барабану на дисбаланс, вот то, что стоимости ошибочной классификации могут при одинаковом AUC быть разными, вот это важно

Sewerin
25.08.2018
18:00:20
А вот эти приватные каналы - это какой-то изощрённый спам, что ли?

alex
25.08.2018
18:03:17
Просто Виталий Сергиенко некрофил

Nikolay
25.08.2018
18:03:32
Чего изощрённый - обычный. Просто напарсить чатов всех подряд - и спамят. Зачем вычищать если проще скопом слать. Небось опять копрокобра гадит

49060
25.08.2018
18:05:07
Так поищи anomaly detection в тайм сериях

Это очевидно не то

У Евгения Бурнаева из Сколково были доклады на эту тему

Они как раз поломки какие то детектировали через тайм серии

Вроде поломки датчиков измеряющих температуру асфальта

Но это собственно не важно)

Google
Илья
26.08.2018
03:43:16
Ребята, хочу посоветоваться с вами. Собираюсь попробовать арендовать спотовый AWS, сейчас упражняюсь в загрузке файлов на бесплатном t2.micro. Проблема собственно вот в чем: на загрузку в инстанс более-менее больших объемов данных, например в >6 ГБ уходит довольно много времени. Сейчас на моём халявном t2.micro на это ушло 23 минуты. Если бы это был дорогой p3 с GPU, то это означает что платя за видюху я ею не пользуюсь целых пол-часа. И это еще мне не требовалось пока устанавливать софт. Как эффективно решить данную проблему простаивания оплаченных ресурсов? Может можно менять конфигурацию инстанса без очистки диска, типа аплоадишь файлы и настраиваешь софт на дешевом t2.micro а потом, когда нужно запустить рассчёты - подключаешь мощное железо?

Илья
26.08.2018
05:49:32
ок

Denis
26.08.2018
08:20:21
Каким алгоритмом можно сегментированное изображение (детектирование зданий) можно векторизовать, что бы контуры зданий были прямые, а не рваные?

Vova
26.08.2018
08:46:35
Откуда закачка, какие преобразования претерпевают данные, куда они закачиваются, какой фреймворк

В целом это задача фундаментальная, я постоянно с ней сталкиваюсь и решения всегда свои

Илья
26.08.2018
09:13:56
Откуда закачка, какие преобразования претерпевают данные, куда они закачиваются, какой фреймворк
Закачка происходит с моего жесткого диска. В пакет файлов входит сама программа на питоне, датасет ( в данном случае это текст, т.е. весит немного) и предтренированая модель векторов слов fasttext, которая весит (omg) 6 ГБ. В принципе это стандартная задача, которая на том же floydhub решалась введением репозиториев на ихнем же облаке, и подключением папки с данными в /input/ контейнера. Так что всё было довольно быстро, и при запуске тренировки модели работа начиналась почти сразу, не расходуя арендованное время на передачу данных прям с твоего компа. В AWS мой конфуз был в том, что я не знал как загрузить в облако свои данные до того как пошел отсчёт драгоценного времени аренды видеокарты. В соседней группе мне подсказали что можно менять тип инстанса, так что буду копать в эту сторону. Очевидно, можно закачать в хранилище свои данные под дешевым инстансом, и сделать необходимые настройки, а потом сменить инстанс на какой-нибудь p3 с видюхой и запустить тренировку модели не расходуя время на технические операции.

Dmitry
26.08.2018
09:27:41
На всякий случай, ключевое отличие, что тайм серия не одна.
Посмотрите на тайм серии со стороны библиотеки prophet от FB там как раз теория описывается.

Oleksandr
26.08.2018
09:40:49
Закачка происходит с моего жесткого диска. В пакет файлов входит сама программа на питоне, датасет ( в данном случае это текст, т.е. весит немного) и предтренированая модель векторов слов fasttext, которая весит (omg) 6 ГБ. В принципе это стандартная задача, которая на том же floydhub решалась введением репозиториев на ихнем же облаке, и подключением папки с данными в /input/ контейнера. Так что всё было довольно быстро, и при запуске тренировки модели работа начиналась почти сразу, не расходуя арендованное время на передачу данных прям с твоего компа. В AWS мой конфуз был в том, что я не знал как загрузить в облако свои данные до того как пошел отсчёт драгоценного времени аренды видеокарты. В соседней группе мне подсказали что можно менять тип инстанса, так что буду копать в эту сторону. Очевидно, можно закачать в хранилище свои данные под дешевым инстансом, и сделать необходимые настройки, а потом сменить инстанс на какой-нибудь p3 с видюхой и запустить тренировку модели не расходуя время на технические операции.
можно данные предварительно закачать на ebs/efs/t2, и его маунтить при старте дорогого инстанса

хотя для 6 гб это как-то несерьёзно, я бы забил)

да, канал на t2 и p3 разный

Илья
26.08.2018
09:44:48
А если мне надо будет питон 3.6 насторить? В официальных AMI с Deep Learning Ubuntu 16 там 3.5 только. Всё-таки придётся наверное менять тип инстанса.

У меня дома тоже разный канал :)

23 минуты качал однако

Oleksandr
26.08.2018
09:45:56
можно вообще прямо в ami загнать данные, если они редко меняются

~~Shan~~
26.08.2018
09:56:26
Is there English version of this particular group.. I am not able to get this language

Илья
26.08.2018
10:12:07
@bigdata_en

Google
~~Shan~~
26.08.2018
10:12:49
Thank you

I just joined the group, thanks once again ?

Илья
26.08.2018
10:30:12
You're welcome

Dan
26.08.2018
21:15:42
#рекомендация Как не потратить месяцы и десятки тысяч рублей на поиски годных курсов и литературы по Data Science! Личный экспиренс автора в необычном формате, о том какие скилы подтянуть, на что сделать упор и как строить карьеру https://t.me/mommyscience

Я почти научился вычислять спамеров автоматом, но есть нюансы :)

Dan
27.08.2018
09:39:16
М?
Да ходютъ тут спамботы, рекламируют канал какого-то криптотрейдера очередного :)

Проксимов
27.08.2018
09:39:45
Да ходютъ тут спамботы, рекламируют канал какого-то криптотрейдера очередного :)
Да, я вычищал парочку, меня заинтересовало «автоматом»

Dan
27.08.2018
09:41:52
Да, я вычищал парочку, меня заинтересовало «автоматом»
Я фиксирую паттерны поведения. И "автоматом" - ставлю триггеры на такие события. Некто повторил действия один-в-один как спамбот - сразу триггер: потенциальная угроза. Далее проверка, есть ли общие чаты, активность в них, аватар, юзернейм, адекватность юзернейма. Шансы не считал, но вероятность опеределения спамера высокая

tonko
27.08.2018
09:42:14
Пишу бота который убьет этого трейдера Вильнюсова лично

Dan
27.08.2018
09:44:08
Пишу бота который убьет этого трейдера Вильнюсова лично
Это не выход. Формально, он "не уиноуат". Потому что "заказывал продвжение канала", а какими методами - это "не его дело". Разумеется, это ложь, но это не проверить. Так что он вроде как не виновен. Да и поддержка телеграма тоже отказывается накладывать ограничения на него, потому что не он занимается спамом, а кто-то. А вот связаны ли они - не известно. Ведь это могла бы быть и провокация, чтобы "убрать" этого трейдера из телеграма :)

Admin
ERROR: S client not available

Dan
27.08.2018
09:44:23
В общем, бороться мы можем только реактивно, и только со спамерами и их методами.

Dan
27.08.2018
09:46:41
И когда это заработает)?
Ой надеюсь скоро. Но я очень ленивый в этом плане :)

Проксимов
27.08.2018
09:47:10
Кстати, я тут думаю над определением мета вопросов в чатиках

Чтобы оперативно neprivet.ru отсылать

Dan
27.08.2018
09:48:17
Можно просто на "привет" сделать хайлайт с автоответом

Проксимов
27.08.2018
09:48:34
Ловить не только приветы

Google
Проксимов
27.08.2018
09:49:58
Например: «Можно ли задать вопрос?» «кто-то шарит в n?” «Могу ли я спросить по поводу k” “Есть кто разбирается в m”?

bebebe
27.08.2018
09:50:30
жениться вам надо барин (с)

Проксимов
27.08.2018
09:50:36
Главный вопрос в разметке датасета

Dan
27.08.2018
09:50:39
Есть два пути. Добавлять руками, либо парсить стековерфлоу и считать вопросы с минимальным количеством слов в предложении

Sewerin
27.08.2018
09:50:48
А почему бы не выпиливать все ссылки, кроме тех, которые предваряются каким-то значком? Тип "#$@ ссылка" не удаляется, а "ссылка" удаляется.

Dan
27.08.2018
09:51:00
Я бы пошёл по "ручному" пути, датасет будет уникальным. Но времени много займёт

alex
27.08.2018
09:51:16
Можно еще на Толоке задание сделать )

Проксимов
27.08.2018
09:51:23
Sewerin
27.08.2018
09:51:32
Стартап запустить.

Проксимов
27.08.2018
09:51:39
Во во
Дать историю чатиков и пусть размечают

+ скорее всего +- 10 сообщений после каждого джойна

Dan
27.08.2018
09:52:37
А мотивация?

Проксимов
27.08.2018
09:52:47
А мотивация?
Лень руками набирать ссылку на непривет

Dan
27.08.2018
09:52:50
Я понимаю если бы коммерция, а так...

alex
27.08.2018
09:53:29
Мотивация чего? )

Страница 302 из 327