@bigdata_ru

Страница 256 из 327
Paul
09.04.2018
19:44:53
Просто именно под Питон написано куча либ, и для ML и для DL и для NLP, в общем говоря почти весь спектр интеллектуального анализа можно проводить.

Anton [Mgn, az09@osm]
09.04.2018
19:45:04
я не против питона, но мне вот что интересно - в следующем году второй питон перестанет обновляться совсем. а тут с удивлением узнаю что в ds еще и половина на третий не переведена. как так то!?

Paul
09.04.2018
19:46:29
А так да, если есть желание, то мижно си библиотеки брать и юзать на других языках, только обертку придётся делать для себя или искать, может быть уже есть.

Sewerin
10.04.2018
00:04:17
Серьёзно, можно знать только Си и при этом пилить дата сайенс чисто на нём? Или это для супергероев?

Google
Andrey
10.04.2018
01:36:37
Писать на Си, в принципе, в известном смысле сложнее.

Andrey
10.04.2018
03:11:21
Привет всем, что-т не вникаю, почему питон так востребован в ml? просто сам плюсник, можно же все так же сделать, а на питоне не хочу писать
Потому что язык общего назначения, на котором много кто пишет помимо ML. Потом народ массово переметнулся в эту сферу и потащил за собой язык

dot
10.04.2018
03:11:50
Хмм в дополднение ко вчерашенему вопросу

Я делал вот по такому примеру https://www.asozykin.ru/deep_learning/2018/01/06/how-to-prepare-image-dataset-for-keras там типо сеть обучалась различать собак и кошек. В моем случае мне нужно на картинках находить три разных типа объектов и считать их количество на каждой картинке. Поэтому я сделал генератор этих трех типов объектов и создал их по 15000 объектов и по 5000 для каждого класса объектов для валидации. Создал три папки с названиями классов туда перекинул все эти файлы. Натравил на них керас. но получается слишком большая ошибка. Как уменьшить ошибку ? Как подготовить набор изображений для обучения нейронной сети в Keras Ранее в курсе “Программирование глубоких нейронных сетей на Python” мы работали только с наборами данных, в

скажите а опции компилятора например поставить другой оптимизатор влияют на ошибку?

Viktor
10.04.2018
03:15:48
Серьёзно, можно знать только Си и при этом пилить дата сайенс чисто на нём? Или это для супергероев?
Это для рисковых менеджеров. Если с тобой что-то случится то найти другого питониста будет сильно проще чем сишника.

Andrey
10.04.2018
03:37:31
Хмм в дополднение ко вчерашенему вопросу
Ты уже третий месяц спамишь вариациями на тему одного и того же вопроса, ответы при этом игнорируешь. С какой целью?

dot
10.04.2018
05:37:22
Три месяца назад я спрашивал где взять образцы для обучения

В итоге я написал генератор который их сам все генерит :) Тут вопрос уже совершенно по другим вещам :)

Oleg
10.04.2018
06:01:56
оказалось, что обучить по сгенерированному этим генератором невозможно?

dot
10.04.2018
07:29:10
почему ? Мне кажется что я все правильно сделал. Картики которые мой генератор делает встречаются в тех изображениях в которых нужно их искать , вроде все правильно :)

Google
Alex
10.04.2018
07:33:08
я по тому же примеру кошек и собак пару недель назад сделал свой пример, у меня там было 5 классов изображений. Поменял пару строк кода, заняло минимум времени, при том, что с keras и tf до этого не работал. Как так-то у тебя не получилось)

Dan
10.04.2018
09:21:58
Подборка ресурсов по машинному обучению https://github.com/demidovakatya/vvedenie-mashinnoe-obuchenie

Alex
10.04.2018
11:24:12
Народец, подскажите Есть нейронка, обученная на неком датасете. Потом датасет расширился. Лучше дообучать нейронку на нем с существующими весами, или с нуля?

Или один хрен, разница только в скорости?

Aleksey
10.04.2018
12:02:08
Подскажите, есть какие то методы борьбы с "неудачными" начальными весами?



dot
10.04.2018
14:00:40
Народец, подскажите Есть нейронка, обученная на неком датасете. Потом датасет расширился. Лучше дообучать нейронку на нем с существующими весами, или с нуля?
я думаю что с уже готовыми весами лучше потому что сеть же получается на основной массе дданных обучена и твои данные я думаю будут на подобии тех где на которых система уже обучена. Хотя я еще плохо в этом разбираюсь, но вроде если логически подумать то так. Хотя если у тебя после результата получится "переобучение", то тогда уже пробуй с нуля :)

Alex
10.04.2018
14:02:17
Я тож так подумал, но мало ли чего я не понимаю на самом деле

Mikle
10.04.2018
14:09:27
Ребят, всех приветствую Кто-нибудь занимался выявлением ботов в вк??

Проксимов
10.04.2018
14:22:43
ВК занимается

Mikle
10.04.2018
14:44:24
Ок, задам по другому вопрос Как по странице в вк дать ответ - бот или не бот?

Konstantin
10.04.2018
14:44:56
в зависимости от того, как сделан бот

Если это выкупленный взломанный акк - то шансов мало

Лучше всего почекать даты заливок фото, постов и тд - бот все фотки льет скопом и сразу, живые люди апдейтят по времени

Но это так, предположения на шару

Артем
10.04.2018
14:46:38
можно ещё по соотношению кол-ва подписчиков и просмотренных постов смотреть. Ботов почти никто не читает, а "друзей" может быть много

Alexei
10.04.2018
14:50:08
взломанный и выкупленный давно ничего не добавлял в фото и, обычно, активно делает репосты.

Mikle
10.04.2018
14:50:27
Вот это дельные предложения

Google
Mikle
10.04.2018
14:50:56
Спасибо ребят

Alexei
10.04.2018
14:52:35
и ещё я обычно пользуюсь images.yandex.ru для поиска похожих фото. если таких фото много в яндексе на сайте вк, скорей всего бот.

Dmitry
10.04.2018
16:31:27
Подскажите, есть какие то методы борьбы с "неудачными" начальными весами?
если функция застревает в локальном минимуме, может помочь переход в пространство с большей размерностью (stack more layers.jpg) и сглаживание с помощью регуляризации

Aleksey
10.04.2018
16:46:09
если функция застревает в локальном минимуме, может помочь переход в пространство с большей размерностью (stack more layers.jpg) и сглаживание с помощью регуляризации
Я тут подумал... В большой сети вероятность неудачных весов отдельных нейронов возрастает. Их можно отличить по четкому признаку: Если клетка для всего обучающего сета выдает приблизительно один ответ, то она не вносит вклад в результат. Если задача уже решается, то эта клетка не нужна, ее можно убрать из архитектуры (оптимизировать сеть), если сеть еще учится, то можно обновить веса клетки новыми случайными (мутация). Как найти нужные клетки: выходы клеток всегда хранятся, используются как входы для следующего слоя и при backpropagation. Перед обновлением выхода можно в параметр статистики добавлять дельту последнего значения и нового. Периодически проверять какие клетки имеют самое низкое значение накопленной статистики. И например 1% клеток с самым низким значением заставлять мутировать, можно с некоторым порогом.

Evgeniy
10.04.2018
16:49:10
Я тут подумал... В большой сети вероятность неудачных весов отдельных нейронов возрастает. Их можно отличить по четкому признаку: Если клетка для всего обучающего сета выдает приблизительно один ответ, то она не вносит вклад в результат. Если задача уже решается, то эта клетка не нужна, ее можно убрать из архитектуры (оптимизировать сеть), если сеть еще учится, то можно обновить веса клетки новыми случайными (мутация). Как найти нужные клетки: выходы клеток всегда хранятся, используются как входы для следующего слоя и при backpropagation. Перед обновлением выхода можно в параметр статистики добавлять дельту последнего значения и нового. Периодически проверять какие клетки имеют самое низкое значение накопленной статистики. И например 1% клеток с самым низким значением заставлять мутировать, можно с некоторым порогом.
поздравляю, вы изобрели pruning

Aleksey
10.04.2018
16:50:00
поздравляю, вы изобрели pruning
Черт, хорошо, что есть такой чат где подскажут что это уже придумали )

Dmitry
10.04.2018
16:53:03
> Если клетка для всего обучающего сета выдает приблизительно один ответ, то она не вносит вклад в результат. с чего вдруг? Допустим у нас есть нейросеть вида y=k*x+b с параметрами k и b и модельные данные это k=1000000. Ответ очень быстро будет один и тот же, но весомый вклад в результат вноситься будет

прунинг - это не о том

Admin
ERROR: S client not available

Dmitry
10.04.2018
16:57:33
x = вход, y = выход, k и b = веса сети, которые она должна найти?
да. А моделируем мы это допустим y_train = 100000 + (1:10000)*(b + шум). Из-за того, что k не зашумлен и велик, он найдется быстро, но при этом будет очень важен для модели

Evgeniy
10.04.2018
16:59:06
прунинг - это не о том
как раз об этом, убирать не влияющие нейроны

Dmitry
10.04.2018
17:00:25
>В большой сети вероятность неудачных весов отдельных нейронов возрастает но при этом сам по себе вклад каждого нейрона меньше, и это друг друга компенсирует. В большой сети есть другое преимущество, размерность пространства больше, а значит меньше вероятность застрять в локальном минимуме - вероятность того, что в каком-то другом измерении вторая производная не равна нулю выше, чем больше размерность

Dmitry
10.04.2018
17:02:31
>Если клетка для всего обучающего сета выдает приблизительно один ответ, то она не вносит вклад в результат если используется оптимизатор типа adam или adagrad, то такого не будет - при одних и тех же ответах learning rate конкретно для этого параметра возрастет

Azoyan
11.04.2018
18:34:07
Парни, вот клиентский код: string lang = detectLanguage(text); нужна штука, которая определяет язык программирования. Как это сделать?

Google
Arcady
11.04.2018
18:38:52
взять все парсеры всех нужных языков и прогнать текст через них

правда это может оказаться кусок текста из лбого тюринг-полного языка

Azoyan
11.04.2018
18:42:45
Смотри, есть гитхаб, там куча кода. Может как-то можно обучить на нём?

Arcady
11.04.2018
18:44:54
гитхаб и так умеет определять язык

Azoyan
11.04.2018
18:45:39
Arcady
11.04.2018
18:46:39
можно залить на гитхаб текст и посмотреть, какой язык у него получился. machine learning тут никаким боком. большинство языков не сложнее CFG

Anton [Mgn, az09@osm]
11.04.2018
18:47:00
гитхаб и так умеет определять язык
гитхаб просто по расширению файла ориентируется, в код он вряд ли заглядывает

Arcady
11.04.2018
18:50:07
Гитхаб использует https://github.com/github/linguist

Alex
11.04.2018
19:15:02
А можно обучить лтсмочки на разных прогах и классифицировать)))00

Михаил
11.04.2018
21:18:30
Преобразовать в байты и сопостпвить с таблицпми символов

dot
12.04.2018
02:22:02
Всем привет :)Скажите я вот убунту поставил на терминалку, может ли изза этого не видится видеокарта geforce 210 ? Я ее хочу использовать для CUDA ? Theano же потянет ?

Понял изза чего не видится оказывается нужно еще делать было проброс железа для виртуалки :)) Эмм если вдруг кто с таким сталкивался у тиано есть ли какие либо требования к версии cuda моя видюха допотопная но cuda 5 она потянет. Вот в связи сэ тим и возник такой вопрос

Страница 256 из 327