@bigdata_ru

« Назад

Страница 18 из 327

Далее »

Леонид

07.10.2016
14:38:27

*Все примеры

yopp

07.10.2016
14:38:54

Так, variance считается для всех примеров или для каждого?

Леонид

07.10.2016
14:39:54

Для всех. Variance - это среднее. Нельзя считать среднее для одного числа, это как-то странно )

Jim

07.10.2016
14:40:12

Sklearn, не видел ничего проще этого.

Ок, смотрел уже в эту сторону

Google

yopp

07.10.2016
14:48:10

Для всех. Variance - это среднее. Нельзя считать среднее для одного числа, это как-то странно )

Окей, пошел по тупому и сделал график зависимости variance от веса

Получился вот такой вот график: https://yopp.in/X8F

нет

чот не то

Леонид

07.10.2016
14:58:08

Окей, пошел по тупому и сделал график зависимости variance от веса

Идея отличная, но где-то ошибка в реализации, судя по графику

yopp

07.10.2016
14:58:51

Да, меня обманул VAR в намберсе

https://yopp.in/X9X

Вот так уже на правду похоже

Так вот

Вот этот график мне вполне понятен

И его физический смысл

Внимание вопрос: как теперь вес-то подстраивать?

Потому что это — просто перебор

Google

yopp

07.10.2016
15:00:38

Понятно что так тоже можно тренировать сеть, но это тупой вариант

Я так понимаю что метод градиентного спуска в данном случае представляет из себя расчёт производной функции потерь/кост функции и вместо того чтоб менять на случайное значение, мы меняем вес на производную этой функции?

Andrey

07.10.2016
15:13:23

Перебор в направлении минимума!

yopp

07.10.2016
15:13:45

Тогда ещё раз

У нас есть эта самая cost функция

c(w)

Но я чот не понимаю как её вывести без i

тоесть она у нас вообще-то c(i,w) = (t - (i * w))^2

можно даже ради хохмы изменить АФ на 2x вместо 1x

или я не знаю, взять сигмоид тот-же

Леонид

07.10.2016
15:17:15

Потому что это — просто перебор

Алгоритмами поиска минимума

yopp

07.10.2016
15:17:30

Я имею ввиду на этом графике я нашел минимум просто перебором

Я взял и вычислил ошибку для w 0...4.5

И тут мне повезло что шаг совпал и попал в оптимальный вес

И ошибка в итоге равна 0

Sergey

07.10.2016
15:23:26

Ошибка равна нулю - признак переобучения ,)

yopp

07.10.2016
15:30:28

Окей, The error signal we propagate backward in the network represents how fast the network output total error changes with the weighted sum for a particular neuron z. Or in other words, δ is the slope (gradient) of the error surface. This is done recursive, and the base case is the output δ we get by the derivative of the error function with respect to the output value. — y is the network output — t is the desired target E = (t-y)^2/2

Но почему (t-y)^2/2 ?!

измерение то одно и stdev тут будет (t-y)^2/1

тьфу

Google

yopp

07.10.2016
15:31:45

variation

Andrey

07.10.2016
15:32:06

Чтобы 2 и 1/2 при умножении дали 1 после взятия производной

yopp

07.10.2016
15:33:09

Но почему?

Окей, я опущу вопрос почему функция расчёта ошибки именно така

Вобщем получается что E' = y - t

что вполне логично

Леонид

07.10.2016
19:00:04

Окей, я опущу вопрос почему функция расчёта ошибки именно така

Для удобства. Как я выше писал, ошибку считать можно разными способами. Ты можешь не делить на два, это не будет препятствием, что бы обучить сеть. Ты можешь не возводить в квадрат, а взять модуль. Или возводить в 4 степень. Общая схема останется ты же, но изменится итоговое качество твоей сети и сложность вычислений. Для некоторых случаев variance - не самый хороший вариант.

Грубо говоря, выбери любую, у которой ты сможешь найти минимум

/dev

09.10.2016
18:24:51

Грубо говоря, выбери любую, у которой ты сможешь найти минимум

Одни фиг, все равно получишь многомодальное распределение со множеством локальных оптимумов. Функционал ошибки должен соответствовать прикладной задаче, а не удобству дифференцирования

Например, потери от решения у тебя могут выглядеть как ломанная, вот её и надо будет в функционал загонять

Ну или как-то преобразовать

Леонид

09.10.2016
19:22:39

Одни фиг, все равно получишь многомодальное распределение со множеством локальных оптимумов. Функционал ошибки должен соответствовать прикладной задаче, а не удобству дифференцирования

Мы ж обсуждали деление на два. Как на прикладную задачу повлияет, поделим мы на два или нет?

/dev

09.10.2016
19:23:52

Мы ж обсуждали деление на два. Как на прикладную задачу повлияет, поделим мы на два или нет?

Звучало как "можешь взять любую ошибку"

Леонид

09.10.2016
19:28:44

Звучало как "можешь взять любую ошибку"

Любую - то есть нет жесткого доказательства, что нужен именно variance. Это просто хороший выбор для обучения (и для многих реальных проблем). Хорошо работать будет не любая, конечно. Спасибо за такое уточнение

yopp

10.10.2016
09:47:50

Грубо говоря, выбери любую, у которой ты сможешь найти минимум

То что задача обучения НС сводится к задаче поиска минимума ошибки это понятно. Мне не понятны критерии выбора функции расчёта ошибки и принцип работы обратного распространения ошибки.

А как я еще объясню обратное распространение?

Так, я вернулся

В прошлой серии мы дошли до того, что задача обучения НС сводится к поиску минимуму ошибки. Мы дошли до того, что в методе обратного распространения ошибки суть сводится к нахождению производной функции ошибки и поправки веса одного входа на эту ошибку

Вопрос в этой серии: что делать если у нас два веса

Леонид

11.10.2016
19:10:03

В прошлой серии мы дошли до того, что задача обучения НС сводится к поиску минимуму ошибки. Мы дошли до того, что в методе обратного распространения ошибки суть сводится к нахождению производной функции ошибки и поправки веса одного входа на эту ошибку

Не одного. Производные считаются для всех и меняются все веса. Какие-то сильно, какие-то чуть-чуть

yopp

11.10.2016
19:10:27

Для всех чего?

Google

Леонид

11.10.2016
19:11:44

Для всех весов. Для каждого веса считается dC/dw и потом каждый вес меняется

Ты пробовал какую-либо книгу читать, где подробно разбирается это?

yopp

11.10.2016
19:13:04

Если мне дадут книгу, на которой на первых 10 страницах не появляется 2 этажное уравнение, я буду безумно рад

А так я вайтпейперы, ммм, читал

Леонид

11.10.2016
19:14:45

2-этажное - так любая производная уже двухэтажная, там же есть деление :).

yopp

11.10.2016
19:14:54

Да блин

У меня щас прямо сильно бомбануло

На самом деле бомбануло уже очень давно, но каждый раз всё ещё бомбит от этого.

Окей, с диаконом не прокатило. Представьте что я 7 летний ребёнок. Объясните мне обратное распространие ошибки так, чтоб я не зарезал ночью своих родителей от безисходности

Леонид

11.10.2016
19:32:17

Да без проблем. Сначала будем до семнадцати учить тебя математике - подойдет?

yopp

11.10.2016
19:33:28

Подойдёт!

Леонид

11.10.2016
19:35:33

А если серьезно - подсказать и помочь многие готовы, а составлять под тебя персональную программу-интенсив - нет. Для этого и навыки обучения нужны, да и стоит это, по идее, дорого. Ты возьми какой-то мануал и пройди пошагово. На каком шаге проблемы (даже если на самом первом) - спрашивай

yopp

11.10.2016
19:39:07

Я там уже выше картинку про сову постил

Это примерно как выглядит пошаговый манул

Леонид

11.10.2016
19:39:44

Кстати, gradient descend используется не только в нейронках. В svm без проблем можно использовать. А svm проще нейронок, на мой взгляд, можно на нем разбираться

yopp

11.10.2016
19:41:35

Градиентный спуск я тоже понял. Объясните смысл обратного распространения ошибки

Maxim

12.10.2016
08:23:16

Искусственный интеллект в Linux Список нескольких разработанных платформ ИИ, которые вы можете использовать на Linux и многих других операционных системах http://losst.ru/iskusstvennyj-intellekt-v-linux

Ivan

12.10.2016
09:58:50

Градиентный спуск я тоже понял. Объясните смысл обратного распространения ошибки

На самом деле, нейросеть - это сложная вектор-функция (функция вида f(g(h(....)))). Обратное распространение ошибки - это адаптированная под особенности нейросетей процедура вычисления производной такой функции

Andrey

12.10.2016
09:59:59

Картинко из курса Хинтона на курсере

Dim