@bigdata_ru

Страница 18 из 327
Леонид
07.10.2016
14:38:27
*Все примеры

yopp
07.10.2016
14:38:54
Так, variance считается для всех примеров или для каждого?

Леонид
07.10.2016
14:39:54
Для всех. Variance - это среднее. Нельзя считать среднее для одного числа, это как-то странно )

Jim
07.10.2016
14:40:12
Sklearn, не видел ничего проще этого.
Ок, смотрел уже в эту сторону

Google
yopp
07.10.2016
14:48:10
Для всех. Variance - это среднее. Нельзя считать среднее для одного числа, это как-то странно )
Окей, пошел по тупому и сделал график зависимости variance от веса

Получился вот такой вот график: https://yopp.in/X8F

нет

чот не то

Леонид
07.10.2016
14:58:08
Окей, пошел по тупому и сделал график зависимости variance от веса
Идея отличная, но где-то ошибка в реализации, судя по графику

yopp
07.10.2016
14:58:51
Да, меня обманул VAR в намберсе

https://yopp.in/X9X

Вот так уже на правду похоже

Так вот

Вот этот график мне вполне понятен

И его физический смысл

Внимание вопрос: как теперь вес-то подстраивать?

Потому что это — просто перебор

Google
yopp
07.10.2016
15:00:38
Понятно что так тоже можно тренировать сеть, но это тупой вариант

Я так понимаю что метод градиентного спуска в данном случае представляет из себя расчёт производной функции потерь/кост функции и вместо того чтоб менять на случайное значение, мы меняем вес на производную этой функции?

Andrey
07.10.2016
15:13:23
Перебор в направлении минимума!

yopp
07.10.2016
15:13:45
Тогда ещё раз

У нас есть эта самая cost функция

c(w)

Но я чот не понимаю как её вывести без i

тоесть она у нас вообще-то c(i,w) = (t - (i * w))^2

можно даже ради хохмы изменить АФ на 2x вместо 1x

или я не знаю, взять сигмоид тот-же

Леонид
07.10.2016
15:17:15
Потому что это — просто перебор
Алгоритмами поиска минимума

yopp
07.10.2016
15:17:30
Я имею ввиду на этом графике я нашел минимум просто перебором

Я взял и вычислил ошибку для w 0...4.5

И тут мне повезло что шаг совпал и попал в оптимальный вес

И ошибка в итоге равна 0

Sergey
07.10.2016
15:23:26
Ошибка равна нулю - признак переобучения ,)

yopp
07.10.2016
15:30:28
Окей, The error signal we propagate backward in the network represents how fast the network output total error changes with the weighted sum for a particular neuron z. Or in other words, δ is the slope (gradient) of the error surface. This is done recursive, and the base case is the output δ we get by the derivative of the error function with respect to the output value. — y is the network output — t is the desired target E = (t-y)^2/2

Но почему (t-y)^2/2 ?!

измерение то одно и stdev тут будет (t-y)^2/1

тьфу

Google
yopp
07.10.2016
15:31:45
variation

Andrey
07.10.2016
15:32:06
Чтобы 2 и 1/2 при умножении дали 1 после взятия производной

yopp
07.10.2016
15:33:09
Но почему?

Окей, я опущу вопрос почему функция расчёта ошибки именно така

Вобщем получается что E' = y - t

что вполне логично

Леонид
07.10.2016
19:00:04
Окей, я опущу вопрос почему функция расчёта ошибки именно така
Для удобства. Как я выше писал, ошибку считать можно разными способами. Ты можешь не делить на два, это не будет препятствием, что бы обучить сеть. Ты можешь не возводить в квадрат, а взять модуль. Или возводить в 4 степень. Общая схема останется ты же, но изменится итоговое качество твоей сети и сложность вычислений. Для некоторых случаев variance - не самый хороший вариант.

Грубо говоря, выбери любую, у которой ты сможешь найти минимум

/dev
09.10.2016
18:24:51
Грубо говоря, выбери любую, у которой ты сможешь найти минимум
Одни фиг, все равно получишь многомодальное распределение со множеством локальных оптимумов. Функционал ошибки должен соответствовать прикладной задаче, а не удобству дифференцирования

Например, потери от решения у тебя могут выглядеть как ломанная, вот её и надо будет в функционал загонять

Ну или как-то преобразовать

Леонид
09.10.2016
19:28:44
Звучало как "можешь взять любую ошибку"
Любую - то есть нет жесткого доказательства, что нужен именно variance. Это просто хороший выбор для обучения (и для многих реальных проблем). Хорошо работать будет не любая, конечно. Спасибо за такое уточнение

yopp
10.10.2016
09:47:50
Грубо говоря, выбери любую, у которой ты сможешь найти минимум
То что задача обучения НС сводится к задаче поиска минимума ошибки это понятно. Мне не понятны критерии выбора функции расчёта ошибки и принцип работы обратного распространения ошибки.

В прошлой серии мы дошли до того, что задача обучения НС сводится к поиску минимуму ошибки. Мы дошли до того, что в методе обратного распространения ошибки суть сводится к нахождению производной функции ошибки и поправки веса одного входа на эту ошибку

Вопрос в этой серии: что делать если у нас два веса

yopp
11.10.2016
19:10:27
Для всех чего?

Google
Леонид
11.10.2016
19:11:44
Для всех весов. Для каждого веса считается dC/dw и потом каждый вес меняется

Ты пробовал какую-либо книгу читать, где подробно разбирается это?

yopp
11.10.2016
19:13:04
Если мне дадут книгу, на которой на первых 10 страницах не появляется 2 этажное уравнение, я буду безумно рад

А так я вайтпейперы, ммм, читал

Леонид
11.10.2016
19:14:45
2-этажное - так любая производная уже двухэтажная, там же есть деление :).

yopp
11.10.2016
19:14:54
Да блин

У меня щас прямо сильно бомбануло

На самом деле бомбануло уже очень давно, но каждый раз всё ещё бомбит от этого.

Окей, с диаконом не прокатило. Представьте что я 7 летний ребёнок. Объясните мне обратное распространие ошибки так, чтоб я не зарезал ночью своих родителей от безисходности

Леонид
11.10.2016
19:32:17
Да без проблем. Сначала будем до семнадцати учить тебя математике - подойдет?

yopp
11.10.2016
19:33:28
Подойдёт!

Леонид
11.10.2016
19:35:33
А если серьезно - подсказать и помочь многие готовы, а составлять под тебя персональную программу-интенсив - нет. Для этого и навыки обучения нужны, да и стоит это, по идее, дорого. Ты возьми какой-то мануал и пройди пошагово. На каком шаге проблемы (даже если на самом первом) - спрашивай

yopp
11.10.2016
19:39:07
Я там уже выше картинку про сову постил

Это примерно как выглядит пошаговый манул

Леонид
11.10.2016
19:39:44
Кстати, gradient descend используется не только в нейронках. В svm без проблем можно использовать. А svm проще нейронок, на мой взгляд, можно на нем разбираться

yopp
11.10.2016
19:41:35
Градиентный спуск я тоже понял. Объясните смысл обратного распространения ошибки

Maxim
12.10.2016
08:23:16
Искусственный интеллект в Linux Список нескольких разработанных платформ ИИ, которые вы можете использовать на Linux и многих других операционных системах http://losst.ru/iskusstvennyj-intellekt-v-linux

Ivan
12.10.2016
09:58:50
Градиентный спуск я тоже понял. Объясните смысл обратного распространения ошибки
На самом деле, нейросеть - это сложная вектор-функция (функция вида f(g(h(....)))). Обратное распространение ошибки - это адаптированная под особенности нейросетей процедура вычисления производной такой функции

Andrey
12.10.2016
09:59:59
Картинко из курса Хинтона на курсере

Dim
12.10.2016
10:00:49
Deeplearning4j кто-нибудь использует?

Google
Daniel
12.10.2016
10:02:49
Nd4j пробовал, не понравилось Хотя на jvm математика вообще больная тема

Dim
12.10.2016
10:03:49
Daniel
12.10.2016
10:04:08
И производительностью и странностями в апи

Страница 18 из 327