
Bogdan
12.06.2017
07:32:31
DeepMind -- да, но будет кто-то другой) Это событие очень наглядно продемонстрировало нынешний уровень развития ИИ.

Arslan
12.06.2017
12:04:10
Кто-нибудь может подсказать, какие есть методы поиска скрытых взаимосвязей в данных?

Andrey
12.06.2017
12:33:43
Именно скрытых?

/dev
12.06.2017
12:36:51

Google

Arslan
12.06.2017
13:50:59

Andrey
12.06.2017
14:42:13
Даже PCA в какой-то степени решает указанную задачу

Evgeniy
13.06.2017
09:47:46
https://geektimes.ru/post/290005/

Timur
13.06.2017
13:01:44
Господа, а кто использует hue для спарка?

Henadz
13.06.2017
13:02:15

Timur
13.06.2017
13:02:37
Не, запросы писать

Henadz
13.06.2017
13:02:51
а, не, тогда -

Alexander
13.06.2017
20:29:15
Здравствуйте! ИИ подходит к тому, чтобы распознавать сложные действия по видео?

Evgeniy
13.06.2017
20:29:48

Alexander
13.06.2017
20:30:04
как ето нет?

Alexander
13.06.2017
20:31:30
например есть спорт.состязание, там много тактико-технических действий, в том числе сложных, где несколько игроков делают осмысленную комбинацию и т.д.

Проксимов
13.06.2017
20:33:31

Alexander
13.06.2017
20:33:41
ну наверное если вы это научитесь распознавать действия эти

Google

Alexander
13.06.2017
20:36:19
ну у вас видео. там какая-то последовательность кадров. нужно выделить человека, нужно сопоставить кадры разные по времени и понять что он какое-то действие выполняет

/dev
13.06.2017
21:09:30

Aleksander
14.06.2017
08:06:16

Леонид
14.06.2017
08:32:50

Vyaches
14.06.2017
11:02:20
друзья, столкнулся с интересной проблемой. обучающий датасет - 2млн данных. обучается достаточно хорошо, loss падает, accuracy доходит до 70-80%. однако на тесте всегда 50% и не больше. и не важно какого размера датасет...
и даже если разделить обучающий датасет вновь на train и test - результат такой же.
неужели данные совсем никак не коррелируют?

Henadz
14.06.2017
11:04:17
переобучается же, нет?

Andrey
14.06.2017
11:04:24

Vyaches
14.06.2017
11:04:52
да, логично. как избавиться?

Henadz
14.06.2017
11:04:55
датасет побольше, модель попроще, регуляризацию побольше
что-нибудь из этого

Vyaches
14.06.2017
11:05:59
прост данных почти 3 млн... куда еще больше ?

Andrey
14.06.2017
11:05:59

Henadz
14.06.2017
11:06:29

Denis
14.06.2017
11:09:47
иначе странно выходит, что в трэйне есть взаимосвязь, хоть и переобученная, а на валидэйте пусто

Vyaches
14.06.2017
11:13:27
мне вот это самому интересно...потому что вроде как подкручено все что можно... и переобучения в явном виде, тем более на таком большом датасете не наблюдается.

Artem
14.06.2017
11:17:21
Или, напротив, от их отсутствия х)
А классификация-то бинарная? А то, может, 50% — неплохо?

Vyaches
14.06.2017
12:46:43
Бинарная. 50% - плохо. Рандом же :)

Google

Dmitry
14.06.2017
13:56:45
добро пожаловать в личку

Arslan
15.06.2017
05:47:27
Подскажите, пожалуйста, какие модели хорошо работают на малых выборках в задачах регрессии? Размерность выборки <100

Andrey
15.06.2017
05:53:00
Мелкие выборки тем и хороши, что на них быстро можно проверить кучу моделей. Начать можно с эластичной сети (l1и l2 регуляризация в некоторой пропорции)
Но хорошо зайти может и бустинг, и knn

/dev
15.06.2017
08:48:07
Но xgboost'ы бездумно не постакаешь как на kaggle

Andrey
15.06.2017
08:50:42
Кстати, я недавно как раз с таким набором данных экспериментировал http://biostat-r.blogspot.co.ke/2017/04/pipelearner-aco2.html?m=1

serge
15.06.2017
08:51:46
Я бы в первую очередь убрал выбросы. Затем написал бы скрип который применит основные регрессоры к данным и посчитает значения функций потерь. Обычно создаю массив с регрессорами и применяю его в цикле к данным.

Andrey
15.06.2017
08:52:50
Убрать выбросы - круто, конечно, но как их в жизни потом убирать, при практическом использовании модели?

Arslan
15.06.2017
08:53:48
А ещё вопрос, кросс валидация - для классификации, а есть ли такой же аналог для регрессии?

Andrey
15.06.2017
08:54:16
Кросс-валидация универсальна

Admin
ERROR: S client not available

Andrey
15.06.2017
08:54:54
И для регрессии, и для классификации, и для ранжирования, и для автокодировщиков...

Arslan
15.06.2017
08:56:37
Я имею ввиду cross Val score

Иваницкий
15.06.2017
08:57:37
так ты в cross val score подсовываешь модель и функцию оценки
ему вообще все равно, что это за модель, главное, чтоб у нее был метод fit и метод predict

serge
15.06.2017
08:58:09
У меня в продуктиве они отсекаются по условиям. Т.е. рассматриваю данные которые находятся в определенной области многомерного пространства. В моем случае данные имеют понятное стабильное распределение.

Aleksander
15.06.2017
09:00:52
Вопрос по авторегрессии. Когда лучше использовать модель авторегрессии, а когда модель авторегрессии со скользящим средним? Первая для нестационарных рядов, а вторая для стационарных. У меня например очень много рядов с трендом, но тренд можно убить дифференцированием ряда.

Andrey
15.06.2017
09:48:59

Aleksander
15.06.2017
09:55:56

Alisa
15.06.2017
20:00:23
кто-то мне может объяснить какой кейс решает confluent и почему мне стоит использовать его вместо просто кафки?

Google

Vadim
15.06.2017
20:25:07

Alisa
16.06.2017
07:58:03
впрочем я для себя решил попробовать чистую кафку в kubernetes, не знаю, что меня ожидает впереди, но посмотрим! ?

Vadim
16.06.2017
08:51:14

Oleksandr
16.06.2017
09:34:39
в последней кафке exactly once тоже обещают, если что

Vadim
16.06.2017
09:37:52
к тому же кафка из коробки (по крайне мере по отзывам с форумов) не так хорошо работает..
RabbitMQ в этом плане лучше

KrivdaTheTriewe
16.06.2017
09:42:06
хорошо Кафка работает

Henadz
16.06.2017
09:42:21

Проксимов
16.06.2017
09:43:05

tonko
16.06.2017
09:43:43
Кафка багованый