
Dog
10.01.2018
15:54:57
Запах теории заговора?

Dmitry
10.01.2018
16:05:27
где-то видел хорошую статью
https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html
типа такой, но про прелесть бинарного формата а-ля APL что ли

Google

Dmitry
10.01.2018
18:18:18
Добрый вечер, товарищи. Не подскажете хорошую книжку по многомерным случайным величинам?

/dev
10.01.2018
18:23:19

Dmitry
10.01.2018
18:23:35
3
Спасибо!

Vyaches
10.01.2018
20:23:43
Народ, есть ли у кого-нибудь инфа где достать реально БОЛЬШОЙ ДАТАСЕТ на подобии VoxCeleb или ELSDSR. Не могу ничего толкового найти, кроме как VCTK. Но у него 100 спикеров - это маловато((
Решаю задачу speaker identification. На VCRK acc 99%. Нужно больше людей :)

Evgeniy
10.01.2018
20:24:14

Vyaches
10.01.2018
20:25:16
самому записать)
записал 20 интервью с ютуба по 10 минут ==» убил 4 часа :D К 1к подойду спустя пару месяцев :D

Evgeniy
10.01.2018
20:25:43

Vyaches
10.01.2018
20:26:31
автоматизируй)
Как вариант. Но боюсь будет много шума)) Прост попробовал спросить, вдруг мало ли.. кто-нибудь уже натыкался на готовое)

Dmitry
10.01.2018
20:33:48
пару скриптов дописать

Vyaches
10.01.2018
20:35:25
Видимо, эт единственый вариант. Надеелся на халяву :D

Google

Dmitry
10.01.2018
20:35:54
можно на имейл им отписать попробовать
только имейл должен быть официальный вузовский

Vyaches
10.01.2018
20:36:24

Dmitry
10.01.2018
20:36:30
им главное задницу прикрыть, ведь если они выложат датасет, это будет нарушением авторских прав

dot
11.01.2018
04:42:26
блин изучаю математику которая нужна для машинного обучения и вообще не поонимаю какая связь между этими формулами и машинным обучением :(
блин а можно на русском ресурс какойнить ? Просто так то я немного знаю инглиш но на русском всеравно все проще воспринимается

Ilya
11.01.2018
05:11:10

Анна
11.01.2018
05:27:34
На курсере есть русские субтитры к этому курсу. Не панацея, но все чуть легче. Ну а так да, тож присоединяюсь к вопросу.

Dmitry
11.01.2018
06:05:28

魯
11.01.2018
06:08:18

Vladislav
11.01.2018
06:10:03

魯
11.01.2018
06:10:55
я тоже
ну мне голую теорию без какой-либо привязки к практике было трудно воспронимать

Vladislav
11.01.2018
06:14:57
Мне тоже, поэтому устроился в риски, чтобы стало попроще

Kek
11.01.2018
06:17:38
Математику можно воспринимать как удобно, пока не мешает работе
Для меня производная всегла будет точкой максимизации прибыли
А не локальным бубуббубу

Sergey
11.01.2018
06:22:09

Dmitry
11.01.2018
06:27:40

Анна
11.01.2018
06:38:28

dot
11.01.2018
07:13:09
а можно ссылку на курс от стэндфорда на курсере

Google

dot
11.01.2018
07:13:15
?
не могу найти

Maksym
11.01.2018
07:13:53
не могу найти
https://www.coursera.org/learn/machine-learning/home/welcome

dot
11.01.2018
07:14:07
спасибо большое :)

Evgeniy
11.01.2018
07:14:24
блин опаздал

/dev
11.01.2018
07:31:16

Evgeniy
11.01.2018
07:34:09
уже давно абсолютное большинство даже матрицы не умеет умножать

/dev
11.01.2018
07:34:52
Кстати, джунам-разметчикам. Секция DataEntry — одна из самых низкооплачиваемых на апворке: за эти заказы конкурируют индусы $5/h с индусами $3/h.

Sergey
11.01.2018
08:04:06

Maxim
11.01.2018
08:25:59
https://ru.stackoverflow.com/questions/678970/%D0%9A%D0%BD%D0%B8%D0%B3%D0%B8-%D0%B8-%D1%83%D1%87%D0%B5%D0%B1%D0%BD%D1%8B%D0%B5-%D1%80%D0%B5%D1%81%D1%83%D1%80%D1%81%D1%8B-%D0%BF%D0%BE-%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC%D1%83-%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8E/683632
вот же подборка, кто-то давно выкладывал

@run
11.01.2018
11:28:53
Any bidy have cdh4

dot
11.01.2018
11:31:18
Спасибо за подборку книг , сейчас почитаю, как раз еще и с примерами. Может так еще полегче пойдет процесс понимания

Анна
11.01.2018
11:32:07
может у кого есть из этого списка Хенрик Бринк, Джозеф Ричардс "Машинное обучение"?

@run
11.01.2018
11:37:03
Eng please

yopp
11.01.2018
11:37:56
Eng please
English speaking group is here @bigdata_en

@run
11.01.2018
11:39:15
Thanks deae

I
11.01.2018
11:58:37
Ребята у меня есть 20 столбцов(признаков) и много строк. Можно ли сделеть какой-то первичный анализ в юпитере и посмотреть есть ли какие-то связи (закономерности) между определёнными столбцами, скажем так сделать анализ в лоб, пока не осмысливая данные?

Артем
11.01.2018
11:59:14
корреляция?

Google

Admin
ERROR: S client not available

Vitaliy
11.01.2018
11:59:31

I
11.01.2018
12:00:39

Evgeniy
11.01.2018
12:01:37

Артем
11.01.2018
12:01:41
Что-нибудь кроме неё)
вообще эта проблема называется мультиколлинеарность и лечится PCA или регулируемой регрессией https://ru.wikipedia.org/wiki/%D0%9C%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D1%8C#%D0%9E%D0%B1%D0%BD%D0%B0%D1%80%D1%83%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BC%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D0%B8

I
11.01.2018
12:10:25

Артем
11.01.2018
12:12:01
эмм... ну тогда разве что модель для каждой переменной от остальных стоить )

Henadz
11.01.2018
12:12:13

Анна
11.01.2018
12:12:24

Henadz
11.01.2018
12:12:33
для отлова нелинейных зависимостей вы никакой серебрянной пули не найдете
это же бесконечное кол-во всевозможных вариаций

Vitaliy
11.01.2018
12:13:23

I
11.01.2018
12:30:18

Henadz
11.01.2018
12:31:43

Артем
11.01.2018
12:31:52
сложные модели не всегда хорошо - высокий риск переобучения

Henadz
11.01.2018
12:32:13
а если же вам надо прям отыскать нелинейные взаимосвязи, то кроме ручного анализа тут наверное ничего не поможет

Артем
11.01.2018
12:34:30
а вообще для поиска зависимостей есть визуализации - bar-chart, scatter plot . В том же R есть пакет pairs (если я правильно помню) который выстраивает отношения между всеми переменными в наборе данных

I
11.01.2018
12:35:52

Dmitry
11.01.2018
12:48:46
графики+PCA позволяют много понять о данных

Google

I
11.01.2018
12:51:02

Henadz
11.01.2018
12:51:20
и не только для PCA
t-sne и прочее

Dmitry
11.01.2018
12:52:20

I
11.01.2018
12:56:02

Daniil
11.01.2018
16:18:35
Ребят, всем привет. Вопрос такой. Как по-научному называется задача автоматического сопоставления одного объекта другому? Т.е. есть два объекта, которые имеют слегка разное признаковое описание, но в реальном мире они являются одним и тем же предметом / явлением, а нам нужно находить такие объекты. Есть данные для обучения, и много данных, подлежащих подобному сопоставлению. Логика подсказывает, что такую задачу можно легко рассмотреть и как задачу кластеризации (если например забить на данные для обучения), и как задачу классификации. Но может быть кто-то может что-то посоветовать на эту тему со знанием дела?