@bigdata_ru

Страница 213 из 327
Dog
10.01.2018
15:54:57
Запах теории заговора?

Dmitry
10.01.2018
16:05:27
где-то видел хорошую статью

https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html

типа такой, но про прелесть бинарного формата а-ля APL что ли

Google
Dmitry
10.01.2018
18:18:18
Добрый вечер, товарищи. Не подскажете хорошую книжку по многомерным случайным величинам?

Dmitry
10.01.2018
18:23:35
3

Спасибо!

Vyaches
10.01.2018
20:23:43
Народ, есть ли у кого-нибудь инфа где достать реально БОЛЬШОЙ ДАТАСЕТ на подобии VoxCeleb или ELSDSR. Не могу ничего толкового найти, кроме как VCTK. Но у него 100 спикеров - это маловато(( Решаю задачу speaker identification. На VCRK acc 99%. Нужно больше людей :)

Vyaches
10.01.2018
20:25:16
самому записать)
записал 20 интервью с ютуба по 10 минут ==» убил 4 часа :D К 1к подойду спустя пару месяцев :D

Vyaches
10.01.2018
20:26:31
автоматизируй)
Как вариант. Но боюсь будет много шума)) Прост попробовал спросить, вдруг мало ли.. кто-нибудь уже натыкался на готовое)

Vyaches
10.01.2018
20:35:25
так скачай VoxCeleb, в чем проблема
Да, нужно будет дописать. :)

Видимо, эт единственый вариант. Надеелся на халяву :D

Google
Dmitry
10.01.2018
20:35:54
можно на имейл им отписать попробовать

только имейл должен быть официальный вузовский

Vyaches
10.01.2018
20:36:24
только имейл должен быть официальный вузовский
Уууу... С этим всё туго будет. Буду сам парсить тогда

Dmitry
10.01.2018
20:36:30
им главное задницу прикрыть, ведь если они выложат датасет, это будет нарушением авторских прав

dot
11.01.2018
04:42:26
блин изучаю математику которая нужна для машинного обучения и вообще не поонимаю какая связь между этими формулами и машинным обучением :(

блин а можно на русском ресурс какойнить ? Просто так то я немного знаю инглиш но на русском всеравно все проще воспринимается

Ilya
11.01.2018
05:11:10
записал 20 интервью с ютуба по 10 минут ==» убил 4 часа :D К 1к подойду спустя пару месяцев :D
Можно попробовать отсюда выкачать передачи https://echo.msk.ru/guests/ если научиться отделять ведущих от гостей, то должно неплохо получиться

Анна
11.01.2018
05:27:34
На курсере есть русские субтитры к этому курсу. Не панацея, но все чуть легче. Ну а так да, тож присоединяюсь к вопросу.

Dmitry
11.01.2018
06:05:28
блин а можно на русском ресурс какойнить ? Просто так то я немного знаю инглиш но на русском всеравно все проще воспринимается
английский важнее математики. математику можно в виде имплементаций с гибхаба стырить, а вот английский придется знать

Vladislav
11.01.2018
06:10:03
у меня такое же чувство было когда я яндексовский курс смотрел
Там вроде достаточно подробно разжевывают формулы (прошёл два первых курса) Но мне не с чем сравнивать

11.01.2018
06:10:55
я тоже

ну мне голую теорию без какой-либо привязки к практике было трудно воспронимать

Vladislav
11.01.2018
06:14:57
Мне тоже, поэтому устроился в риски, чтобы стало попроще

Kek
11.01.2018
06:17:38
Математику можно воспринимать как удобно, пока не мешает работе Для меня производная всегла будет точкой максимизации прибыли

А не локальным бубуббубу

Dmitry
11.01.2018
06:27:40
А не локальным бубуббубу
локальный бубубу - это когда производная равна нулю и меняет знак, так что...

Анна
11.01.2018
06:38:28
dot
11.01.2018
07:13:09
а можно ссылку на курс от стэндфорда на курсере

Google
dot
11.01.2018
07:13:15
?

не могу найти

Maksym
11.01.2018
07:13:53
не могу найти
https://www.coursera.org/learn/machine-learning/home/welcome

dot
11.01.2018
07:14:07
спасибо большое :)

Evgeniy
11.01.2018
07:14:24
блин опаздал

/dev
11.01.2018
07:31:16
Evgeniy
11.01.2018
07:34:09
уже давно абсолютное большинство даже матрицы не умеет умножать

/dev
11.01.2018
07:34:52
Кстати, джунам-разметчикам. Секция DataEntry — одна из самых низкооплачиваемых на апворке: за эти заказы конкурируют индусы $5/h с индусами $3/h.

Sergey
11.01.2018
08:04:06
Maxim
11.01.2018
08:25:59
https://ru.stackoverflow.com/questions/678970/%D0%9A%D0%BD%D0%B8%D0%B3%D0%B8-%D0%B8-%D1%83%D1%87%D0%B5%D0%B1%D0%BD%D1%8B%D0%B5-%D1%80%D0%B5%D1%81%D1%83%D1%80%D1%81%D1%8B-%D0%BF%D0%BE-%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC%D1%83-%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8E/683632 вот же подборка, кто-то давно выкладывал

@run
11.01.2018
11:28:53
Any bidy have cdh4

dot
11.01.2018
11:31:18
Спасибо за подборку книг , сейчас почитаю, как раз еще и с примерами. Может так еще полегче пойдет процесс понимания

Анна
11.01.2018
11:32:07
может у кого есть из этого списка Хенрик Бринк, Джозеф Ричардс "Машинное обучение"?

@run
11.01.2018
11:37:03
Eng please

yopp
11.01.2018
11:37:56
Eng please
English speaking group is here @bigdata_en

@run
11.01.2018
11:39:15
Thanks deae

I
11.01.2018
11:58:37
Ребята у меня есть 20 столбцов(признаков) и много строк. Можно ли сделеть какой-то первичный анализ в юпитере и посмотреть есть ли какие-то связи (закономерности) между определёнными столбцами, скажем так сделать анализ в лоб, пока не осмысливая данные?

Артем
11.01.2018
11:59:14
корреляция?

Google
Admin
ERROR: S client not available

Vitaliy
11.01.2018
11:59:31
может у кого есть из этого списка Хенрик Бринк, Джозеф Ричардс "Машинное обучение"?
А чем эта книжка хороша? Вот эта не лучше? Machine Learning A Probabilistic Perspective Kevin P. Murphy

I
11.01.2018
12:00:39
корреляция?
Что-нибудь кроме неё)

Evgeniy
11.01.2018
12:01:37
А чем эта книжка хороша? Вот эта не лучше? Machine Learning A Probabilistic Perspective Kevin P. Murphy
я все никак не пойму кто лучше мерфи или бишоп, а читать обе чтобы советовать другим как-то лень

Артем
11.01.2018
12:01:41
Что-нибудь кроме неё)
вообще эта проблема называется мультиколлинеарность и лечится PCA или регулируемой регрессией https://ru.wikipedia.org/wiki/%D0%9C%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D1%8C#%D0%9E%D0%B1%D0%BD%D0%B0%D1%80%D1%83%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BC%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D0%B8

Артем
11.01.2018
12:12:01
эмм... ну тогда разве что модель для каждой переменной от остальных стоить )

Анна
11.01.2018
12:12:24
А чем эта книжка хороша? Вот эта не лучше? Machine Learning A Probabilistic Perspective Kevin P. Murphy
На самом деле из целого списка выбрать ту, которая лучше, сложно, особено при условии, что я только начинаю изучать область. На днях зашла в книжный и из представленного ассортимента эта показалась более нормальной по изложению и темам. А Мерфи в книжном не было. Вы ее рекомендуете? Она есть у вас?

Henadz
11.01.2018
12:12:33
для отлова нелинейных зависимостей вы никакой серебрянной пули не найдете

это же бесконечное кол-во всевозможных вариаций

I
11.01.2018
12:30:18
эмм... ну тогда разве что модель для каждой переменной от остальных стоить )
Так вндь любые данные сложнее и многогранее, чем линейная зависимость и корреляция к чему тогда миллионы методов и куча математики?) Это мысли вслух)

Артем
11.01.2018
12:31:52
сложные модели не всегда хорошо - высокий риск переобучения

Henadz
11.01.2018
12:32:13
а если же вам надо прям отыскать нелинейные взаимосвязи, то кроме ручного анализа тут наверное ничего не поможет

Артем
11.01.2018
12:34:30
а вообще для поиска зависимостей есть визуализации - bar-chart, scatter plot . В том же R есть пакет pairs (если я правильно помню) который выстраивает отношения между всеми переменными в наборе данных

I
11.01.2018
12:35:52
а если же вам надо прям отыскать нелинейные взаимосвязи, то кроме ручного анализа тут наверное ничего не поможет
Именно так я и делаю, но стало интересно есть ли другие варианты, так много здесь говорят о разных методах, но воз и ныне там

Dmitry
11.01.2018
12:48:46
графики+PCA позволяют много понять о данных

Google
I
11.01.2018
12:51:02
графики+PCA позволяют много понять о данных
А какие либы и методы в пайтоне для РСА? Где можно об этом подробнее почитать?

Henadz
11.01.2018
12:51:20
и не только для PCA

t-sne и прочее

I
11.01.2018
12:56:02
Daniil
11.01.2018
16:18:35
Ребят, всем привет. Вопрос такой. Как по-научному называется задача автоматического сопоставления одного объекта другому? Т.е. есть два объекта, которые имеют слегка разное признаковое описание, но в реальном мире они являются одним и тем же предметом / явлением, а нам нужно находить такие объекты. Есть данные для обучения, и много данных, подлежащих подобному сопоставлению. Логика подсказывает, что такую задачу можно легко рассмотреть и как задачу кластеризации (если например забить на данные для обучения), и как задачу классификации. Но может быть кто-то может что-то посоветовать на эту тему со знанием дела?

Страница 213 из 327