@bigdata_ru

« Назад

Страница 213 из 327

Далее »

Dog

10.01.2018
15:54:57

Запах теории заговора?

Dmitry

10.01.2018
16:05:27

где-то видел хорошую статью

https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html

типа такой, но про прелесть бинарного формата а-ля APL что ли

Google

Dmitry

10.01.2018
18:18:18

Добрый вечер, товарищи. Не подскажете хорошую книжку по многомерным случайным величинам?

/dev

10.01.2018
18:23:19

Добрый вечер, товарищи. Не подскажете хорошую книжку по многомерным случайным величинам?

На каком курсе учишься?

Dmitry

10.01.2018
18:23:35

3

Спасибо!

Vyaches

10.01.2018
20:23:43

Народ, есть ли у кого-нибудь инфа где достать реально БОЛЬШОЙ ДАТАСЕТ на подобии VoxCeleb или ELSDSR. Не могу ничего толкового найти, кроме как VCTK. Но у него 100 спикеров - это маловато(( Решаю задачу speaker identification. На VCRK acc 99%. Нужно больше людей :)

Evgeniy

10.01.2018
20:24:14

Народ, есть ли у кого-нибудь инфа где достать реально БОЛЬШОЙ ДАТАСЕТ на подобии VoxCeleb или ELSDSR. Не могу ничего толкового найти, кроме как VCTK. Но у него 100 спикеров - это маловато(( Решаю задачу speaker identification. На VCRK acc 99%. Нужно больше людей :)

самому записать)

Vyaches

10.01.2018
20:25:16

самому записать)

записал 20 интервью с ютуба по 10 минут ==» убил 4 часа :D К 1к подойду спустя пару месяцев :D

Evgeniy

10.01.2018
20:25:43

записал 20 интервью с ютуба по 10 минут ==» убил 4 часа :D К 1к подойду спустя пару месяцев :D

автоматизируй)

Vyaches

10.01.2018
20:26:31

автоматизируй)

Как вариант. Но боюсь будет много шума)) Прост попробовал спросить, вдруг мало ли.. кто-нибудь уже натыкался на готовое)

Dmitry

10.01.2018
20:33:48

Народ, есть ли у кого-нибудь инфа где достать реально БОЛЬШОЙ ДАТАСЕТ на подобии VoxCeleb или ELSDSR. Не могу ничего толкового найти, кроме как VCTK. Но у него 100 спикеров - это маловато(( Решаю задачу speaker identification. На VCRK acc 99%. Нужно больше людей :)

так скачай VoxCeleb, в чем проблема

пару скриптов дописать

Vyaches

10.01.2018
20:35:25

так скачай VoxCeleb, в чем проблема

Да, нужно будет дописать. :)

Видимо, эт единственый вариант. Надеелся на халяву :D

Google

Dmitry

10.01.2018
20:35:54

можно на имейл им отписать попробовать

только имейл должен быть официальный вузовский

Vyaches

10.01.2018
20:36:24

только имейл должен быть официальный вузовский

Уууу... С этим всё туго будет. Буду сам парсить тогда

Dmitry

10.01.2018
20:36:30

им главное задницу прикрыть, ведь если они выложат датасет, это будет нарушением авторских прав

dot

11.01.2018
04:42:26

блин изучаю математику которая нужна для машинного обучения и вообще не поонимаю какая связь между этими формулами и машинным обучением :(

блин а можно на русском ресурс какойнить ? Просто так то я немного знаю инглиш но на русском всеравно все проще воспринимается

Ilya

11.01.2018
05:11:10

записал 20 интервью с ютуба по 10 минут ==» убил 4 часа :D К 1к подойду спустя пару месяцев :D

Можно попробовать отсюда выкачать передачи https://echo.msk.ru/guests/ если научиться отделять ведущих от гостей, то должно неплохо получиться

Анна

11.01.2018
05:27:34

На курсере есть русские субтитры к этому курсу. Не панацея, но все чуть легче. Ну а так да, тож присоединяюсь к вопросу.

Dmitry

11.01.2018
06:05:28

блин а можно на русском ресурс какойнить ? Просто так то я немного знаю инглиш но на русском всеравно все проще воспринимается

английский важнее математики. математику можно в виде имплементаций с гибхаба стырить, а вот английский придется знать

魯

11.01.2018
06:08:18

блин изучаю математику которая нужна для машинного обучения и вообще не поонимаю какая связь между этими формулами и машинным обучением :(

у меня такое же чувство было когда я яндексовский курс смотрел

Vladislav

11.01.2018
06:10:03

у меня такое же чувство было когда я яндексовский курс смотрел

Там вроде достаточно подробно разжевывают формулы (прошёл два первых курса) Но мне не с чем сравнивать

魯

11.01.2018
06:10:55

я тоже

ну мне голую теорию без какой-либо привязки к практике было трудно воспронимать

Vladislav

11.01.2018
06:14:57

Мне тоже, поэтому устроился в риски, чтобы стало попроще

Kek

11.01.2018
06:17:38

Математику можно воспринимать как удобно, пока не мешает работе Для меня производная всегла будет точкой максимизации прибыли

А не локальным бубуббубу

Sergey

11.01.2018
06:22:09

записал 20 интервью с ютуба по 10 минут ==» убил 4 часа :D К 1к подойду спустя пару месяцев :D

Подкасты?

Dmitry

11.01.2018
06:27:40

А не локальным бубуббубу

локальный бубубу - это когда производная равна нулю и меняет знак, так что...

Анна

11.01.2018
06:38:28

Мне тоже, поэтому устроился в риски, чтобы стало попроще

в смысле на работу по профобласти?

dot

11.01.2018
07:13:09

а можно ссылку на курс от стэндфорда на курсере

Google

dot

11.01.2018
07:13:15

?

не могу найти

Maksym

11.01.2018
07:13:53

не могу найти

https://www.coursera.org/learn/machine-learning/home/welcome

dot

11.01.2018
07:14:07

спасибо большое :)

Evgeniy

11.01.2018
07:14:24

а можно ссылку на курс от стэндфорда на курсере

http://lmgtfy.com/?q=stanford+coursera+machine+learning

блин опаздал

/dev

11.01.2018
07:31:16

английский важнее математики. математику можно в виде имплементаций с гибхаба стырить, а вот английский придется знать

Мда... Вот и окончательно деградировал современный дейта-сайентист.

Evgeniy

11.01.2018
07:34:09

Мда... Вот и окончательно деградировал современный дейта-сайентист.

в смысле вот?

уже давно абсолютное большинство даже матрицы не умеет умножать

/dev

11.01.2018
07:34:52

Кстати, джунам-разметчикам. Секция DataEntry — одна из самых низкооплачиваемых на апворке: за эти заказы конкурируют индусы $5/h с индусами $3/h.

Sergey

11.01.2018
08:04:06

английский важнее математики. математику можно в виде имплементаций с гибхаба стырить, а вот английский придется знать

ну если так рассуждать, то с англ google translate поможет, а математику придется знать

Maxim

11.01.2018
08:25:59

https://ru.stackoverflow.com/questions/678970/%D0%9A%D0%BD%D0%B8%D0%B3%D0%B8-%D0%B8-%D1%83%D1%87%D0%B5%D0%B1%D0%BD%D1%8B%D0%B5-%D1%80%D0%B5%D1%81%D1%83%D1%80%D1%81%D1%8B-%D0%BF%D0%BE-%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC%D1%83-%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8E/683632 вот же подборка, кто-то давно выкладывал

@run

11.01.2018
11:28:53

Any bidy have cdh4

dot

11.01.2018
11:31:18

Спасибо за подборку книг , сейчас почитаю, как раз еще и с примерами. Может так еще полегче пойдет процесс понимания

Анна

11.01.2018
11:32:07

может у кого есть из этого списка Хенрик Бринк, Джозеф Ричардс "Машинное обучение"?

@run

11.01.2018
11:37:03

Eng please

yopp

11.01.2018
11:37:56

Eng please

English speaking group is here @bigdata_en

@run

11.01.2018
11:39:15

Thanks deae

I

11.01.2018
11:58:37

Ребята у меня есть 20 столбцов(признаков) и много строк. Можно ли сделеть какой-то первичный анализ в юпитере и посмотреть есть ли какие-то связи (закономерности) между определёнными столбцами, скажем так сделать анализ в лоб, пока не осмысливая данные?

Артем

11.01.2018
11:59:14

корреляция?

Google

Admin

ERROR: S client not available

Vitaliy

11.01.2018
11:59:31

может у кого есть из этого списка Хенрик Бринк, Джозеф Ричардс "Машинное обучение"?

А чем эта книжка хороша? Вот эта не лучше? Machine Learning A Probabilistic Perspective Kevin P. Murphy

I

11.01.2018
12:00:39

корреляция?

Что-нибудь кроме неё)

Evgeniy

11.01.2018
12:01:37

А чем эта книжка хороша? Вот эта не лучше? Machine Learning A Probabilistic Perspective Kevin P. Murphy

я все никак не пойму кто лучше мерфи или бишоп, а читать обе чтобы советовать другим как-то лень

Артем

11.01.2018
12:01:41

Что-нибудь кроме неё)

вообще эта проблема называется мультиколлинеарность и лечится PCA или регулируемой регрессией https://ru.wikipedia.org/wiki/%D0%9C%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D1%8C#%D0%9E%D0%B1%D0%BD%D0%B0%D1%80%D1%83%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BC%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D0%B8

I

11.01.2018
12:10:25

вообще эта проблема называется мультиколлинеарность и лечится PCA или регулируемой регрессией https://ru.wikipedia.org/wiki/%D0%9C%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D1%8C#%D0%9E%D0%B1%D0%BD%D0%B0%D1%80%D1%83%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BC%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D0%B8

Суть в том, что зависимость между данными может быть очень своеобразная а может и не быть вообще. Там вроде только линейных зависимостях речь

Артем

11.01.2018
12:12:01

эмм... ну тогда разве что модель для каждой переменной от остальных стоить )

Henadz

11.01.2018
12:12:13

эмм... ну тогда разве что модель для каждой переменной от остальных стоить )

+

Анна

11.01.2018
12:12:24

А чем эта книжка хороша? Вот эта не лучше? Machine Learning A Probabilistic Perspective Kevin P. Murphy

На самом деле из целого списка выбрать ту, которая лучше, сложно, особено при условии, что я только начинаю изучать область. На днях зашла в книжный и из представленного ассортимента эта показалась более нормальной по изложению и темам. А Мерфи в книжном не было. Вы ее рекомендуете? Она есть у вас?

Henadz

11.01.2018
12:12:33

для отлова нелинейных зависимостей вы никакой серебрянной пули не найдете

это же бесконечное кол-во всевозможных вариаций

Vitaliy

11.01.2018
12:13:23

На самом деле из целого списка выбрать ту, которая лучше, сложно, особено при условии, что я только начинаю изучать область. На днях зашла в книжный и из представленного ассортимента эта показалась более нормальной по изложению и темам. А Мерфи в книжном не было. Вы ее рекомендуете? Она есть у вас?

да. Есть и рекомендую. Причина очень проста - хорошее изложение материала. Идет по спиральному принципу - от простого к сложному.

I

11.01.2018
12:30:18

эмм... ну тогда разве что модель для каждой переменной от остальных стоить )

Так вндь любые данные сложнее и многогранее, чем линейная зависимость и корреляция к чему тогда миллионы методов и куча математики?) Это мысли вслух)

Henadz

11.01.2018
12:31:43

Так вндь любые данные сложнее и многогранее, чем линейная зависимость и корреляция к чему тогда миллионы методов и куча математики?) Это мысли вслух)

чаще всего аппроксимация линейными зависимостями работает достаточно хорошо

Артем

11.01.2018
12:31:52

сложные модели не всегда хорошо - высокий риск переобучения

Henadz

11.01.2018
12:32:13

а если же вам надо прям отыскать нелинейные взаимосвязи, то кроме ручного анализа тут наверное ничего не поможет

Артем

11.01.2018
12:34:30

а вообще для поиска зависимостей есть визуализации - bar-chart, scatter plot . В том же R есть пакет pairs (если я правильно помню) который выстраивает отношения между всеми переменными в наборе данных

I

11.01.2018
12:35:52

а если же вам надо прям отыскать нелинейные взаимосвязи, то кроме ручного анализа тут наверное ничего не поможет

Именно так я и делаю, но стало интересно есть ли другие варианты, так много здесь говорят о разных методах, но воз и ныне там

а вообще для поиска зависимостей есть визуализации - bar-chart, scatter plot . В том же R есть пакет pairs (если я правильно помню) который выстраивает отношения между всеми переменными в наборе данных

Да я использую именно графики это, пожалуй, самое полезное во всём датасаинс))

Dmitry

11.01.2018
12:48:46

графики+PCA позволяют много понять о данных

Google

I

11.01.2018
12:51:02

графики+PCA позволяют много понять о данных

А какие либы и методы в пайтоне для РСА? Где можно об этом подробнее почитать?

Henadz

11.01.2018
12:51:20

А какие либы и методы в пайтоне для РСА? Где можно об этом подробнее почитать?

в sklearn есть класс

и не только для PCA

t-sne и прочее

Dmitry

11.01.2018
12:52:20

А какие либы и методы в пайтоне для РСА? Где можно об этом подробнее почитать?

лекция по Dimensionality Reduction в ml-class.org

I

11.01.2018
12:56:02

в sklearn есть класс

Спасибо

лекция по Dimensionality Reduction в ml-class.org

Отлично, спасибо!

Daniil

11.01.2018
16:18:35

Ребят, всем привет. Вопрос такой. Как по-научному называется задача автоматического сопоставления одного объекта другому? Т.е. есть два объекта, которые имеют слегка разное признаковое описание, но в реальном мире они являются одним и тем же предметом / явлением, а нам нужно находить такие объекты. Есть данные для обучения, и много данных, подлежащих подобному сопоставлению. Логика подсказывает, что такую задачу можно легко рассмотреть и как задачу кластеризации (если например забить на данные для обучения), и как задачу классификации. Но может быть кто-то может что-то посоветовать на эту тему со знанием дела?

« Назад

Страница 213 из 327

Далее »

Открыть в Telegram