@bigdata_ru

Страница 115 из 327
Vova
05.08.2017
08:54:08
Киньте че-нибудь по нейронке почитать
не пожалейте денег, купите курс на coursera или udemy (на распродаже в киберпонедельник и по купонам можно взять курс который стоит $250 за $10-15) и послушайте. Ориентируйтесь на рейтинг и отзывы.

Slava
05.08.2017
09:29:34
А как перевести термин bias? Смещение? И может объясните коротко, своими словами, что это?

Google
А
05.08.2017
09:54:28
Допустим ты считаешь среднюю зарплату по стране. Ты идешь по студ. городку и опрашиваешь студентов сколько они получают (считая стипендию зарплатой). Потом считаешь среднее от выборки и получаешь некоторую сумму. Этот результат будет biased, потому что рассматривает только одну группу людей, а тебе нужно рассмотреть все группы людей. Biased он потому, что смещен относительно настоящего среднего по всей популяции

tonko
05.08.2017
09:58:29
В контексте сетей это дополнительный взвешенный вход, который смещает функцию по оси х.

Обучается вместе с выборкой, но является константным.

Sergey
05.08.2017
15:45:10
Коллеги, а подскажите какие-нибудь максимально простые и удобные фреймворки-алгоритмы-конструкторы, чтобы сделать умный разбор строки на "смысловые" части?

Dan
05.08.2017
15:46:33
#полезное #открытыеданные Для всех интересующихся вопросом откуда брать открытые данные в большом количестве. Вот вам: 1. dataportals.org (каталог открытых данных) 2. github.com/caesar0301/awesome-public-datasets/blob/master/Government.rst (список по странам) 3. www.opendatasoft.com/a-comprehensive-list-of-all-open-data-portals-around-the-world/ (еще один годный список)

Sergey
05.08.2017
15:47:38
Поясню немного, у меня на входе есть весьма разнородные фразы, из которых надо выделять смысловые куски. Например: Дексаметазон раствор для инъекций 4 мг/мл 1 мл, ампулы (5), упаковки ячейковые контурные (5), пачки картонные, рег. № П N012237/02 от 28.04.2011 (дата переоформления РУ 14.05.2015) Небилет таблетки 5 мг 14 шт., упаковки ячейковые контурные (2), пачки картонные, код ОКПД2 21.20.10.146, код ТН ВЭД 3004900002 Желудочный сбор №3 сбор измельченный 50 г, пакеты бумажные (1), пачки картонные, код ОКПД2 21.20.10.113 Элеутерококка экстракт жидкий экстракт для приема внутрь [жидкий] 50 мл, флаконы (1), пачки картонные и т.п. (весьма разнородные по структуре). Мне надо вычленить из них: коды (ОКПД, ТН ВЭД, и т.п., раличая их), формы выпуска ("раствор для инъекций", "сбор измельченный" и т.п.), дозировку ("5 мг") и т.д. и т.п.

Обучающей выборки нет — то есть я могу вручную разобрать десятки-сотни, и потом дообучать, где получаются промахи. Сейчас задача решается набором регулярных выражений и правил — это работает, но много промахов. Вот я думаю, что бы такое попроще из области ML сюда применить?

Andrey
05.08.2017
15:57:43
насколько я понял, надо копать в сторону name entity recognition

Dima
05.08.2017
16:02:27
https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D0%B8%D0%B2%D0%BD%D1%8B%D0%B9_%D0%B1%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9_%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%82%D0%BE%D1%80

вот это ещё Bias

А
05.08.2017
16:07:14
это Bayes

Dima
05.08.2017
16:16:57
а упс

Google
Dima
05.08.2017
16:17:00
ошибочка, согласен

bebebe
05.08.2017
16:21:47
бггг bayes я использовал в spamassasin когда это еще не было мейнстримом (начало 2000х)

а теперь каждый школьник знает

Dima
05.08.2017
16:28:36
я тебя приободрю, не каждый школьник, но каждый говнокодер)

bebebe
05.08.2017
16:28:54
сейчас уже разницы нет

/me уже перестал разбираться в сортах

Dima
05.08.2017
16:29:56
ну далеко не каждый школьник хочет за компом сидеть

и работать

а чё за /me

я с села, сори

tonko
05.08.2017
16:30:24
Джаббер?

Dima
05.08.2017
16:31:53
кстати, господа, хочу совет спросить

https://www.udacity.com/course/intro-to-machine-learning--ud120

кто-то пробовал этот курс, как он вам?

если что это не реклама, админ

bebebe
05.08.2017
16:47:17
Pipito
05.08.2017
17:24:43
Я из всех курсов по чуток брала

Думаю лучше вообще несколько курсов и книги по теме

Но самый лучший курс наверное от ВШЭ

Где Воронцов читает

Google
Alexey
05.08.2017
17:39:02
на курсере или в ШАДе?

Просто, на мой вгляд, специализация от вышки на курсере - чисто чтоб денег на хайпе срубить. Она же ни о чем.

Daniil
05.08.2017
18:22:38
Так какие курсы стоящие?

tonko
05.08.2017
18:23:43
шад

bellicose
05.08.2017
18:24:25
От нетологии что скажете? Если действительно пахать , стоит ли она тех денег, которые они просят?

Alexey
05.08.2017
18:26:35
да можно от Andrew Ng пройти (для неплохой теории), потом пойти на udacity, чтоб посмотреть, как библиотеки в питоне дергать

tonko
05.08.2017
18:27:05
если есть желание пахать то можно и самому

Vova
05.08.2017
19:00:20
https://www.udacity.com/course/intro-to-machine-learning--ud120
все начальные курсы примерно одинаковы, один и тот же путь от линейной регрессии, логистической, через регуляризацию, попутно зайдя на кластеризацию и обучению без учителя, через SVM, добравшись до случайных деревьев и наконец градиентный бустинг. И далее кратко про нейросетки. Почти все курсы похожи друг на друга. И всё больше сходятся в одно и то же.

Dima
05.08.2017
19:02:46
Просто я смотрел,читал всякое, но всё не мог приступить к написанию чего-то интересного. Пошёл на сайт kaggle и понял, что слабоват, т.к ни питона ни R не шарю, решил глянуть что-то ближе к практике, т.к у китайца очень хорошая теория, математика, но всё это в теории и в матлабе...

Vova
05.08.2017
19:09:55
Просто я смотрел,читал всякое, но всё не мог приступить к написанию чего-то интересного. Пошёл на сайт kaggle и понял, что слабоват, т.к ни питона ни R не шарю, решил глянуть что-то ближе к практике, т.к у китайца очень хорошая теория, математика, но всё это в теории и в матлабе...
я конечно не супердатасайнтист, не-не, но в моём понимании вся эта методология довольно быстро изучается. Основной цимус это включение мозга на этапе решения *конкретной* задачи. Понимание "физики" конкретного процесса, связи переменных, гипотезы о фичах и их конструирование - вот что даёт выхлоп в сложных случаях с небольшим и средним количеством данных. Отдельная история - реальные бигдаты. Т.е. ситуации в которых все данные не помещаются в мозги одной машины. Тут - нужны более глубокие знания распределённых алгоритмов, а также умения сокращать размерность. Ну и 2D (изображения) - тоже отдельная история, но я по ней ничего не знаю (знаю общие вещи, конечно).

Dima
05.08.2017
19:11:35
Я не спорю, что нуб, я и тот курс до конца немного не дорешал из-за долгого вынужденного перерыва и возобновил все это дело летом

А когда я полез на кэггл, я не понял что к чему, что за библиотеки, что за юпитер

Ну и пока мой потолок это были учебные задачки, стыдно

Но как есть

Evgeniy
05.08.2017
19:13:46
deep mind завалил ICML статьями)

Personal bot for tenni
05.08.2017
19:13:46
EvgeniyZh Ваше сообщение было удалено в связи с высокой активностью спамеров, оно выглядит подозрительно.

Evgeniy
05.08.2017
19:14:00
https://deepmind.com/blog/deepmind-papers-icml-2017-part-one/ https://deepmind.com/blog/deepmind-papers-icml-2017-part-two/ https://deepmind.com/blog/icml-round-papers-part-three/

Google
Vova
05.08.2017
19:14:59
Я не спорю, что нуб, я и тот курс до конца немного не дорешал из-за долгого вынужденного перерыва и возобновил все это дело летом
работа данными это как ковыряние палочкой в куче г-на (большая куча =big data)в надежде найти золотишко или серебришко. Всем кажется, что главное - это палочка (эбонитовая, с упором и выемкой для пальцев или ещё как), а на самом деле главное - это упорное копание в этой куче. Опять же в изображениях - м.б. отдельная история.

Nikita
05.08.2017
19:15:52
Как сейчас java в big data?

Привет, кстати.

Dima
05.08.2017
19:17:09
Ну опыта пока мало и прерывисто иду

Но спасибо за нравоучение

Vova
05.08.2017
19:17:36
Как сейчас java в big data?
прэкрасно вроде, спарк же и хадуп

Admin
ERROR: S client not available

Dima
05.08.2017
19:21:33
а в принципе

многие проекты так или иначе с вебом и базами данных завязаны

значит ли это что нужно учить ещё бэкэнд и работу с БД?

Dan
05.08.2017
19:22:24
значит ли это что нужно учить ещё бэкэнд и работу с БД?
тебе будет проще в дальнейшем. но сложно в начале. учи, конечно

Dima
05.08.2017
19:22:26
это не проблема, если что, но я думаю, здесь не только энтузиасты есть, но и люди которые работают в этой области

ну с БД, я знаком конкретно с MySQL

окей, спасибо

и видел как пилят сервер на node.js , но это тёмная история о которой в обществе лучше не упоминать ?

Dima
05.08.2017
19:26:07
могу курс скинуть

по иронии судьбы он от индуса

из универа Гонгконга

но если в кратце берут кучу модулей джава скрипта и мешают друг с другом

Google
?
05.08.2017
19:27:18
Давай

Dima
05.08.2017
19:27:23
а потом берут MongoDB и вот тебе база данных, где всё хранится как бы в JSON

но про монго дб я столько нехорошего начитался

как понял, она не везде хороша

Nikolay
05.08.2017
19:27:48
nodejs не нужен

Dima
05.08.2017
19:27:54
в особенности там где много связей в БД

ну то я по дороге его глянул

Nikolay
05.08.2017
19:28:08
монга стала сильно лучше с годами, но вообще у нее тоже много косяков

Dima
05.08.2017
19:28:28
а трезубцу я кину в лс

Pipito
05.08.2017
19:36:34
Мне больше всего в изучении stackoverflow помогает

Alexey
05.08.2017
20:05:06
Просто я смотрел,читал всякое, но всё не мог приступить к написанию чего-то интересного. Пошёл на сайт kaggle и понял, что слабоват, т.к ни питона ни R не шарю, решил глянуть что-то ближе к практике, т.к у китайца очень хорошая теория, математика, но всё это в теории и в матлабе...
После этой теории как раз будет гораздо проще практику изучать, можно самое начало посмотреть потом на udacity по ds любой курс, где введут в jupyter, numpy/scipy, pandas. А потом можно будет просто выгугливать название библиотеки и смотреть описание ее, для небольших данных этого достаточно. Да и вообще нужно сразу понимать, что библиотеки не панацея, что порой вместо возни с зависимости можно быстро многое написать самому, а курс Ына как раз и заставляет писать уравнения вместо дерганья библиотек. Так-то он школьного уровня, и для чтения серьезных книжек по теме нужно знать куда больше математики.

Pipito
05.08.2017
20:24:25
Решения на kaggle

Или статьи про решения на хабре

Николай
05.08.2017
20:28:50
Спасибо ?

Antonio
05.08.2017
20:31:34


https://rutracker.org/forum/viewtopic.php?p=73629007

Страница 115 из 327