
Vova
05.08.2017
08:54:08
Киньте че-нибудь по нейронке почитать
не пожалейте денег, купите курс на coursera или udemy (на распродаже в киберпонедельник и по купонам можно взять курс который стоит $250 за $10-15) и послушайте. Ориентируйтесь на рейтинг и отзывы.

Tony
05.08.2017
08:55:40

Slava
05.08.2017
09:29:34
А как перевести термин bias? Смещение? И может объясните коротко, своими словами, что это?

Vova
05.08.2017
09:52:58

Google

А
05.08.2017
09:54:28
Допустим ты считаешь среднюю зарплату по стране. Ты идешь по студ. городку и опрашиваешь студентов сколько они получают (считая стипендию зарплатой). Потом считаешь среднее от выборки и получаешь некоторую сумму. Этот результат будет biased, потому что рассматривает только одну группу людей, а тебе нужно рассмотреть все группы людей. Biased он потому, что смещен относительно настоящего среднего по всей популяции

Vova
05.08.2017
09:56:48

tonko
05.08.2017
09:58:29
В контексте сетей это дополнительный взвешенный вход, который смещает функцию по оси х.
Обучается вместе с выборкой, но является константным.

Sergey
05.08.2017
15:45:10
Коллеги, а подскажите какие-нибудь максимально простые и удобные фреймворки-алгоритмы-конструкторы, чтобы сделать умный разбор строки на "смысловые" части?

Dan
05.08.2017
15:46:33
#полезное #открытыеданные
Для всех интересующихся вопросом откуда брать открытые данные в большом количестве. Вот вам:
1. dataportals.org (каталог открытых данных)
2. github.com/caesar0301/awesome-public-datasets/blob/master/Government.rst (список по странам)
3. www.opendatasoft.com/a-comprehensive-list-of-all-open-data-portals-around-the-world/ (еще один годный список)


Sergey
05.08.2017
15:47:38
Поясню немного, у меня на входе есть весьма разнородные фразы, из которых надо выделять смысловые куски. Например:
Дексаметазон раствор для инъекций 4 мг/мл 1 мл, ампулы (5), упаковки ячейковые контурные (5), пачки картонные, рег. № П N012237/02 от 28.04.2011 (дата переоформления РУ 14.05.2015)
Небилет таблетки 5 мг 14 шт., упаковки ячейковые контурные (2), пачки картонные, код ОКПД2 21.20.10.146, код ТН ВЭД 3004900002
Желудочный сбор №3 сбор измельченный 50 г, пакеты бумажные (1), пачки картонные, код ОКПД2 21.20.10.113
Элеутерококка экстракт жидкий экстракт для приема внутрь [жидкий] 50 мл, флаконы (1), пачки картонные
и т.п. (весьма разнородные по структуре). Мне надо вычленить из них: коды (ОКПД, ТН ВЭД, и т.п., раличая их), формы выпуска ("раствор для инъекций", "сбор измельченный" и т.п.), дозировку ("5 мг") и т.д. и т.п.
Обучающей выборки нет — то есть я могу вручную разобрать десятки-сотни, и потом дообучать, где получаются промахи. Сейчас задача решается набором регулярных выражений и правил — это работает, но много промахов. Вот я думаю, что бы такое попроще из области ML сюда применить?


Andrey
05.08.2017
15:57:43
насколько я понял, надо копать в сторону name entity recognition

Dima
05.08.2017
16:02:27
https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D0%B8%D0%B2%D0%BD%D1%8B%D0%B9_%D0%B1%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9_%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%82%D0%BE%D1%80
вот это ещё Bias

А
05.08.2017
16:07:14
это Bayes

Dima
05.08.2017
16:16:57
а упс

Google

Dima
05.08.2017
16:17:00
ошибочка, согласен

bebebe
05.08.2017
16:21:47
бггг bayes я использовал в spamassasin когда это еще не было мейнстримом (начало 2000х)
а теперь каждый школьник знает

Dima
05.08.2017
16:28:36
я тебя приободрю, не каждый школьник, но каждый говнокодер)

bebebe
05.08.2017
16:28:54
сейчас уже разницы нет
/me уже перестал разбираться в сортах

Dima
05.08.2017
16:29:56
ну далеко не каждый школьник хочет за компом сидеть
и работать
а чё за /me
я с села, сори

tonko
05.08.2017
16:30:24
Джаббер?

Dima
05.08.2017
16:31:53
кстати, господа, хочу совет спросить
https://www.udacity.com/course/intro-to-machine-learning--ud120
кто-то пробовал этот курс, как он вам?
если что это не реклама, админ

bebebe
05.08.2017
16:47:17

Pipito
05.08.2017
17:24:43
Я из всех курсов по чуток брала
Думаю лучше вообще несколько курсов и книги по теме
Но самый лучший курс наверное от ВШЭ
Где Воронцов читает

Google

Alexey
05.08.2017
17:39:02
на курсере или в ШАДе?
Просто, на мой вгляд, специализация от вышки на курсере - чисто чтоб денег на хайпе срубить. Она же ни о чем.

Daniil
05.08.2017
18:22:38
Так какие курсы стоящие?

tonko
05.08.2017
18:23:43
шад

bellicose
05.08.2017
18:24:25
От нетологии что скажете?
Если действительно пахать , стоит ли она тех денег, которые они просят?

Alexey
05.08.2017
18:26:35
да можно от Andrew Ng пройти (для неплохой теории), потом пойти на udacity, чтоб посмотреть, как библиотеки в питоне дергать

tonko
05.08.2017
18:27:05
если есть желание пахать то можно и самому

Alexey
05.08.2017
18:28:42

Vova
05.08.2017
19:00:20
https://www.udacity.com/course/intro-to-machine-learning--ud120
все начальные курсы примерно одинаковы, один и тот же путь от линейной регрессии, логистической, через регуляризацию, попутно зайдя на кластеризацию и обучению без учителя, через SVM, добравшись до случайных деревьев и наконец градиентный бустинг. И далее кратко про нейросетки. Почти все курсы похожи друг на друга. И всё больше сходятся в одно и то же.

Dima
05.08.2017
19:02:46
Просто я смотрел,читал всякое, но всё не мог приступить к написанию чего-то интересного. Пошёл на сайт kaggle и понял, что слабоват, т.к ни питона ни R не шарю, решил глянуть что-то ближе к практике, т.к у китайца очень хорошая теория, математика, но всё это в теории и в матлабе...

Paul
05.08.2017
19:04:12


Vova
05.08.2017
19:09:55
Просто я смотрел,читал всякое, но всё не мог приступить к написанию чего-то интересного. Пошёл на сайт kaggle и понял, что слабоват, т.к ни питона ни R не шарю, решил глянуть что-то ближе к практике, т.к у китайца очень хорошая теория, математика, но всё это в теории и в матлабе...
я конечно не супердатасайнтист, не-не, но в моём понимании вся эта методология довольно быстро изучается. Основной цимус это включение мозга на этапе решения *конкретной* задачи. Понимание "физики" конкретного процесса, связи переменных, гипотезы о фичах и их конструирование - вот что даёт выхлоп в сложных случаях с небольшим и средним количеством данных. Отдельная история - реальные бигдаты. Т.е. ситуации в которых все данные не помещаются в мозги одной машины. Тут - нужны более глубокие знания распределённых алгоритмов, а также умения сокращать размерность. Ну и 2D (изображения) - тоже отдельная история, но я по ней ничего не знаю (знаю общие вещи, конечно).


Dima
05.08.2017
19:11:35
Я не спорю, что нуб, я и тот курс до конца немного не дорешал из-за долгого вынужденного перерыва и возобновил все это дело летом
А когда я полез на кэггл, я не понял что к чему, что за библиотеки, что за юпитер
Ну и пока мой потолок это были учебные задачки, стыдно
Но как есть

Evgeniy
05.08.2017
19:13:46
deep mind завалил ICML статьями)

Personal bot for tenni
05.08.2017
19:13:46
EvgeniyZh Ваше сообщение было удалено в связи с высокой активностью спамеров, оно выглядит подозрительно.

Evgeniy
05.08.2017
19:14:00
https://deepmind.com/blog/deepmind-papers-icml-2017-part-one/ https://deepmind.com/blog/deepmind-papers-icml-2017-part-two/ https://deepmind.com/blog/icml-round-papers-part-three/

Google

Vova
05.08.2017
19:14:59

Nikita
05.08.2017
19:15:52
Как сейчас java в big data?
Привет, кстати.

Dima
05.08.2017
19:17:09
Ну опыта пока мало и прерывисто иду
Но спасибо за нравоучение

Vova
05.08.2017
19:17:36

Admin
ERROR: S client not available

Dima
05.08.2017
19:21:33
а в принципе
многие проекты так или иначе с вебом и базами данных завязаны
значит ли это что нужно учить ещё бэкэнд и работу с БД?

Dan
05.08.2017
19:22:24

Dima
05.08.2017
19:22:26
это не проблема, если что, но я думаю, здесь не только энтузиасты есть, но и люди которые работают в этой области
ну с БД, я знаком конкретно с MySQL
окей, спасибо
и видел как пилят сервер на node.js , но это тёмная история о которой в обществе лучше не упоминать ?

?
05.08.2017
19:25:53

Dima
05.08.2017
19:26:07
могу курс скинуть
по иронии судьбы он от индуса
из универа Гонгконга
но если в кратце берут кучу модулей джава скрипта и мешают друг с другом

Google

?
05.08.2017
19:27:18
Давай

Dima
05.08.2017
19:27:23
а потом берут MongoDB и вот тебе база данных, где всё хранится как бы в JSON
но про монго дб я столько нехорошего начитался
как понял, она не везде хороша

Nikolay
05.08.2017
19:27:48
nodejs не нужен

Dima
05.08.2017
19:27:54
в особенности там где много связей в БД
ну то я по дороге его глянул

Nikolay
05.08.2017
19:28:08
монга стала сильно лучше с годами, но вообще у нее тоже много косяков

Dima
05.08.2017
19:28:28
а трезубцу я кину в лс

Pipito
05.08.2017
19:36:34
Мне больше всего в изучении stackoverflow помогает

Alexey
05.08.2017
20:05:06
Просто я смотрел,читал всякое, но всё не мог приступить к написанию чего-то интересного. Пошёл на сайт kaggle и понял, что слабоват, т.к ни питона ни R не шарю, решил глянуть что-то ближе к практике, т.к у китайца очень хорошая теория, математика, но всё это в теории и в матлабе...
После этой теории как раз будет гораздо проще практику изучать, можно самое начало посмотреть потом на udacity по ds любой курс, где введут в jupyter, numpy/scipy, pandas. А потом можно будет просто выгугливать название библиотеки и смотреть описание ее, для небольших данных этого достаточно. Да и вообще нужно сразу понимать, что библиотеки не панацея, что порой вместо возни с зависимости можно быстро многое написать самому, а курс Ына как раз и заставляет писать уравнения вместо дерганья библиотек. Так-то он школьного уровня, и для чтения серьезных книжек по теме нужно знать куда больше математики.

Николай
05.08.2017
20:22:38

Pipito
05.08.2017
20:24:25
Решения на kaggle
Или статьи про решения на хабре

Николай
05.08.2017
20:28:50
Спасибо ?

Antonio
05.08.2017
20:31:34
https://rutracker.org/forum/viewtopic.php?p=73629007