
Kek
27.11.2017
09:21:38
а для научиться 3,5 приколам по биг дате тоже мало? я не погромист и не хочу, мне просто в вузе будут это давать.
не думаю, что в трехмесячном курсе больше 3.5 приколов

mrx
27.11.2017
09:22:50
просто под мой бюджет сейчас подходит
https://market.yandex.ru/product/1716607708
и этот
https://market.yandex.ru/product/14271793
сложно самому сравнить, ибо на работе 64гб рам, её точно хватает пока)

Vladimir
27.11.2017
09:28:40
Много или мало - это смотря для каких именно задач. Мне хватило процессора i3 и оперативки 4 Гб для экспериментов с тематическим моделированием википедии. Для каких-то задач с в разы меньшим объемом данных и в разы более производительного железа может будет недостаточно

Google

mrx
27.11.2017
09:30:51
я понимаю, что это как выбирать "автомобиль, которого достаточно" :) потому сделал оговорку, для обучения (себя, а не моделей).
насколько я понял, производительность для тяжелых задачек тут расширяют при помощи GPU. верно?

Dan
27.11.2017
09:38:35
Коллеги из Яндекса делают новый интересный митап по теме опенсорса:
https://events.yandex.ru/events/meetings/30-november-2017/

Andrey
27.11.2017
11:34:53
8-16 ОЗУ и 4-8 Гб GPU норм

Artem
27.11.2017
16:00:34
Привет всем, у меня тут есть вопрос к hadoop гуру, может поможете. Я только вкатываюсь, так что все банально)
Когда запускается MapReduce джоба, то вначале мепперы берут исходные данные из файлов. Все данные, естественно, дублируются для поддержания избыточности. Почему тогда не возникает проблем с тем, что один меппер может брать данные из одного файла, а второй меппер - из другого файла, который является дубликатом?
Может это разрешается где-нибудь на уровне HDFS? Т.е. мепперы получают информацию о том, что это дубликат и не берут из него информацию вообще


Henadz
27.11.2017
16:08:46
Привет всем, у меня тут есть вопрос к hadoop гуру, может поможете. Я только вкатываюсь, так что все банально)
Когда запускается MapReduce джоба, то вначале мепперы берут исходные данные из файлов. Все данные, естественно, дублируются для поддержания избыточности. Почему тогда не возникает проблем с тем, что один меппер может брать данные из одного файла, а второй меппер - из другого файла, который является дубликатом?
Может это разрешается где-нибудь на уровне HDFS? Т.е. мепперы получают информацию о том, что это дубликат и не берут из него информацию вообще
на этапе планирования джобы каждому мапперу подсовывается свой кусок входных данных

Artem
27.11.2017
16:24:31
Спасибо) Почитаю подробнее

Roman
27.11.2017
16:47:12
Крутые вакансии тут размещают?

Dan
27.11.2017
17:36:15

Татьяна
27.11.2017
18:52:24

Dan
27.11.2017
19:37:49
Коллеги, вообще огонёк!
Берите, пока бесплатно: книга-гайд по профессии Data Sceintist
https://www.simplilearn.com/the-numbers-game-deciphered-guide-pdf
#books #полезное #интересное

Boris
28.11.2017
14:39:02
книга - 15 страниц и ниочем

Tony
28.11.2017
14:40:41

Google

Dan
28.11.2017
14:41:29

Boris
28.11.2017
14:41:56
не увидел ни одной формулы

Dan
28.11.2017
14:42:23

Boris
28.11.2017
14:42:54
зачем? есть куча других книг
https://www.manning.com/books/machine-learning-in-action
хотя бы эта
а не какие-то заметки индусов
https://www.quantstart.com/ebooks
вот еще это покупал
мне понравилось

Dan
28.11.2017
14:45:02
Мэннинг одна из лучших

Kamalkhan
28.11.2017
14:46:29
Кто нибудь проходил курс по матеше для Machine Learning от MIT??
Как вообще сам курс?

Dan
28.11.2017
14:48:05
Вообще, напомню, что лучшая подборка книг по нашей теме собрана Antonio
https://ru.stackoverflow.com/a/683632/1084

Лок
28.11.2017
17:08:02
Это переобучение?
Как такое вообще может получиться, если я выбрал линейное ядро в sklearn?

Lepus
28.11.2017
17:09:14
Это неправильный плот.

Лок
28.11.2017
17:10:30
А как получить правильный?

Lepus
28.11.2017
17:10:33
У тебя сколько фичей в пространстве?

Google

Лок
28.11.2017
17:10:44
21
я выбрал один из столбцов
и по нему посмотрел

Admin
ERROR: S client not available

Lepus
28.11.2017
17:11:22
Проверяй

Лок
28.11.2017
17:11:40
Ок, погляжу, спасибо

Kek
28.11.2017
18:27:02

Andre
28.11.2017
18:44:13
Вот этот курс ещё норм
https://lagunita.stanford.edu/courses/HumanitiesSciences/StatLearning/Winter2016/about
Он хардкорный с формулами и текстбуком хорошим
Отличается от ванильных типа апплайд мл с практикой в ажуре мл
Правда там без вот этого вот всего с нейросетями

Alexander
29.11.2017
07:11:28
как корректно "поиск структуры в данных" звучит в английской литературе?

Вачаган
29.11.2017
07:15:04

Vova
29.11.2017
07:46:00
возможно pattern matching in dm

Andrey
29.11.2017
07:58:52

Vova
29.11.2017
08:01:27
задающий вопрос не дал дополнительного инсайта
для примера http://www.ijrmst.org/download/vol5no1/paper19.pdf

Artem
29.11.2017
08:02:03
Ну просто паттерны != структура

Vova
29.11.2017
08:06:21
структура - очень широко

Alexander
29.11.2017
09:44:58
Какие модели используются в Анти-фроде?

Google

Alexander
29.11.2017
09:45:39
вряд ли предиктивки?

Kek
29.11.2017
09:47:58

Alexander
29.11.2017
09:50:12
Смотря где
Ну, допустим, банковский антифрод обычный.
Куча разрозненных данных. Нужно выявить аномалии. через какую модель лучше всего?