@bigdata_ru

Страница 248 из 327
Gadzhibala
21.03.2018
18:33:07
Ребят всем привет. Только знакомлюсь с инструментами для работы с BigData. Параллельно ищу работу. Вот дали такое задание: Необходимо создать программу загрузки данных в формате CSV в файловую систему HDFS на python и написать простой тест. Пример файла CSV: id, type, value, business_date 1,"pay", 35,"2017-01-01" 2,"pay", 900,"2017-02-01" 1,"pay", 4590,"2017-01-02" 1,"rec", -4625,"2017-01-03" 2,"rec", -900,"2017-02-05" Загрузка данных должна состоять из следующих стадий: - incoming - директория в HDFS, в которую попадают данные (csv файлы определенного формата) из внешнего источника - prefilter - необходимо отфильтровать все сообщения, которые не соответствуют вышеописанному формату - staging - директория в HDFS, содержит пачку файлов (file batch) которая берется для процесса загрузки - archive - конечная директория HDFS, где содержатся файлы, в разбивке по business date из файла csv, т.е здесь должны быть субдиректории с датой в имени. Каждый файл должен поступать в свою директорию в соответствии с business date в нем. Для разделения файлов по директориям необходимо использовать MapReduce внутри Hadoop. 1 ) Скачал образ cloudera , благополучно развернул его, запустил все процессы. В папку скинул csv файл и загрузил его коммандой hadoop fs -put temp.csv 2) создал mapper.py def map(record): value, business_date = record.split(",") yield value, business_date 3) создал reduce.py def reduce(record, value): yield record, value Запускаю командой: yarn jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar\ -input temp.csv\ -output csv\ -file mapper.py\ -file reducer.py\ -mapper "python mapper.py"\ -reducer "python reducer.py" Задача проходит, но результатов нет, т. е. данные не выгружаются. Куда копать? и в каком направлении двигаться?

Anton
21.03.2018
20:48:50
а у кого-нибудь hunspell работает в venv? я уже все перепробовал, что они на гите там предлагают, но при запуске venv/lib/python3.6/site-packages/hunspell.cpython-36m-darwin.so, 2): Symbol not found: __ZN8Hunspell14add_with_affixERKSsS1_ /venv/lib/python3.6/site-packages/hunspell.cpython-36m-darwin.so Expected in: flat namespace

python 3.6.2, macos

isya
22.03.2018
10:36:42
Смотрел кто нибудь эту книгу https://www.ozon.ru/context/detail/id/144106127/ ? Скажите что-нибудь?

Google
Vyaches
22.03.2018
10:44:27
Для новичка который вообще не разбирается - прям супер. Для того кто уже шарит - не очень. Там только основы. Полезна, конечно, но более глубокой инфы там не много.

isya
22.03.2018
10:45:49
понятно, спасибо!

dot
22.03.2018
15:53:04
Добрый вечер , скажите а для чего при тренировании модели подряд идут вот такие две строки в коде def setup_to_finetune(model): """Freeze the bottom NB_IV3_LAYERS and retrain the remaining top layers. note: NB_IV3_LAYERS corresponds to the top 2 inception blocks in the inceptionv3 arch Args: model: keras model """ for layer in model.layers[:NB_IV3_LAYERS_TO_FREEZE]: layer.trainable = False for layer in model.layers[NB_IV3_LAYERS_TO_FREEZE:]: layer.trainable = True model.compile(optimizer=SGD(lr=0.0001, momentum=0.9), loss='categorical_crossentropy', metrics=['accuracy']) какой смысл одни и теже слои в начале выключать а потом опять включать для тренировки ?

dot
22.03.2018
15:56:24
таак обратил эмм теперь вопрос.. тоесть мы значит вырубаем слои для обучения до слоя NB_IV3_LAYERS_TO_FREEZE а в следующем цикле врубаем для обучения все слои после этого да ?

dot
22.03.2018
15:57:24
Понял спасибо большое :)

Tsh
22.03.2018
16:34:10
Я думаю лучше бы дали название to_unfreeze

Е
22.03.2018
17:06:28
блин да что такое

случайно нажалось(( прошу прощения, не хотел спамить

Е
22.03.2018
17:09:03
с тачпада сижу. рили сорян

Google
Семён
22.03.2018
19:12:08
Коллеги, подскажите, у меня есть большая выборка видеозаписей с камер офисных помещений. Мне нужно выделять определенную деятельность человека (допустим, разговор по телефону), да и вообще вести некий лог деятельности по видео. Возможно ли это в данный момент и какие инструменты наиболее подходят для решения этой задачи?

Семён
22.03.2018
19:46:06
Спасибо!

Andrey
23.03.2018
06:36:02
Еще прикольнее. Людей берут на работу, дают задания, а они эти задания без палева переадресуют коллективному разуму чатиков

Viktor
23.03.2018
06:53:21
Этот вброс был таким толстым что не поместился на экране мобилки.

Семён
23.03.2018
09:21:41
Еще прикольнее. Людей берут на работу, дают задания, а они эти задания без палева переадресуют коллективному разуму чатиков
Действительно, если он таким образом решает задачи успешнее одного выделенного специалиста с с семью пядями во лбу, то почему бы и нет? :)

Семён
23.03.2018
13:01:36
Я не отрицаю необходимости в квалифицированном специалисте. Просто задачи в данной области интересны сами по себе. И ими поделиться не грех как минимум.

Andrey
23.03.2018
13:09:24
Тогда пусть данные вываливают. Толку от формулировки задачи без данных?

Dan
23.03.2018
15:05:35
Дорогие коллеги, мы часто поднимаем с вами вопросы о том, с чего начать обучение ML и как вообще стать дата сайнтистом. Существуют внушительные подборки материалов (например, великолепная подборка от Кати Демидовой) и книг (от Антонио), что уже неоднократно было выше. Однако даже там нет точного и последовательного пути в изучении ML с нуля шаг за шагом. Ребята из SkillFactory сделали курс, который чуть более чем полностью состоит из практики и актуальных кейсов, где вы будете решать конкретные боевые задачи, а не "чесать академично теорию" ? Курс ведёт Руководитель отдела аналитики (!) Mail.ru И это уже второй набор, если что! Собственно, делюсь объявлением ниже:



Vyaches
23.03.2018
16:17:32
А там нормально вообще? Стоит ли его проходить? Или он прям вообще вообще для новичков?

Nick
23.03.2018
17:58:08
500 евро за курс на русском, для новичков, дороговато как-то..

Egor
23.03.2018
18:00:35
500 евро за курс на русском, для новичков, дороговато как-то..
Для новичков с деньгами нет. Новички без денег освоят базис и без курсов

Nick
23.03.2018
18:02:41
Курс на английском выйдет дешевле, да и востребованность после него будет выше.

Dmitry
23.03.2018
18:03:26
Artyom
23.03.2018
18:10:17
а есть кто уже прошел Скиллфактори?

Google
Egor
23.03.2018
18:10:57
Курс на английском выйдет дешевле, да и востребованность после него будет выше.
Потому этот курс на русском. За незнание английского нужно платить

Dmitry
23.03.2018
18:13:02
Потому этот курс на русском. За незнание английского нужно платить
А как вообще можно что-либо программировать не зная английского? Документации на русском вы не найдете.

Dmitry
23.03.2018
18:13:13
>Цена для участников нашей группы @bigdata_ru - 35 тыс. руб. (вместо 79 тыс.)! какое однако ценообразование

с потолка

Egor
23.03.2018
18:15:09
А как вообще можно что-либо программировать не зная английского? Документации на русском вы не найдете.
А как можно иметь такой уровень снобизма? Я программировал без знания английского без особых проблем. Он нужен позже, когда "мастерство" вырастает

Dmitry
23.03.2018
18:16:28
Кстати, из бесплатного есть курс НА РУССКОМ от МФТИ и Яндекса на Курсере: https://www.coursera.org/specializations/machine-learning-data-analysis

Viktor
23.03.2018
18:17:44
Это дело создателей курсов конечно но на мой взгляд при таком числе хороших бесплатных курсов делать еще один платный это какая-то дичь. Выгоду такие курсы могут извлекать из доступа к новым перспективным кадрам или из чего то еще но точно не за входной билет

Dmitry
23.03.2018
18:17:46
Чтобы его пройти бесплатно, после Enroll надо кликнуть на audit.

Admin
ERROR: S client not available

Egor
23.03.2018
18:18:55
А как вообще можно что-либо программировать не зная английского? Документации на русском вы не найдете.
Найдёте. Материалов много, а умение выделять нужное зависит от ученика. Вот вам краткое введение в тему на русском https://ulearn.me/Course/AIML/Rozhdenie_teorii_1936_1956_b2bf5cc9-3309-42b9-bc08-70bd9d19eb3e

Dmitry
23.03.2018
18:23:33
Я, видимо, не очень точно сказал: я говорю о том, что документация на библиотеки (в частности TF, keras, scikit-learn, xgboost и прочие) идет на английском языке (не на китайском, не на французском, и, к сожалению, не на русском). Всему в обучающем курсе научить невозможно, да и не нужно. Глубокое изучение библиотек уже происходит самостоятельно, в первую очередь через чтение документации и уже во вторую очередь через чтение сорцов.

Egor
23.03.2018
18:27:54
Я смотрю в сорцы не очень больших проектов, а лезть в numpy scipy а тем более tensorflow не отважусь, если какой-то момент не понятен. Слишком большая кодовая база. Обычно хватает примеров из документации. Вы когда-то видели как действует программист не знающий английского, если сталкивается с проблемой выходящей дальше stack overflow?

Tsh
23.03.2018
18:28:27
Есть один нюанс: многие отнюдь не глупые люди могут освоить что-либо только в присутствии живого учителя

Так устроена психика

Evgeniy
23.03.2018
18:29:52
такие люди обречены в этой профессии

Проксимов
23.03.2018
18:30:24
такие люди обречены в этой профессии
В почти любой творческой профессии

Alex
23.03.2018
18:31:02
В зависимости от того, насколько человеку интересно и насколько что-то нужно, необходимый навык он выучивает сам, когда припрет

Dmitry
23.03.2018
18:34:34
Есть один нюанс: многие отнюдь не глупые люди могут освоить что-либо только в присутствии живого учителя
и другие неглупые люди на этом наживаются, беря неадекватный ценник за массовый онлайн курс

Google
Egor
23.03.2018
18:39:39
Нет, я не видел программистов, которые не владели бы английским.
О. Тогда вы живёте в мире не дальше своей руки. Взгляните дальше и вы их увидите. Ответом на мой вопрос будет - они идут на тот же стековерфлоу или тостер и задают вопрос.

Alexander
23.03.2018
18:39:46
А в чём сложность просто брать книги в оригинале и переводить их вместе со словарём (лучше парочкой)? Неужто кто-то недеется, что произодёт внезапный БАХ и вы сразу начнёте понимать всю английскую литературу?

Egor
23.03.2018
18:41:58
Ну русском?
И на русском тоже https://ru.stackoverflow.com/

Если вопрос не сложный, то вопрос переводится на английский на гугл транслэйт и постится на основной сайт.

Dmitry
23.03.2018
18:42:57
Да уж, не позавидуешь

Dmitry
23.03.2018
18:43:46
тупиковый путь. у меня буквально пара вопросов на SO, при чем один из них по хаскелю

я не знающих английский видел, да, дедов 60+ на моем заводе в космической отрасли, писали дичайшую лапшу на шестом билдере

а так даже мой знакомый который в 28 лет решил перейти из киномехаников в программисты и примерно за год написал своего пэкмэна, без проблем развил свой школьный английский до приемлемого read only

Dmitry
23.03.2018
18:46:05
я не знающих английский видел, да, дедов 60+ на моем заводе в космической отрасли, писали дичайшую лапшу на шестом билдере
Я здесь представил англичанина/американца, который попытается осилить программирование на 1С. Предположим с конструкциями он разберется так или иначе. Но как он будет читать документацию и задавать вопросы коллегам по цеху? :)

Egor
23.03.2018
18:55:09
https://dou.ua/lenta/columns/it-start-courses/

Страница 248 из 327