

Gadzhibala
21.03.2018
18:33:07
Ребят всем привет. Только знакомлюсь с инструментами для работы с BigData. Параллельно ищу работу. Вот дали такое задание: Необходимо создать программу загрузки данных в формате CSV в файловую систему HDFS на python и написать простой тест. Пример файла CSV:
id, type, value, business_date
1,"pay", 35,"2017-01-01"
2,"pay", 900,"2017-02-01"
1,"pay", 4590,"2017-01-02"
1,"rec", -4625,"2017-01-03"
2,"rec", -900,"2017-02-05"
Загрузка данных должна состоять из следующих стадий:
- incoming - директория в HDFS, в которую попадают данные (csv файлы определенного формата) из внешнего источника
- prefilter - необходимо отфильтровать все сообщения, которые не соответствуют вышеописанному формату
- staging - директория в HDFS, содержит пачку файлов (file batch) которая берется для процесса загрузки
- archive - конечная директория HDFS, где содержатся файлы, в разбивке по business date из файла csv, т.е здесь должны быть субдиректории с датой в имени. Каждый файл должен поступать в свою директорию в соответствии с business date в нем. Для разделения файлов по директориям необходимо использовать MapReduce внутри Hadoop.
1 ) Скачал образ cloudera , благополучно развернул его, запустил все процессы. В папку скинул csv файл и загрузил его коммандой hadoop fs -put temp.csv
2) создал mapper.py
def map(record):
value, business_date = record.split(",")
yield value, business_date
3) создал reduce.py
def reduce(record, value):
yield record, value
Запускаю командой:
yarn jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar\
-input temp.csv\
-output csv\
-file mapper.py\
-file reducer.py\
-mapper "python mapper.py"\
-reducer "python reducer.py"
Задача проходит, но результатов нет, т. е. данные не выгружаются. Куда копать? и в каком направлении двигаться?


Anton
21.03.2018
20:48:50
а у кого-нибудь hunspell работает в venv? я уже все перепробовал, что они на гите там предлагают, но при запуске
venv/lib/python3.6/site-packages/hunspell.cpython-36m-darwin.so, 2): Symbol not found: __ZN8Hunspell14add_with_affixERKSsS1_
/venv/lib/python3.6/site-packages/hunspell.cpython-36m-darwin.so
Expected in: flat namespace
python 3.6.2, macos

isya
22.03.2018
10:36:42
Смотрел кто нибудь эту книгу https://www.ozon.ru/context/detail/id/144106127/ ? Скажите что-нибудь?

Google

Vyaches
22.03.2018
10:44:27
Для новичка который вообще не разбирается - прям супер. Для того кто уже шарит - не очень. Там только основы.
Полезна, конечно, но более глубокой инфы там не много.

isya
22.03.2018
10:45:49
понятно, спасибо!

dot
22.03.2018
15:53:04
Добрый вечер , скажите а для чего при тренировании модели подряд идут вот такие две строки в коде
def setup_to_finetune(model):
"""Freeze the bottom NB_IV3_LAYERS and retrain the remaining top layers.
note: NB_IV3_LAYERS corresponds to the top 2 inception blocks in the
inceptionv3 arch
Args:
model: keras model
"""
for layer in model.layers[:NB_IV3_LAYERS_TO_FREEZE]:
layer.trainable = False
for layer in model.layers[NB_IV3_LAYERS_TO_FREEZE:]:
layer.trainable = True
model.compile(optimizer=SGD(lr=0.0001, momentum=0.9),
loss='categorical_crossentropy', metrics=['accuracy'])
какой смысл одни и теже слои в начале выключать а потом опять включать для тренировки ?

Evgeniy
22.03.2018
15:54:12

dot
22.03.2018
15:56:24
таак обратил эмм теперь вопрос.. тоесть мы значит вырубаем слои для обучения до слоя NB_IV3_LAYERS_TO_FREEZE а в следующем цикле врубаем для обучения все слои после этого да ?

Evgeniy
22.03.2018
15:57:01

dot
22.03.2018
15:57:24
Понял спасибо большое :)

Tsh
22.03.2018
16:34:10
Я думаю лучше бы дали название to_unfreeze

Е
22.03.2018
17:06:28
блин да что такое
случайно нажалось(( прошу прощения, не хотел спамить

Dan
22.03.2018
17:08:41

Е
22.03.2018
17:09:03
с тачпада сижу. рили сорян

Google

Семён
22.03.2018
19:12:08
Коллеги, подскажите, у меня есть большая выборка видеозаписей с камер офисных помещений. Мне нужно выделять определенную деятельность человека (допустим, разговор по телефону), да и вообще вести некий лог деятельности по видео. Возможно ли это в данный момент и какие инструменты наиболее подходят для решения этой задачи?

Evgeniy
22.03.2018
19:28:37
https://arxiv.org/abs/1705.01861 например

Семён
22.03.2018
19:46:06
Спасибо!

Andrey
23.03.2018
06:36:02
Еще прикольнее. Людей берут на работу, дают задания, а они эти задания без палева переадресуют коллективному разуму чатиков

Viktor
23.03.2018
06:53:21
Этот вброс был таким толстым что не поместился на экране мобилки.

Kek
23.03.2018
09:03:24

Семён
23.03.2018
09:21:41

Проксимов
23.03.2018
12:55:55

Семён
23.03.2018
13:01:36
Я не отрицаю необходимости в квалифицированном специалисте. Просто задачи в данной области интересны сами по себе. И ими поделиться не грех как минимум.

Andrey
23.03.2018
13:09:24
Тогда пусть данные вываливают. Толку от формулировки задачи без данных?

Dan
23.03.2018
15:05:35
Дорогие коллеги, мы часто поднимаем с вами вопросы о том, с чего начать обучение ML и как вообще стать дата сайнтистом. Существуют внушительные подборки материалов (например, великолепная подборка от Кати Демидовой) и книг (от Антонио), что уже неоднократно было выше. Однако даже там нет точного и последовательного пути в изучении ML с нуля шаг за шагом.
Ребята из SkillFactory сделали курс, который чуть более чем полностью состоит из практики и актуальных кейсов, где вы будете решать конкретные боевые задачи, а не "чесать академично теорию" ? Курс ведёт Руководитель отдела аналитики (!) Mail.ru
И это уже второй набор, если что!
Собственно, делюсь объявлением ниже:

Vyaches
23.03.2018
16:17:32
А там нормально вообще? Стоит ли его проходить? Или он прям вообще вообще для новичков?

Dan
23.03.2018
16:18:28

Nick
23.03.2018
17:58:08
500 евро за курс на русском, для новичков, дороговато как-то..

Egor
23.03.2018
18:00:35

Nick
23.03.2018
18:02:41
Курс на английском выйдет дешевле, да и востребованность после него будет выше.

Dmitry
23.03.2018
18:03:26

Artyom
23.03.2018
18:10:17
а есть кто уже прошел Скиллфактори?

Google

Egor
23.03.2018
18:10:57

Dmitry
23.03.2018
18:13:02

Dmitry
23.03.2018
18:13:13
>Цена для участников нашей группы @bigdata_ru - 35 тыс. руб. (вместо 79 тыс.)!
какое однако ценообразование
с потолка

Egor
23.03.2018
18:15:09

Dmitry
23.03.2018
18:16:28
Кстати, из бесплатного есть курс НА РУССКОМ от МФТИ и Яндекса на Курсере: https://www.coursera.org/specializations/machine-learning-data-analysis

Viktor
23.03.2018
18:17:44
Это дело создателей курсов конечно но на мой взгляд при таком числе хороших бесплатных курсов делать еще один платный это какая-то дичь. Выгоду такие курсы могут извлекать из доступа к новым перспективным кадрам или из чего то еще но точно не за входной билет

Dmitry
23.03.2018
18:17:46
Чтобы его пройти бесплатно, после Enroll надо кликнуть на audit.

Dmitry
23.03.2018
18:18:52

Admin
ERROR: S client not available

Egor
23.03.2018
18:18:55

Dmitry
23.03.2018
18:23:33
Я, видимо, не очень точно сказал: я говорю о том, что документация на библиотеки (в частности TF, keras, scikit-learn, xgboost и прочие) идет на английском языке (не на китайском, не на французском, и, к сожалению, не на русском). Всему в обучающем курсе научить невозможно, да и не нужно. Глубокое изучение библиотек уже происходит самостоятельно, в первую очередь через чтение документации и уже во вторую очередь через чтение сорцов.

Egor
23.03.2018
18:27:54
Я смотрю в сорцы не очень больших проектов, а лезть в numpy scipy а тем более tensorflow не отважусь, если какой-то момент не понятен. Слишком большая кодовая база. Обычно хватает примеров из документации. Вы когда-то видели как действует программист не знающий английского, если сталкивается с проблемой выходящей дальше stack overflow?

Tsh
23.03.2018
18:28:27
Есть один нюанс: многие отнюдь не глупые люди могут освоить что-либо только в присутствии живого учителя
Так устроена психика

Evgeniy
23.03.2018
18:29:52
такие люди обречены в этой профессии

Проксимов
23.03.2018
18:30:24

Alex
23.03.2018
18:31:02
В зависимости от того, насколько человеку интересно и насколько что-то нужно, необходимый навык он выучивает сам, когда припрет

Dmitry
23.03.2018
18:34:34

Google

Dmitry
23.03.2018
18:35:13

Egor
23.03.2018
18:39:39

Alexander
23.03.2018
18:39:46
А в чём сложность просто брать книги в оригинале и переводить их вместе со словарём (лучше парочкой)? Неужто кто-то недеется, что произодёт внезапный БАХ и вы сразу начнёте понимать всю английскую литературу?

Dmitry
23.03.2018
18:40:50

Egor
23.03.2018
18:41:58
Ну русском?
И на русском тоже https://ru.stackoverflow.com/
Если вопрос не сложный, то вопрос переводится на английский на гугл транслэйт и постится на основной сайт.

Dmitry
23.03.2018
18:42:57
Да уж, не позавидуешь

Dmitry
23.03.2018
18:43:46
тупиковый путь. у меня буквально пара вопросов на SO, при чем один из них по хаскелю
я не знающих английский видел, да, дедов 60+ на моем заводе в космической отрасли, писали дичайшую лапшу на шестом билдере
а так даже мой знакомый который в 28 лет решил перейти из киномехаников в программисты и примерно за год написал своего пэкмэна, без проблем развил свой школьный английский до приемлемого read only

Dmitry
23.03.2018
18:46:05

Egor
23.03.2018
18:55:09
https://dou.ua/lenta/columns/it-start-courses/