@bigdata_ru

Страница 82 из 327
Evgeniya
26.05.2017
14:25:31
#вакансия#москва#devops Коллеги, привет! Отличная вакансия для тех, кто хочет поддерживать и развивать свои навыки devops инженера, но мечтает окунуться в Big Data. Требуется отличный опыт работы с *nix системами, виртуализацией и приветствуется опыт в разработке архитектурных решений. Самостоятельность — ОБЯЗАТЕЛЬНО. Опыт в BigData не обязателен, главное - желание разобраться. Если интересно, пишите на e.kikoina@youdo.ru

Ayrana
26.05.2017
17:24:52
Зачем начинать изучение алгоритма с самой сложной задачи?
Хороший вопрос. Наверное, потому что именно ее надо решить, а упрощать мне непонятно как.

Леонид
26.05.2017
17:26:45
Изучать математику, решая проблемы Гилберта - разве хорошая идея? Сначала учится математика (в данном случае алгоритм) на простых примерах, а потом применяется к нужной проблеме.

Google
Леонид
26.05.2017
17:30:05
Отлично. Тогда мой вопрос выше остаётся в силе ). Можно изучать алгоритм на простых задачах

redbeard
26.05.2017
18:16:22
да, без вилки, вакансия, как оказалось, есть на известном сайте

Farruh
27.05.2017
08:22:31
Подскажите пожалуйста, как преподнеси результаты логистической регрессии боссам? Которые скорее всего не хотять вникать в p-value, std, AIC и др. На данный момент думаю включить True Positive и True Negative Rate, accuracy плюс ROC диаграмма. Или может быть у кого нибудь есть хороший пример отчета?

Nick
27.05.2017
09:00:40
Показывайте картинки, чем понятнее/проще, тем лучше

Farruh
27.05.2017
09:01:22
Какие картинки?

Nick
27.05.2017
09:02:17
Графическое представление данных. Посмотрите на Kaggle visualization examples, там очень все доходчиво.

Andrew
27.05.2017
09:23:48
а в бабло результат логрегрессии не конвертируется?

Andrew
27.05.2017
09:32:55
в прямом. например, удержали k клиентов, сэкономили n денег, т.к., удерживать старых старых дешевле, чем привлекать новых. в таком духе.

Andrew
27.05.2017
09:41:47
не за что

Google
yopp
27.05.2017
16:04:24
Покажи как решается боль боссов твоей регрессией.

Илья
28.05.2017
12:41:30
Ivan
29.05.2017
01:12:09
подскажите пожалуйста, что из фреймворков (tensorflow, mxnet & etc) лучше использовать на VPS (CPU 4 core, 16GB RAM) без GPU?

Andrey
29.05.2017
07:33:49
Tinydnn

А вообще пробуйте разные на своих задачах

Dmitry
29.05.2017
12:10:06
Мужики, работу принес #вакансия #работа #c++ https://hh.ru/vacancy/20680377

Yan?
29.05.2017
13:32:37
Добрый день, в этом чате вопрос по спарку можно задать?



В общем, пытаюсь поднять этот проект https://github.com/jadianes/spark-movie-lens, при запуске server.py начинаются проблемы с rdd

Andrew
29.05.2017
13:36:18
а сам exсeption где?

Yan?
29.05.2017
13:36:47
а сам exсeption где?
так как я понял он дальше не идет

или я погорячился что спустя 10 минут закончил процесс сам?

все никак не могу привыкнуть к тому что большие объемы данных долго считаются

Andrew
29.05.2017
13:38:00
на /tmp места хватает?

Yan?
29.05.2017
13:41:46
на /tmp места хватает?
42 метра говорит весит

Andrew
29.05.2017
13:45:43
кто весит?

Yan?
29.05.2017
13:46:47
кто весит?
я видимо неправильно понял твое предыдущее предложение и полез смотреть размер tmp

Andrew
29.05.2017
13:47:03
сколько свободно на /tmp?

Google
Yan?
29.05.2017
13:49:02


Andrew
29.05.2017
13:50:19
попробуйте таки дождаться стэктрейса исключения

Timur
29.05.2017
16:51:40
Кто-нить в этом году сдавал CCA 175?

Yan?
30.05.2017
06:43:36
UPD. В общем, пытаюсь поднять проект https://github.com/jadianes/spark-movie-lens в которо юзается спарк В проекте есть файл start_server.sh, поправил его ~/spark-2.1.1-bin-hadoop2.7/bin/spark-submit --master local[*] --total-executor-cores 14 --executor-memory 6g server.py , добавив local. Вроде бы сначала все нормально, консоль показывает что процесс идет, но пото сваливается



Yan?
30.05.2017
06:46:02
Так сваливается outofmemory
Это понятно, но как это чинится

The Dude
30.05.2017
06:46:17
Yan?
30.05.2017
06:46:32
Убери лимит.
executor-memory 6g это что ли?

ну ок, дописал я ~/spark-2.1.1-bin-hadoop2.7/bin/spark-submit --master local[*] --total-executor-cores 14 --executor-memory 6g --conf spark.memory.offHeap.enabled=true --conf spark.memory.offHeap.size=1111111111111111110 server.py

один хрен падает

Rustam
30.05.2017
07:46:32
Здравствуйте, пытаюсь натренировать классификатор GoogLeNet в Caffe для определения типов одежды на фотографиях. Фото для train db есть(десятки тысяч на каждый из типов), но не всегда фотография соотнесена с типом правильно, т.е. фотография футболки случайно оказалась в папке с платьями. Процент таких фото относительно мал(оценка на глаз), но меня беспокоит мысль, что это может стать чем-то вроде ложки дегтя в бочке с медом. Первая попытка обучить сеть на подгруппе фотографий с присутствующими лишними фото дала удовлетворительный результат, но хотелось бы улучшить. Итак, вопрос №1: Какой процент "неправильных" фото может дать ощутимые последствия и допустим ли "мусор" вообще? И еще похожий вопрос: На фотографиях обычно могут присутствовать вещи сразу нескольких типов. Скажем, мужчина в полный рост в куртке, джинсах и ботинках. Если я оставлю это фото в группе "куртки", это же тоже может оказать эффект "мусора"?

Andrey
30.05.2017
07:52:47
Такой мусор ограничивает только максимальную правильность (accuracy) модели

/dev
30.05.2017
09:31:52
Это понятно, но как это чинится
Чинится это кредитами на оперативку

Askar
30.05.2017
13:17:00
Кто-нить в этом году сдавал CCA 175?
Мне интересно вообще у кого то есть такие сертификаты здесь?

Andrey
30.05.2017
13:24:57
Овердофига с курсеры и datacamp:)

Askar
30.05.2017
14:25:20
Овердофига с курсеры и datacamp:)
Cloudera уровень не другой ?

Andrey
30.05.2017
14:34:39
Не смог распарсить вопрос

Леонид
30.05.2017
16:01:48
Здравствуйте, пытаюсь натренировать классификатор GoogLeNet в Caffe для определения типов одежды на фотографиях. Фото для train db есть(десятки тысяч на каждый из типов), но не всегда фотография соотнесена с типом правильно, т.е. фотография футболки случайно оказалась в папке с платьями. Процент таких фото относительно мал(оценка на глаз), но меня беспокоит мысль, что это может стать чем-то вроде ложки дегтя в бочке с медом. Первая попытка обучить сеть на подгруппе фотографий с присутствующими лишними фото дала удовлетворительный результат, но хотелось бы улучшить. Итак, вопрос №1: Какой процент "неправильных" фото может дать ощутимые последствия и допустим ли "мусор" вообще? И еще похожий вопрос: На фотографиях обычно могут присутствовать вещи сразу нескольких типов. Скажем, мужчина в полный рост в куртке, джинсах и ботинках. Если я оставлю это фото в группе "куртки", это же тоже может оказать эффект "мусора"?
Мусор допустим. Но можно натренировать сеть на поиск выбросов, найти ею их в базе и вручную просмотреть сотню фоток, которые она выберет.

Rustam
30.05.2017
16:03:46
:D спасибо

Google
Daniil
30.05.2017
17:45:54
Всем привет! Поделитесь, пожалуйста, опытом на счёт того, кто как учился анализу данных. Интересует вопрос о том, как быть с какими-либо записями, конспектами. До какого-то момента я все это дело активно вел, но потом понял, что все это бесполезно в свете того, какое есть количество алгоритмов. Кто как обходил (или не обходил) данный момент? Дата саентист, в конце концов, не приходит на работу со стопкой тетрадок..

Андрей
30.05.2017
17:56:07
Всем привет, кто знает что такое ER диаграмма?

Andrew
30.05.2017
18:06:14
Всем привет, кто знает что такое ER диаграмма?
Entity Relation Diagram — визуализациях сущностей и присущим для них атрибутов

Ловите подборку из 101 учебного материала по data science http://code-love.com/2017/05/27/learn-data-science/ На самом деле, полезных штук там немного меньше (не совсем понятно, зачем авторы добавили туда ссылки на википедию и капитанские статьи про "sexiest job"). Но подборка курсов с Сoursera, Springboard и Udacity и интерактивные туториалы на DataCamp – просто кайф, идеально для старта ?

Страница 82 из 327