
Evgeniya
26.05.2017
14:25:31
#вакансия#москва#devops
Коллеги, привет!
Отличная вакансия для тех, кто хочет поддерживать и развивать свои навыки devops инженера, но мечтает окунуться в Big Data.
Требуется отличный опыт работы с *nix системами, виртуализацией и приветствуется опыт в разработке архитектурных решений.
Самостоятельность — ОБЯЗАТЕЛЬНО.
Опыт в BigData не обязателен, главное - желание разобраться.
Если интересно, пишите на e.kikoina@youdo.ru

Леонид
26.05.2017
17:23:33

Ayrana
26.05.2017
17:24:52

Леонид
26.05.2017
17:26:45
Изучать математику, решая проблемы Гилберта - разве хорошая идея? Сначала учится математика (в данном случае алгоритм) на простых примерах, а потом применяется к нужной проблеме.

Google

Ayrana
26.05.2017
17:27:08

Леонид
26.05.2017
17:30:05
Отлично. Тогда мой вопрос выше остаётся в силе ). Можно изучать алгоритм на простых задачах

Dan
26.05.2017
18:08:42

redbeard
26.05.2017
18:16:22
да, без вилки, вакансия, как оказалось, есть на известном сайте

Farruh
27.05.2017
08:22:31
Подскажите пожалуйста, как преподнеси результаты логистической регрессии боссам?
Которые скорее всего не хотять вникать в p-value, std, AIC и др.
На данный момент думаю включить True Positive и True Negative Rate, accuracy плюс ROC диаграмма.
Или может быть у кого нибудь есть хороший пример отчета?

Nick
27.05.2017
09:00:40
Показывайте картинки, чем понятнее/проще, тем лучше

Farruh
27.05.2017
09:01:22
Какие картинки?

Nick
27.05.2017
09:02:17
Графическое представление данных. Посмотрите на Kaggle visualization examples, там очень все доходчиво.

Andrew
27.05.2017
09:23:48
а в бабло результат логрегрессии не конвертируется?

Farruh
27.05.2017
09:31:25

Andrew
27.05.2017
09:32:55
в прямом. например, удержали k клиентов, сэкономили n денег, т.к., удерживать старых старых дешевле, чем привлекать новых. в таком духе.

Farruh
27.05.2017
09:41:36

Andrew
27.05.2017
09:41:47
не за что

Google

Boris
27.05.2017
15:12:20

yopp
27.05.2017
16:04:24
Покажи как решается боль боссов твоей регрессией.

Илья
28.05.2017
12:41:30

Ivan
29.05.2017
01:12:09
подскажите пожалуйста, что из фреймворков (tensorflow, mxnet & etc) лучше использовать на VPS (CPU 4 core, 16GB RAM) без GPU?

Andrey
29.05.2017
07:33:49
Tinydnn
А вообще пробуйте разные на своих задачах

Dmitry
29.05.2017
12:10:06
Мужики, работу принес #вакансия #работа #c++ https://hh.ru/vacancy/20680377

Yan?
29.05.2017
13:32:37
Добрый день, в этом чате вопрос по спарку можно задать?
В общем, пытаюсь поднять этот проект https://github.com/jadianes/spark-movie-lens, при запуске server.py начинаются проблемы с rdd

Andrew
29.05.2017
13:36:18
а сам exсeption где?

Yan?
29.05.2017
13:36:47
или я погорячился что спустя 10 минут закончил процесс сам?
все никак не могу привыкнуть к тому что большие объемы данных долго считаются

Andrew
29.05.2017
13:38:00
на /tmp места хватает?

Yan?
29.05.2017
13:41:46

Andrew
29.05.2017
13:45:43
кто весит?

Yan?
29.05.2017
13:46:47
кто весит?
я видимо неправильно понял твое предыдущее предложение и полез смотреть размер tmp

Andrew
29.05.2017
13:47:03
сколько свободно на /tmp?

Google

Yan?
29.05.2017
13:49:02

Andrew
29.05.2017
13:50:19
попробуйте таки дождаться стэктрейса исключения

Timur
29.05.2017
16:51:40
Кто-нить в этом году сдавал CCA 175?

Yan?
30.05.2017
06:43:36
UPD. В общем, пытаюсь поднять проект https://github.com/jadianes/spark-movie-lens в которо юзается спарк
В проекте есть файл start_server.sh, поправил его
~/spark-2.1.1-bin-hadoop2.7/bin/spark-submit --master local[*] --total-executor-cores 14 --executor-memory 6g server.py
, добавив local. Вроде бы сначала все нормально, консоль показывает что процесс идет, но пото сваливается

The Dude
30.05.2017
06:45:40

Yan?
30.05.2017
06:46:02

The Dude
30.05.2017
06:46:17

Yan?
30.05.2017
06:46:32
ну ок, дописал я
~/spark-2.1.1-bin-hadoop2.7/bin/spark-submit --master local[*] --total-executor-cores 14 --executor-memory 6g --conf spark.memory.offHeap.enabled=true --conf spark.memory.offHeap.size=1111111111111111110 server.py
один хрен падает


Rustam
30.05.2017
07:46:32
Здравствуйте, пытаюсь натренировать классификатор GoogLeNet в Caffe для определения типов одежды на фотографиях. Фото для train db есть(десятки тысяч на каждый из типов), но не всегда фотография соотнесена с типом правильно, т.е. фотография футболки случайно оказалась в папке с платьями. Процент таких фото относительно мал(оценка на глаз), но меня беспокоит мысль, что это может стать чем-то вроде ложки дегтя в бочке с медом. Первая попытка обучить сеть на подгруппе фотографий с присутствующими лишними фото дала удовлетворительный результат, но хотелось бы улучшить.
Итак, вопрос №1:
Какой процент "неправильных" фото может дать ощутимые последствия и допустим ли "мусор" вообще?
И еще похожий вопрос:
На фотографиях обычно могут присутствовать вещи сразу нескольких типов. Скажем, мужчина в полный рост в куртке, джинсах и ботинках. Если я оставлю это фото в группе "куртки", это же тоже может оказать эффект "мусора"?


Andrey
30.05.2017
07:52:47
Такой мусор ограничивает только максимальную правильность (accuracy) модели

/dev
30.05.2017
09:31:52

Askar
30.05.2017
13:17:00

Andrey
30.05.2017
13:24:57
Овердофига с курсеры и datacamp:)

Askar
30.05.2017
14:25:20

Andrey
30.05.2017
14:34:39
Не смог распарсить вопрос


Леонид
30.05.2017
16:01:48
Здравствуйте, пытаюсь натренировать классификатор GoogLeNet в Caffe для определения типов одежды на фотографиях. Фото для train db есть(десятки тысяч на каждый из типов), но не всегда фотография соотнесена с типом правильно, т.е. фотография футболки случайно оказалась в папке с платьями. Процент таких фото относительно мал(оценка на глаз), но меня беспокоит мысль, что это может стать чем-то вроде ложки дегтя в бочке с медом. Первая попытка обучить сеть на подгруппе фотографий с присутствующими лишними фото дала удовлетворительный результат, но хотелось бы улучшить.
Итак, вопрос №1:
Какой процент "неправильных" фото может дать ощутимые последствия и допустим ли "мусор" вообще?
И еще похожий вопрос:
На фотографиях обычно могут присутствовать вещи сразу нескольких типов. Скажем, мужчина в полный рост в куртке, джинсах и ботинках. Если я оставлю это фото в группе "куртки", это же тоже может оказать эффект "мусора"?
Мусор допустим. Но можно натренировать сеть на поиск выбросов, найти ею их в базе и вручную просмотреть сотню фоток, которые она выберет.


Rustam
30.05.2017
16:03:46
:D спасибо

Google

Daniil
30.05.2017
17:45:54
Всем привет! Поделитесь, пожалуйста, опытом на счёт того, кто как учился анализу данных. Интересует вопрос о том, как быть с какими-либо записями, конспектами. До какого-то момента я все это дело активно вел, но потом понял, что все это бесполезно в свете того, какое есть количество алгоритмов. Кто как обходил (или не обходил) данный момент? Дата саентист, в конце концов, не приходит на работу со стопкой тетрадок..

Андрей
30.05.2017
17:56:07
Всем привет, кто знает что такое ER диаграмма?

Andrew
30.05.2017
18:06:14
Ловите подборку из 101 учебного материала по data science
http://code-love.com/2017/05/27/learn-data-science/
На самом деле, полезных штук там немного меньше (не совсем понятно, зачем авторы добавили туда ссылки на википедию и капитанские статьи про "sexiest job"). Но подборка курсов с Сoursera, Springboard и Udacity и интерактивные туториалы на DataCamp – просто кайф, идеально для старта ?