
Vova
24.09.2018
10:48:50
FYI: Поковырялся я в текущем сбербанковском контесте (конкурсе) и пришёл к выводу, что формулировали конкурс люди, скажем так мягко, не очень заточенные на поиск практических (качественных) решений. То есть сам контест это игра в сферические кони в ваккуме (не смотря на реальные датасеты). В принципе я воспринимаю концепцию AutoML как утопию для выборок малого (точно) и среднего размера. А в данных датасетах такие и были (я пару датасетов разобрал крайне детально). По моему люди составляющие конкурс в сбере это не понимают или по каким то причинам им пох на практическую сторону вопроса (малую осмысленность AutoML для малых выборок, и вероятно, для средних, а также time series). Сначала было интересно. Но абстрактные задачи мне не интересны. Делюсь мнением.

Dan
24.09.2018
10:51:04


Vova
24.09.2018
10:55:15
Угу
Развёрнуто. Может кому интересно. Люди "говорят" в сбере - мы вашему алго дадим разные приватные датасеты (о которых в сущности известно очень мало, то есть даже непонятно зачем они выкатили публичные датасеты - можно было всё словами описать в одном абзаце), а ваши алго должны сами всё сделать (понять что за задача - регрессия или нет, подобрать модель, обучиться и тп). AutoML. По сути это означает, что сбербанковцы предлагают абстрагироваться от всего предметного априорного опыта (а нах тогда вообще люди?). Но всё же масштаб априорного человеческого опыта (особенно в проф областях где человек в теме) - огромен. И на этом этапе развития 'AI' его игнор - просто глупость. Важная тонкость в том что для больших датасетов AutoML может иметь смысл - прежде всего потому, что много метаинформации можно извлечь при обилии входных данных, то есть маржинальная (добавочная) эффективность человеческого знания (априорной информации) может быть не так высока. "Нормуль". Но для малых выборок или для средних (а у сбера ощутимая часть публичных датасетов на это намекает), а также для временных рядов экономической и социальной природы (где каждый момент времени выборка идёт отнюдь не из той же самой генеральной совокупности, скажем так грубо) этот подход весьма далёк от практики. Нужны предметные априорные знания. Они компенсируют, грубо говоря, небольшой размер датасетов. Идёт игра в BlackBox. "Люди нам вообще не нужны - просто нужен один большой хороший самообучающий алгоритм". Такой знакомый дискурс...

Google

Artyom
24.09.2018
11:23:12
ну почему же Driveless AI же очень даже неплох
а тестили его на похожих датасетах как сберовский

tonko
24.09.2018
11:23:41
Ну банкам в целом не свойственно заботится о людях, поэтому их желание автоматизировать МЛ задачи понятно. Возможно в будущем это будет актуально, ведь объем открытых данных будет расти.

Artyom
24.09.2018
11:23:49
тот же AutoML


Vova
24.09.2018
11:30:38
Тут ключевое - маржинальная эффективность
То есть за 100руб. вы берёте и получаете R2=0.5
Вам нужен R2=0.7 ?
Если скачок R2 0.5->0.7 даёт вам 1 миллиард долларов профита, то потратить миллион долларов на то что бы разобраться в предметной области (нанять специалистов) - имеет смысл.
Ну банкам в целом не свойственно заботится о людях, поэтому их желание автоматизировать МЛ задачи понятно. Возможно в будущем это будет актуально, ведь объем открытых данных будет расти.
У меня в обзоре была задача прогнозирования цен на один ресурс. Увеличение качества прогноза с "R2~0.3 до R2~0.4..0.5" буквально могло дать миллиарды долларов. Люди сначала думали, что нужно взять более софистикейтед ML алго и тп. Но потом тупо вложились в аренду времени работы спутников (которые фото делают) и нескольких "таджиков", которые фиксировали темпы отгрузки,движения и заполненности сухогрузов. Потратили они на это миллионы долларов. А данные потом можно было запихивать в простую линейную регрессию... И выхлоп уже был. На самом деле не в простую конечно - была ценовая модель... Но разговор не об этом - а о том, что реальные данные стоят денег и маржинальная эффективность в знание предметной области может быть очень высока (с учётом рассуждений о размере выборки и принадлежности к классу временных рядов).


Artyom
24.09.2018
11:51:25
я согласен с Vox но Франкенштейн-подход наступает, поэтому надо смотреть в разных направлениях


49060
24.09.2018
14:37:34
Есть неплохие automl конструкции, но надо как минимум задавать классификатор или регрессор. Сберовскую задачу не смотрел. Но генетический поиск в принципе даёт плоды. Посмотрите либу TPOT, годная штука. Правда я ей пользовался для задачи бинарной классификации.
Развёрнуто. Может кому интересно. Люди "говорят" в сбере - мы вашему алго дадим разные приватные датасеты (о которых в сущности известно очень мало, то есть даже непонятно зачем они выкатили публичные датасеты - можно было всё словами описать в одном абзаце), а ваши алго должны сами всё сделать (понять что за задача - регрессия или нет, подобрать модель, обучиться и тп). AutoML. По сути это означает, что сбербанковцы предлагают абстрагироваться от всего предметного априорного опыта (а нах тогда вообще люди?). Но всё же масштаб априорного человеческого опыта (особенно в проф областях где человек в теме) - огромен. И на этом этапе развития 'AI' его игнор - просто глупость. Важная тонкость в том что для больших датасетов AutoML может иметь смысл - прежде всего потому, что много метаинформации можно извлечь при обилии входных данных, то есть маржинальная (добавочная) эффективность человеческого знания (априорной информации) может быть не так высока. "Нормуль". Но для малых выборок или для средних (а у сбера ощутимая часть публичных датасетов на это намекает), а также для временных рядов экономической и социальной природы (где каждый момент времени выборка идёт отнюдь не из той же самой генеральной совокупности, скажем так грубо) этот подход весьма далёк от практики. Нужны предметные априорные знания. Они компенсируют, грубо говоря, небольшой размер датасетов. Идёт игра в BlackBox. "Люди нам вообще не нужны - просто нужен один большой хороший самообучающий алгоритм". Такой знакомый дискурс...
Из ваших слов они хотят, чтобы без сравнения тех или иных пайплайнов модель сама отобрала признаки, заполнила пропуски, снизила или не снижала размерность, определила какого типа столбец (что в случае целочисленности невозможно), бред какой то.

Google

49060
24.09.2018
14:40:23
А потом ещё с выдала лучшие параметры...
Просто сбер своей задачей убил сотню отдельно взятых направлений?


Vova
24.09.2018
15:04:10
Угу
Первый же взятый примерный датасет, который я посмотрел, имел 39 признаков (из них половину бинарные) и 350 отсчётов (дней), это временной ряд. Причём r2 лучшего признака был около 0.2. Люди не понимают, что такая задачка для временных рядов просто не даёт даже удовлетворительного решения (r2=0.5 на oos) без априорной информации, какой там automl..
Там никаких гиперпараметров не настроить, а регрессия в лоб цепляет spurious correlation, от случайного тренда
Что бы эту задачку решить нужно понимать устройство ликвидности корсчета сбера и специфику поступления туда платежей
Ну там много что можно сказать...
В качестве фичей ребята 'забыли' положить такие важные переменные как курс рубль доллар, а нормализация фичей с процентными ставками на разных сроках, не позволяет посчитать процентные спреды на кривой-важный регрессор.
А метаалгоритм должен 'догадаться' взять от курса прирост где то с лагом 3-7 бизнес дней.


Alexander
25.09.2018
06:04:53
Насчет сбера, все ж: регрессия или класс это дается на вход, это НЕ надо понимать самому.
Датасеты примерно понятны как даны:
Малая выборка, большая, классы сбалансированы, классы, не сбалансированы и тд...
То есть они дали примеры с достаточно разными свойствами и хотят чтобы код на них работал...


dvv
26.09.2018
04:19:40
Так начинали бы с себя в сбере, уволили бы всех своих датааналитиков, оставили бы одного Грефа с большой красной кнопкой, жмёшь которую и получаешь ответ, кто на свете всех умнее, красивее и мудрее

Oleg
26.09.2018
11:22:11
привет всем, как разобрать данные ирисов в многослойном пересептроне. Есть 4 признака и 3 класса. Сколько будет скрытых слоев в пересептроне ?

Evgeniy
26.09.2018
11:22:33

Oleg
26.09.2018
11:34:24
если у меня 3 класса, значит в выходном слое будет 3 нейрона, так ведь ?

Evgeniy
26.09.2018
11:34:43

Aleksandr
26.09.2018
13:17:14
Нужен совет по версионности в HBase. Есть таблица с версионностью, в нее постоянно льются данных. Нужно делать вставку только если вставляемое значение отличается от щначения последней версии в таблице. Как лучше реализовать? Сейчас новые данные пишу во временную таблицу, а затем сливаю при помощи MapReduce. Рассматривал вариант вставки методом checkAndMutate, но производительность просела на порядки в сравнении с put.

Google

Vyaches
26.09.2018
16:40:09
Народ, ктонибудь знает как в Юпитере в консоль передать параметр из блокнота.
Что-то вроде:
My_module = pandas
!pip3 install My_module

Anton
26.09.2018
16:48:13
За юпитер не скажу, но силами питона можно через eval. https://docs.python.org/3/library/functions.html#eval

alex
26.09.2018
17:51:07
My_module = 'pandas'
!pip install {My_module}

Sergey
26.09.2018
17:53:21

David
26.09.2018
18:38:21
всем привет, я могу попросить помощи с задачей по теории вероятности в этом чатике?

Dan
26.09.2018
18:44:12
Если да, почему бы и не спросить помощи

David
26.09.2018
18:45:15
в какой-то степени вполне может быть релевантна)
один чувак выбрал 5 чисел из 100, второй 20 чисел из 100, какая вероятность, что все 5 чисел первого чувака есть у второго

Проксимов
26.09.2018
18:48:04
>BIG DATA


Dan
26.09.2018
18:48:16
#datascience #deeplearning
У меня для вас есть хорошие новости! Университет интернет-профессий "Нетология" объявляет о запуске нового курса профессии — "DATA SCIENTIST". Срок обучения с 16 октября по 21 июля 2018 года.
На этом курсе вы научитесь строить и обучать предиктивные модели с помощью алгоритмов машинного обучения и нейросетей.
За 7 месяцев обучения вы пройдёте:
- 40 домашних заданий с обратной связью от экспертов
- 100+ часов практики
- 200+ часов совместной работы с экспертами отрасли
- 5 готовых проектов в вашем портфолио
- 1 хакатон с построением моделей на реальных кейсах и датасетах
Вас будут обучать практикующие датасайентисты и преподаватели из ivi.ru, Яндекс, Сбербанк-Технологии, НИУ ВШЭ, 1С-Битрикс и не только! Благодаря действительно глубокому погружению в Data Science вы значительно расширите запас теоретических знаний и практических навыков, и как следствие — многократно повысите свою ценность и зарплату.
Полная программа и вся подробная информация здесь: http://netolo.gy/eCi
Торопитесь, запись уже идёт!


49060
27.09.2018
09:12:51
180к

Vova
27.09.2018
12:52:03
Кстати, насчёт Pandas. Ну просто кто не в курсе fyi. Я с этим сталкиваюсь регулярно:
Часто не хочется уходить в глубокую бигдату с серверами и тп
Берёш" большой" один сервер с 64 Гб, запихиваешь туда данные и работаешь
СПерва кажется, что если данных 64Гб то и сервер нужно брать ненамного выше
Но это ошибка
Коэфициент - до 10 раз. Минимум 2, а в среднем 4-5
То есть если у вас данных на 10 гб, то сервак нужен на 40
И вот на днях я в очередной раз "Попался"

Google

Vova
27.09.2018
12:55:24
Данных на 25 Гб, сервер на 32. Задачка простая в том смысле, что я надеялся что 32-25=7 гб (грубо говоря, без обсуждения ОС) хватит для очень несущественной в масштабе размера датасета задаче
Спарк и прочее - поленился, думал одной машины хватит
Но что из себя представляли данные. Ну грубо говоря 25 датафреймов, каждый с 2-3 столбцами, и миллионами rows
И решил я их pd.concat, что бы в большом одном датафрейме поработать
А не тут то было

Sewerin
27.09.2018
12:56:59
Как-то раз я смог повесить сервер, рассчитывая логическую регрессию на 114 переменных и 30К объектов на трейне. А на сервере было 30 оперативки и 50 SSD с подкачкой.