@bigdata_ru

« Назад

Страница 212 из 327

Далее »

Dmitry

09.01.2018
18:37:22

самое дешевое - это спотовые инстансы, которые стоили от 10 до 30 центов в час

Stanislav

09.01.2018
18:37:22

на aws вроде разные типы есть?

Dmitry

09.01.2018
18:39:13

соответственно если планируешь вложить больше чем 175 долларов, g2 становится невыгодным. А 175 долларов это 21 день по цене 30 центов в час

на aws вроде разные типы есть?

ну вон на картинке еще P2 есть, он чуть побыстрее, но не думаю, что спотовая цена на него ниже

Google

Stanislav

09.01.2018
18:40:38

вот эти как?

это рекомендация от вендора библиотеке, которую юзаю

Dmitry

09.01.2018
18:43:05

так что если мало денег я бы купил 1060 или что там по перфомансу на рубль выгоднее всего (с этими майнерами не поймешь), ну а так 1080TI просто сказка, то, что считается на амазоне ночь ты считаешь за час, в итоге прогресс идет намного быстрее

Stanislav

09.01.2018
18:43:35

согласен, что тут время важнее

Dmitry

09.01.2018
18:44:13

вот эти как?

с GPU по-моему только G2 и P2, их перформанс на моей картинке есть. P2 работает на уровне 1050TI

Stanislav

09.01.2018
18:45:30

у коллеги есть 2 шт. 1080. Видимо придется проставляться....

Dmitry

09.01.2018
18:46:25

я вторую сейчас хочу покупать

https://www.avito.ru/syzran/tovary_dlya_kompyutera/1050ti_inno3d_4_gb_garantiya_vga_vyhod_1154640132 ну вот например, отличная штука для начала, окупится по сравнению с амазоном за месяц

That's

09.01.2018
18:59:24

Ребят, подскажите, пожалуйста как правильно составлять датасет для тренировки классификатора? Конкретно, как правильнее тегировать изображение, например, дракона: [дракон] или [дракон, мистическое существо, крылья, летает и тд] ?

Serhii

09.01.2018
18:59:55

ну, еще такой момент - шум во вторых - у меня реально на третьи сутки от воя системника начинался уже нервный тик и приходилось выключать обучение чтоб тупо отдохнуть и поспать (а вот эти вот ваши диплернинги прогревают карту на отличненько, и приходилось держать обороты кулера на 80% чтоб по температуре оставаться в пределах нормы)

*расходы на э/э во первых докидывайте к стоимости карты

Dmitry

09.01.2018
19:02:49

у меня на балконе системник

Google

Serhii

09.01.2018
19:03:27

радикальный подход к охлаждению

Dmitry

09.01.2018
19:04:55

да не, но вот шум не мешает

Pipito

09.01.2018
19:06:43

да не, но вот шум не мешает

++ также делал

да не, но вот шум не мешает

зимой можно крышку открыть и снегом облепить внутри

/dev

09.01.2018
20:56:24

А если у меня в loss function вызов vgg например, это фреймворк продифференцирует эту самую Vgg по всем ее переменным, или не продифференцирует вообще? ?

есть такое понятие как автоматическое дифференцирование, если фреймфорк это умеет и vgg представлена в виде соответствующей функции, то да

ну, еще такой момент - шум во вторых - у меня реально на третьи сутки от воя системника начинался уже нервный тик и приходилось выключать обучение чтоб тупо отдохнуть и поспать (а вот эти вот ваши диплернинги прогревают карту на отличненько, и приходилось держать обороты кулера на 80% чтоб по температуре оставаться в пределах нормы)

gigabyte gtx10xx[ti] xtreme gaming не слышно, к примеру

Ребят, подскажите, пожалуйста как правильно составлять датасет для тренировки классификатора? Конкретно, как правильнее тегировать изображение, например, дракона: [дракон] или [дракон, мистическое существо, крылья, летает и тд] ?

Правильно так, как позволяет на то бюджет.

That's

09.01.2018
21:26:58

Непонял? А причем тут бюджет?

Точнее, кажется, понимаю причем, но всё таки можно подробнее?

Evgeniy

09.01.2018
21:29:56

Точнее, кажется, понимаю причем, но всё таки можно подробнее?

чем подробнее тем лучше и дороже

That's

09.01.2018
21:32:00

так, понял, спасибо! А не в курсе, можно ли кому то зааутсорсить такую задачу?

Evgeniy

09.01.2018
21:34:12

так, понял, спасибо! А не в курсе, можно ли кому то зааутсорсить такую задачу?

толока и амазоновский сервис с которого ее списали

That's

09.01.2018
21:34:32

турк

Evgeniy

09.01.2018
21:34:33

либо размечать, обучать модель и поправлять

That's

09.01.2018
21:37:30

ага, понял, спасибо!

/dev

09.01.2018
21:52:57

так, понял, спасибо! А не в курсе, можно ли кому то зааутсорсить такую задачу?

Разные компании любят повесить вакансии дата-сатанистов, а на деле, человек сидит и размечает, думая, что он джун и так положено. Такая кабала.

Можно парсить сторонние источники данных, если они есть. Это дешевле и чаще встречается. А вообще, организация сбора данных — часть работы дата-сатаниста

Evgeniy

09.01.2018
21:55:03

Разные компании любят повесить вакансии дата-сатанистов, а на деле, человек сидит и размечает, думая, что он джун и так положено. Такая кабала.

неужели дешевле той же толоки

/dev

09.01.2018
21:56:01

неужели дешевле той же толоки

1) nda, на толоку не все хотят всё выставлять 2) мотивация толокера априори меньше ждуна-разметчика

3) Ну и с ждуна спросить можно, оплеух отвесить

Google

Serhii

09.01.2018
23:22:54

есть такое понятие как автоматическое дифференцирование, если фреймфорк это умеет и vgg представлена в виде соответствующей функции, то да

ну, вообщем то если сделать вопрос более глобальным, - вопрос был в следующем - может ли тф (или пайторч с его автоградом) дифференцировать штуку вроде - Mean( Abs (VGGModel.predict(y_true) - VGGModel.predict(y_pred) ) ).

gigabyte gtx10xx[ti] xtreme gaming не слышно, к примеру

Zotac GTX1060 Mini - воет под нагрузной. Ну 1060 все таки погорячее чем 1050ти. Хотя наверное 1060 с топовым охладом (вроде того же хтрем гейминг) тише чем мой зотак.

Evgeniy

09.01.2018
23:29:03

ну, вообщем то если сделать вопрос более глобальным, - вопрос был в следующем - может ли тф (или пайторч с его автоградом) дифференцировать штуку вроде - Mean( Abs (VGGModel.predict(y_true) - VGGModel.predict(y_pred) ) ).

естественно

ну, вообщем то если сделать вопрос более глобальным, - вопрос был в следующем - может ли тф (или пайторч с его автоградом) дифференцировать штуку вроде - Mean( Abs (VGGModel.predict(y_true) - VGGModel.predict(y_pred) ) ).

но тебе надо просто почитать про gan

а потом почитать их код

Serhii

09.01.2018
23:29:42

ну, я сейчас как раз пилю ган))0

(так себе получается правда)

Evgeniy

09.01.2018
23:30:12

(так себе получается правда)

ну в пайторч/экзамплс есть ган

Serhii

09.01.2018
23:30:47

ну, я пытаюсь свой ган для суперрезолюшейна запилить (вдохновившить SRGAN)

Evgeniy

09.01.2018
23:33:48

ну, я пытаюсь свой ган для суперрезолюшейна запилить (вдохновившить SRGAN)

ну если понимание на уровне "можно ли продифференциироавать loss gan'а", стоит почитать чужой код для начала

Serhii

09.01.2018
23:33:49

ну вообщем, и вопрос и про ган тоже - зачем вообще городить вот эти вот combined models Типа G > D и потом обратно G < D, если можно было бы просто вызывать дискриминатор в своем loss function?

Evgeniy

09.01.2018
23:34:09

ну вообщем, и вопрос и про ган тоже - зачем вообще городить вот эти вот combined models Типа G > D и потом обратно G < D, если можно было бы просто вызывать дискриминатор в своем loss function?

ну дискриминатор обучать надо

Serhii

09.01.2018
23:34:37

ну так мы же его замораживаем когда делаем G > D проход

как раз чтобы он не обучался когда учится генератор

Evgeniy

09.01.2018
23:35:26

ну а в чем вопрос тогда

Serhii

09.01.2018
23:39:02

если мы можем дифференцировать вот такие штуки как на скришноте (когда мы не лепим VGG поверх сети как в ганах), то почему бы таким же образом не делать в ганах ?

Evgeniy

09.01.2018
23:39:39

так и делаем же? ?‍♂

Serhii

09.01.2018
23:39:41

вместо vgg вызывая дискриминатор

Evgeniy

09.01.2018
23:40:31

ну +- конкретная функция loss

Serhii

09.01.2018
23:41:22

(((9 во всех примерах на гите да и вообще во всех - везде именно создание модели содержащей и генератор и дискриминатор, и потом обучение в стиле "тренируем дискриминатор - замораживаем веса дискриминатора - тренируем всю модель d_on_g"

Google

Evgeniy

09.01.2018
23:42:01

я не понимаю в чем разница

Serhii

09.01.2018
23:43:18

Несколько дискриминаторов запилить таким образом проще, мне кажется

Чем собирать страшную модель G > D1 > D2...

Evgeniy

09.01.2018
23:44:34

если ты можешь сформулировать в два предложения в чем отличие двух подходов

Admin

ERROR: S client not available

Evgeniy

09.01.2018
23:44:46

то я наконец пойму о чем речь)

Serhii

09.01.2018
23:46:27

концептуально ни в чем - мы и так и так считаем лосс при помощи другой сети

просто пытаюсь понять почему я нигде не видел вот такого кода как на скриншоте)

Dog

10.01.2018
14:10:33

ребята, есть java big data специалист? на стеке hadoop, hbase, spark и т.д, хотел бы задать пару вопросов?

Evgeny

10.01.2018
14:25:21

Задавай. Из 2k человек кто-то точно ответит

Evgeniy

10.01.2018
14:35:36

Бесплатная екнига от орейли (ничего о ней не знаю, но вдруг кому то интересно) https://conferences.oreilly.com/artificial-intelligence/ai-ny/public/content/the-new-artificial-intelligence-market

Dog

10.01.2018
14:48:42

Есть ли какой-то известный стек для анализа биг дата в реальном времени? подходит ли вообще hadoop для этого? когда лучше не использовать hadoop? пытаюсь сделать что-то в связке hadoop, hbase, impala. Прка не понятно, оправданно ли это всё? Например есть абстрактный кейс, есть например 3миллиона пользователей соц сети, они каждый день продают друг другу товары, неограниченное количество раз, нужно по требованию брать и считать на какую сумму продал тот то, тот то за такой то месяц или группа лиц купила за такой то месяц

Henadz

10.01.2018
14:51:47

Есть ли какой-то известный стек для анализа биг дата в реальном времени? подходит ли вообще hadoop для этого? когда лучше не использовать hadoop? пытаюсь сделать что-то в связке hadoop, hbase, impala. Прка не понятно, оправданно ли это всё? Например есть абстрактный кейс, есть например 3миллиона пользователей соц сети, они каждый день продают друг другу товары, неограниченное количество раз, нужно по требованию брать и считать на какую сумму продал тот то, тот то за такой то месяц или группа лиц купила за такой то месяц

хадуп для батч обработки больше подходит

для реалтайма это вам очередь типа кафки надо заводить

и разгребать Спарк стримингом или Флинком

Dmitry

10.01.2018
14:53:19

Есть ли какой-то известный стек для анализа биг дата в реальном времени? подходит ли вообще hadoop для этого? когда лучше не использовать hadoop? пытаюсь сделать что-то в связке hadoop, hbase, impala. Прка не понятно, оправданно ли это всё? Например есть абстрактный кейс, есть например 3миллиона пользователей соц сети, они каждый день продают друг другу товары, неограниченное количество раз, нужно по требованию брать и считать на какую сумму продал тот то, тот то за такой то месяц или группа лиц купила за такой то месяц

все что влезает в оперативку не бигдата, что такое 3 млн. пользователей, там гигабайт данных хотя бы наберется?

Dog

10.01.2018
14:53:22

ну я принимаю пачки спарком, обрабатываю rdd и скидываю их в hdfs по средствам hbase

все что влезает в оперативку не бигдата, что такое 3 млн. пользователей, там гигабайт данных хотя бы наберется?

ну да, по сути по этому одному кейсу можно считать около биллиона транзакций в год

за 5 часов 500гб данных

Henadz

10.01.2018
14:54:56

ну я принимаю пачки спарком, обрабатываю rdd и скидываю их в hdfs по средствам hbase

ну это спарк стриминг

Google

Henadz

10.01.2018
14:55:12

если такой микробатч вас устраивает, то все норм

Dog

10.01.2018
14:55:29

ну это спарк стриминг

а как потом из hbase оперативнинько анализировать этот кейс и вообще нормально ли это так делать?

например в hbase есть счетчики для каждого пользователя, продал купил и я их обновляю

Henadz

10.01.2018
14:56:45

ну в принципе это обычные агрегаты получаются

хранить их по ключу юзера

вполне норм кейз для hbase

Dog

10.01.2018
14:57:53

но оно почему-то не очень и быстро их агрегирует, по одному пользователю да, по нескольким да - быстро, а если я хочу по всем 3кк взять аггрегацию, то всё - бай бай, минут 15 считает пол терабайта

как вообще анализ брать из hbase? какие есть практики? я пробовал через spark брать rdd из hbase, но там время уходит на поднятие спарк кластеров, это уже не риал тайм анализ

hbase сопроцессоры пробовал, чтоб он считал у себя на кластере и возвращал, дак он вообще уходит в вечное раздумье

Dmitry

10.01.2018
15:03:06

за 5 часов 500гб данных

то есть пользователь генерирует в среднем 1.5 мегабайта за 5 часов и выкинуть ничего нельзя?

Dog

10.01.2018
15:04:31

то есть пользователь генерирует в среднем 1.5 мегабайта за 5 часов и выкинуть ничего нельзя?

хотя наверно 500гигов за 5 часов, это новые данные, потом идёт аггрегация, наверно всего данных не должно быть более 1TB - 2TB

за год примерно 1-2TB наверно

Dmitry

10.01.2018
15:05:58

все равно как-то странно, если это торговля, получается какой-то высокочастотный трейдинг, мне просто интересно, где такое встречается

Alexey

10.01.2018
15:31:00

хотя наверно 500гигов за 5 часов, это новые данные, потом идёт аггрегация, наверно всего данных не должно быть более 1TB - 2TB

Тогда это снова не бигдата, купи побольше оперативки и скидывай по итогу на ssd. Чем проще будет решение тем лучше, я вот щас lmdbjava использую, чтобы хранить 20_000_000 ключей В оперативке используй что-нибудь типа SmoothieMap/ChronicleMap, затем сортирую ключи и в lmdbjava последовательно вставляю. Получается очень шустро, даже на ноутбуке.

Henadz

10.01.2018
15:36:16

но оно почему-то не очень и быстро их агрегирует, по одному пользователю да, по нескольким да - быстро, а если я хочу по всем 3кк взять аггрегацию, то всё - бай бай, минут 15 считает пол терабайта

Открыть в Telegram