@bigdata_ru

Страница 212 из 327
Dmitry
09.01.2018
18:37:22
самое дешевое - это спотовые инстансы, которые стоили от 10 до 30 центов в час

Stanislav
09.01.2018
18:37:22
на aws вроде разные типы есть?

Dmitry
09.01.2018
18:39:13
соответственно если планируешь вложить больше чем 175 долларов, g2 становится невыгодным. А 175 долларов это 21 день по цене 30 центов в час

на aws вроде разные типы есть?
ну вон на картинке еще P2 есть, он чуть побыстрее, но не думаю, что спотовая цена на него ниже

Google
Stanislav
09.01.2018
18:40:38
вот эти как?



это рекомендация от вендора библиотеке, которую юзаю

Dmitry
09.01.2018
18:43:05
так что если мало денег я бы купил 1060 или что там по перфомансу на рубль выгоднее всего (с этими майнерами не поймешь), ну а так 1080TI просто сказка, то, что считается на амазоне ночь ты считаешь за час, в итоге прогресс идет намного быстрее

Stanislav
09.01.2018
18:43:35
согласен, что тут время важнее

Dmitry
09.01.2018
18:44:13
вот эти как?
с GPU по-моему только G2 и P2, их перформанс на моей картинке есть. P2 работает на уровне 1050TI

Stanislav
09.01.2018
18:45:30
у коллеги есть 2 шт. 1080. Видимо придется проставляться....

Dmitry
09.01.2018
18:46:25
я вторую сейчас хочу покупать

https://www.avito.ru/syzran/tovary_dlya_kompyutera/1050ti_inno3d_4_gb_garantiya_vga_vyhod_1154640132 ну вот например, отличная штука для начала, окупится по сравнению с амазоном за месяц

That's
09.01.2018
18:59:24
Ребят, подскажите, пожалуйста как правильно составлять датасет для тренировки классификатора? Конкретно, как правильнее тегировать изображение, например, дракона: [дракон] или [дракон, мистическое существо, крылья, летает и тд] ?

Serhii
09.01.2018
18:59:55
ну, еще такой момент - шум во вторых - у меня реально на третьи сутки от воя системника начинался уже нервный тик и приходилось выключать обучение чтоб тупо отдохнуть и поспать (а вот эти вот ваши диплернинги прогревают карту на отличненько, и приходилось держать обороты кулера на 80% чтоб по температуре оставаться в пределах нормы)

*расходы на э/э во первых докидывайте к стоимости карты

Dmitry
09.01.2018
19:02:49
у меня на балконе системник

Google
Serhii
09.01.2018
19:03:27
радикальный подход к охлаждению

Dmitry
09.01.2018
19:04:55
да не, но вот шум не мешает

Pipito
09.01.2018
19:06:43
да не, но вот шум не мешает
зимой можно крышку открыть и снегом облепить внутри

/dev
09.01.2018
20:56:24
А если у меня в loss function вызов vgg например, это фреймворк продифференцирует эту самую Vgg по всем ее переменным, или не продифференцирует вообще? ?
есть такое понятие как автоматическое дифференцирование, если фреймфорк это умеет и vgg представлена в виде соответствующей функции, то да

That's
09.01.2018
21:26:58
Непонял? А причем тут бюджет?

Точнее, кажется, понимаю причем, но всё таки можно подробнее?

Evgeniy
09.01.2018
21:29:56
That's
09.01.2018
21:32:00
так, понял, спасибо! А не в курсе, можно ли кому то зааутсорсить такую задачу?

Evgeniy
09.01.2018
21:34:12
так, понял, спасибо! А не в курсе, можно ли кому то зааутсорсить такую задачу?
толока и амазоновский сервис с которого ее списали

That's
09.01.2018
21:34:32
турк

Evgeniy
09.01.2018
21:34:33
либо размечать, обучать модель и поправлять

That's
09.01.2018
21:37:30
ага, понял, спасибо!

/dev
09.01.2018
21:52:57
так, понял, спасибо! А не в курсе, можно ли кому то зааутсорсить такую задачу?
Разные компании любят повесить вакансии дата-сатанистов, а на деле, человек сидит и размечает, думая, что он джун и так положено. Такая кабала.

Можно парсить сторонние источники данных, если они есть. Это дешевле и чаще встречается. А вообще, организация сбора данных — часть работы дата-сатаниста

/dev
09.01.2018
21:56:01
неужели дешевле той же толоки
1) nda, на толоку не все хотят всё выставлять 2) мотивация толокера априори меньше ждуна-разметчика

3) Ну и с ждуна спросить можно, оплеух отвесить

Google
Serhii
09.01.2018
23:22:54
есть такое понятие как автоматическое дифференцирование, если фреймфорк это умеет и vgg представлена в виде соответствующей функции, то да
ну, вообщем то если сделать вопрос более глобальным, - вопрос был в следующем - может ли тф (или пайторч с его автоградом) дифференцировать штуку вроде - Mean( Abs (VGGModel.predict(y_true) - VGGModel.predict(y_pred) ) ).

gigabyte gtx10xx[ti] xtreme gaming не слышно, к примеру
Zotac GTX1060 Mini - воет под нагрузной. Ну 1060 все таки погорячее чем 1050ти. Хотя наверное 1060 с топовым охладом (вроде того же хтрем гейминг) тише чем мой зотак.

Serhii
09.01.2018
23:29:42
ну, я сейчас как раз пилю ган))0

(так себе получается правда)

Evgeniy
09.01.2018
23:30:12
(так себе получается правда)
ну в пайторч/экзамплс есть ган

Serhii
09.01.2018
23:30:47
ну, я пытаюсь свой ган для суперрезолюшейна запилить (вдохновившить SRGAN)

Evgeniy
09.01.2018
23:33:48
ну, я пытаюсь свой ган для суперрезолюшейна запилить (вдохновившить SRGAN)
ну если понимание на уровне "можно ли продифференциироавать loss gan'а", стоит почитать чужой код для начала

Serhii
09.01.2018
23:33:49
ну вообщем, и вопрос и про ган тоже - зачем вообще городить вот эти вот combined models Типа G > D и потом обратно G < D, если можно было бы просто вызывать дискриминатор в своем loss function?

Serhii
09.01.2018
23:34:37
ну так мы же его замораживаем когда делаем G > D проход

как раз чтобы он не обучался когда учится генератор

Evgeniy
09.01.2018
23:35:26
ну а в чем вопрос тогда

Serhii
09.01.2018
23:39:02
если мы можем дифференцировать вот такие штуки как на скришноте (когда мы не лепим VGG поверх сети как в ганах), то почему бы таким же образом не делать в ганах ?

Evgeniy
09.01.2018
23:39:39
так и делаем же? ?‍♂

Serhii
09.01.2018
23:39:41
вместо vgg вызывая дискриминатор

Evgeniy
09.01.2018
23:40:31
ну +- конкретная функция loss

Serhii
09.01.2018
23:41:22
(((9 во всех примерах на гите да и вообще во всех - везде именно создание модели содержащей и генератор и дискриминатор, и потом обучение в стиле "тренируем дискриминатор - замораживаем веса дискриминатора - тренируем всю модель d_on_g"

Google
Evgeniy
09.01.2018
23:42:01
я не понимаю в чем разница

Serhii
09.01.2018
23:43:18
Несколько дискриминаторов запилить таким образом проще, мне кажется

Чем собирать страшную модель G > D1 > D2...

Evgeniy
09.01.2018
23:44:34
если ты можешь сформулировать в два предложения в чем отличие двух подходов

Admin
ERROR: S client not available

Evgeniy
09.01.2018
23:44:46
то я наконец пойму о чем речь)

Serhii
09.01.2018
23:46:27
концептуально ни в чем - мы и так и так считаем лосс при помощи другой сети

просто пытаюсь понять почему я нигде не видел вот такого кода как на скриншоте)

Dog
10.01.2018
14:10:33
ребята, есть java big data специалист? на стеке hadoop, hbase, spark и т.д, хотел бы задать пару вопросов?

Evgeny
10.01.2018
14:25:21
Задавай. Из 2k человек кто-то точно ответит

Evgeniy
10.01.2018
14:35:36
Бесплатная екнига от орейли (ничего о ней не знаю, но вдруг кому то интересно) https://conferences.oreilly.com/artificial-intelligence/ai-ny/public/content/the-new-artificial-intelligence-market

Dog
10.01.2018
14:48:42
Есть ли какой-то известный стек для анализа биг дата в реальном времени? подходит ли вообще hadoop для этого? когда лучше не использовать hadoop? пытаюсь сделать что-то в связке hadoop, hbase, impala. Прка не понятно, оправданно ли это всё? Например есть абстрактный кейс, есть например 3миллиона пользователей соц сети, они каждый день продают друг другу товары, неограниченное количество раз, нужно по требованию брать и считать на какую сумму продал тот то, тот то за такой то месяц или группа лиц купила за такой то месяц

Dog
10.01.2018
14:53:22
ну я принимаю пачки спарком, обрабатываю rdd и скидываю их в hdfs по средствам hbase

все что влезает в оперативку не бигдата, что такое 3 млн. пользователей, там гигабайт данных хотя бы наберется?
ну да, по сути по этому одному кейсу можно считать около биллиона транзакций в год

за 5 часов 500гб данных

Google
Henadz
10.01.2018
14:55:12
если такой микробатч вас устраивает, то все норм

Dog
10.01.2018
14:55:29
ну это спарк стриминг
а как потом из hbase оперативнинько анализировать этот кейс и вообще нормально ли это так делать?

например в hbase есть счетчики для каждого пользователя, продал купил и я их обновляю

Henadz
10.01.2018
14:56:45
ну в принципе это обычные агрегаты получаются

хранить их по ключу юзера

вполне норм кейз для hbase

Dog
10.01.2018
14:57:53
но оно почему-то не очень и быстро их агрегирует, по одному пользователю да, по нескольким да - быстро, а если я хочу по всем 3кк взять аггрегацию, то всё - бай бай, минут 15 считает пол терабайта

как вообще анализ брать из hbase? какие есть практики? я пробовал через spark брать rdd из hbase, но там время уходит на поднятие спарк кластеров, это уже не риал тайм анализ

hbase сопроцессоры пробовал, чтоб он считал у себя на кластере и возвращал, дак он вообще уходит в вечное раздумье

Dmitry
10.01.2018
15:03:06
за 5 часов 500гб данных
то есть пользователь генерирует в среднем 1.5 мегабайта за 5 часов и выкинуть ничего нельзя?

Dog
10.01.2018
15:04:31
то есть пользователь генерирует в среднем 1.5 мегабайта за 5 часов и выкинуть ничего нельзя?
хотя наверно 500гигов за 5 часов, это новые данные, потом идёт аггрегация, наверно всего данных не должно быть более 1TB - 2TB

за год примерно 1-2TB наверно

Dmitry
10.01.2018
15:05:58
все равно как-то странно, если это торговля, получается какой-то высокочастотный трейдинг, мне просто интересно, где такое встречается

Alexey
10.01.2018
15:31:00
хотя наверно 500гигов за 5 часов, это новые данные, потом идёт аггрегация, наверно всего данных не должно быть более 1TB - 2TB
Тогда это снова не бигдата, купи побольше оперативки и скидывай по итогу на ssd. Чем проще будет решение тем лучше, я вот щас lmdbjava использую, чтобы хранить 20_000_000 ключей В оперативке используй что-нибудь типа SmoothieMap/ChronicleMap, затем сортирую ключи и в lmdbjava последовательно вставляю. Получается очень шустро, даже на ноутбуке.

Страница 212 из 327