
Alexander
11.04.2017
21:40:30

Nikolay
11.04.2017
21:40:32
потому что дальше справятся дата инженеры

Anton
11.04.2017
21:40:42
девопс - это как слава кпсс, вообще не человек

Alexander
11.04.2017
21:41:13

Google

Nikolay
11.04.2017
21:41:15
Ты как прокси для всех?
проблема в том, что код, который пишут саентисты - говно. А метод, которым они деплоят проекты - это scp + cron
так жить нельзя, поэтому нужен инжиниринг вокруг этого

Oleksandr
11.04.2017
21:41:54
а в чем они пишут код? R?

Alexander
11.04.2017
21:42:02
То есть ты продуктизируешь то, что они наклепали?

Oleksandr
11.04.2017
21:42:09
сразу с спарк апи?

Nikolay
11.04.2017
21:42:24
на чем угодно, в принципе. В основном питон, скала, иногда мелкие опыты с C++

Adam
11.04.2017
21:42:28
эволюция прямо

Nikolay
11.04.2017
21:42:45

Alexander
11.04.2017
21:43:39
А админам^W депосам говоришь, что тебе надо, т.е. ставишь задачи
Или у вас одна цель на всех?
Один скоуп
Как вы с девопсами общаетесь?

Nikolay
11.04.2017
21:44:16
девопсов мы просим нам выделять виртуалки и обсуждаем с ними, как нам организовать мониторинг и развертку, чтобы все было удобно

Google

Nikolay
11.04.2017
21:44:21
смотри, в чем тут фишка

Anton
11.04.2017
21:44:21

Nikolay
11.04.2017
21:45:03
компания изначально продуктовая, поэтому все operations, которые выстроены внутрии компании и которые поддерживают эти самые девопсы - это конкретный продакшен, штабильность, это своя продвинутая билд-система и все такое
хитрость в том, что с датасаенсом это не работает, потому что надо эксперименты, прототипы, сегодня одна версия - завтра другая и т.п.
поэтому у нас разделение ответственности, они нам из инфраструктуры выделяют площадки под проекты, а дальше мы уже их стараемся не засрать

Adam
11.04.2017
21:47:37
дуализм какой то
надо у дядек виртуалки просить

Nikolay
11.04.2017
21:48:00

Alexander
11.04.2017
21:48:38
А в команде у вас есть девопсеры? Или вы к ним ходите по нужде?
Например, нужно сорсить новый фид и что-то из него майнить. Какие ваши шаги?
Как вы дизайните решение?

Nikolay
11.04.2017
21:49:35
девопсеров своих мы нанимаем тоже. На деле у нас есть существующая инфраструктура, в которую очень легко добавить-убавить новые фиды так, чтобы они сразу подцепились
как дизайним - зависит от того, чего хотим добиться, очевидно же

Alexander
11.04.2017
21:50:34
Про дизайнить я имею ввиду кто участвует, что делает

Nikolay
11.04.2017
21:50:37
девопсеры нужны, чтобы быстро PoC разворачивать

Alexander
11.04.2017
21:51:19
И вот три этих человека собрались и штурмят?
Так примерно?

Nikolay
11.04.2017
21:52:05
саентист пишет модельку на каком-нибудь ужасном питоне, инженер переписывает ее в нормальный вид и параллелит на существующей инфраструктуре, а девопс разворачивает, настраивает мониторинг и выстраивает CI/CD
соответственно, время между тем, как в голову саентиста пришла идея, и тем, как эта идея в какой-нибудь графане красиво нарисована и выведена на телик на потеху менеджерам, надо минимизировать

Google

Nikolay
11.04.2017
21:53:55
причем желательно так, чтобы не просрать по дороге возможность в перспективе обернуть это в продакшен

Oleksandr
11.04.2017
21:54:49
можно детальнее про "переписывает в нормальный вид", какого рода задачи ?
для многих областей андана/машобучения взять и поднять масштаб на пару порядков нифига не просто


Nikolay
11.04.2017
21:56:25
инженер берет и делает из этой модели сервис с REST API в виде питонопакета, который уже идет дальше в CI, выстроенный девопсом
в итоге имеем сервис, который решает маленькую задачу, который можно реюзать в других исследованиях и который можно использовать, как часть более крупного проекта
или, другой вариант, нужна возможность быстро прогонять урл через серию проверок (сесурити-листы, предобученные модели, еще чего-нибудь). Инженер берет и спавнит несколько виртуалок в облаке, на которые анзиблом разворачивает в параллель кучу воркеров и поверх всего этого вешает балансировщик
в общем, дата инженер - это такой и швец, и жнец, и на дуде игрец
но то, во что до сих пор большинство людей упорно верит - что "дата саентист должен уметь хорошо программировать" - это бред, на самом деле оно так не работает
и это не их работа вообще, их работа - математика


Alexander
11.04.2017
22:04:17
А как построена работа саенсов? Есть ли у них бэклог задач? Как они выбирают, чем будут заниматься и выбирают ли? Дают ли временные оценки по задачам?
Какие-нибудь майлстоуны, например

Nikolay
11.04.2017
22:06:12

Nikolay
11.04.2017
22:06:37
кроме того, сверху периодически спускают какие-то инсайты, которые они хотели бы увидеть в данных
но, поскольку это R&D, с дедлайнами чуть полегче, чем на продакшене

Oleksandr
11.04.2017
22:07:37
а что, единороги все перевелись, которые и условный рест поднимут, и условную корреляцию посчитают?

Nikolay
11.04.2017
22:08:26

Alexander
11.04.2017
22:09:11

Nikolay
11.04.2017
22:10:06
то есть с помощью детектирования аномалий в данных и прочей осведомленности, поскольку дело происходит практически в реалтайме, наши аналитики моментально узнают о всякого рода угрозах и активизировавшихся ботнетах
(да, я читал лекции про это, потому бодро так рассказываю :))

Google

Nikolay
11.04.2017
22:13:10
пойду чаю налью

Alexander
11.04.2017
22:14:08
а расскажи какие-нибудь простые примеры, как можно детектить всякие темные делишки в сети, пжт

Nikolay
11.04.2017
22:15:13
обычно хосты, которые заражены разного рода вирусней, в сети себя ведут более-менее похоже - делают запросы на схожие урлы и т.д.
в итоге можно провести кластеризацию и тупо увидеть, что если хост попадает в ту же группу по поведению, что и всякая вирусня, то он наверняка тоже вирусный

Adam
11.04.2017
22:16:40
типа на уровне провайдера можно ботнеты останавливать?

Nikolay
11.04.2017
22:16:44
и его имеет смысл проверить руками и добавить в отчет или лист

Admin
ERROR: S client not available

Adam
11.04.2017
22:17:38
т.е. в теории можно натравить ботнет на какой нибудь популярный урл и всех людей тоже заблочат

Nikolay
11.04.2017
22:18:01
то есть какой-нибудь фейсбук ты не заблочишь таким образом

Alexander
11.04.2017
22:18:19
т.е. это из-за таких как вы мне гугл иногда показывает капчу

Adam
11.04.2017
22:18:29
ну ладно фиг с ним
можно конкурентов подставить

Nikolay
11.04.2017
22:18:43

Alexander
11.04.2017
22:18:56
чем богаты
как говорится
а можно ли внести в черный список невиновную бабушку какую-нибудь?
она что-нибудь делала такого, из-за чего могла попасть в черный список

Google

Alexander
11.04.2017
22:20:15
это реальный кейс?

Nikolay
11.04.2017
22:21:13
внос в черный список автоматически сейчас делается только в том случае, если у нескольких секурити компаний (а не только у нас) урл явно указан, как вирусный
в случае, если это наш собственный инсайт, он руками проверяется дополнительно

Alexander
11.04.2017
22:21:40
а что вы руками проверяете?
юр инфу?

Nikolay
11.04.2017
22:22:04
руками идем на урл из безопасной песочницы и смотрим, чего он отдает

Adam
11.04.2017
22:22:23
для этого должен быть специальный человек
с крепкими нервами

Nikolay
11.04.2017
22:22:35
при разных юзер-агентах и прочих вещах, по которым злоумышленники могут фингерпринтить

Alexander
11.04.2017
22:22:46

Nikolay
11.04.2017
22:22:48

Baruch
11.04.2017
22:23:33
слушайте, этот Николай какой-то ебанутый, не?

Alexander
11.04.2017
22:23:46
внезапно

Nikolay
11.04.2017
22:23:56

Baruch
11.04.2017
22:24:06
да я просто удивился

Nikolay
11.04.2017
22:24:28

Adam
11.04.2017
22:24:30
вот так час топишь за датасаенс и нате

Baruch
11.04.2017
22:24:47
то есть может быть "если джавист говорит, что не хочет писать на скале он врёт" это нормально, конечно, но я, если честно, в ахуе.

Nikolay
11.04.2017
22:25:04