@jvmchat

Страница 1350 из 2890
Alexander
11.04.2017
21:40:30
Nikolay
11.04.2017
21:40:32
потому что дальше справятся дата инженеры

Anton
11.04.2017
21:40:42
девопс - это как слава кпсс, вообще не человек

Alexander
11.04.2017
21:41:13
Google
Nikolay
11.04.2017
21:41:15
Ты как прокси для всех?
проблема в том, что код, который пишут саентисты - говно. А метод, которым они деплоят проекты - это scp + cron

так жить нельзя, поэтому нужен инжиниринг вокруг этого

Oleksandr
11.04.2017
21:41:54
а в чем они пишут код? R?

Alexander
11.04.2017
21:42:02
То есть ты продуктизируешь то, что они наклепали?

Oleksandr
11.04.2017
21:42:09
сразу с спарк апи?

Nikolay
11.04.2017
21:42:24
на чем угодно, в принципе. В основном питон, скала, иногда мелкие опыты с C++

Adam
11.04.2017
21:42:28
эволюция прямо

Nikolay
11.04.2017
21:42:45
То есть ты продуктизируешь то, что они наклепали?
в целом да, заодно параллелизирую, например, и выстраиваю архитектуру

Alexander
11.04.2017
21:43:39
А админам^W депосам говоришь, что тебе надо, т.е. ставишь задачи

Или у вас одна цель на всех?

Один скоуп

Как вы с девопсами общаетесь?

Nikolay
11.04.2017
21:44:16
девопсов мы просим нам выделять виртуалки и обсуждаем с ними, как нам организовать мониторинг и развертку, чтобы все было удобно

Google
Nikolay
11.04.2017
21:44:21
смотри, в чем тут фишка

Anton
11.04.2017
21:44:21
Nikolay
11.04.2017
21:45:03
компания изначально продуктовая, поэтому все operations, которые выстроены внутрии компании и которые поддерживают эти самые девопсы - это конкретный продакшен, штабильность, это своя продвинутая билд-система и все такое

хитрость в том, что с датасаенсом это не работает, потому что надо эксперименты, прототипы, сегодня одна версия - завтра другая и т.п.

поэтому у нас разделение ответственности, они нам из инфраструктуры выделяют площадки под проекты, а дальше мы уже их стараемся не засрать

Adam
11.04.2017
21:47:37
дуализм какой то

надо у дядек виртуалки просить

Nikolay
11.04.2017
21:48:00
дуализм какой то
именно так :) в этом разница между продакшеном и R&D

Alexander
11.04.2017
21:48:38
А в команде у вас есть девопсеры? Или вы к ним ходите по нужде? Например, нужно сорсить новый фид и что-то из него майнить. Какие ваши шаги?

Как вы дизайните решение?

Nikolay
11.04.2017
21:49:35
девопсеров своих мы нанимаем тоже. На деле у нас есть существующая инфраструктура, в которую очень легко добавить-убавить новые фиды так, чтобы они сразу подцепились

как дизайним - зависит от того, чего хотим добиться, очевидно же

Alexander
11.04.2017
21:50:34
Про дизайнить я имею ввиду кто участвует, что делает

Nikolay
11.04.2017
21:50:37
девопсеры нужны, чтобы быстро PoC разворачивать

Про дизайнить я имею ввиду кто участвует, что делает
ну, я люблю думать так, что идеальная команда - это саентист + инженер + девопс

Alexander
11.04.2017
21:51:19
И вот три этих человека собрались и штурмят?

Так примерно?

Nikolay
11.04.2017
21:52:05
саентист пишет модельку на каком-нибудь ужасном питоне, инженер переписывает ее в нормальный вид и параллелит на существующей инфраструктуре, а девопс разворачивает, настраивает мониторинг и выстраивает CI/CD

И вот три этих человека собрались и штурмят?
типа того, в Data Science R&D же главное - это инсайты давать и дэшборды красивые показывать

соответственно, время между тем, как в голову саентиста пришла идея, и тем, как эта идея в какой-нибудь графане красиво нарисована и выведена на телик на потеху менеджерам, надо минимизировать

Google
Nikolay
11.04.2017
21:53:55
причем желательно так, чтобы не просрать по дороге возможность в перспективе обернуть это в продакшен

Oleksandr
11.04.2017
21:54:49
можно детальнее про "переписывает в нормальный вид", какого рода задачи ? для многих областей андана/машобучения взять и поднять масштаб на пару порядков нифига не просто

Nikolay
11.04.2017
21:56:25
можно детальнее про "переписывает в нормальный вид", какого рода задачи ? для многих областей андана/машобучения взять и поднять масштаб на пару порядков нифига не просто
ну, вот пример, выхлоп саентиста - модель, которая получает на вход два домена и по каким-то фичам считает их близость между собой (контент там, поведение пользователей или что еще - неважно). Модель эта написана сотней-двумя строк сплошной простыней на питоне с кучей говнокода и закомментированных неудачных попыток

инженер берет и делает из этой модели сервис с REST API в виде питонопакета, который уже идет дальше в CI, выстроенный девопсом

в итоге имеем сервис, который решает маленькую задачу, который можно реюзать в других исследованиях и который можно использовать, как часть более крупного проекта

или, другой вариант, нужна возможность быстро прогонять урл через серию проверок (сесурити-листы, предобученные модели, еще чего-нибудь). Инженер берет и спавнит несколько виртуалок в облаке, на которые анзиблом разворачивает в параллель кучу воркеров и поверх всего этого вешает балансировщик

в общем, дата инженер - это такой и швец, и жнец, и на дуде игрец

но то, во что до сих пор большинство людей упорно верит - что "дата саентист должен уметь хорошо программировать" - это бред, на самом деле оно так не работает

и это не их работа вообще, их работа - математика

Alexander
11.04.2017
22:04:17
А как построена работа саенсов? Есть ли у них бэклог задач? Как они выбирают, чем будут заниматься и выбирают ли? Дают ли временные оценки по задачам?

Какие-нибудь майлстоуны, например

Nikolay
11.04.2017
22:06:12
А как построена работа саенсов? Есть ли у них бэклог задач? Как они выбирают, чем будут заниматься и выбирают ли? Дают ли временные оценки по задачам?
есть, они вместе с инженерами сидят и обсуждают исследовательские проекты, которые можно организовать поверх существующих данных, а инженеры либо тикеты создают, либо с небес на землю их спускают

Nikolay
11.04.2017
22:06:37
кроме того, сверху периодически спускают какие-то инсайты, которые они хотели бы увидеть в данных

но, поскольку это R&D, с дедлайнами чуть полегче, чем на продакшене

Oleksandr
11.04.2017
22:07:37
а что, единороги все перевелись, которые и условный рест поднимут, и условную корреляцию посчитают?

Nikolay
11.04.2017
22:08:26
а что, единороги все перевелись, которые и условный рест поднимут, и условную корреляцию посчитают?
их по пальцам пересчитать. Обычно человек не может быть одержим и в математике, и в программировании, в среднем положении он будет лохом и в том и в другом

Alexander
11.04.2017
22:09:11
есть, они вместе с инженерами сидят и обсуждают исследовательские проекты, которые можно организовать поверх существующих данных, а инженеры либо тикеты создают, либо с небес на землю их спускают
А есть продакт менеджеры? Я это спрашиваю к тому, что можно придумать замечательную идею, за которую никто не будет платить. Как происходит взаимодействие, связываение идей саенса с рынком?

Nikolay
11.04.2017
22:10:06
А есть продакт менеджеры? Я это спрашиваю к тому, что можно придумать замечательную идею, за которую никто не будет платить. Как происходит взаимодействие, связываение идей саенса с рынком?
я выше писал, один из основных продуктов саенса - это блек- и вайт-листы для клиентов, которые отлично востребованы и активно используются. Другой продукт - это, например, секурити-отчеты

то есть с помощью детектирования аномалий в данных и прочей осведомленности, поскольку дело происходит практически в реалтайме, наши аналитики моментально узнают о всякого рода угрозах и активизировавшихся ботнетах

(да, я читал лекции про это, потому бодро так рассказываю :))

Google
Nikolay
11.04.2017
22:13:10
пойду чаю налью

Alexander
11.04.2017
22:14:08
а расскажи какие-нибудь простые примеры, как можно детектить всякие темные делишки в сети, пжт

Nikolay
11.04.2017
22:15:13
а расскажи какие-нибудь простые примеры, как можно детектить всякие темные делишки в сети, пжт
ну, когда данных дофига - то возможностей больше становится, если даже просто сравнивать поведение пользователей

обычно хосты, которые заражены разного рода вирусней, в сети себя ведут более-менее похоже - делают запросы на схожие урлы и т.д.

в итоге можно провести кластеризацию и тупо увидеть, что если хост попадает в ту же группу по поведению, что и всякая вирусня, то он наверняка тоже вирусный

Adam
11.04.2017
22:16:40
типа на уровне провайдера можно ботнеты останавливать?

Nikolay
11.04.2017
22:16:44
и его имеет смысл проверить руками и добавить в отчет или лист

типа на уровне провайдера можно ботнеты останавливать?
именно, многие угрозы блокируются на уровне dns

Admin
ERROR: S client not available

Adam
11.04.2017
22:17:38
т.е. в теории можно натравить ботнет на какой нибудь популярный урл и всех людей тоже заблочат

Nikolay
11.04.2017
22:18:01
то есть какой-нибудь фейсбук ты не заблочишь таким образом

Alexander
11.04.2017
22:18:19
т.е. это из-за таких как вы мне гугл иногда показывает капчу

Adam
11.04.2017
22:18:29
ну ладно фиг с ним

можно конкурентов подставить

Nikolay
11.04.2017
22:18:43
т.е. это из-за таких как вы мне гугл иногда показывает капчу
нет, это из-за таких, как твои соседи, с которыми у тебя один внешний айпи, например :)

Alexander
11.04.2017
22:18:56
чем богаты

как говорится

а можно ли внести в черный список невиновную бабушку какую-нибудь?

она что-нибудь делала такого, из-за чего могла попасть в черный список

Google
Alexander
11.04.2017
22:20:15
это реальный кейс?

Nikolay
11.04.2017
22:21:13
внос в черный список автоматически сейчас делается только в том случае, если у нескольких секурити компаний (а не только у нас) урл явно указан, как вирусный

в случае, если это наш собственный инсайт, он руками проверяется дополнительно

Alexander
11.04.2017
22:21:40
а что вы руками проверяете?

юр инфу?

Nikolay
11.04.2017
22:22:04
руками идем на урл из безопасной песочницы и смотрим, чего он отдает

Adam
11.04.2017
22:22:23
для этого должен быть специальный человек

с крепкими нервами

Nikolay
11.04.2017
22:22:35
при разных юзер-агентах и прочих вещах, по которым злоумышленники могут фингерпринтить

Alexander
11.04.2017
22:22:46
Nikolay
11.04.2017
22:22:48
для этого должен быть специальный человек
или тупо сервис, который большую часть автоматизирует :)

и это тоже Николай :)
не :) но частичную автоматизацию я делаю

Baruch
11.04.2017
22:23:33
слушайте, этот Николай какой-то ебанутый, не?

Alexander
11.04.2017
22:23:46
внезапно

Nikolay
11.04.2017
22:23:56
слушайте, этот Николай какой-то ебанутый, не?
переход на личности -> бан, не? как там Дмитрий писал?

Baruch
11.04.2017
22:24:06
да я просто удивился

Nikolay
11.04.2017
22:24:28
да я просто удивился
ты просто упоролся, это бывает :)

Adam
11.04.2017
22:24:30
вот так час топишь за датасаенс и нате

Baruch
11.04.2017
22:24:47
то есть может быть "если джавист говорит, что не хочет писать на скале он врёт" это нормально, конечно, но я, если честно, в ахуе.

Страница 1350 из 2890