@bigdata_ru

« Назад

Страница 318 из 327

Далее »

alex

05.10.2018
14:15:31

используй catboost с дефолтными параметрами )

Anton

06.10.2018
07:34:05

Здравствуйте, не подскажите что лучше использовать word2vec или embedding layer in keras?

Ivan

06.10.2018
09:08:41

Добрый день! Прошу помочь с решением одной задачки. Хочу автоматизировать процесс принятия решения при выборе способа доставки груза. Есть несколько способов доставки которые мы используем "авто сборный" "авия сборный" "прямая машина" есть несколько транспортных компаний (тк) которые оказывают услуги этими способави доставки. Есть исторические данные когда в зависимости от веса, объема, направления, состава груза, оператор выбирал тот или иной способ доставки и тк. Направте в нужное русло, как решаются такие задачи?

Артем

06.10.2018
09:12:35

Добрый день! Прошу помочь с решением одной задачки. Хочу автоматизировать процесс принятия решения при выборе способа доставки груза. Есть несколько способов доставки которые мы используем "авто сборный" "авия сборный" "прямая машина" есть несколько транспортных компаний (тк) которые оказывают услуги этими способави доставки. Есть исторические данные когда в зависимости от веса, объема, направления, состава груза, оператор выбирал тот или иной способ доставки и тк. Направте в нужное русло, как решаются такие задачи?

Выглядит как обычная задача классификации. Есть входные параметры, на выходе класс - способ доставки и транспортная компания.

Google

Ivan

06.10.2018
09:20:53

Выглядит как обычная задача классификации. Есть входные параметры, на выходе класс - способ доставки и транспортная компания.

Спасибо, какие инструменты обычно используются для решения подобных задачь?

alex

06.10.2018
09:23:05

если данных не очень много, можно попробовать деревья и бустинг

Артем

06.10.2018
09:31:16

Спасибо, какие инструменты обычно используются для решения подобных задачь?

Что вы понимаете под иструментом? Есть много мест, где классификации реализованы: есть библиотеки для R и Python, есть оперсорсная Weka, есть обланчые BigML и службы Azure. Если говорить об алгоритмах, то можно попробовать random forest как уже было сказано. Но перед этим очень советую почитать хотя бы про основы ML и оценки качества созданных моделей. Потому что без базы вам никакой инструмент не поможет.

Alexander

06.10.2018
09:50:38

Насчет предобработки: кто что думает о 'binning' и woe (weight of evidence)?

Какие в питоне есть пакеты для этого? Дает ли это эффект?

Юзает кто это? Есть в питоне функция?

fedor

06.10.2018
11:16:32

всем привет, хотел обсудить как бы вы решили проблему кластеризации

есть датасет, для удобства скажем состоит из целых чисел

хочется эти целые числа сгруппировать по совместной встречаемости

самое легкое что приходит в голову - k-nn

кластеризация нужна черновая, так что никаких долгих плясок вокруг данных и настроек каких нибудь фреймворков не требуется, даже не желательно

что щас для такой непринужденной кластеризации можно использовать?

Google

fedor

06.10.2018
11:20:30

unsupervised понятное дело

Evgeniy

06.10.2018
11:44:18

что щас для такой непринужденной кластеризации можно использовать?

k-means?)

fedor

06.10.2018
11:45:28

ну он же k-nn

для меня видимо подойдет k-nn, потому что я буду строить кластеры вокруг самых популярных чисел в датасете

то есть берем допустим топ 20, и строим k-nn, правильно?

Daniel

06.10.2018
15:49:34

ну он же k-nn

Не, knn это не k-means

Это вообще классификация

Проксимов

06.10.2018
15:54:16

Это вообще классификация

Всё время путаю

fedor

06.10.2018
16:50:45

если я беру в качестве центров 20 топовых записей - то это k-nn?

Daniel

06.10.2018
17:12:37

если я беру в качестве центров 20 топовых записей - то это k-nn?

Топовых в каком плане?

Я бы короче попробовал сначала kmeans со случайной инициализацией, прикинув какое-то количество кластеров, а потом бы посмотрел, что из этого получается, понизив размерность с помощью tSNE, например, после чего мб поменял бы количество кластеров

Если сложно прикидывать кластеры, можно попробовать dbscan или mean shift, но там свои заморочки с выбором ширины окна

Однако, я до сих пор не уверен, точно ли мы о кластеризации говорим)

fedor

06.10.2018
17:34:13

спасибо

топовые - в смысле самые часто встречающиеся в датасете

есть ощущение что я могу центры руками лучше подобрать, но вы правы, это нужно проверить экспериментом

мы говорим о кластеризации, вопрос в том что подбирать центры кластеров руками, или пусть сами определятся

есть шанс попасть центом в пустоту с одной стороны, с другой стороны автоматическая кластеризация может подобрать бессмысленные кластера

Daniel

06.10.2018
17:39:23

есть ощущение что я могу центры руками лучше подобрать, но вы правы, это нужно проверить экспериментом

Можно попробовать как раз те, которые вы видите в качестве кандидатов в кластеры, почему бы не использовать какие-то знания о наборе данных

Вдруг поможет

Google

fedor

06.10.2018
17:39:46

да я вот сейчас как раз думаю об этом

Dan

06.10.2018
20:47:58

Cedric

06.10.2018
22:30:00

Hello

Проксимов

07.10.2018
20:26:22

Просто веса не настроены были

Elliot Alderson

08.10.2018
02:24:58

Can someone share the English version of group link???

Murod = 穆拉德

08.10.2018
02:32:32

Can someone share the English version of group link???

@bigdata_en

Admin

ERROR: S client not available

Elliot Alderson

08.10.2018
02:32:51

Thank you

Murod = 穆拉德

08.10.2018
02:32:56

Thank you

welcome

Elliot Alderson

08.10.2018
02:32:57

Both r same group rit???

I better stay in that group I'm not understanding anything in this group

Murod = 穆拉德

08.10.2018
02:36:29

Both r same group rit???

nope

Murod = 穆拉德

08.10.2018
02:37:05

I better stay in that group I'm not understanding anything in this group

do what u desire!

sanders

08.10.2018
09:38:20

Всем привет Подскажите, пожалуйста, как лучше решать следующую задачку: Необходимо выявить действие вируса (хакерскую атаку), т.е. аномальное поведение системы . Есть компьютеры, на которых стоит специальное программное обеспечение, собирающее определенную информация о работе компьютера в реальном времени. Впоследствии была составлена база данных вида: Time0; feature0 ; ...... ; featureN ....... ....... TimeM; feature0 ; ...... ; featureN (Как я понимаю, многомерный временной ряд) Так вот, подскажите, какие-нибудь идеи по решению этой задачи. Читал, что можно применить как-то свёрточные нейронные сети (но не знаю как именно), плюс слышал про спайковы (импульсные) нейронные сети. Спасибо

fedor

08.10.2018
11:39:28

вы какие данные хотите использовать для анализа работы программы?

я так понимаю что имеется ввиду что есть программа, которая оставляет за собой какой то след (допустим, program traces), и на основе этих данных нужно сделать вывод что программа себя ведет аномально?

правильно ли я понимаю что вам в этом случае нужно anomaly detection?

сначала нужно понять что именно вы хотите сделать на каких данных, в хорошем случае никакие нейросети вам вообще не понадобятся

sanders

08.10.2018
11:46:21

вы какие данные хотите использовать для анализа работы программы?

Собирать данные при помощи sysmon, то есть это логи

В windows есть свой журнал событий, но эта программа собирает больше информации для анализа. На самом деле анализировать эти данные и находить в них признаки атаки не самая легкая задача даже для человека

Google

fedor

08.10.2018
11:48:05

то есть anomaly detection в логах

sanders

08.10.2018
11:48:21

Да

Именно так

Но базу данных я ещё не собрал .... Я думаю придётся самому ее создавать

fedor

08.10.2018
11:49:28

для начала можно взглянуть на логи чтобы понять паттерн плохого поведения

у вас же какой то конкретный "вирус", вы не делаете систему чтобы могла отличать любое вредоносное поведение от любого невредоносного

Открыть в Telegram