
alex
05.10.2018
14:15:31
используй catboost с дефолтными параметрами )

Anton
06.10.2018
07:34:05
Здравствуйте, не подскажите что лучше использовать word2vec или embedding layer in keras?

Ivan
06.10.2018
09:08:41
Добрый день! Прошу помочь с решением одной задачки.
Хочу автоматизировать процесс принятия решения при выборе способа доставки груза. Есть несколько способов доставки которые мы используем "авто сборный" "авия сборный" "прямая машина" есть несколько транспортных компаний (тк) которые оказывают услуги этими способави доставки. Есть исторические данные когда в зависимости от веса, объема, направления, состава груза, оператор выбирал тот или иной способ доставки и тк.
Направте в нужное русло, как решаются такие задачи?

Артем
06.10.2018
09:12:35

Google

Ivan
06.10.2018
09:20:53

alex
06.10.2018
09:23:05
если данных не очень много, можно попробовать деревья и бустинг

Артем
06.10.2018
09:31:16
Спасибо, какие инструменты обычно используются для решения подобных задачь?
Что вы понимаете под иструментом? Есть много мест, где классификации реализованы: есть библиотеки для R и Python, есть оперсорсная Weka, есть обланчые BigML и службы Azure. Если говорить об алгоритмах, то можно попробовать random forest как уже было сказано. Но перед этим очень советую почитать хотя бы про основы ML и оценки качества созданных моделей. Потому что без базы вам никакой инструмент не поможет.

Alexander
06.10.2018
09:50:38
Насчет предобработки: кто что думает о 'binning' и woe (weight of evidence)?
Какие в питоне есть пакеты для этого? Дает ли это эффект?
Юзает кто это? Есть в питоне функция?

fedor
06.10.2018
11:16:32
всем привет, хотел обсудить как бы вы решили проблему кластеризации
есть датасет, для удобства скажем состоит из целых чисел
хочется эти целые числа сгруппировать по совместной встречаемости
самое легкое что приходит в голову - k-nn
кластеризация нужна черновая, так что никаких долгих плясок вокруг данных и настроек каких нибудь фреймворков не требуется, даже не желательно
что щас для такой непринужденной кластеризации можно использовать?

Google

fedor
06.10.2018
11:20:30
unsupervised понятное дело

Evgeniy
06.10.2018
11:44:18

fedor
06.10.2018
11:45:28
ну он же k-nn
для меня видимо подойдет k-nn, потому что я буду строить кластеры вокруг самых популярных чисел в датасете
то есть берем допустим топ 20, и строим k-nn, правильно?

Daniel
06.10.2018
15:49:34

Проксимов
06.10.2018
15:54:16

fedor
06.10.2018
16:50:45
если я беру в качестве центров 20 топовых записей - то это k-nn?

Daniel
06.10.2018
17:12:37
Я бы короче попробовал сначала kmeans со случайной инициализацией, прикинув какое-то количество кластеров, а потом бы посмотрел, что из этого получается, понизив размерность с помощью tSNE, например, после чего мб поменял бы количество кластеров
Если сложно прикидывать кластеры, можно попробовать dbscan или mean shift, но там свои заморочки с выбором ширины окна
Однако, я до сих пор не уверен, точно ли мы о кластеризации говорим)

fedor
06.10.2018
17:34:13
спасибо
топовые - в смысле самые часто встречающиеся в датасете
есть ощущение что я могу центры руками лучше подобрать, но вы правы, это нужно проверить экспериментом
мы говорим о кластеризации, вопрос в том что подбирать центры кластеров руками, или пусть сами определятся
есть шанс попасть центом в пустоту с одной стороны, с другой стороны автоматическая кластеризация может подобрать бессмысленные кластера

Daniel
06.10.2018
17:39:23
Вдруг поможет

Google

fedor
06.10.2018
17:39:46
да я вот сейчас как раз думаю об этом

Dan
06.10.2018
20:47:58

Cedric
06.10.2018
22:30:00
Hello

Проксимов
07.10.2018
20:26:22
Просто веса не настроены были

Elliot Alderson
08.10.2018
02:24:58
Can someone share the English version of group link???

Murod = 穆拉德
08.10.2018
02:32:32

Elliot Alderson
08.10.2018
02:32:51
Thank you

Murod = 穆拉德
08.10.2018
02:32:56

Elliot Alderson
08.10.2018
02:32:57
Both r same group rit???
I better stay in that group
I'm not understanding anything in this group

Murod = 穆拉德
08.10.2018
02:36:29

sanders
08.10.2018
09:38:20
Всем привет
Подскажите, пожалуйста, как лучше решать следующую задачку:
Необходимо выявить действие вируса (хакерскую атаку), т.е. аномальное поведение системы .
Есть компьютеры, на которых стоит специальное программное обеспечение, собирающее определенную информация о работе компьютера в реальном времени.
Впоследствии была составлена база данных вида:
Time0; feature0 ; ...... ; featureN
.......
.......
TimeM; feature0 ; ...... ; featureN
(Как я понимаю, многомерный временной ряд)
Так вот, подскажите, какие-нибудь идеи по решению этой задачи. Читал, что можно применить как-то свёрточные нейронные сети (но не знаю как именно), плюс слышал про спайковы (импульсные) нейронные сети.
Спасибо


fedor
08.10.2018
11:39:28
вы какие данные хотите использовать для анализа работы программы?
я так понимаю что имеется ввиду что есть программа, которая оставляет за собой какой то след (допустим, program traces), и на основе этих данных нужно сделать вывод что программа себя ведет аномально?
правильно ли я понимаю что вам в этом случае нужно anomaly detection?
сначала нужно понять что именно вы хотите сделать на каких данных, в хорошем случае никакие нейросети вам вообще не понадобятся

sanders
08.10.2018
11:46:21
В windows есть свой журнал событий, но эта программа собирает больше информации для анализа. На самом деле анализировать эти данные и находить в них признаки атаки не самая легкая задача даже для человека

fedor
08.10.2018
11:48:05
то есть anomaly detection в логах

Google

sanders
08.10.2018
11:48:21
Да
Именно так
Но базу данных я ещё не собрал .... Я думаю придётся самому ее создавать

fedor
08.10.2018
11:49:28
для начала можно взглянуть на логи чтобы понять паттерн плохого поведения
у вас же какой то конкретный "вирус", вы не делаете систему чтобы могла отличать любое вредоносное поведение от любого невредоносного
это тогда глобальный антивирус