@bigdata_ru

Страница 308 из 327
alex
12.09.2018
08:48:56
Готовой нет, но вот это должно помочь https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html

Artem
12.09.2018
10:35:14
Спасибо

Скрудж
12.09.2018
21:27:21
Привет. stemmer = SnowballStemmer("english") tags = np.zeros((len(sentences), EMB_SIZE)) for i, sentence in enumerate(sentences): for word in sentence: word_proc = stemmer.stem(word) if word_proc in en_model: tags[i] += en_model[word_proc] Осваиваю векторизацию текста. sentences - токены предложений, [[], [], ...] tags - массив векторов для обучения Подскажите, может я в вышепреведенном коде делаю что не так? До этого куска я разбивал текст на токены, использовал BOW и получал ROC-AUC ~0.8 Здесь же ROC-AUC ~0.6. Для обучения векторизованного текста использую KNeighborsClassifier()

Vova
13.09.2018
11:20:01
Анастасия вероятно не очень понимает разницу между дата инженером и дата сайнтистом

Google
Nesovsemenot
13.09.2018
11:21:10
Александра....

Boris
13.09.2018
11:30:34
Stackoverflow приводит классный калькулятор зарплат, и по указанным выше навыками 140 гросс ну никак не получается )https://stackoverflow.com/jobs/salary?utm_source=Iterable&utm_medium=email&utm_campaign=salary-calculator-2018

?

Paul
13.09.2018
14:08:52
Всем привет. Одна компания в городе устраивает курсы по big data, зовут студентов. Я заинтересован в машинном обучении, стоит ли сходить на эти курсы ?

Paul
13.09.2018
14:10:26
Ну а в целом это связанные вещи, как я понимаю, так? Пока за спиной лишь курсы по глубокому обучению от другой компании, и курсы на ммос платформах

Dan
13.09.2018
14:11:58
Ну а в целом это связанные вещи, как я понимаю, так? Пока за спиной лишь курсы по глубокому обучению от другой компании, и курсы на ммос платформах
Всё зависит от контекста. Вполне вероятно что это хорошие годные курсы, и именно там big data и machine learning связаны друг с другом. Но я встречал курсы, где это разные плоскости.

Paul
13.09.2018
14:14:51
Стоит внимания?

Dan
13.09.2018
14:17:43
Стоит внимания?
Ну как сказать... попробуй, если считаешь что оно того стоит

Житейский опыт и мудрость подсказывают, что пока ты сам не составишь своего собственного мнения - ты не узнаешь, стоит оно твоего внимания или не стоит. А не попробовав - ты не составишь собственного мнения. Да и опять же, не ошибается только тот, кто ничего не делает. Попробуй, заодно и нам расскажешь :)

@Snop_off злой бот режет рекламу :-/ Но мы поверим на слово

Проксимов
13.09.2018
14:24:02
Скрудж
13.09.2018
14:24:16
Привет. Я пытаюсь обучить классификатор для распознавания типа текста, задача с Kaggle.Для этого использую FastText & KNC. Вот мой код https://github.com/ikopeykin/IBA/blob/master/knn.ipynb Проблема у меня в том, что ROC-AUC ~0.6. Возможно, кто-то может подсмотреть код и сказать, что я сделал не так?

Google
Dan
13.09.2018
14:24:22
Проксимов
13.09.2018
14:24:28
Ну там вроде мап редьюс хадуп вот ето всё

Dan
13.09.2018
14:25:13
Apache Spark и всё такое, да да



Paul
13.09.2018
14:26:53
Это типичные базворды, как я понимаю, да?

Проксимов
13.09.2018
14:28:11
Да))))

Dan
13.09.2018
14:28:41
Занятно, надо будет сегодня попробовать :)

Vin
13.09.2018
17:04:03
Добрый вечер, Может ли кто помочь? Я новичок в мире Big Data. так что не судите строго =) Мне нужно написать приложение которое тянет поток данных (действия пользовтеля) из Кафки и сохраняет их в hbase. Как лучше все решить это задачу? Нужно ли использвать какую то стрим библеотку (akka streams, spark streaming) или можно обойтись без этого? Заранее спасибо ?

Gennadiy
14.09.2018
05:26:05
Красиво как за ночь стало.

Dan
14.09.2018
12:44:08
Добрый день, хочется поделиться нашей недавней публикацией в вашем сообществе. В статье мы рассказали подробно о том, как мы сделали проект с клиентами ДоДо пицца - чатбота в телеграме, который определяет качество продукции по фотографии. https://hackernoon.com/your-pizza-is-good-how-to-teach-ai-to-evaluate-food-quality-d835a8c12e86

@shash_kova спасибо за статью!

alex
14.09.2018
12:47:17
not bad

Dan
14.09.2018
12:47:38
Вот мне тоже так показалось, очень познавательно как минимум

alex
14.09.2018
12:48:53
и не только маркетинг

Oleg
14.09.2018
12:50:50
Подскажите какие предобученые модели можно использовать, чтоб дообучить распознавать на картинке лого брендов представленных на СНГ и бурж.

Alexey
15.09.2018
07:33:01
На мобильнике?

tonko
15.09.2018
07:35:02
Вообще это норм аук учитывая что ты даже не тюнил кнн

И он туда в принципе не очень подходит

Туда бы что нибудь лстмное

Google
tonko
15.09.2018
07:40:53
Можкшь ради интереза замерить долю токенов которые ты выкидываешь, из-за отсутствия их в модели

Я подозреваю что их не так много, т.к. фасттекст многие из них может достраивать по нграммам, но качество таких достраиваний может быть проблемой

Модель такую тоже первый раз вижу, ты уверен что там стемминг ?

@mafiadev

Скрудж
15.09.2018
12:12:24
Модель такую тоже первый раз вижу, ты уверен что там стемминг ?
Да) Я уже пофиксил код. Проблема была в: А) Я не считал средний вектор каждого комментария Б) Я не заметил, что некоторые вектора были NaN или 0 — они нам не нужны https://github.com/ikopeykin/IBA/blob/master/knn.ipynb Вот рабочий пофикшеный код, прошедший ревью, с нормальным ROC-AUC. На гит не загрузился посчитанный, если кому-то нужно — пожалуйста, Считайте :)

Я почему возмутился, по поводу ROC-AUC 0.7 До этого сделал реализацию через TfidVecorizer и SVM: https://github.com/ikopeykin/IBA/blob/master/FE.ipynb По итогу получил: For toxic with C = 10 ROC-AUC score is 0.8513188013845338

tonko
15.09.2018
12:35:16
Хех, я тоже заметил что нет усреднения, но упустил врочледствии

Страница 308 из 327