@bigdata_ru

Страница 308 из 327

alex

12.09.2018
08:48:56

Готовой нет, но вот это должно помочь https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html

Artem

12.09.2018
10:35:14

Спасибо

Скрудж

12.09.2018
21:27:21

Привет. stemmer = SnowballStemmer("english") tags = np.zeros((len(sentences), EMB_SIZE)) for i, sentence in enumerate(sentences): for word in sentence: word_proc = stemmer.stem(word) if word_proc in en_model: tags[i] += en_model[word_proc] Осваиваю векторизацию текста. sentences - токены предложений, [[], [], ...] tags - массив векторов для обучения Подскажите, может я в вышепреведенном коде делаю что не так? До этого куска я разбивал текст на токены, использовал BOW и получал ROC-AUC ~0.8 Здесь же ROC-AUC ~0.6. Для обучения векторизованного текста использую KNeighborsClassifier()

Vova

13.09.2018
11:20:01

Анастасия вероятно не очень понимает разницу между дата инженером и дата сайнтистом

Google

Nesovsemenot

13.09.2018
11:21:10

Александра....

Boris

13.09.2018
11:30:34

Stackoverflow приводит классный калькулятор зарплат, и по указанным выше навыками 140 гросс ну никак не получается )https://stackoverflow.com/jobs/salary?utm_source=Iterable&utm_medium=email&utm_campaign=salary-calculator-2018

?

Paul

13.09.2018
14:08:52

Всем привет. Одна компания в городе устраивает курсы по big data, зовут студентов. Я заинтересован в машинном обучении, стоит ли сходить на эти курсы ?

Dan

13.09.2018
14:09:41

Всем привет. Одна компания в городе устраивает курсы по big data, зовут студентов. Я заинтересован в машинном обучении, стоит ли сходить на эти курсы ?

Заинтересован - сходи. Как минимум составишь своё впечатление.

Paul

13.09.2018
14:10:26

Ну а в целом это связанные вещи, как я понимаю, так? Пока за спиной лишь курсы по глубокому обучению от другой компании, и курсы на ммос платформах

Dan

13.09.2018
14:11:58

Ну а в целом это связанные вещи, как я понимаю, так? Пока за спиной лишь курсы по глубокому обучению от другой компании, и курсы на ммос платформах

Всё зависит от контекста. Вполне вероятно что это хорошие годные курсы, и именно там big data и machine learning связаны друг с другом. Но я встречал курсы, где это разные плоскости.

Paul

13.09.2018
14:14:51

Стоит внимания?

Dan

13.09.2018
14:17:43

Стоит внимания?

Ну как сказать... попробуй, если считаешь что оно того стоит

Житейский опыт и мудрость подсказывают, что пока ты сам не составишь своего собственного мнения - ты не узнаешь, стоит оно твоего внимания или не стоит. А не попробовав - ты не составишь собственного мнения. Да и опять же, не ошибается только тот, кто ничего не делает. Попробуй, заодно и нам расскажешь :)

@Snop_off злой бот режет рекламу :-/ Но мы поверим на слово

Проксимов

13.09.2018
14:24:02

@Snop_off злой бот режет рекламу :-/ Но мы поверим на слово

Я могу посмотреть)

Скрудж

13.09.2018
14:24:16

Привет. Я пытаюсь обучить классификатор для распознавания типа текста, задача с Kaggle.Для этого использую FastText & KNC. Вот мой код https://github.com/ikopeykin/IBA/blob/master/knn.ipynb Проблема у меня в том, что ROC-AUC ~0.6. Возможно, кто-то может подсмотреть код и сказать, что я сделал не так?

Google

Dan

13.09.2018
14:24:22

Я могу посмотреть)

Ты можешь :)

Проксимов

13.09.2018
14:24:28

Ну там вроде мап редьюс хадуп вот ето всё

Dan

13.09.2018
14:25:13

Apache Spark и всё такое, да да

Paul

13.09.2018
14:26:53

Это типичные базворды, как я понимаю, да?

Проксимов

13.09.2018
14:28:11

Да))))

Dan

13.09.2018
14:28:41

Занятно, надо будет сегодня попробовать :)

Vin

13.09.2018
17:04:03

Добрый вечер, Может ли кто помочь? Я новичок в мире Big Data. так что не судите строго =) Мне нужно написать приложение которое тянет поток данных (действия пользовтеля) из Кафки и сохраняет их в hbase. Как лучше все решить это задачу? Нужно ли использвать какую то стрим библеотку (akka streams, spark streaming) или можно обойтись без этого? Заранее спасибо ?

Gennadiy

14.09.2018
05:26:05

Красиво как за ночь стало.

Dan

14.09.2018
12:44:08

Добрый день, хочется поделиться нашей недавней публикацией в вашем сообществе. В статье мы рассказали подробно о том, как мы сделали проект с клиентами ДоДо пицца - чатбота в телеграме, который определяет качество продукции по фотографии. https://hackernoon.com/your-pizza-is-good-how-to-teach-ai-to-evaluate-food-quality-d835a8c12e86

@shash_kova спасибо за статью!

alex

14.09.2018
12:47:17

not bad

Dan

14.09.2018
12:47:38

Вот мне тоже так показалось, очень познавательно как минимум

Admin

ERROR: S client not available

alex

14.09.2018
12:48:53

и не только маркетинг

Oleg

14.09.2018
12:50:50

Подскажите какие предобученые модели можно использовать, чтоб дообучить распознавать на картинке лого брендов представленных на СНГ и бурж.

Alexey

15.09.2018
07:33:01

На мобильнике?

tonko

15.09.2018
07:35:02

Привет. Я пытаюсь обучить классификатор для распознавания типа текста, задача с Kaggle.Для этого использую FastText & KNC. Вот мой код https://github.com/ikopeykin/IBA/blob/master/knn.ipynb Проблема у меня в том, что ROC-AUC ~0.6. Возможно, кто-то может подсмотреть код и сказать, что я сделал не так?

А у тебя в модели фасттекст такой же препроцессинг ?

Вообще это норм аук учитывая что ты даже не тюнил кнн

И он туда в принципе не очень подходит

Google

tonko

15.09.2018
07:38:32

Туда бы что нибудь лстмное

Можкшь ради интереза замерить долю токенов которые ты выкидываешь, из-за отсутствия их в модели

Я подозреваю что их не так много, т.к. фасттекст многие из них может достраивать по нграммам, но качество таких достраиваний может быть проблемой

Модель такую тоже первый раз вижу, ты уверен что там стемминг ?

@mafiadev

Скрудж

15.09.2018
12:12:24

Модель такую тоже первый раз вижу, ты уверен что там стемминг ?

Да) Я уже пофиксил код. Проблема была в: А) Я не считал средний вектор каждого комментария Б) Я не заметил, что некоторые вектора были NaN или 0 — они нам не нужны https://github.com/ikopeykin/IBA/blob/master/knn.ipynb Вот рабочий пофикшеный код, прошедший ревью, с нормальным ROC-AUC. На гит не загрузился посчитанный, если кому-то нужно — пожалуйста, Считайте :)

Я почему возмутился, по поводу ROC-AUC 0.7 До этого сделал реализацию через TfidVecorizer и SVM: https://github.com/ikopeykin/IBA/blob/master/FE.ipynb По итогу получил: For toxic with C = 10 ROC-AUC score is 0.8513188013845338

tonko

15.09.2018
12:35:16

Хех, я тоже заметил что нет усреднения, но упустил врочледствии

« Назад

Страница 308 из 327

Далее »

Открыть в Telegram