@bigdata_ru

Страница 247 из 327
Roman
18.03.2018
18:24:02
Egor
18.03.2018
19:55:43
Всем привет. Кто нибудь работал с NER ( Named-entity recognition ) ?

Dmitry
19.03.2018
07:43:03
Всем привет. Кто нибудь работал с NER ( Named-entity recognition ) ?
Посмотрите тут: https://www.kaggle.com/c/text-normalization-challenge-russian-language Насколько я помню у них в датасете уже были размечены некоторые типы слов

Nina
19.03.2018
11:26:27
Привет! Кто-нибудь знает, как можно сделать кросс-валидацию в sklearn так, чтобы получить метрику качества для каждого класса при многоклассовой классификации?

Google
Anton
19.03.2018
11:33:00
@ninkovskiy , возможно вы ищете http://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html только оно ни как не связанно с кросс-валидацией и поступить так, как рекомендуют вот в этом ответе: https://stackoverflow.com/a/42564796

Nina
19.03.2018
11:37:47
@ninkovskiy , возможно вы ищете http://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html только оно ни как не связанно с кросс-валидацией и поступить так, как рекомендуют вот в этом ответе: https://stackoverflow.com/a/42564796
но это метрики для всей выборки, а хотелось бы увидеть то же самое для нескольких фолдов. Вручную через StratifedKFold нет желания разбивать, есть ли готовое решение?

Nina
19.03.2018
12:03:39
Anton
19.03.2018
12:04:57
но это метрики для всей выборки, а хотелось бы увидеть то же самое для нескольких фолдов. Вручную через StratifedKFold нет желания разбивать, есть ли готовое решение?
готового решения, лично я, не видел. но думается что не так уж сложно это написать for i, (train, test) in enumerate(k_fold.split(X, y)): model.fit(X[train], y[train]) print("[fold {}] , score: {}". format(i, model.score(X[test], y[test]))) print (classification_report(model.predict(X[test]), y[test]) ) возможно с ошибками написал, но главное идея

Дарья
19.03.2018
12:08:37
Здравствуйте! Появилась необходимость вычленить коэффициенты, которые использует random forest в поставленной задаче. Нужно предоставить их разработчику для его нужд. Язык R. Буду благодарна любой подсказке.

Nina
19.03.2018
12:10:14
готового решения, лично я, не видел. но думается что не так уж сложно это написать for i, (train, test) in enumerate(k_fold.split(X, y)): model.fit(X[train], y[train]) print("[fold {}] , score: {}". format(i, model.score(X[test], y[test]))) print (classification_report(model.predict(X[test]), y[test]) ) возможно с ошибками написал, но главное идея
Спасибо) Я понимаю, что можно написать вручную, но так хотелось, чтобы было красиво.. Поэтому я и пытаюсь найти стандартный метод, без написания велосипеда, но, кажется, его нет

Дарья
19.03.2018
12:26:52
В лесу нету коэффициентов
Не подскажете, как в таком случае стоит действовать? Random Forest давал лучшие результаты, поэтому остановились именно на нем.

Andrey
19.03.2018
12:28:51
Пишите в личку полное описание задачи. За мелкий прайс расскажу, если буду знать

George
20.03.2018
10:04:16
Коллеги

Есть чат по вакансиям бигдата?

Google
Dan
20.03.2018
10:04:59
Возможно где-то и есть. Нужно искать

George
20.03.2018
10:06:14
информации нет, короче?

Dan
20.03.2018
10:07:09
информации нет, короче?
Все вакансии на hh или суперджобе

George
20.03.2018
10:09:35
ну, мне в обратную сторону )

Dan
20.03.2018
10:10:17
В личку присылай, запустим по каналам

Matvey
20.03.2018
10:16:40
Всем привет! Ребят, у вас нет набора данных рекламных сообщения для обучения ML?

Michael
20.03.2018
10:18:15
Посоветуйте какой-нибудь практический гайд по GRU/LSTM, пожалуйста.

Grigory
20.03.2018
10:24:49
Есть чат по вакансиям бигдата?
у нас хадупостек чатик есть, там можно запостить, если вакансия соотвествует

George
20.03.2018
10:25:14
Соответствует

George
20.03.2018
10:25:24
Напиши в личку, плз, куда постить

Grigory
20.03.2018
10:25:46
* Data Engineers — Чат про Apache Hadoop

Dan
20.03.2018
10:26:54
?

Макс
20.03.2018
12:13:17
Подскажите материал по Big Data с нуля, который, как вам кажется, является исчерпывающим

Vladimir
20.03.2018
12:17:34
Том Уайт - Hadoop подробное руководство

Макс
20.03.2018
12:30:04
Спасиб, а есть на плюсах?

Vladimir
20.03.2018
12:37:06
В книге есть примеры кода на плюсах, но вообще для хадуп родная ява, а не плюсы

VVS
20.03.2018
12:38:08
смотри спарк как интро, хадуп потом посмотришь

Anna
20.03.2018
12:42:32
Подскажите материал по Big Data с нуля, который, как вам кажется, является исчерпывающим
Есть очень качественный курс на stepic. Называется Hadoop. Важно: проходить степы, читая все комменты. Там в комментах ещё столько же инфы, сколько в материалах степа.

Google
Макс
20.03.2018
12:43:32
Спасиб, начнём-с)

Borodalo
20.03.2018
16:33:57
ключевые слова: aws ec2 Deep Learning AMI Вопрос про конфигурирование предустановленных venv Где можно почитать как и что из конфигов правится, или где. Нашёл только что сами конфиги складываются в /tmp/

нужно изменить переменную KERAS_BACKEND

Alexey
20.03.2018
18:36:23
Добрый вечер! Не знаете, есть ли в свободном доступе датасет с русскими рекламными сообщениями или спамом?

Dan
20.03.2018
18:44:21
Это уже второй такой вопрос за сегодня

Есть, но дорого. Сдаётся в аренду

Alexey
20.03.2018
18:45:57
Есть, но дорого. Сдаётся в аренду
Датасет? пример текстов можете показать?

Dan
20.03.2018
18:46:40
Датасет? пример текстов можете показать?
Я спрошу по поводу примера. А вы пока скажите для чего, и в каком объёме вам это интересно. Потому что там ~миллиард записей точно, но возможно их намного больше

Alexey
20.03.2018
18:47:23
порядка миллиона.

Dan
20.03.2018
18:48:14
Я уточню. База не моя. Но знаю что парни дают в аренду данные. Дорого, но охренительно эффективно

Антон
21.03.2018
05:50:05
Доброго утра. Посоветуйте интересный ресурс по Spark на русском. :)

Admin
ERROR: S client not available

Антон
21.03.2018
06:12:41
а кроме шуток? )

Roman
21.03.2018
06:13:45
а кроме шуток? )
Хабр тег spark

Grigory
21.03.2018
09:13:02
Хабр тег spark
я даже не знаю что больше пользы принесет первая ссылка или тег на хабре

Mike
21.03.2018
10:56:15
Привет всем! Что лучше использовать для кластеризации пользователей по гео инфе (масштаб "страна"). Есть идея на счет центров кластеров как "больших городов". Так же интересует, если кто соприкасался с визуализацией - подскажите либки (d3.js, etc)

Google
Mike
21.03.2018
11:02:00
А какие цели?
Хоть как-то использовать инфу пользователя по гео. просто подставлять (лат,лон) не очень подходит и слишком просто :)

Pavel
21.03.2018
11:04:32
Хоть как-то использовать инфу пользователя по гео. просто подставлять (лат,лон) не очень подходит и слишком просто :)
Ну если так, то можно использовать погоду. Она очень логично определяет кластеры

Сергей
21.03.2018
11:52:45
кто-нибудь tflearn ставил в анаконду?

Alexey
21.03.2018
12:11:05
Пробовал немного

попроще keras'а

Игорь
21.03.2018
12:14:23
Я делаю библиотеку для создания нейронных сетей на js

Andrey
21.03.2018
12:19:46
попроще keras'а
Импоссибль!

Игорь
21.03.2018
12:20:38
За то красиво и вкусно

Igor
21.03.2018
12:20:46
Игорь
21.03.2018
12:21:40


Andrey
21.03.2018
12:21:53
Но есть же MXNetJS

Evgeniy
21.03.2018
12:22:29
Проксимов
21.03.2018
12:22:43
С такими методами далеко пойдёшь

Andrey
21.03.2018
12:22:47
А в 149 строк вряд ли поместилось что-то сопоставимое

Проксимов
21.03.2018
12:23:11
...тролейбус...
Асинхронный!

Игорь
21.03.2018
12:23:32
Проксимов
21.03.2018
12:23:41
Kek
21.03.2018
13:57:51
Импоссибль!
Тф сложнее сильно

Страница 247 из 327