@bigdata_ru

« Назад

Страница 247 из 327

Далее »

Roman

18.03.2018
18:24:02

Can someone share the content for data science .?

Pirate!!! Get him!!

Egor

18.03.2018
19:55:43

Всем привет. Кто нибудь работал с NER ( Named-entity recognition ) ?

Dmitry

19.03.2018
07:43:03

Всем привет. Кто нибудь работал с NER ( Named-entity recognition ) ?

Посмотрите тут: https://www.kaggle.com/c/text-normalization-challenge-russian-language Насколько я помню у них в датасете уже были размечены некоторые типы слов

Nina

19.03.2018
11:26:27

Привет! Кто-нибудь знает, как можно сделать кросс-валидацию в sklearn так, чтобы получить метрику качества для каждого класса при многоклассовой классификации?

Google

Anton

19.03.2018
11:33:00

@ninkovskiy , возможно вы ищете http://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html только оно ни как не связанно с кросс-валидацией и поступить так, как рекомендуют вот в этом ответе: https://stackoverflow.com/a/42564796

Nina

19.03.2018
11:37:47

@ninkovskiy , возможно вы ищете http://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html только оно ни как не связанно с кросс-валидацией и поступить так, как рекомендуют вот в этом ответе: https://stackoverflow.com/a/42564796

но это метрики для всей выборки, а хотелось бы увидеть то же самое для нескольких фолдов. Вручную через StratifedKFold нет желания разбивать, есть ли готовое решение?

Vyaches

19.03.2018
12:02:39

но это метрики для всей выборки, а хотелось бы увидеть то же самое для нескольких фолдов. Вручную через StratifedKFold нет желания разбивать, есть ли готовое решение?

За это время можно было уже разбить ?

Nina

19.03.2018
12:03:39

За это время можно было уже разбить ?

А как же оптимизация?)

Anton

19.03.2018
12:04:57

но это метрики для всей выборки, а хотелось бы увидеть то же самое для нескольких фолдов. Вручную через StratifedKFold нет желания разбивать, есть ли готовое решение?

готового решения, лично я, не видел. но думается что не так уж сложно это написать for i, (train, test) in enumerate(k_fold.split(X, y)): model.fit(X[train], y[train]) print("[fold {}] , score: {}". format(i, model.score(X[test], y[test]))) print (classification_report(model.predict(X[test]), y[test]) ) возможно с ошибками написал, но главное идея

Дарья

19.03.2018
12:08:37

Здравствуйте! Появилась необходимость вычленить коэффициенты, которые использует random forest в поставленной задаче. Нужно предоставить их разработчику для его нужд. Язык R. Буду благодарна любой подсказке.

Nina

19.03.2018
12:10:14

готового решения, лично я, не видел. но думается что не так уж сложно это написать for i, (train, test) in enumerate(k_fold.split(X, y)): model.fit(X[train], y[train]) print("[fold {}] , score: {}". format(i, model.score(X[test], y[test]))) print (classification_report(model.predict(X[test]), y[test]) ) возможно с ошибками написал, но главное идея

Спасибо) Я понимаю, что можно написать вручную, но так хотелось, чтобы было красиво.. Поэтому я и пытаюсь найти стандартный метод, без написания велосипеда, но, кажется, его нет

Andrey

19.03.2018
12:24:23

Здравствуйте! Появилась необходимость вычленить коэффициенты, которые использует random forest в поставленной задаче. Нужно предоставить их разработчику для его нужд. Язык R. Буду благодарна любой подсказке.

В лесу нету коэффициентов

Дарья

19.03.2018
12:26:52

В лесу нету коэффициентов

Не подскажете, как в таком случае стоит действовать? Random Forest давал лучшие результаты, поэтому остановились именно на нем.

Andrey

19.03.2018
12:28:51

Пишите в личку полное описание задачи. За мелкий прайс расскажу, если буду знать

Egor

19.03.2018
13:01:50

Посмотрите тут: https://www.kaggle.com/c/text-normalization-challenge-russian-language Насколько я помню у них в датасете уже были размечены некоторые типы слов

Спасибо

George

20.03.2018
10:04:16

Коллеги

Есть чат по вакансиям бигдата?

Google

Dan

20.03.2018
10:04:59

Возможно где-то и есть. Нужно искать

George

20.03.2018
10:06:14

информации нет, короче?

Dan

20.03.2018
10:07:09

информации нет, короче?

Все вакансии на hh или суперджобе

George

20.03.2018
10:09:35

ну, мне в обратную сторону )

Dan

20.03.2018
10:10:17

В личку присылай, запустим по каналам

Matvey

20.03.2018
10:16:40

Всем привет! Ребят, у вас нет набора данных рекламных сообщения для обучения ML?

Michael

20.03.2018
10:18:15

Посоветуйте какой-нибудь практический гайд по GRU/LSTM, пожалуйста.

Grigory

20.03.2018
10:24:49

Есть чат по вакансиям бигдата?

у нас хадупостек чатик есть, там можно запостить, если вакансия соотвествует

George

20.03.2018
10:25:14

Соответствует

Dan

20.03.2018
10:25:24

у нас хадупостек чатик есть, там можно запостить, если вакансия соотвествует

Он есть в github.com/goq/telegram-list ?

George

20.03.2018
10:25:24

Напиши в личку, плз, куда постить

Grigory

20.03.2018
10:25:46

Он есть в github.com/goq/telegram-list ?

есть

* Data Engineers — Чат про Apache Hadoop

Dan

20.03.2018
10:26:54

?

Макс

20.03.2018
12:13:17

Подскажите материал по Big Data с нуля, который, как вам кажется, является исчерпывающим

Vladimir

20.03.2018
12:17:34

Том Уайт - Hadoop подробное руководство

Макс

20.03.2018
12:30:04

Спасиб, а есть на плюсах?

Vladimir

20.03.2018
12:37:06

В книге есть примеры кода на плюсах, но вообще для хадуп родная ява, а не плюсы

VVS

20.03.2018
12:38:08

смотри спарк как интро, хадуп потом посмотришь

Anna

20.03.2018
12:42:32

Подскажите материал по Big Data с нуля, который, как вам кажется, является исчерпывающим

Есть очень качественный курс на stepic. Называется Hadoop. Важно: проходить степы, читая все комменты. Там в комментах ещё столько же инфы, сколько в материалах степа.

Google

Макс

20.03.2018
12:43:32

Спасиб, начнём-с)

Borodalo

20.03.2018
16:33:57

ключевые слова: aws ec2 Deep Learning AMI Вопрос про конфигурирование предустановленных venv Где можно почитать как и что из конфигов правится, или где. Нашёл только что сами конфиги складываются в /tmp/

нужно изменить переменную KERAS_BACKEND

Alexey

20.03.2018
18:36:23

Добрый вечер! Не знаете, есть ли в свободном доступе датасет с русскими рекламными сообщениями или спамом?

Dan

20.03.2018
18:44:21

Это уже второй такой вопрос за сегодня

Есть, но дорого. Сдаётся в аренду

Проксимов

20.03.2018
18:45:45

Добрый вечер! Не знаете, есть ли в свободном доступе датасет с русскими рекламными сообщениями или спамом?

Могу насобирать с моего чатика))

Alexey

20.03.2018
18:45:57

Есть, но дорого. Сдаётся в аренду

Датасет? пример текстов можете показать?

Dan

20.03.2018
18:46:40

Датасет? пример текстов можете показать?

Я спрошу по поводу примера. А вы пока скажите для чего, и в каком объёме вам это интересно. Потому что там ~миллиард записей точно, но возможно их намного больше

Проксимов

20.03.2018
18:47:22

Я спрошу по поводу примера. А вы пока скажите для чего, и в каком объёме вам это интересно. Потому что там ~миллиард записей точно, но возможно их намного больше

Упал со стула*

Alexey

20.03.2018
18:47:23

порядка миллиона.

Dan

20.03.2018
18:48:14

Я уточню. База не моя. Но знаю что парни дают в аренду данные. Дорого, но охренительно эффективно

Антон

21.03.2018
05:50:05

Доброго утра. Посоветуйте интересный ресурс по Spark на русском. :)

Roman

21.03.2018
06:07:27

Доброго утра. Посоветуйте интересный ресурс по Spark на русском. :)

http://www.spark-interfax.ru/

Admin

ERROR: S client not available

Антон

21.03.2018
06:12:41

а кроме шуток? )

Roman

21.03.2018
06:13:45

а кроме шуток? )

Хабр тег spark

Grigory

21.03.2018
09:13:02

Хабр тег spark

я даже не знаю что больше пользы принесет первая ссылка или тег на хабре

Mike

21.03.2018
10:56:15

Привет всем! Что лучше использовать для кластеризации пользователей по гео инфе (масштаб "страна"). Есть идея на счет центров кластеров как "больших городов". Так же интересует, если кто соприкасался с визуализацией - подскажите либки (d3.js, etc)

Pavel