@bigdata_ru

« Назад

Страница 253 из 327

Далее »

Galina

02.04.2018
07:43:00

https://www.dropbox.com/s/px7qv8zm328ltca/ ребят где можно скачать все части данного курса?

https://github.com/demidovakatya/mashinnoye-obucheniye

Igor

02.04.2018
07:49:50

Спасибо, но не подошло, через цикл сделал

посмотрите на функцию pivot в пандас

Ilya

02.04.2018
08:55:26

Всем привет! Подскажите, а здесь есть те кто, занимается цифровизацией бигдата? То есть переводит какие-то аналоговые большие данные в цифру?

Dan

02.04.2018
08:56:44

Ты имеешь в виду Scan -> OCR -> Sort ?

Google

Ilya

02.04.2018
08:59:46

Ты имеешь в виду Scan -> OCR -> Sort ?

не совсем оусиа, а допустим 1000+ показаний(датчики) и связки их в датасет, так скажем

Dan

02.04.2018
09:07:30

Знакомый занимался какими-то исследованиями для энергосбывающей компании (которая электричество продаёт). Что-то переводили в цифровой вид, много считали, много думали.

А в чём вопрос-то?

Roman

02.04.2018
09:08:26

Всем привет! Подскажите, а здесь есть те кто, занимается цифровизацией бигдата? То есть переводит какие-то аналоговые большие данные в цифру?

вот буквльно сейчас проект. И там правда OCR

Ilya

02.04.2018
09:10:07

А в чём вопрос-то?

Конкретики мало, хотел узнать, занимается ли кто-то, чем-то другим кроме OCR :)

Dan

02.04.2018
09:10:33

opencv ?

Ilya

02.04.2018
09:11:56

Opencv либа для обработки видеопотока, насколько помню, есть "запрос" на обработку различных данных с датчиков, но много непонятного :)

вот решил спросить в чате, не могу похвастаться большим опытом в BD

Roman

02.04.2018
09:13:05

у Абби есть FlaxyCapture помогает из бумаги выдерать данные и на них вешать проверки

Ilya

02.04.2018
09:13:28

у нас тут сельское хозяйство)

Roman

02.04.2018
09:14:21

Opencv либа для обработки видеопотока, насколько помню, есть "запрос" на обработку различных данных с датчиков, но много непонятного :)

ааа

я думал про бумагу

Ilya

02.04.2018
09:14:44

Нет, к сожалению)

Google

Ilya

02.04.2018
09:14:59

кстати, есть ли здесь люди кто проходил скиллфактори по дата сайнс?

Dan

02.04.2018
09:15:43

Если с датчиков по серийному порту снимать - то мы тоже такое вроде делали с ребятами. Правда речи о действительно больших данных там не было, так, всё в пределах 1500-2000 записей в сутки

Насчёт тех кто проходил или проходит курсы - не уверен, но точно знаю что здесь есть те, кто интересовался ими и общался со skillfactory

Ilya

02.04.2018
09:17:33

Если с датчиков по серийному порту снимать - то мы тоже такое вроде делали с ребятами. Правда речи о действительно больших данных там не было, так, всё в пределах 1500-2000 записей в сутки

А бигдата это какие пределы записей в сутки?

Dan

02.04.2018
09:19:03

А бигдата это какие пределы записей в сутки?

Ох, это же самый популярный вопрос. Второй по популярности в индустрии. И на него нет ответа ? Для кого-то и 1000 записей уже бигдата, а кому-то террабайта в монге пошарденой мало.

А первый популярный вопрос - как стать дата сайнтистом ?

Ilya

02.04.2018
09:22:48

видел видео с парнем из сбера, он отвечал на вопрос, так вот он говорил что мат анализ нужно "хорошо" знать, конечно логично, но получается высокий порог входа, верно?

yopp

02.04.2018
09:35:14

Всем привет! Подскажите, а здесь есть те кто, занимается цифровизацией бигдата? То есть переводит какие-то аналоговые большие данные в цифру?

Я был архитектором аналитического фронтенда для SCADA систем.

А бигдата это какие пределы записей в сутки?

Когда хранить становится сложно. У каждого свой предел :)

Что ты узнать то хочешь?

Были у нас разные инсталляции. Вода, газ, нефть, водное навигационное оборудование, железнодорожные сигнальные системы. Данных было не очень много, до нескольких десятков тысяч исторических точек в секунду на одной крупной инсталляции.

Система представляла из себя дешборд для визуализации данных и построения отчётов и API для обработки данных. Были примеры интеграции с различными оптимизиационными системами, которые через наш фронтенд получали данные и на из основании генерировали новые данные (расписания работы оборудования например), которые опять же через наш фроентенд уходили назад в SCADA

Алексей Дмитриевич

02.04.2018
13:13:05

Шалом, комрады. Никто данные по ТН ВЭД не майнил? Есть там тема как по кодам контрагентов подтягивать? Я так понял, основной источник это сайтина WTO?

Ilya

02.04.2018
13:16:36

Что ты узнать то хочешь?

Я пока формирую, тот вопрос который был, решил сам.

За внимание благодарю

Dan

02.04.2018
13:56:55

#образование #обучение #Otus Очередной курс "Разработчик BigData" начался — успешно прошло вводное занятие. Но пока еще можно плавно влиться в ряды слушателей этого набора https://otus.pw/Da7h/ Вас научат основам анализа данных: расскажут о предобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научат обрабатывать объемы данных, для обработки которых недостаточно одной машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний. Лекции читает Ксения Стройкова — математик, преподаватель проекта Технопарк MailRu, разработчик и аналитик проектов по обработке больших данных в рекламных системах, выпускница МГТУ им. Н. Э. Баумана. Читайте программу и особые условия от Avito для лучших выпускников, проходите вступительное тестирование для оценки своих знаний — и присоединяйтесь к слушателям группы "Разработчик BigData" https://otus.pw/Da7h/

От себя добавлю, что данный курс НЕ для совсем новичков. Требуется некоторый опыт в питоне. Впрочем, подробнее смотрите в тестировании

Alex

02.04.2018
14:40:52

Привет. Нужен инструмент для data quality чтоб с sas дружил. Порекомендуйте, пожалуйста.

Valentin

02.04.2018
14:41:42

SAS DQ

Alex

02.04.2018
14:42:17

Он стоит конских денег. Не оправдано

Google

Николай

02.04.2018
14:42:24

https://github.com/demidovakatya/mashinnoye-obucheniye

Спасибо вам)

Aleksey

02.04.2018
16:29:02

Всем привет. Есть банковские данные по клиентам: рейтинг кредитной истории, баллы клиента, статус платежа, штрафной срок, пол, сумма займа, дата рождения. В общем довольно разнородные. Нужно найти положительные/отрицательные характеристики. Я так понимаю можно при помощи логистической регрессии это сделать.. Может кто знает где можно посмотреть реализацию похожих задач или как лучше/проще сделать можно. Буду рад любым советам.

Alex

02.04.2018
16:35:59

Всем привет. Есть банковские данные по клиентам: рейтинг кредитной истории, баллы клиента, статус платежа, штрафной срок, пол, сумма займа, дата рождения. В общем довольно разнородные. Нужно найти положительные/отрицательные характеристики. Я так понимаю можно при помощи логистической регрессии это сделать.. Может кто знает где можно посмотреть реализацию похожих задач или как лучше/проще сделать можно. Буду рад любым советам.

https://basegroup.ru/community/articles/logistic

https://habrahabr.ru/company/ods/blog/322534/

Admin

ERROR: S client not available

Aleksey

02.04.2018
16:42:44

Спасибо большое)

Andrey

02.04.2018
17:06:39

Всем привет. Есть банковские данные по клиентам: рейтинг кредитной истории, баллы клиента, статус платежа, штрафной срок, пол, сумма займа, дата рождения. В общем довольно разнородные. Нужно найти положительные/отрицательные характеристики. Я так понимаю можно при помощи логистической регрессии это сделать.. Может кто знает где можно посмотреть реализацию похожих задач или как лучше/проще сделать можно. Буду рад любым советам.

Характеристики чего/кого? От чего зависит положительность/отрицательность?

Aleksey

02.04.2018
17:17:01

Данные клиентов которым дали выплаты, из них 25% просрочили платеж(это одна из известных характеристик). А в тз написано так: На основании анализа характеристик определить: 1) Какие характеристики являются положительными 2) Какие характеристики являются отрицательными Я так понял надо просто найти в характеристиках что то типо допустимых значений.

Andrey

02.04.2018
17:18:11

Вы нашли друг друга: клиент нанимает исполнителя без малейшего понимания предметной области - исполнитель пытается что-то исполнить по советам из чатика.

Aleksey

02.04.2018
17:20:24

На самом деле я не исполнитель, мне за это никто не платит)

И я только учусь.

Andrey

02.04.2018
17:22:02

Учеба подразумевает изучение учебных материалов. Например, того же курса, на который ссыль выше

Anton

03.04.2018
10:40:27

Jace: Здравствуйте, я недавно начал изучения rnn,пытаюсь реализовать классифика тор текста.Подскажите пожалуйста в чем может быть причина того,что сеть обучается на 100%,но предсказания делает весьма ошибочные? Может это быть из-за маленького датасета?

Alexey

03.04.2018
10:41:19

В том что сетка как плохой студент просто зазубрила датасет

100% это не есть хорошо(

Anton

03.04.2018
10:41:50

Вот и я так думаю(

Alexey

03.04.2018
10:41:57

Что показывает на валидационном множестве?

Anton

03.04.2018
10:42:11

Это из-за маленького набора данных происходит ?

Alexey

03.04.2018
10:43:12

И из за него и из за количества эпох (мое мнение)

Илья

03.04.2018
10:47:06

Всем привет

Google

Илья

03.04.2018
10:47:14

Ребята, нубские вопросы можно задавать тут?)

Alexey

03.04.2018
10:51:46

Хз. Думаю это к авторам чата. Тут мы многие неучи(

Alex

03.04.2018
11:13:37

Jace: Здравствуйте, я недавно начал изучения rnn,пытаюсь реализовать классифика тор текста.Подскажите пожалуйста в чем может быть причина того,что сеть обучается на 100%,но предсказания делает весьма ошибочные? Может это быть из-за маленького датасета?

Это типичный признак переобучения. С ней можно бороться методами регуляризации. Самое простое - dropout, копайте туда

Dmitry

03.04.2018
13:34:36

Jace: Здравствуйте, я недавно начал изучения rnn,пытаюсь реализовать классифика тор текста.Подскажите пожалуйста в чем может быть причина того,что сеть обучается на 100%,но предсказания делает весьма ошибочные? Может это быть из-за маленького датасета?

http://cs231n.github.io/neural-networks-3/ параграф Train/Val accuracy

твоя ошибка в том что ты тренируешь до упора и потом тестируешь, а нужно тестировать в процессе тренировки (например каждую эпоху) и как только точность на train и validation множествах начинает достоверно расходиться, можно останавливать обучения и думать что с этим делать - скорее всего добавлять регуляризацию как тут пишут, или увеличивать датасет как честно путем создания новых данных или с помощью data augmentation. Затем если точность на training множестве из-за добавления регуляризации упала, нужно увеличивать сложность модели, и так до победного

« Назад

Страница 253 из 327

Далее »

Открыть в Telegram