@bigdata_ru

Страница 253 из 327
Igor
02.04.2018
07:49:50
Спасибо, но не подошло, через цикл сделал
посмотрите на функцию pivot в пандас

Ilya
02.04.2018
08:55:26
Всем привет! Подскажите, а здесь есть те кто, занимается цифровизацией бигдата? То есть переводит какие-то аналоговые большие данные в цифру?

Dan
02.04.2018
08:56:44
Ты имеешь в виду Scan -> OCR -> Sort ?

Google
Ilya
02.04.2018
08:59:46
Ты имеешь в виду Scan -> OCR -> Sort ?
не совсем оусиа, а допустим 1000+ показаний(датчики) и связки их в датасет, так скажем

Dan
02.04.2018
09:07:30
Знакомый занимался какими-то исследованиями для энергосбывающей компании (которая электричество продаёт). Что-то переводили в цифровой вид, много считали, много думали.

А в чём вопрос-то?

Ilya
02.04.2018
09:10:07
А в чём вопрос-то?
Конкретики мало, хотел узнать, занимается ли кто-то, чем-то другим кроме OCR :)

Dan
02.04.2018
09:10:33
opencv ?

Ilya
02.04.2018
09:11:56
Opencv либа для обработки видеопотока, насколько помню, есть "запрос" на обработку различных данных с датчиков, но много непонятного :)

вот решил спросить в чате, не могу похвастаться большим опытом в BD

Roman
02.04.2018
09:13:05
у Абби есть FlaxyCapture помогает из бумаги выдерать данные и на них вешать проверки

Ilya
02.04.2018
09:13:28
у нас тут сельское хозяйство)

Ilya
02.04.2018
09:14:44
Нет, к сожалению)

Google
Ilya
02.04.2018
09:14:59
кстати, есть ли здесь люди кто проходил скиллфактори по дата сайнс?

Dan
02.04.2018
09:15:43
Если с датчиков по серийному порту снимать - то мы тоже такое вроде делали с ребятами. Правда речи о действительно больших данных там не было, так, всё в пределах 1500-2000 записей в сутки

Насчёт тех кто проходил или проходит курсы - не уверен, но точно знаю что здесь есть те, кто интересовался ими и общался со skillfactory

Dan
02.04.2018
09:19:03
А бигдата это какие пределы записей в сутки?
Ох, это же самый популярный вопрос. Второй по популярности в индустрии. И на него нет ответа ? Для кого-то и 1000 записей уже бигдата, а кому-то террабайта в монге пошарденой мало.

А первый популярный вопрос - как стать дата сайнтистом ?

Ilya
02.04.2018
09:22:48
А первый популярный вопрос - как стать дата сайнтистом ?
видел видео с парнем из сбера, он отвечал на вопрос, так вот он говорил что мат анализ нужно "хорошо" знать, конечно логично, но получается высокий порог входа, верно?

yopp
02.04.2018
09:35:14
А бигдата это какие пределы записей в сутки?
Когда хранить становится сложно. У каждого свой предел :)

Что ты узнать то хочешь?

Были у нас разные инсталляции. Вода, газ, нефть, водное навигационное оборудование, железнодорожные сигнальные системы. Данных было не очень много, до нескольких десятков тысяч исторических точек в секунду на одной крупной инсталляции.

Система представляла из себя дешборд для визуализации данных и построения отчётов и API для обработки данных. Были примеры интеграции с различными оптимизиационными системами, которые через наш фронтенд получали данные и на из основании генерировали новые данные (расписания работы оборудования например), которые опять же через наш фроентенд уходили назад в SCADA

Алексей Дмитриевич
02.04.2018
13:13:05
Шалом, комрады. Никто данные по ТН ВЭД не майнил? Есть там тема как по кодам контрагентов подтягивать? Я так понял, основной источник это сайтина WTO?

Ilya
02.04.2018
13:16:36
Что ты узнать то хочешь?
Я пока формирую, тот вопрос который был, решил сам.

За внимание благодарю

Dan
02.04.2018
13:56:55
#образование #обучение #Otus Очередной курс "Разработчик BigData" начался — успешно прошло вводное занятие. Но пока еще можно плавно влиться в ряды слушателей этого набора https://otus.pw/Da7h/ Вас научат основам анализа данных: расскажут о предобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научат обрабатывать объемы данных, для обработки которых недостаточно одной машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний. Лекции читает Ксения Стройкова — математик, преподаватель проекта Технопарк MailRu, разработчик и аналитик проектов по обработке больших данных в рекламных системах, выпускница МГТУ им. Н. Э. Баумана. Читайте программу и особые условия от Avito для лучших выпускников, проходите вступительное тестирование для оценки своих знаний — и присоединяйтесь к слушателям группы "Разработчик BigData" https://otus.pw/Da7h/

От себя добавлю, что данный курс НЕ для совсем новичков. Требуется некоторый опыт в питоне. Впрочем, подробнее смотрите в тестировании

Alex
02.04.2018
14:40:52
Привет. Нужен инструмент для data quality чтоб с sas дружил. Порекомендуйте, пожалуйста.

Valentin
02.04.2018
14:41:42
SAS DQ

Alex
02.04.2018
14:42:17
Он стоит конских денег. Не оправдано

Google
Николай
02.04.2018
14:42:24
Aleksey
02.04.2018
16:29:02
Всем привет. Есть банковские данные по клиентам: рейтинг кредитной истории, баллы клиента, статус платежа, штрафной срок, пол, сумма займа, дата рождения. В общем довольно разнородные. Нужно найти положительные/отрицательные характеристики. Я так понимаю можно при помощи логистической регрессии это сделать.. Может кто знает где можно посмотреть реализацию похожих задач или как лучше/проще сделать можно. Буду рад любым советам.

Admin
ERROR: S client not available

Aleksey
02.04.2018
16:42:44
Спасибо большое)

Aleksey
02.04.2018
17:17:01
Данные клиентов которым дали выплаты, из них 25% просрочили платеж(это одна из известных характеристик). А в тз написано так: На основании анализа характеристик определить: 1) Какие характеристики являются положительными 2) Какие характеристики являются отрицательными Я так понял надо просто найти в характеристиках что то типо допустимых значений.

Andrey
02.04.2018
17:18:11
Вы нашли друг друга: клиент нанимает исполнителя без малейшего понимания предметной области - исполнитель пытается что-то исполнить по советам из чатика.

Aleksey
02.04.2018
17:20:24
На самом деле я не исполнитель, мне за это никто не платит)

И я только учусь.

Andrey
02.04.2018
17:22:02
Учеба подразумевает изучение учебных материалов. Например, того же курса, на который ссыль выше

Anton
03.04.2018
10:40:27
Jace: Здравствуйте, я недавно начал изучения rnn,пытаюсь реализовать классифика тор текста.Подскажите пожалуйста в чем может быть причина того,что сеть обучается на 100%,но предсказания делает весьма ошибочные? Может это быть из-за маленького датасета?

Alexey
03.04.2018
10:41:19
В том что сетка как плохой студент просто зазубрила датасет

100% это не есть хорошо(

Anton
03.04.2018
10:41:50
Вот и я так думаю(

Alexey
03.04.2018
10:41:57
Что показывает на валидационном множестве?

Anton
03.04.2018
10:42:11
Это из-за маленького набора данных происходит ?

Alexey
03.04.2018
10:43:12
И из за него и из за количества эпох (мое мнение)

Илья
03.04.2018
10:47:06
Всем привет

Google
Илья
03.04.2018
10:47:14
Ребята, нубские вопросы можно задавать тут?)

Alexey
03.04.2018
10:51:46
Хз. Думаю это к авторам чата. Тут мы многие неучи(

Dmitry
03.04.2018
13:34:36
твоя ошибка в том что ты тренируешь до упора и потом тестируешь, а нужно тестировать в процессе тренировки (например каждую эпоху) и как только точность на train и validation множествах начинает достоверно расходиться, можно останавливать обучения и думать что с этим делать - скорее всего добавлять регуляризацию как тут пишут, или увеличивать датасет как честно путем создания новых данных или с помощью data augmentation. Затем если точность на training множестве из-за добавления регуляризации упала, нужно увеличивать сложность модели, и так до победного

Страница 253 из 327