
Galina
02.04.2018
07:43:00

Igor
02.04.2018
07:49:50

Ilya
02.04.2018
08:55:26
Всем привет! Подскажите, а здесь есть те кто, занимается цифровизацией бигдата? То есть переводит какие-то аналоговые большие данные в цифру?

Dan
02.04.2018
08:56:44
Ты имеешь в виду Scan -> OCR -> Sort ?

Google

Ilya
02.04.2018
08:59:46

Dan
02.04.2018
09:07:30
Знакомый занимался какими-то исследованиями для энергосбывающей компании (которая электричество продаёт). Что-то переводили в цифровой вид, много считали, много думали.
А в чём вопрос-то?

Roman
02.04.2018
09:08:26

Ilya
02.04.2018
09:10:07
А в чём вопрос-то?
Конкретики мало, хотел узнать, занимается ли кто-то, чем-то другим кроме OCR :)

Dan
02.04.2018
09:10:33
opencv ?

Ilya
02.04.2018
09:11:56
Opencv либа для обработки видеопотока, насколько помню, есть "запрос" на обработку различных данных с датчиков, но много непонятного :)
вот решил спросить в чате, не могу похвастаться большим опытом в BD

Roman
02.04.2018
09:13:05
у Абби есть FlaxyCapture помогает из бумаги выдерать данные и на них вешать проверки

Ilya
02.04.2018
09:13:28
у нас тут сельское хозяйство)

Roman
02.04.2018
09:14:21
я думал про бумагу

Ilya
02.04.2018
09:14:44
Нет, к сожалению)

Google

Ilya
02.04.2018
09:14:59
кстати, есть ли здесь люди кто проходил скиллфактори по дата сайнс?

Dan
02.04.2018
09:15:43
Если с датчиков по серийному порту снимать - то мы тоже такое вроде делали с ребятами. Правда речи о действительно больших данных там не было, так, всё в пределах 1500-2000 записей в сутки
Насчёт тех кто проходил или проходит курсы - не уверен, но точно знаю что здесь есть те, кто интересовался ими и общался со skillfactory

Ilya
02.04.2018
09:17:33

Dan
02.04.2018
09:19:03
А бигдата это какие пределы записей в сутки?
Ох, это же самый популярный вопрос. Второй по популярности в индустрии. И на него нет ответа ? Для кого-то и 1000 записей уже бигдата, а кому-то террабайта в монге пошарденой мало.
А первый популярный вопрос - как стать дата сайнтистом ?

Ilya
02.04.2018
09:22:48

yopp
02.04.2018
09:35:14
Что ты узнать то хочешь?
Были у нас разные инсталляции. Вода, газ, нефть, водное навигационное оборудование, железнодорожные сигнальные системы. Данных было не очень много, до нескольких десятков тысяч исторических точек в секунду на одной крупной инсталляции.
Система представляла из себя дешборд для визуализации данных и построения отчётов и API для обработки данных. Были примеры интеграции с различными оптимизиационными системами, которые через наш фронтенд получали данные и на из основании генерировали новые данные (расписания работы оборудования например), которые опять же через наш фроентенд уходили назад в SCADA


Алексей Дмитриевич
02.04.2018
13:13:05
Шалом, комрады. Никто данные по ТН ВЭД не майнил? Есть там тема как по кодам контрагентов подтягивать? Я так понял, основной источник это сайтина WTO?

Ilya
02.04.2018
13:16:36
За внимание благодарю


Dan
02.04.2018
13:56:55
#образование #обучение #Otus
Очередной курс "Разработчик BigData" начался — успешно прошло вводное занятие.
Но пока еще можно плавно влиться в ряды слушателей этого набора https://otus.pw/Da7h/
Вас научат основам анализа данных: расскажут о предобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научат обрабатывать объемы данных, для обработки которых недостаточно одной машины.
Все задачи будут проработаны на практике как на учебных, так и на реальных данных.
Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний.
Лекции читает Ксения Стройкова — математик, преподаватель проекта Технопарк MailRu, разработчик и аналитик проектов по обработке больших данных в рекламных системах, выпускница МГТУ им. Н. Э. Баумана.
Читайте программу и особые условия от Avito для лучших выпускников, проходите вступительное тестирование для оценки своих знаний — и присоединяйтесь к слушателям группы "Разработчик BigData" https://otus.pw/Da7h/
От себя добавлю, что данный курс НЕ для совсем новичков. Требуется некоторый опыт в питоне. Впрочем, подробнее смотрите в тестировании


Alex
02.04.2018
14:40:52
Привет. Нужен инструмент для data quality чтоб с sas дружил. Порекомендуйте, пожалуйста.

Valentin
02.04.2018
14:41:42
SAS DQ

Alex
02.04.2018
14:42:17
Он стоит конских денег. Не оправдано

Google

Николай
02.04.2018
14:42:24

Aleksey
02.04.2018
16:29:02
Всем привет. Есть банковские данные по клиентам: рейтинг кредитной истории, баллы клиента, статус платежа, штрафной срок, пол, сумма займа, дата рождения. В общем довольно разнородные. Нужно найти положительные/отрицательные характеристики. Я так понимаю можно при помощи логистической регрессии это сделать.. Может кто знает где можно посмотреть реализацию похожих задач или как лучше/проще сделать можно. Буду рад любым советам.

Alex
02.04.2018
16:35:59
https://habrahabr.ru/company/ods/blog/322534/

Admin
ERROR: S client not available

Aleksey
02.04.2018
16:42:44
Спасибо большое)

Andrey
02.04.2018
17:06:39

Aleksey
02.04.2018
17:17:01
Данные клиентов которым дали выплаты, из них 25% просрочили платеж(это одна из известных характеристик).
А в тз написано так:
На основании анализа характеристик определить:
1) Какие характеристики являются положительными
2) Какие характеристики являются отрицательными
Я так понял надо просто найти в характеристиках что то типо допустимых значений.

Andrey
02.04.2018
17:18:11
Вы нашли друг друга: клиент нанимает исполнителя без малейшего понимания предметной области - исполнитель пытается что-то исполнить по советам из чатика.

Aleksey
02.04.2018
17:20:24
На самом деле я не исполнитель, мне за это никто не платит)
И я только учусь.

Andrey
02.04.2018
17:22:02
Учеба подразумевает изучение учебных материалов. Например, того же курса, на который ссыль выше

Anton
03.04.2018
10:40:27
Jace:
Здравствуйте, я недавно начал изучения rnn,пытаюсь реализовать классифика тор текста.Подскажите пожалуйста в чем может быть причина того,что сеть обучается на 100%,но предсказания делает весьма ошибочные? Может это быть из-за маленького датасета?

Alexey
03.04.2018
10:41:19
В том что сетка как плохой студент просто зазубрила датасет
100% это не есть хорошо(

Anton
03.04.2018
10:41:50
Вот и я так думаю(

Alexey
03.04.2018
10:41:57
Что показывает на валидационном множестве?

Anton
03.04.2018
10:42:11
Это из-за маленького набора данных происходит ?

Alexey
03.04.2018
10:43:12
И из за него и из за количества эпох (мое мнение)

Илья
03.04.2018
10:47:06
Всем привет

Google

Илья
03.04.2018
10:47:14
Ребята, нубские вопросы можно задавать тут?)

Alexey
03.04.2018
10:51:46
Хз. Думаю это к авторам чата. Тут мы многие неучи(

Alex
03.04.2018
11:13:37

Dmitry
03.04.2018
13:34:36
твоя ошибка в том что ты тренируешь до упора и потом тестируешь, а нужно тестировать в процессе тренировки (например каждую эпоху) и как только точность на train и validation множествах начинает достоверно расходиться, можно останавливать обучения и думать что с этим делать - скорее всего добавлять регуляризацию как тут пишут, или увеличивать датасет как честно путем создания новых данных или с помощью data augmentation. Затем если точность на training множестве из-за добавления регуляризации упала, нужно увеличивать сложность модели, и так до победного