@bigdata_ru

« Назад

Страница 127 из 327

Далее »

Vova

23.08.2017
15:06:21

((

написал длинющий пост про монгу и телеграм его куда то дел...

Dan

23.08.2017
15:07:23

Ctrl-z

Vova

23.08.2017
15:08:54

он даже на мгновение в ленте появился, это как?

Google

Vova

23.08.2017
15:09:21

десктопный телек у меня, может глючит

Dan

23.08.2017
15:09:36

А

Это бот

Vox: Вот её родиму и использую. 1. Общение м\у клиентом и монгой не сжато. Это важно т.к. данные на дисках у монги сжаты. И общения внтури кластера (уже) тоже. А бигдата это легкосжимаемые таблицы (как правило). Когда реализуют - непонятно. 2. Непонятные ограничения. Мне нужно скачать с монги на инстанс данные. Эксперементально найдено, что 9-11 потоков оптимально. Прямо U образная кривая от кол-ва потоков. Не сильно зависит от ядер, от RAM, от LAN... непонятно 3. Встроенный MR как кажется для галочки (а так хотелось много нодного многопоточного и серёзного). 4. В любом случае Монго это всё же база. На ней нужно строить что то сверху. Я пользуюсь ArcticDB - надстройка для хранения Padas в монге с упором ня временные ряды и read perfomance . Чанки+индекс чанков. 5. Нет filtered replication (пока). 6. В чистом виде для временных рядов не подходит (п.4) 7. прожорлива во всех смыслах (inplace заменён на лог в WiredTiger). Хотя это плата за надёжность (возможно). 8. В целом наверно не замена HDFS для РЕАЛЬНО больших данных. Например десятков терабайт интенсивно прожовываемых. Для более скроменых задач особенно типа -"данных относительно много, но во каждый момент времени юзается 10% от силы" - удобна (удобнее HDFS намного, это же БД в конце концов) 9. Не SQL и это нужно понимать 10.Централизовованная! Одна нода для записи ВСЕГО. Паралельное чтение из реплики-сет к росту перфомнаса на чтение не ведёт - так написано в мануалах. И действительно. И я хз почему так. Из 10 нод по 10 потоков читает примерно также как с одной. Пытался понять в чём затык... не понял. Вроде насыщения ни в чём нет. Говорят что шардирование даёт намного лучшие (by design) результаты. Но всё равно вся база намекает на на одну точку входа. А для Big Data это не очень. PS Лично мне для моих задач ОЧЕНЬ нравится. Я даже стал ей использовать для личного файлохранилища. Типа вместо FTP\Samba...

Бот суровый

Vova

23.08.2017
15:09:58

бздец, я чуть не поседел

Dan

23.08.2017
15:10:06

Удалил, посчитал за флуд

?

Vlad

23.08.2017
15:10:34

Помню тоже писал один раз вопрос человеку, бот удалял нещадно, забил)

Vova

23.08.2017
15:13:37

у меня уже 1-2 раза резало тут, я думал, что это я уже старый и глючу.

теперь хоть знаю

yopp

23.08.2017
15:30:49

у меня уже 1-2 раза резало тут, я думал, что это я уже старый и глючу.

?

по поводу 1) — в 3.6

Google

yopp

23.08.2017
15:31:19

Сам протокол уже поддерживает компрессию, но драйвера пока нет.

3.6 вообще будет большим и интересным релизом. Рекомендую почитать: https://emptysqua.re/blog/driver-features-for-mongodb-3-6/

На бигдате может не критично, записи пропадали просто так. И на сингл и на кластере. Единицы но факт

Неудачная вставка?

Kaspar

23.08.2017
15:44:29

Неудачная вставка?

расследование ничего не выявило. Exception тоже не отлавливался. Так что магия. Гугление показало что это распространенная проблема

Tenni

23.08.2017
15:45:14

косяк приложения?

Kaspar

23.08.2017
15:45:23

возможно это был баг конкретной версии, но с тех пор желания использовать ее данные важные - нет

yopp

23.08.2017
15:45:28

Эм. Вообще нет. На standalone со строгими настройками записи это невозможно в принципе

Kaspar

23.08.2017
15:45:32

косяк версии монги. Было 2 года назад

Tenni

23.08.2017
15:45:57

ты бы хоть версию написал

yopp

23.08.2017
15:46:25

В кластере до 3.4 были ситуации, но связанные с состоянием когда в кластере нештатная ситуация.

Kaspar

23.08.2017
15:48:09

ты бы хоть версию написал

сорри, я попытался найти чтобы не быть голословным. Но пока не удалось.

регулярно использую для свалки результатов парсинга когда не очень критична потеря пары записей. Например сборка большого каскада текстов, диалогов и тп

yopp

24.08.2017
08:38:36

У меня есть некоторые короткие последовательности символов, связанные с рядом числовых атрибутов. Гипотеза состоит в том, что есть какая-то скрытая зависимость между последовательностью и значениями атрибутов. Хочу её экспериментально проверить. Какой наиболее корректный способ представления последовательности символов как вводных данных? Средняя длинна последовательности 7 символов, максимальная 64. Набор и частоту символов ещё не анализировал, но уверен что 80% укладывается в английский алфавит. Регистр, вероятно, роли не играет.

Andrey

24.08.2017
09:05:29

one-hot encoding или индекс в словаре

yopp

24.08.2017
09:39:08

А почему one-hot а не бинарное представление?

Andrey

24.08.2017
09:47:36

что есть бинарное представление?

yopp

24.08.2017
10:04:48

Последовательность {0,1} описывающая символ в какой-то кодировке?

Andrey

24.08.2017
10:14:02

Это ничем не отличается от индекса в словаре

Alexander

24.08.2017
12:48:55

Джентельмены, посоветуйте хорошего ТимЛида DS. В крупную авиакомпанию, они анализируют инфу с датчиков самолетов. Руководитель хочет передать свои задачи новому ТЛу.

Vova

24.08.2017
15:26:25

из общего интереса можно ли позадавать вопросы о ваших задачах в этой предметной области?

Google

Alexander

24.08.2017
15:33:05

из общего интереса можно ли позадавать вопросы о ваших задачах в этой предметной области?

конечно. я предполагаю, что интересуют задачи именно по ДатаСаенсу? - Временные ряды, предиктивные модели, поиск аномалий. Предсказание отказа оборудования на самолете и т.п. Еще есть поиск лучшего маршрута.

задавайте вопросы, постараюсь ответить по возможности

Vova

24.08.2017
15:44:26

вот что интересно- в принципе применимость всей концепции ML и BD к данной предметной области, ведь что нужно как я понимаю - предсказать появление tail обытий - редковстречающихся дизастер ивентов. Т.е., условно, на 10ки терабайт данных записанных за годы - только один бит обучающей выборки (такого то числа во столько времени случилось ужасное). Я, понятное дело, утрирую - но не кажется ли вам что это скорее построение модели самолётных систем, а не обучение каких то стстат-моделей. Т.е. совсем не тема про бигдату и мл в их общепринятом сегодня контексте...

надеюсь смог донести свою мысль

yopp

24.08.2017
15:45:24

вот что интересно- в принципе применимость всей концепции ML и BD к данной предметной области, ведь что нужно как я понимаю - предсказать появление tail обытий - редковстречающихся дизастер ивентов. Т.е., условно, на 10ки терабайт данных записанных за годы - только один бит обучающей выборки (такого то числа во столько времени случилось ужасное). Я, понятное дело, утрирую - но не кажется ли вам что это скорее построение модели самолётных систем, а не обучение каких то стстат-моделей. Т.е. совсем не тема про бигдату и мл в их общепринятом сегодня контексте...

Предсказание отказов это не один бит.

Vova

24.08.2017
15:46:57

предсказание отказов это вообще статистика распределений

наработка на отказ и прочее

классическая статистика

yopp

24.08.2017
15:47:51

Я с этим из другой области встречался, но в целом это достаточно большой объём данных. Есть оборудование, у него есть какие-то расчётные параметры. Выход оборудования за эти параметры — отказ. Вопрос обычно ставится так: какие есть другие параметры, которые можно использовать как ранние индикаторы отказа

Vova

24.08.2017
15:48:40

я понял

у меня есть такая задача, которую я мог бы описать вот такой моделью: предположим по площади хаотично (случайно, например двумерный FBM) шагами (на каждый такт) движутся люди. В случайный, нерегулярный, редкий момент времени (0.01% всего времени в среднем) эти люди вынимают из кармана бумажку и делают несколько (3-4-5..10) шагов строго по указаниям бумажки, причём эти указания в бумажке сгенерированы каким то детерминированным законом (есть не сложная формула, но мы о ней не знаем). Задача - обнаружить эти моменты, и спрогнозировать шаги в рамках этих редких моментов.

И мой жизненный вывод для этого класса задач: мы должны МНОГО знать "наводок" о том самом детерменированном законе, что бы подобраться к решению. Т.е. глубоко знать предметную область на уровне "механики". И это не задача ML\BD, это задача глубокого понимания области мозгом, на инженерно-конструкторском, так сказать, уровне. Вероятно из той же темы, что и обсуждаемая.

Но это ещё тот траходром...

Alex

24.08.2017
17:32:22

Похоже на моделирование монтекарло

Опредилить макрозаконы на основе неизвестных микрозаконов

Markо

24.08.2017
18:34:41

Салют, очень инетерсные дискуссии тут =) Вопрос, кто -то занимался скрэпингом данных из соц сетей (инстаграм например) и анализом инфы?

Kaspar

24.08.2017
19:03:59

какой, например?

я занимался, дело не благодарное

Markо

24.08.2017
19:08:37

ну например heatmap содержимого фотографий и локаций

Ivan

24.08.2017
19:55:01

у меня есть такая задача, которую я мог бы описать вот такой моделью: предположим по площади хаотично (случайно, например двумерный FBM) шагами (на каждый такт) движутся люди. В случайный, нерегулярный, редкий момент времени (0.01% всего времени в среднем) эти люди вынимают из кармана бумажку и делают несколько (3-4-5..10) шагов строго по указаниям бумажки, причём эти указания в бумажке сгенерированы каким то детерминированным законом (есть не сложная формула, но мы о ней не знаем). Задача - обнаружить эти моменты, и спрогнозировать шаги в рамках этих редких моментов.

мхм, а целевых переменных а-ля момент отказа разве нет?

Google

Vova

24.08.2017
21:57:50

мхм, а целевых переменных а-ля момент отказа разве нет?

где то есть, а где то нет

мхм, а целевых переменных а-ля момент отказа разве нет?

но выборка таких событий слишком мала (если есть) и в этом проблема

Ivan

24.08.2017
21:59:48

и как задача решается в данный момент?

Vova

24.08.2017
22:01:02

нам нужен реальный суперпрофи, эдакий мегамастодонт, который вручную прокручивает данные и говорит что "похоже вот этот датчик скоро наебнётся "и вот этот traning set и есть самый важный

Ivan

24.08.2017
22:01:47

возьмите техника дядю васю, обучите его МЛ и он вам все сделает

задача стара как мир - что проще, научить ученого программировать или программиста реализовать задумки ученого? Первый подход в разы продуктивнее

Vova

24.08.2017
22:02:55

и как задача решается в данный момент?

поиском дорогих "интуитивных" специалистов готовых "поделиться" своими скилзами с ML, поиском дорогих "конструкторов" создающих предметные имитационные модели отказа-поломки, имплементирующие реальный механизм с какой то абстракцией

задача стара как мир - что проще, научить ученого программировать или программиста реализовать задумки ученого? Первый подход в разы продуктивнее

именно

задача стара как мир - что проще, научить ученого программировать или программиста реализовать задумки ученого? Первый подход в разы продуктивнее

но имхо часто ищут в дата сайнс программистов которые должны из массива данных сдать гениями извлечения :) нихрена не понимая предметную область

что то у меня чат опять ест мессаги

пишу через "эт" Александру Лаврову а пост исчезает

Ivan

24.08.2017
22:26:54

поиском дорогих "интуитивных" специалистов готовых "поделиться" своими скилзами с ML, поиском дорогих "конструкторов" создающих предметные имитационные модели отказа-поломки, имплементирующие реальный механизм с какой то абстракцией

когда я начал изучение МЛ я тоже был уверен, что буду доставать кроликов из шляп, точнее, черный ящик МЛ будет это делать

Yury

25.08.2017
07:14:27

По поводу оборудования и его отказов... Почему-то никто не вспомнил хакатон от Касперского, который в этом году был. Там исследовали практически этот вопрос. Вот видео с разбором задач. https://www.youtube.com/watch?v=SDlr8v40WWc Сама задача заключалась в нахождении признаков взлома ПЛК на предприятии. А по сути нахождение аномалий в работе установок. Как я понял, сейчас такие задачи можно решать с помощью LSTM.

Kaspar

25.08.2017
07:16:44

спасибо за видос

« Назад

Страница 127 из 327

Далее »

Открыть в Telegram