
Vova
23.08.2017
15:06:21
((
написал длинющий пост про монгу и телеграм его куда то дел...

Dan
23.08.2017
15:07:23
Ctrl-z

Vova
23.08.2017
15:08:54
он даже на мгновение в ленте появился, это как?

Google

Vova
23.08.2017
15:09:21
десктопный телек у меня, может глючит


Dan
23.08.2017
15:09:36
А
Это бот
Vox:
Вот её родиму и использую.
1. Общение м\у клиентом и монгой не сжато. Это важно т.к. данные на дисках у монги сжаты. И общения внтури кластера (уже) тоже. А бигдата это легкосжимаемые таблицы (как правило). Когда реализуют - непонятно.
2. Непонятные ограничения. Мне нужно скачать с монги на инстанс данные. Эксперементально найдено, что 9-11 потоков оптимально. Прямо U образная кривая от кол-ва потоков. Не сильно зависит от ядер, от RAM, от LAN... непонятно
3. Встроенный MR как кажется для галочки (а так хотелось много нодного многопоточного и серёзного).
4. В любом случае Монго это всё же база. На ней нужно строить что то сверху. Я пользуюсь ArcticDB - надстройка для хранения Padas в монге с упором ня временные ряды и read perfomance . Чанки+индекс чанков.
5. Нет filtered replication (пока).
6. В чистом виде для временных рядов не подходит (п.4)
7. прожорлива во всех смыслах (inplace заменён на лог в WiredTiger). Хотя это плата за надёжность (возможно).
8. В целом наверно не замена HDFS для РЕАЛЬНО больших данных. Например десятков терабайт интенсивно прожовываемых. Для более скроменых задач особенно типа -"данных относительно много, но во каждый момент времени юзается 10% от силы" - удобна (удобнее HDFS намного, это же БД в конце концов)
9. Не SQL и это нужно понимать
10.Централизовованная! Одна нода для записи ВСЕГО. Паралельное чтение из реплики-сет к росту перфомнаса на чтение не ведёт - так написано в мануалах. И действительно. И я хз почему так. Из 10 нод по 10 потоков читает примерно также как с одной. Пытался понять в чём затык... не понял. Вроде насыщения ни в чём нет. Говорят что шардирование даёт намного лучшие (by design) результаты. Но всё равно вся база намекает на на одну точку входа. А для Big Data это не очень.
PS Лично мне для моих задач ОЧЕНЬ нравится. Я даже стал ей использовать для личного файлохранилища. Типа вместо FTP\Samba...
Бот суровый


Vova
23.08.2017
15:09:58
бздец, я чуть не поседел

Dan
23.08.2017
15:10:06
Удалил, посчитал за флуд
?

Vlad
23.08.2017
15:10:34
Помню тоже писал один раз вопрос человеку, бот удалял нещадно, забил)

Vova
23.08.2017
15:13:37
у меня уже 1-2 раза резало тут, я думал, что это я уже старый и глючу.
теперь хоть знаю

yopp
23.08.2017
15:30:49
по поводу 1) — в 3.6

Google

yopp
23.08.2017
15:31:19
Сам протокол уже поддерживает компрессию, но драйвера пока нет.
3.6 вообще будет большим и интересным релизом. Рекомендую почитать: https://emptysqua.re/blog/driver-features-for-mongodb-3-6/

Kaspar
23.08.2017
15:44:29
Неудачная вставка?
расследование ничего не выявило. Exception тоже не отлавливался. Так что магия. Гугление показало что это распространенная проблема

Tenni
23.08.2017
15:45:14
косяк приложения?

Kaspar
23.08.2017
15:45:23
возможно это был баг конкретной версии, но с тех пор желания использовать ее данные важные - нет

yopp
23.08.2017
15:45:28
Эм. Вообще нет. На standalone со строгими настройками записи это невозможно в принципе

Kaspar
23.08.2017
15:45:32
косяк версии монги. Было 2 года назад

Tenni
23.08.2017
15:45:57
ты бы хоть версию написал

yopp
23.08.2017
15:46:25
В кластере до 3.4 были ситуации, но связанные с состоянием когда в кластере нештатная ситуация.

Kaspar
23.08.2017
15:48:09
регулярно использую для свалки результатов парсинга когда не очень критична потеря пары записей. Например сборка большого каскада текстов, диалогов и тп

yopp
24.08.2017
08:38:36
У меня есть некоторые короткие последовательности символов, связанные с рядом числовых атрибутов. Гипотеза состоит в том, что есть какая-то скрытая зависимость между последовательностью и значениями атрибутов. Хочу её экспериментально проверить.
Какой наиболее корректный способ представления последовательности символов как вводных данных? Средняя длинна последовательности 7 символов, максимальная 64. Набор и частоту символов ещё не анализировал, но уверен что 80% укладывается в английский алфавит. Регистр, вероятно, роли не играет.

Andrey
24.08.2017
09:05:29
one-hot encoding или индекс в словаре

yopp
24.08.2017
09:39:08
А почему one-hot а не бинарное представление?

Andrey
24.08.2017
09:47:36
что есть бинарное представление?

yopp
24.08.2017
10:04:48
Последовательность {0,1} описывающая символ в какой-то кодировке?

Andrey
24.08.2017
10:14:02
Это ничем не отличается от индекса в словаре

Alexander
24.08.2017
12:48:55
Джентельмены, посоветуйте хорошего ТимЛида DS. В крупную авиакомпанию, они анализируют инфу с датчиков самолетов. Руководитель хочет передать свои задачи новому ТЛу.

Vova
24.08.2017
15:26:25
из общего интереса можно ли позадавать вопросы о ваших задачах в этой предметной области?

Google

Alexander
24.08.2017
15:33:05
задавайте вопросы, постараюсь ответить по возможности

Vova
24.08.2017
15:44:26
вот что интересно- в принципе применимость всей концепции ML и BD к данной предметной области, ведь что нужно как я понимаю - предсказать появление tail обытий - редковстречающихся дизастер ивентов. Т.е., условно, на 10ки терабайт данных записанных за годы - только один бит обучающей выборки (такого то числа во столько времени случилось ужасное). Я, понятное дело, утрирую - но не кажется ли вам что это скорее построение модели самолётных систем, а не обучение каких то стстат-моделей. Т.е. совсем не тема про бигдату и мл в их общепринятом сегодня контексте...
надеюсь смог донести свою мысль

yopp
24.08.2017
15:45:24

Vova
24.08.2017
15:46:57
предсказание отказов это вообще статистика распределений
наработка на отказ и прочее
классическая статистика

yopp
24.08.2017
15:47:51
Я с этим из другой области встречался, но в целом это достаточно большой объём данных. Есть оборудование, у него есть какие-то расчётные параметры. Выход оборудования за эти параметры — отказ. Вопрос обычно ставится так: какие есть другие параметры, которые можно использовать как ранние индикаторы отказа


Vova
24.08.2017
15:48:40
я понял
у меня есть такая задача, которую я мог бы описать вот такой моделью: предположим по площади хаотично (случайно, например двумерный FBM) шагами (на каждый такт) движутся люди. В случайный, нерегулярный, редкий момент времени (0.01% всего времени в среднем) эти люди вынимают из кармана бумажку и делают несколько (3-4-5..10) шагов строго по указаниям бумажки, причём эти указания в бумажке сгенерированы каким то детерминированным законом (есть не сложная формула, но мы о ней не знаем). Задача - обнаружить эти моменты, и спрогнозировать шаги в рамках этих редких моментов.
И мой жизненный вывод для этого класса задач: мы должны МНОГО знать "наводок" о том самом детерменированном законе, что бы подобраться к решению. Т.е. глубоко знать предметную область на уровне "механики". И это не задача ML\BD, это задача глубокого понимания области мозгом, на инженерно-конструкторском, так сказать, уровне. Вероятно из той же темы, что и обсуждаемая.
Но это ещё тот траходром...


Alex
24.08.2017
17:32:22
Похоже на моделирование монтекарло
Опредилить макрозаконы на основе неизвестных микрозаконов

Markо
24.08.2017
18:34:41
Салют, очень инетерсные дискуссии тут =)
Вопрос, кто -то занимался скрэпингом данных из соц сетей (инстаграм например) и анализом инфы?

Kaspar
24.08.2017
19:03:59
какой, например?
я занимался, дело не благодарное

Markо
24.08.2017
19:08:37
ну например heatmap содержимого фотографий и локаций

Ivan
24.08.2017
19:55:01

Google

Vova
24.08.2017
21:57:50

Ivan
24.08.2017
21:59:48
и как задача решается в данный момент?

Vova
24.08.2017
22:01:02
нам нужен реальный суперпрофи, эдакий мегамастодонт, который вручную прокручивает данные и говорит что "похоже вот этот датчик скоро наебнётся "и вот этот traning set и есть самый важный

Ivan
24.08.2017
22:01:47
возьмите техника дядю васю, обучите его МЛ и он вам все сделает
задача стара как мир - что проще, научить ученого программировать или программиста реализовать задумки ученого? Первый подход в разы продуктивнее

Vova
24.08.2017
22:02:55
и как задача решается в данный момент?
поиском дорогих "интуитивных" специалистов готовых "поделиться" своими скилзами с ML, поиском дорогих "конструкторов" создающих предметные имитационные модели отказа-поломки, имплементирующие реальный механизм с какой то абстракцией
что то у меня чат опять ест мессаги
пишу через "эт" Александру Лаврову а пост исчезает

Ivan
24.08.2017
22:26:54

Yury
25.08.2017
07:14:27
По поводу оборудования и его отказов... Почему-то никто не вспомнил хакатон от Касперского, который в этом году был. Там исследовали практически этот вопрос. Вот видео с разбором задач. https://www.youtube.com/watch?v=SDlr8v40WWc Сама задача заключалась в нахождении признаков взлома ПЛК на предприятии. А по сути нахождение аномалий в работе установок. Как я понял, сейчас такие задачи можно решать с помощью LSTM.

Kaspar
25.08.2017
07:16:44
спасибо за видос