
Vladimir
07.03.2017
17:02:46

Pavel
07.03.2017
17:02:47
у меня в тысячи_процентов разница была между "поштучно" и "по 10к"))
графитный плагин очень плох, очень плох
для инфалкса есть го либа, где замутить батчинг оч легко

Google

Pavel
07.03.2017
17:03:21
НО если данные идут неравномерно... да, увы, тут графита лучше

Алексей
07.03.2017
17:03:23

Pavel
07.03.2017
17:03:27
а если посекундно то инфлакс )

Алексей
07.03.2017
17:04:07
тоесть на 300G памяти 244к записи в секунду...
инфлюкс хорош ?

Pavel
07.03.2017
17:04:39
у меня сто тыясч записей/секунду на тазе пятилетней давности
на процессоре 35% одного ядра, SSD

Алексей
07.03.2017
17:04:52
кардинальность какая ?

Pavel
07.03.2017
17:05:11
маленькая, около 10 миллионов сущностей
по каждой - 10 метрик

Алексей
07.03.2017
17:05:22
тогда вопросов нет.

Pavel
07.03.2017
17:05:56
а если кардинальность большая это уже совершенно другая история :)

Алексей
07.03.2017
17:06:09
время старта сколько ?

Google

Pavel
07.03.2017
17:06:30
я не мерил, честно говоря, при перезагрузке ни разу не замечали чтобы это было долго

Алексей
07.03.2017
17:06:43
на 10милионах она должна быть около 20 минут
без упора в какой либо ресурс в принцпе.
@pavel_odintsov давай продолжим на @metrics_ru
боюсь тут мы не по делу.

Pavel
07.03.2017
17:11:23
угумс) кончаю офтоп

Maksim
07.03.2017
17:12:16
у меня вопрос, на который я не нашел ответ в документации и в рассылке. Можно ли простым способом собрать конфигурацию при которой данные за последний месяц лежат на SSD, а всё что старше уходит на HDD? Куда погуглить, если этот вопрос уже обсуждался?

Алексей
07.03.2017
17:12:56

Maksim
07.03.2017
17:13:17
т.е. вы советуете делать это не средствами БД, а средствами ОС?

Pavel
07.03.2017
17:13:37
средствами БД это делать лучшее и правильнее, но она пока не умеет

Алексей
07.03.2017
17:13:41
Алексей тоже про это говорит

Dmitry
07.03.2017
17:13:48
В хк простого нет
сложный переностить руками партиции из одной базы/таблицы в другую

Maksim
07.03.2017
17:14:58
ага, разные таблицы и потом их мержить?

Dmitry
07.03.2017
17:22:36
Сверху Merge таблицей обернуть

Maksim
07.03.2017
17:25:18
ага, это интересный вариант
т.е. new_sessions, old_sessions а сверху sessions = Merge(new_, old_
и самому раз в день руками копировать партицию с ssd на hdd, потом подключать к old_sessions и выдергивать из new_sessions
так?

Dmitry
07.03.2017
17:27:14
В merge чуть другой формат, есть в доке

Google

Dmitry
07.03.2017
17:27:36
Переливать получиться корректно только месяцами
DETACH или FREEZE PATTITION
переместить и ATTACH

Maksim
07.03.2017
17:29:57
ага, ну месяцы тоже ок

Igor
07.03.2017
18:50:30
Прошу помощи, хочу к новому CH_GUI - добавить документацию по построению графиков с примером на основе открытых данных - чтобы пользователь смог сам воспроизвести все, т/к я далек от нормальных статей по data science, а гугл что то, тяжело помогает - все подсовывает "Ирисы".
Может кто то, знает хороший набор данных к которому идет статья/книга типа: "вот тут мы построим" Scatter Matrix, а тут лучше использовать Treemap или Sankey,stacked area...

hamper ?
07.03.2017
19:08:09
а их кх вообще данные нельзя никак удалять? Допустим у нас есть что то типа статистики и прилетело много данных, большая часть из которых оказалась например от ботов и эти данные не нужны, совсем, никогда. Можно как то такое вычистить?

Evgeniy
07.03.2017
19:16:10
перезалить в патрицию и подменить

Roman
07.03.2017
20:27:59
DETACH или FREEZE PATTITION
переместить и ATTACH
если я правильно понимаю, старые партиции можно перемещать на более медленные диски, а вместо них оставлять хардлинки. Для КХ такое перемещение должно быть незаметным и таблица будет выглядеть так же, как и раньше. Но при обращении к перемещнным месяцам скорость будет медленнее

Maksim
07.03.2017
20:28:33
хардлинки между дисками — это рейд. Вы наверное софтлинки имели ввиду?
плюс вопрос в том, не поломает ли разная скорость доступа к однородным данным саму базу

Alexey
07.03.2017
20:30:18

Maksim
07.03.2017
20:30:28
вот это когда merge tree

Alexey
07.03.2017
20:30:47
Вот для Merge есть нюансы.
Там на каждую составляющую таблицу выдаётся часть потоков. И уже может быть неравномерная нагрузка.

Artem
07.03.2017
20:31:35
Попробуйте поискать dataframe Титаника, он самый популярный из всех, примеров масса из визуализации вроде как
Прошу помощи, хочу к новому CH_GUI - добавить документацию по построению графиков с примером на основе открытых данных - чтобы пользователь смог сам воспроизвести все, т/к я далек от нормальных статей по data science, а гугл что то, тяжело помогает - все подсовывает "Ирисы".
Может кто то, знает хороший набор данных к которому идет статья/книга типа: "вот тут мы построим" Scatter Matrix, а тут лучше использовать Treemap или Sankey,stacked area...

Maksim
07.03.2017
20:33:08

Alexey
07.03.2017
20:37:48

Igor
07.03.2017
21:05:15

Artem
07.03.2017
21:07:59
Там всякого разного, но в основном данных не так много, сейчас на kaggle идут соревнования разные и данных значительно больше, попробуйте их импортнуть

papa
07.03.2017
21:08:11
в примерах по ggplot2 обычно diamonds используется, в принципе для exploratory analytics в книгах по R есть и отсылки к их стандартынм датасетам, и картинки.

Google

Igor
07.03.2017
21:21:05
Спасибо тоже по гуглю ggplot
Просто, проблема в том что если я зачитаюсь таких книг обновление еще задержится ))) И так 3и месяца "пелякаю" - в планах asap уложится за 2 недели и выкатиться ...
видео пример на GEO данных
https://monosnap.com/file/pU8NkmTDkfisakiGcavJoBznnAC18B
Вот и ищу облегчение себе задачи - найти сет и статью/книгу - чтобы можно было в документации сказать - вот тут почитайте -> вот так загрузите сет в CH -> вот так вы получите charts

Алексей
08.03.2017
16:12:17
Господа, я помню что дневные партиции были невозможны. но это было top of all feature requests. запилили ?

Pavel
08.03.2017
16:12:41
дневные партиции?

Алексей
08.03.2017
16:14:01
да
сейчас только месячные же

Pavel
08.03.2017
16:14:31
отсюда вопрос
а есть ли более-менее публичный road map?

Andrey
08.03.2017
16:14:44
на одном из митапов говорили про то что скоро запилят партиционирование по произвольному ключу

Алексей
08.03.2017
16:15:03

Pavel
08.03.2017
16:15:23
ну на митапе я был (удаленно)
но какой-то листочек или документик - был бы кстати)

Алексей
08.03.2017
16:16:32
и еще не очень понятно максимальный уровень мерджа 9-ый ?

Pavel
08.03.2017
16:24:28
Хотеть нэтивный тип int128 :)

Dmitry
08.03.2017
16:49:41
Что такое максимальный уровень мержа?

Алексей
08.03.2017
16:52:50
вижу директории заканчивающиеся на _X
вижу что optimize final делает Х=9

Andrey
08.03.2017
18:28:50
Ребят, а у всех прогрессбар в консоли обновляется?
а то у меня он просто добавляет копии строки в одну и ту же.
примерно так это выглядит

Google

Nikita
08.03.2017
18:31:13
> @dudy_dud
Ребят, а у всех прогрессбар в консоли обновляется?
Даа, с прогрессбаром и правда есть такая проблема. Есть подозрение, что это так на Дебиане.
Или из-за кривого туннеля

Andrey
08.03.2017
18:32:37
Ну у меня Ubuntu 16.04.2 LTS, я думаю проблема где то в настройках терминала. Но TERM=xterm. В Яндексе вроде тоже повсеместно Ubuntu.

Vladimir
08.03.2017
21:16:13
Как можно получить статистику запроса по памяти?

Alexey
08.03.2017
21:17:41
1. Включить query log. Например, прописать <log_queries>1</log_queries> в profiles/default в users.xml
2. Данные будут в столбце memory_usage таблицы system.query_log.

Vladimir
08.03.2017
21:18:28
Круто! Большое спасибо. Просто натолкнулся на 208 issue. ))

Slava
09.03.2017
11:21:06
здравствуйте. подскажите пожалуйста по обновлению CH, мне кажется я дико туплю: ставлю новую версию через apt-get install..., выдается clickhouse-server-common is already the newest version (1.1.54165)., перезапускаю CH, подключаюсь, делаю select version() в ответ 1.1.54164 . Может каки-то доп. шаги необходимы для обновления?
OS: Ubuntu 16.04

Andrey
09.03.2017
11:22:19
+1 Точно такая же проблема

Igor
09.03.2017
11:22:22
скорее всего все ок, просто мета-инфа о версии в пакете другая

Andrey
09.03.2017
11:22:39
По APT версия 1.1.54165, а изнутри 1.1.54164

Igor
09.03.2017
11:24:26
https://github.com/yandex/ClickHouse/releases?after=v1.1.54170-testing
здесь вроде видно, что никаких изменений не было толком

Andrey
09.03.2017
11:26:53
Да вопрос скорее в том, на чьей стороне проблема. Не поменяли версию внутри самого CLickhouse или пакет поставился криво.

prll
09.03.2017
11:29:38
немного шатает систему сборки, несовпадение пока нормально

Andrey
09.03.2017
11:30:58
еще такой вопрос. Как быстро новые версии попадают в репу яндека после появления тега в гитхабе? Если предположить что никаких фатальных проблем при тестировании на метрике не произошло

Dmitry
09.03.2017
11:49:07
После того, как версия выезжает на все прод сервера яндекса

Pavel
09.03.2017
11:49:40
Интересно, а что за сторадж юзает гугл под те же задачи?