@clickhouse_ru

Страница 84 из 723
Vladimir
07.03.2017
17:02:46
он в этом плане точь-в-точь КликХаус - если вставлять поштучно давится мгновенно
я пробовал графитный их плагин, потому что писать свое сложно и требует довольно много времени

Pavel
07.03.2017
17:02:47
у меня в тысячи_процентов разница была между "поштучно" и "по 10к"))

графитный плагин очень плох, очень плох

для инфалкса есть го либа, где замутить батчинг оч легко

Google
Pavel
07.03.2017
17:03:21
НО если данные идут неравномерно... да, увы, тут графита лучше

Pavel
07.03.2017
17:03:27
а если посекундно то инфлакс )

Алексей
07.03.2017
17:04:07
тоесть на 300G памяти 244к записи в секунду...

инфлюкс хорош ?

Pavel
07.03.2017
17:04:39
у меня сто тыясч записей/секунду на тазе пятилетней давности

на процессоре 35% одного ядра, SSD

Алексей
07.03.2017
17:04:52
кардинальность какая ?

Pavel
07.03.2017
17:05:11
маленькая, около 10 миллионов сущностей

по каждой - 10 метрик

Алексей
07.03.2017
17:05:22
тогда вопросов нет.

Pavel
07.03.2017
17:05:56
а если кардинальность большая это уже совершенно другая история :)

Алексей
07.03.2017
17:06:09
время старта сколько ?

Google
Pavel
07.03.2017
17:06:30
я не мерил, честно говоря, при перезагрузке ни разу не замечали чтобы это было долго

Алексей
07.03.2017
17:06:43
на 10милионах она должна быть около 20 минут

без упора в какой либо ресурс в принцпе.

@pavel_odintsov давай продолжим на @metrics_ru

боюсь тут мы не по делу.

Pavel
07.03.2017
17:11:23
угумс) кончаю офтоп

Maksim
07.03.2017
17:12:16
у меня вопрос, на который я не нашел ответ в документации и в рассылке. Можно ли простым способом собрать конфигурацию при которой данные за последний месяц лежат на SSD, а всё что старше уходит на HDD? Куда погуглить, если этот вопрос уже обсуждался?

Maksim
07.03.2017
17:13:17
т.е. вы советуете делать это не средствами БД, а средствами ОС?

Pavel
07.03.2017
17:13:37
средствами БД это делать лучшее и правильнее, но она пока не умеет

Алексей
07.03.2017
17:13:41
Алексей тоже про это говорит

Dmitry
07.03.2017
17:13:48
В хк простого нет

сложный переностить руками партиции из одной базы/таблицы в другую

Maksim
07.03.2017
17:14:58
ага, разные таблицы и потом их мержить?

Dmitry
07.03.2017
17:22:36
Сверху Merge таблицей обернуть

Maksim
07.03.2017
17:25:18
ага, это интересный вариант

т.е. new_sessions, old_sessions а сверху sessions = Merge(new_, old_

и самому раз в день руками копировать партицию с ssd на hdd, потом подключать к old_sessions и выдергивать из new_sessions

так?

Dmitry
07.03.2017
17:27:14
В merge чуть другой формат, есть в доке

Google
Dmitry
07.03.2017
17:27:36
Переливать получиться корректно только месяцами

DETACH или FREEZE PATTITION переместить и ATTACH

Maksim
07.03.2017
17:29:57
ага, ну месяцы тоже ок

Igor
07.03.2017
18:50:30
Прошу помощи, хочу к новому CH_GUI - добавить документацию по построению графиков с примером на основе открытых данных - чтобы пользователь смог сам воспроизвести все, т/к я далек от нормальных статей по data science, а гугл что то, тяжело помогает - все подсовывает "Ирисы". Может кто то, знает хороший набор данных к которому идет статья/книга типа: "вот тут мы построим" Scatter Matrix, а тут лучше использовать Treemap или Sankey,stacked area...

hamper ?
07.03.2017
19:08:09
а их кх вообще данные нельзя никак удалять? Допустим у нас есть что то типа статистики и прилетело много данных, большая часть из которых оказалась например от ботов и эти данные не нужны, совсем, никогда. Можно как то такое вычистить?

Evgeniy
07.03.2017
19:16:10
перезалить в патрицию и подменить

Roman
07.03.2017
20:27:59
DETACH или FREEZE PATTITION переместить и ATTACH
если я правильно понимаю, старые партиции можно перемещать на более медленные диски, а вместо них оставлять хардлинки. Для КХ такое перемещение должно быть незаметным и таблица будет выглядеть так же, как и раньше. Но при обращении к перемещнным месяцам скорость будет медленнее

Maksim
07.03.2017
20:28:33
хардлинки между дисками — это рейд. Вы наверное софтлинки имели ввиду?

плюс вопрос в том, не поломает ли разная скорость доступа к однородным данным саму базу

Alexey
07.03.2017
20:30:18
плюс вопрос в том, не поломает ли разная скорость доступа к однородным данным саму базу
Не поломает. При чтении из MergeTree сделано, что разные потоки читают следующие данные по мере возможности - то есть, разбиение работы по потокам происходит динамически.

Maksim
07.03.2017
20:30:28
вот это когда merge tree

Alexey
07.03.2017
20:30:47
Вот для Merge есть нюансы.

Там на каждую составляющую таблицу выдаётся часть потоков. И уже может быть неравномерная нагрузка.

Artem
07.03.2017
20:31:35
Попробуйте поискать dataframe Титаника, он самый популярный из всех, примеров масса из визуализации вроде как

Прошу помощи, хочу к новому CH_GUI - добавить документацию по построению графиков с примером на основе открытых данных - чтобы пользователь смог сам воспроизвести все, т/к я далек от нормальных статей по data science, а гугл что то, тяжело помогает - все подсовывает "Ирисы". Может кто то, знает хороший набор данных к которому идет статья/книга типа: "вот тут мы построим" Scatter Matrix, а тут лучше использовать Treemap или Sankey,stacked area...

Maksim
07.03.2017
20:33:08
Там на каждую составляющую таблицу выдаётся часть потоков. И уже может быть неравномерная нагрузка.
так я имел ввиду что наверное можно ожидать проблему, если в одной таблице партиции обманным способом раскидать на разные диски?

Alexey
07.03.2017
20:37:48
так я имел ввиду что наверное можно ожидать проблему, если в одной таблице партиции обманным способом раскидать на разные диски?
При использовании одной таблицы, по равномерности нагрузки при чтении, проблем быть не должно. Могут быть такие проблемы: - при мерже кусков, результат будет создаваться в обычном месте; Также когда-то давно у нас был случай, что в одной инсталляции сделали симлинки и была проблема, что сервер отказывался удалять куски, которые были симлинками - но эту проблему исправили.

Igor
07.03.2017
21:05:15
Попробуйте поискать dataframe Титаника, он самый популярный из всех, примеров масса из визуализации вроде как
Спасибо, натолкнули на правильное гугление) дополнительно попалась интересная книга "Data Visualisation with R: 100 Examples"

Artem
07.03.2017
21:07:59
Там всякого разного, но в основном данных не так много, сейчас на kaggle идут соревнования разные и данных значительно больше, попробуйте их импортнуть

papa
07.03.2017
21:08:11
в примерах по ggplot2 обычно diamonds используется, в принципе для exploratory analytics в книгах по R есть и отсылки к их стандартынм датасетам, и картинки.

Google
Igor
07.03.2017
21:21:05
Спасибо тоже по гуглю ggplot Просто, проблема в том что если я зачитаюсь таких книг обновление еще задержится ))) И так 3и месяца "пелякаю" - в планах asap уложится за 2 недели и выкатиться ... видео пример на GEO данных https://monosnap.com/file/pU8NkmTDkfisakiGcavJoBznnAC18B

Вот и ищу облегчение себе задачи - найти сет и статью/книгу - чтобы можно было в документации сказать - вот тут почитайте -> вот так загрузите сет в CH -> вот так вы получите charts

Алексей
08.03.2017
16:12:17
Господа, я помню что дневные партиции были невозможны. но это было top of all feature requests. запилили ?

Pavel
08.03.2017
16:12:41
дневные партиции?

Алексей
08.03.2017
16:14:01
да

сейчас только месячные же

Pavel
08.03.2017
16:14:31
отсюда вопрос

а есть ли более-менее публичный road map?

Andrey
08.03.2017
16:14:44
на одном из митапов говорили про то что скоро запилят партиционирование по произвольному ключу

Алексей
08.03.2017
16:15:03
а есть ли более-менее публичный road map?
есть. постоянно озвучивают на митапах

Pavel
08.03.2017
16:15:23
ну на митапе я был (удаленно)

но какой-то листочек или документик - был бы кстати)

Алексей
08.03.2017
16:16:32
и еще не очень понятно максимальный уровень мерджа 9-ый ?

Pavel
08.03.2017
16:24:28
Хотеть нэтивный тип int128 :)

Dmitry
08.03.2017
16:49:41
Что такое максимальный уровень мержа?

Алексей
08.03.2017
16:52:50
вижу директории заканчивающиеся на _X

вижу что optimize final делает Х=9

Andrey
08.03.2017
18:28:50
Ребят, а у всех прогрессбар в консоли обновляется?

а то у меня он просто добавляет копии строки в одну и ту же.

примерно так это выглядит

Google
Nikita
08.03.2017
18:31:13
> @dudy_dud Ребят, а у всех прогрессбар в консоли обновляется? Даа, с прогрессбаром и правда есть такая проблема. Есть подозрение, что это так на Дебиане.

Или из-за кривого туннеля

Andrey
08.03.2017
18:32:37
Ну у меня Ubuntu 16.04.2 LTS, я думаю проблема где то в настройках терминала. Но TERM=xterm. В Яндексе вроде тоже повсеместно Ubuntu.

Vladimir
08.03.2017
21:16:13
Как можно получить статистику запроса по памяти?

Alexey
08.03.2017
21:17:41
1. Включить query log. Например, прописать <log_queries>1</log_queries> в profiles/default в users.xml 2. Данные будут в столбце memory_usage таблицы system.query_log.

Vladimir
08.03.2017
21:18:28
Круто! Большое спасибо. Просто натолкнулся на 208 issue. ))

Slava
09.03.2017
11:21:06
здравствуйте. подскажите пожалуйста по обновлению CH, мне кажется я дико туплю: ставлю новую версию через apt-get install..., выдается clickhouse-server-common is already the newest version (1.1.54165)., перезапускаю CH, подключаюсь, делаю select version() в ответ 1.1.54164 . Может каки-то доп. шаги необходимы для обновления? OS: Ubuntu 16.04

Andrey
09.03.2017
11:22:19
+1 Точно такая же проблема

Igor
09.03.2017
11:22:22
скорее всего все ок, просто мета-инфа о версии в пакете другая

Andrey
09.03.2017
11:22:39
По APT версия 1.1.54165, а изнутри 1.1.54164

Igor
09.03.2017
11:24:26
https://github.com/yandex/ClickHouse/releases?after=v1.1.54170-testing

здесь вроде видно, что никаких изменений не было толком

Andrey
09.03.2017
11:26:53
Да вопрос скорее в том, на чьей стороне проблема. Не поменяли версию внутри самого CLickhouse или пакет поставился криво.

prll
09.03.2017
11:29:38
немного шатает систему сборки, несовпадение пока нормально

Andrey
09.03.2017
11:30:58
еще такой вопрос. Как быстро новые версии попадают в репу яндека после появления тега в гитхабе? Если предположить что никаких фатальных проблем при тестировании на метрике не произошло

Dmitry
09.03.2017
11:49:07
После того, как версия выезжает на все прод сервера яндекса

Pavel
09.03.2017
11:49:40
Интересно, а что за сторадж юзает гугл под те же задачи?

Страница 84 из 723