
Andrey
08.05.2017
22:43:14
а Мгци и оперативы ты тоже линейкой вымеряеш?

Roman
08.05.2017
22:43:28

Andrey
08.05.2017
22:44:05
что значит впустую, если ты их не юзаеш, то это вовсе не значит что они не нужны

Denis 災 nobody
08.05.2017
23:01:04
20% это когда пул в гигабайты. На 1тб и далее - единицы процентов

Google

Andrey
08.05.2017
23:11:52
не мешайте человеку хейтить
вот был бы он троллем, то попросил бы большие фалы поудалять :)

Ilya
09.05.2017
02:06:40
Интересно, проводились ли в последнее время какие-нибудь глобальные версусы btrfs vs zfs. Не так чтобы школьник на своём супернасе кладовочном говнобенч запустил, а какой-нибудь нэтфликс в своей мега лабе пару месяцов гонял петабайты.
Всё что я знаю это разрабы btrfs пока что тупо не замотивированы стабильностью и пилят новые фичи. По этому балом правит zfs.

Sergey
09.05.2017
06:09:56
нэтфликс же на ufs сидит, не?
они unmapped io делали для себя

Serg
09.05.2017
07:09:00

AnTi3z ??
09.05.2017
07:10:47

Roman
09.05.2017
07:13:10

Serg
09.05.2017
07:15:55
Если данные только добавляются, что вы простите перезаписывать собрались?

Roman
09.05.2017
07:17:05

Serg
09.05.2017
07:17:26
Частный случай.

Google

Serg
09.05.2017
07:17:30
Например.

AnTi3z ??
09.05.2017
07:17:46

Roman
09.05.2017
07:17:54
Апдейт в бд - это перезапись

AnTi3z ??
09.05.2017
07:24:20
Начнем с того а чем вообще фрагментация мешает

Sergey
09.05.2017
07:26:59
тем, что делает из последовательного чтения случайное

Serg
09.05.2017
07:27:59
Апдейт в бд - это перезапись
В применении к БД да. Нужно хорошо подумать. Это касается любых умных ФС. Ибо зачастую дублируют функционал, создавая оверхэд. Но песни при про хорошую запись при полном диске, увольте. Ни ufs ни ext ни zfs эту проблему не решили.

AnTi3z ??
09.05.2017
07:29:57

Roman
09.05.2017
07:33:01

A
09.05.2017
08:04:24
А смысл хранить бэкапы на том же диске? Диск навернётся и все бэкапы потеряны будут. К тому же, насколько я понимаю, снапшот - это не непосредственно данные, а информация о неком состоянии фс в момент создания снапшота, т.е. он не содержит реальных данных.

Serg
09.05.2017
08:06:09
Снапшоты не бэкап
Но их можно отправлять на удалённую машину
И это уже будет бэкап))

A
09.05.2017
08:07:53
Из снаршота разве можно восстановить данные на пустой диск?
*снапшота

Serg
09.05.2017
08:11:11
Ну да. Zfs send отправит точную копию ФС.

A
09.05.2017
08:12:23
Понял, поизучаю вопрос, спасибо.

Roman
09.05.2017
08:25:07
у снапшотов самое ценное - это скорость из создания и дельты между ними.

Google

Serg
09.05.2017
08:25:56
Мгновенный откат ещё)
нэтфликс же на ufs сидит, не?
Нетфликс построен по модели внешней избыточности. Дополнительная локальная избыточность(zfs) им не к чему. Есть такое вот мнение.
Есть старый доклад от integros про ZFS на rubsd2014

Denis 災 nobody
09.05.2017
08:58:07
Но это не бэкап, пока не будет вынесено наружу

Roman
09.05.2017
09:34:35

Denis 災 nobody
09.05.2017
10:50:07

Roman
09.05.2017
11:20:30

Volodymyr Kostyrko
09.05.2017
11:51:57
Ну например при работе с базой или с виртуалкой часто уменьшают размер блока.

Denis 災 nobody
09.05.2017
11:51:58
Ок, блоки подряд

Volodymyr Kostyrko
09.05.2017
11:54:53
Почему?

Serg
09.05.2017
14:03:10
Так производительность же растет, если размеры совпадают. 8к на мускул помойму было, могу ошибаться.

Volodymyr Kostyrko
09.05.2017
14:05:52
Есть нюансы.
Запись 64k данных 8k блоками это всё-таки 15 IO ops а не одна.
И любое изменение в файле — это
запись в блок который лежит в другом месте. Только свежезаписанные файлы могут лежать кучкой, Изменяемые файлы очень быстро размазываются по диску. Особенно если ещё и снепшоты.

Serg
09.05.2017
14:16:15
16к для innodb
Оракл best practics
Хз на сколько это актуально

Google


Serg
09.05.2017
14:20:48
Match ZFS recordsize with Innodb page size (16KB for Datafiles, and 128KB for Innodb log files).Howzfs set recordsize=16k tank/db
Why.
The biggest boost in performance can be obtained by matching the ZFS record size with the size of the IO. Since a Innodb Page is 16KB in size, most read IO is of size 16KB (except for some prefetch IO which can get coalesced). The default recordsize for ZFS is 128KB. The mismatch between the read size and the ZFS recordsize can result in severely inflated IO. If you issue a 16KB read and the data is not already there in the ARC, you have to read 128KB of data to get it. ZFS cannot do a small read because the checksum is calculated for the whole block and you have to read it all to verify data integrity. The other reason to match the IO size and the ZFS recordsize is the read-modify-write penalty. With a ZFS recordsize of 128KB, When Innodb modifies a page, if the zfs record is not already in memory, it needs to be read in from the disk and modified before writing to disk. This increases the IO latency significantly. Luckily matching the ZFS recordsize with the IO size removes all the problems mentioned above.
For Innodb log file, the writes are usually sequential and varying in size. By using ZFS recordsize of 128KB you amortize the cost of read-modify-write.
Note
You need to set the recordsize before creating the database files. If you have already created the files, you need to copy the files to get the new recordsize. You can use the stat(2) command to check the recordsize (look for IO Block:)


Volodymyr Kostyrko
09.05.2017
14:24:30
Иногда просто везёт. Под виндой MSSQL по умолчанию умеет работать с базой екстентами по 64k.

Roman
09.05.2017
21:06:15

Igor
10.05.2017
08:38:13
Так ZFS'ина фрагается даже при добавлении файлов, а не перезаписи их )
Об этом был уже эпичный срачик в FB, где приходили всякие растопырепальчатые мальчики, и сливались )

Roman
10.05.2017
08:39:24
Сейчас единственный вариант - это скопировать и удалить

Igor
10.05.2017
08:40:28
Да хоть против анальных абортов, какая разница. Суть в том, что неофиты думают, наивно, что фрагается она лишь при перезаписи
это не так, неофиты )

Roman
10.05.2017
08:41:23
Нууу, она по дизайну такая :(

Admin
ERROR: S client not available

Sergey
10.05.2017
09:13:43

Serg
10.05.2017
09:53:35
Бля, а так ли страшно на самом деле? Есть бенчмарк?, одни бла бла.

Denis 災 nobody
10.05.2017
09:59:45
Не страшно )

Igor
10.05.2017
10:09:46

Roman
10.05.2017
10:22:59

Denis 災 nobody
10.05.2017
10:26:09
веб-серверы гоняли на zfs, тоже было не страшно. FastVPS гонял петабайтные объёмы (правда zfs on linux), тоже не жаловались

Roman
10.05.2017
10:28:21
это ответ от их бывшего cto

Google

Denis 災 nobody
10.05.2017
10:32:59
а мне он ответил "в целом нареканий не было"
ни слова про "ААА МЕДЛЕННО"

Roman
10.05.2017
10:33:32

Denis 災 nobody
10.05.2017
10:35:30
так-то zil+l2arc на ссд его могут знатно ускорить
то, что в лине через bcache и прочие костыли, там часть фс
чтобы запись не тормозила - ставим zil на ссд-рейд и наслаждаемся

Roman
10.05.2017
10:36:56

Denis 災 nobody
10.05.2017
10:37:27
юзал оба
горячее подключение/замена в зфс приятнее

Roman
10.05.2017
10:38:51

Denis 災 nobody
10.05.2017
10:39:05
мускуль, веб

Roman
10.05.2017
10:40:30
я сранивал в контексте хранения нескольких млн мелких файлов. bcache оказался лучше чем l2arc. потому что l2arc заполнял ssd и потом начиналась игра в вытеснение с падением hit ratio

Mikhail
10.05.2017
10:41:24
Опять рага со своими прохладными историями :)

Roman
10.05.2017
10:52:40
https://www.youtube.com/watch?v=htPOOWB7yHo

Mikhail
10.05.2017
10:54:04
Да понятно, просто годы идут, а твоя история про zfs не перестает радовать своей новизной

Roman
10.05.2017
10:54:28

Ilya
10.05.2017
11:04:34
И всё же. Btrfs допилили или нет? Оффтопик, но всё же.

Igor
10.05.2017
12:25:40
Смотря до чего
Ибо оно Adaptive Replacement Cache, а не просто банальное LRU
Самая большая шняга ZFS — жручесть памяти. Ну и то, что под Linux её, как бы, нет ;-P

Иван
10.05.2017
12:35:21
Как как раз есть, как бе.