Sergei
http://docs.ceph.com/docs/master/architecture/#cluster-map
Sergei
А зачем мониторам знать где какая пг ?
хороший вопрос. :) я думаю потому что osd не участвуют в paxos и соответственно не умеют в кворум.
Mark ☢️
хороший вопрос. :) я думаю потому что osd не участвуют в paxos и соответственно не умеют в кворум.
но ведь каждый врайт не проходит скажем так через монитор. поэтому и кворум там кагбе не причём. обращения к монитору я так понимаю эпиздоические от клиента. и если клиент благодаря старому мапу запишет не туда, то потом оно перемапится на нужны осд само. как? ну на осд рано илипоздно будет адекватный крушмап и он поймт что эта пг — не там где надо
Mark ☢️
http://docs.ceph.com/docs/master/architecture/#cluster-map
такая дока блин. как книжки по программирвоанию. "Если вам нужен синглтон — то он программируется вот так". А ты такой сидишь и думаешь — а мне нужен синглтон ? ХЗ
Sergei
был у меня кластер. был в нем CRUSH, обычный, плоский. было в кластере около сотни osd. я очень сильно изменил CRUSH (долго объяснять куда и как, да и я не помню уже). 85% данных потребовалось перебалансить. кластер нашел все нужные данные. у меня были высокие цифры tries и ceph нашел _все_ данные, даже учитывая что они лежали совсем не там, где должны были лежать в первые несколько попыток.
Sergei
про триес я видел настройку. но не понял к чему это она
ну вот у тебя есть chooseleaf, который выбирает три хоста например.
Mark ☢️
ну
Sergei
если первый хост, который был выбран, в дауне, то будет выбран четвертый.
Sergei
второй станет первым, а третий - вторым
Sergei
и т.д.
Mark ☢️
ээээ
Sergei
этот процесс может продолжаться tries раз.
Mark ☢️
не понятно
Sergei
я даже не уверен, что это правильно, но это согласуется с поведением, которое я наблюдал.
Mark ☢️
чтение или запись?
Mark ☢️
или оба?
Sergei
а это неважно. тебе надо найти osd, на котором эта PG acting
Sergei
работает-то всегда только одна osd.
Sergei
и вот ты получил из CRUSH первый osd. идешь в osdmap, а там говно - osd в ауте.
Sergei
поэтому получаешь второй - идешь в osdmap, а оно снова в ауте.
Mark ☢️
так вот я понял что триес — это он такой по крушмапу почитал, обратился, а там хуй. он опять скачал мап, опять посчитал и так далее. не так ?
Mark ☢️
о, точно
Mark ☢️
а таймаут какой между попытками ?
Sergei
или говорит "нет у меня этой PG, нахуй иди" (насколько я понимаю, это как раз о misplaced, и информация о том, что PG misplaced берется из сравнения текущей osdmap, crushmap и pgmap)
Sergei
так вот я понял что триес — это он такой по крушмапу почитал, обратился, а там хуй. он опять скачал мап, опять посчитал и так далее. не так ?
crush - это алгоритм. а crushmap - это та небольшая фигня, которую ты правишь руками и которая меняется при изменении топологии кластера. проще говоря когда ты делаешь in/out - crushmap не меняется.
Mark ☢️
это я успел понять :)
Sergei
но вот поменял ты crushmap, а PG сразу не переехала на новое место туда, где она должна жить. и информация о том, где эта PG щас живет хранится в pgmap.
Mark ☢️
а нахера она там хранится
Mark ☢️
там же пинцет сколько записей
Sergei
чтобы эта PG была доступна, даже если лежит не там, где ей положено лежать по CRUSH
Mark ☢️
должно быть. а нахуа если все выяисляемо (кроме момента перестройки)
Sergei
потому что иначе ты меняешь CRUSH - и пиздык твоим данным
Sergei
:)
Sergei
потому что они есть, но кластер больше не знает, где.
Mark ☢️
ну не пиздык же а временные затык
Sergei
НЕТ
Sergei
не временный
Sergei
если оно полностью вычисляемо - то кластер не может вычислить.
Mark ☢️
как нет-то. по крушмапу всегда можно посчитать
Sergei
только на базе предыдущих состояний osdmap/crushmap
Mark ☢️
а вот это не понятно
Sergei
ну у тебя раньше краш показывал "пиздуй в стойку 5, возьми оттуда три любых хоста" а щас ты поправил краш и он стал показывать "пиздуй в зал 7, возьми три любых стойки и возьми из каждой стойки по одному хосту".
Sergei
чтобы кластер смог отмигрировать данные он должен знать, где эти данные были и есть. где они должны быть - можно посчитать. но где они были и есть - хуюшки, нужно знать.
Sergei
http://lists.ceph.com/pipermail/ceph-users-ceph.com/2014-April/039339.html - тут вот говорят, что osd репортят о том, какие pg на них есть и какое у них состояние.
Mark ☢️
пг тоесть
Sergei
да, опечатка.
Sergei
так. с вами очень интересно, но у меня есть незаконченное дельце с кроватью и подушкой.
Mark ☢️
так. с вами очень интересно, но у меня есть незаконченное дельце с кроватью и подушкой.
а нехочешь написать ил рассказать про то как работает цеф ?
Mark ☢️
а то докладов до ебени матери с той ебучей картинкой про то как либы ссылаются друг на друга
Mark ☢️
баяны перебояны
Sergei
я долбоеб и на самом деле в сеф не особо умею.
Mark ☢️
а как вовнутрях работает — нихера нет
Mark ☢️
я долбоеб и на самом деле в сеф не особо умею.
ну уж побольше чем я например, очевидно
Sergei
у меня был небольшой кластер, и многие мои представления крайне интуитивны и далеки от истины. Миша и ребята шарят намного больше.
Mark ☢️
поэтмоу мне пиздец интересно послушать
Sergei
они обещали устроить митап или что-то такое
Sergei
уже с полгода обещают :)))
Mark ☢️
митап - это в нерезиновой поди ?
Sergei
митап - это в нерезиновой поди ?
два часа лёту, чего ты.
Mark ☢️
да блин.
Kirill
Когда и где ?)
Kirill
Я схожу
Sergei
пацаны, извините, я вас спалил :(
Sergei
Each cluster has 54 of these nodes for a total capacity of 3.2 PB. To scale out the service, Yahoo replicates these pods and uses a hashing algorithm to break the unstructured data across the pods and across the nodes using erasure coding.
Sergei
Йеп
Sheridan
Цэф цэфов собрать? :)
Sergei
Оно для объектного уровня только сработает нормально
Mark ☢️
In a blog post that discussed Yahoo’s move from MObStor to Ceph for its Flickr photo-sharing service, the company said that it have over 250 billion objects and around 500 PB of photos, videos, emails, and blog posts that it stores for its users, and that this object storage is growing at 20 percent to 25 percent annually.
Mark ☢️
в рот мне ноги. я б очканул нахер
Mark ☢️
это же ёбаный насос сколько данных
Mark ☢️
у наебнуть их проще простого
Mark ☢️
а забекапить нельзя
Sheridan
Прикольно, яб там пожил