@hadoopusers

Страница 170 из 182
Alex
18.10.2018
12:41:17
@mai1on в свое время для процессинга и хранения мелкие файлы в Har архивы паковал

Andrew
18.10.2018
12:41:44
это вроде как максимум

А если делать снепшоты? и потом с ними уже оперировать?

Google
Mironiken
18.10.2018
12:43:08
>мелкие файлы >hdfs Зачем?

Nikita Blagodarnyy
18.10.2018
12:43:59
Всем. привет. Есть какие-то бест-практис касательно бекапов данных хранимых в hdfs? Там просто оченьго много мельких файлов, сейчас уже почти 500к, а будет больше. Если делать distcp на S3 это очень медленно, примерно 1000 файлов в час. Крайне неприемлемая скорость.
Саму hdfs бэкапить не надо, она сама себе бэкап. Если вы говорите про архивацию, то я целыми папками ( немного, 8 штук) выгетывал в локальную фс и через 3 дня паковал по дню в gz. Текст отлично жался. И ещё был Nifi, который мог оперативно разложить архив в нужные папки в hdfs. 100000 файлов минуты за 3 привозил.

Старый
18.10.2018
12:44:05
>мелкие файлы >hdfs Зачем?
чтобы было, у меня так же, более 480 млрд мелких файлов будет

json сплошной

Mironiken
18.10.2018
12:44:50
Ну и да, неужели тройной репликации недостаточно

Старый
18.10.2018
12:44:52
правда пока не ясно как это будет выглядеть

Mironiken
18.10.2018
12:45:11
>480 млрд мелких файлов NN там не помирает?

Mikhail
18.10.2018
12:45:56
Ну и да, неужели тройной репликации недостаточно
Репликация не гарант сохранности. Бекапы критических данных надо в любом случае делать.

Andrew
18.10.2018
12:45:58
Ну и да, неужели тройной репликации недостаточно
я многое видел как данные преврашаються в кашу или теряються ) особенно вспоминая ceph ))

Старый
18.10.2018
12:45:58
KrivdaAllStars
18.10.2018
12:47:03
?это пока ток планы
А вами точно хадуп нужен ?

Mironiken
18.10.2018
12:47:10
Бекапы нужно делать, если есть write доступ у не особо несведущих людей. Я так как-то удалил данные за полгода

Google
Andrew
18.10.2018
12:47:48
Бекапы нужно делать, если есть write доступ у не особо несведущих людей. Я так как-то удалил данные за полгода
и такое бывало (( когда пропадает 6 Tb данных а потом спрашивают - “аа кто это сделал?” )))

Старый
18.10.2018
12:47:59
А вами точно хадуп нужен ?
да я иногда тут клоуном себя чувствую, я по 100500 раз обьясняю, что нельзя делать олапы и выборки на 7200 дисках по 10 тб, меня и слушать не хотят

Mironiken
18.10.2018
12:48:06
Все лечится нормальным разделением базы

Nikita Blagodarnyy
18.10.2018
12:48:08
?это пока ток планы
Это потребует 480 гигов памяти NN, если без федерации. У вас столько есть?

Старый
18.10.2018
12:48:33
и 2 5120

Pavel
18.10.2018
12:48:55
Хрыч работает сисадмином?

Arty
18.10.2018
12:49:18
и тут хрыч

Nikita Blagodarnyy
18.10.2018
12:49:22
32 NameNode?

Mironiken
18.10.2018
12:49:43
В целом, можно запихнуть все это в какоу-нибудь hbase. И выборки по ключам достаточно быстрые и мелкие файлы объединяются. Но это в теории - сам такое не делал

Старый
18.10.2018
12:49:45
Nikita Blagodarnyy
18.10.2018
12:50:16
да
Че за контора, если не секрет?

Старый
18.10.2018
12:50:54
Че за контора, если не секрет?
боюсь это нельзя, тк заказчик тоже станет понятен

Mironiken
18.10.2018
12:51:16
>32 NN Дэн, 25 лет: я кошу траву молотком… каждый день. Это немного сложно, но мне, черт возьми, нравится, мне нравится работать руками!

Nikita Blagodarnyy
18.10.2018
12:51:27
Ну и так-то можно мелкие файлы укрупнять, если всё уныло.

Старый
18.10.2018
12:51:51
Ну и так-то можно мелкие файлы укрупнять, если всё уныло.
а как потом выборку делать по 12-18 млн ключей?

Mironiken
18.10.2018
12:52:07
>key-value

Ой, стоп, я тут лучше никаких не буду делать предложений. Ну его нахер

KrivdaAllStars
18.10.2018
12:52:40
Мне кажется вы не понимаете как это работает, может книгу прочитаете ?

Google
Nikita Blagodarnyy
18.10.2018
12:53:09
Mikhail
18.10.2018
12:53:20
Тут скорее какой-нибудь hadoop ozone больше бы подошел, но он в глубокой разработке всё еще:(

Nikita Blagodarnyy
18.10.2018
12:54:04
а как потом выборку делать по 12-18 млн ключей?
Прочитать целиком дешевле. На 9 узловом кластере 4 млрд читаются целиком минуты 3.

Старый
18.10.2018
12:56:09
Там, наверное, упорством берут и дисциплиной.
?ну я сам к этому отношения не имею

но я регулярно чушь отсеиваю

KrivdaAllStars
18.10.2018
12:56:44
но я регулярно чушь отсеиваю
Мелкие Файлы не отсеяли

Старый
18.10.2018
12:56:55
Мелкие Файлы не отсеяли
а это невозможно

Uncel
18.10.2018
12:57:05
Старый
18.10.2018
12:57:23
Чо
тонны хеше которые надо хранить по 5 лет

а их размер по 9-12 байт

Uncel
18.10.2018
12:57:34
Пиши их в какой-нибудь авро

Nikita Blagodarnyy
18.10.2018
12:57:59
а их размер по 9-12 байт
Почему каждый в отдельном файле то?

Uncel
18.10.2018
12:58:02
И валидируй сколько влезет

Старый
18.10.2018
12:58:14
Почему каждый в отдельном файле то?
потому что по нему потом другое ищут

там связь из 160 обьектов

в 1 таблице вообще будет 4 млрд записей

KrivdaAllStars
18.10.2018
12:58:52
Для поиска

Искать запросами

Google
Uncel
18.10.2018
12:59:15
Используйте базу
Так нинадежна же

Старый
18.10.2018
12:59:25
Используйте базу
но файл то тз надо сохранить ?

Uncel
18.10.2018
12:59:36
И наверно еще гостовую криптуху нада

Старый
18.10.2018
12:59:36
это как в фнс с чеком было

KrivdaAllStars
18.10.2018
12:59:37
Uncel
18.10.2018
12:59:41
На каждый файл

Старый
18.10.2018
12:59:45
чеки и в базе и как файл

KrivdaAllStars
18.10.2018
12:59:46
Ну хорошо

Сохранить

Uncel
18.10.2018
13:00:17
( файлы блобами в базе )

KrivdaAllStars
18.10.2018
13:00:34
Я без юмора

Путь до файла - ключ

Uncel
18.10.2018
13:00:57
Я без юмора
Ну чанкер нужно запилить тогда

KrivdaAllStars
18.10.2018
13:01:03
Это кейс от волмарта

Можно в хбейс

Старый
18.10.2018
13:01:21
В кассандру
этот вариант тоже смотрим

KrivdaAllStars
18.10.2018
13:01:30
этот вариант тоже смотрим
Так по тз же нельзя

Нужно же файлом

Google
KrivdaAllStars
18.10.2018
13:01:40
Вы определитесь

Старый
18.10.2018
13:01:52
Так по тз же нельзя
в кассандре можно файлы хранить

KrivdaAllStars
18.10.2018
13:01:58
Иначе звучит как профанация

Uncel
18.10.2018
13:01:58
Файл, в файле бд

KrivdaAllStars
18.10.2018
13:02:09
в кассандре можно файлы хранить
В любой бд можно Файлы хранить

Grigory
18.10.2018
13:02:22
тонны хеше которые надо хранить по 5 лет
почему в блоки руками мелкие файлы не сувать

Uncel
18.10.2018
13:02:38
Тут короч нужен солюшн аркикект, для обкашливания таких проблем

Старый
18.10.2018
13:02:49
решает всё го программист с чсв до юпитера

Uncel
18.10.2018
13:03:14
??его нет
У тебя есть отличный вариант задоминировать

Grigory
18.10.2018
13:03:20
решает всё го программист с чсв до юпитера
тяжело тебе, похоже у вас вся команда такая

Старый
18.10.2018
13:04:12
тяжело тебе, похоже у вас вся команда такая
?ну уже хотя бы не erasure coding hadoop из 10 тб 3,5 дисков

KrivdaAllStars
18.10.2018
13:06:26
Это очень плохо

Старый
18.10.2018
13:07:26
Чел
?ну я бумажками обзавожусь, везде конфиги и тд читаю, развариваичваюсь и думаю, куда идти дальше

Alexey
18.10.2018
13:08:18
наркоманы.

Страница 170 из 182