@hadoopusers

Страница 150 из 182

Nikita Blagodarnyy

26.09.2018
07:58:35

Хотя не, 2 диска по 10тб - это грустно, лучше хотя бы 6 дисков по 4тб

В типовом расчёте оптимального количества контейнеров есть метрика "количество физических HDD". Horton считает, что контейнеров должно быть 1,8*кол-во дисков. Так что делать датаноду на 2 больших HDD-идея такая себе.

В итоге получится, что ваши 100500 вкоров и охулиард RAM будет просто нечем занять, потому что скорость чтения/записи на 1 физический диск имеет физические ограничения.

Старый

26.09.2018
08:00:52

В типовом расчёте оптимального количества контейнеров есть метрика "количество физических HDD". Horton считает, что контейнеров должно быть 1,8*кол-во дисков. Так что делать датаноду на 2 больших HDD-идея такая себе.

хз у меня 1,6 пб должно быть медленное и 300 тб быстрое, но за короткое время надо перекладывать из медленного в быстрое

40к iops на 1,6 пб это оч мало

Google

Nikita Blagodarnyy

26.09.2018
08:02:37

Так что я бы лучше брал 20 по терабайту в JBOD, чем 2*10

Старый

26.09.2018
08:03:33

Так что я бы лучше брал 20 по терабайту в JBOD, чем 2*10

да я вот тоже пытаюсь это обьяснить

что нет никакого толку с этой плотности, если будет 40к iops

Nikita Blagodarnyy

26.09.2018
08:07:49

А откуда так много?

Евгений

26.09.2018
08:09:07

В типовом расчёте оптимального количества контейнеров есть метрика "количество физических HDD". Horton считает, что контейнеров должно быть 1,8*кол-во дисков. Так что делать датаноду на 2 больших HDD-идея такая себе.

Не, я про то и говорил: больше дисков - в разы выше скорость чтения

Alexander

26.09.2018
08:10:19

да я вот тоже пытаюсь это обьяснить

Открой HDP Cluster Planning, будет тебе обоснование JBOD и много HDD.

Евгений

26.09.2018
08:10:31

хз у меня 1,6 пб должно быть медленное и 300 тб быстрое, но за короткое время надо перекладывать из медленного в быстрое

Почему все так любят перекладывать? Почему нельзя сделать одно "единое корпоративное хранилище", а не четыре?...

Полкластера в итоге занято перекладкой

Daniel

26.09.2018
08:17:40

Почему все так любят перекладывать? Почему нельзя сделать одно "единое корпоративное хранилище", а не четыре?...

П - порядок (на слайдах) (в реальности другое)

Nikita Blagodarnyy

26.09.2018
08:20:58

Почему все так любят перекладывать? Почему нельзя сделать одно "единое корпоративное хранилище", а не четыре?...

Ну кстати АренаДата вот недавно рассказывала на Тинькофф-митапе про свои идеи, у них по архитектуре самое свежее и горячее в Ignite, средней свежести в GreenPlum, совсем старое и холодное в Hadoop.

Uncel

26.09.2018
08:21:05

На одном большом нужно городить федерации, не?

Всякие приседания вокруг viewfs

Старый

26.09.2018
08:22:17

На одном большом нужно городить федерации, не?

хз на счёт федераций и тд, я тут вообще не врубаюсь, что они хотят в итоге

Google

Stanislav

26.09.2018
08:23:59

Ну кстати АренаДата вот недавно рассказывала на Тинькофф-митапе про свои идеи, у них по архитектуре самое свежее и горячее в Ignite, средней свежести в GreenPlum, совсем старое и холодное в Hadoop.

А что-то кроме идей и наклейки ярлычков у них сейчас есть?

Старый

26.09.2018
08:24:10

Почему все так любят перекладывать? Почему нельзя сделать одно "единое корпоративное хранилище", а не четыре?...

ну типа не всегда же нужны данные, а вот когда надо подгрузим

Евгений

26.09.2018
08:24:55

Ну кстати АренаДата вот недавно рассказывала на Тинькофф-митапе про свои идеи, у них по архитектуре самое свежее и горячее в Ignite, средней свежести в GreenPlum, совсем старое и холодное в Hadoop.

И как поджойнить три таблицы - одну старую, одну среднюю и одну новую?)

Nikita Blagodarnyy

26.09.2018
08:25:02

А что-то кроме идей и наклейки ярлычков у них сейчас есть?

Есть.

Старый

26.09.2018
08:25:37

И как поджойнить три таблицы - одну старую, одну среднюю и одну новую?)

я этот же вопрос задаю сейчас программистам

Nikita Blagodarnyy

26.09.2018
08:27:02

И как поджойнить три таблицы - одну старую, одну среднюю и одну новую?)

Для этого есть pxf - компоненты в ADB.

Не буду врать, не пробовал лично. Планирую. Но если хотя б часть работает, это уже неплохо.

Старый

26.09.2018
08:28:34

Для этого есть pxf - компоненты в ADB.

ну вот смотри у тебя есть данные сейчас в быстрой части, и пришло ещё n запросов, как ты будешь решать какая часть данных в быстрой сейчас менее нужна

Евгений

26.09.2018
08:29:00

Ну и как там по ждбц скорость выкачивания из реляционок?)

Nikita Blagodarnyy

26.09.2018
08:29:36

Ну и как там по ждбц скорость выкачивания из реляционок?)

Я написал, что лично не пробовал.

Старый

26.09.2018
08:30:03

вот мне сейчас 2 дата сатаниста нужно

1 не справляется

Nikita Blagodarnyy

26.09.2018
08:30:54

ну вот смотри у тебя есть данные сейчас в быстрой части, и пришло ещё n запросов, как ты будешь решать какая часть данных в быстрой сейчас менее нужна

Если данные в быстрой части-значит он все одинаково нужны.

Старый

26.09.2018
08:31:08

Если данные в быстрой части-значит он все одинаково нужны.

но место кончилось и что дальше?

Евгений

26.09.2018
08:32:15

но место кончилось и что дальше?

Докупить ноды в один большой хадуп, сделать ребаланс и не париться)

Старый

26.09.2018
08:32:29

Докупить ноды в один большой хадуп, сделать ребаланс и не париться)

бюджета нет

я и так делать буду не x3 а x2

и пока хз как будет на ребилде

Евгений

26.09.2018
08:33:09

Ну тогда есть очень большой резон взять дешманские компы вместо голдов

Кстати, вместо х3 можно же поставить хадуп 3 и сделать кодирование Рида-Соломона 6/3 хотя бы

Google

Евгений

26.09.2018
08:34:16

Или стрёмно пока туда залезать?)

Stanislav

26.09.2018
08:34:59

Кстати, вместо х3 можно же поставить хадуп 3 и сделать кодирование Рида-Соломона 6/3 хотя бы

Человеки планируют кластер на 2 петабайта без опыта сдачи ни одного кластера. Какие там кодирования

Евгений

26.09.2018
08:35:44

Ну у меня тоже нет опыта сдачи кластеров, но это не помешало мне найти 600 "запасных" коров в кластере, который сдали те, у кого он есть

Надо хоть иногда слушать тех, кто там, внизу, на земле

Александр

26.09.2018
08:41:36

Запасные коры?

Nikita Blagodarnyy

26.09.2018
08:46:21

но место кончилось и что дальше?

Ну что, нет ножек-нет мультиков. Считайте в экселе, если не хватает денег на сложные вычислительные комплексы. Или не используйте inmemory.

Старый

26.09.2018
08:46:53

Ну что, нет ножек-нет мультиков. Считайте в экселе, если не хватает денег на сложные вычислительные комплексы. Или не используйте inmemory.

считать в экселе нечего, софта ещё нет

Евгений

26.09.2018
09:09:34

Запасные коры?

Те, кто не юзает кластер, думали что все процы 12-ядерные, потому что новые ноды они докупали такие, а те, кто юзает, думали, что 6-ядерные, потому что в ярне сумма вкоров как от 6-ядерных. В итоге выяснилось, что два вида нод, настроили группы нод и получили х1.5 увеличение коров в кластере

Ну что, нет ножек-нет мультиков. Считайте в экселе, если не хватает денег на сложные вычислительные комплексы. Или не используйте inmemory.

На спарке-то даже на одной ноде из ноутбука можно посчитать то, что вешает эксель)

Старый

26.09.2018
09:18:03

2 cores, 24 threads / 256 ГБ RAM / 72 TБ HDD hdd по 4 тб

Евгений

26.09.2018
09:19:25

12 корес может быть?

3 тб на вкор - очень медленно

Stanislav

26.09.2018
09:22:09

Есть же стандарт, 8-12 дисков. Самые дешёвые шасси подходят

Старый

26.09.2018
09:48:36

12 корес может быть?

2 проца 5120 256 ram и 18 hdd по 4 тб 7200 sas

я говорю, что это будет треш и садамия и надо этот же обьём брать дисками по 1,8 тб 10к sas

Евгений

26.09.2018
09:50:24

Стоп, 5120 это 14 коров, 28 вкоре, 256 оперативки маловато на два проца

Старый

26.09.2018
09:51:14

ну программистов пока не убедить

Евгений

26.09.2018
09:51:46

По 1.8 вы не наберёте 72 тера на одну ноду)

И это будет хорошо, потому что 72 тера на одну ноду - это стрёмно)

Stanislav

26.09.2018
09:55:18

я говорю, что это будет треш и садамия и надо этот же обьём брать дисками по 1,8 тб 10к sas

Зачем 10к сас?

Google

Старый

26.09.2018
09:55:25

И это будет хорошо, потому что 72 тера на одну ноду - это стрёмно)

я думал взять хрень на 102 диска по 2,5 и 8 pci x16, в которые вставлю рейзеры и m2

Aleksandr

26.09.2018
13:14:53

Нужен совет по версионности в HBase. Есть таблица с версионностью, в нее постоянно льются данных. Нужно делать вставку только если вставляемое значение отличается от щначения последней версии в таблице. Как лучше реализовать? Сейчас новые данные пишу во временную таблицу, а затем сливаю при помощи MapReduce. Рассматривал вариант вставки методом checkAndMutate, но производительность просела на порядки в сравнении с put.

Oleg

26.09.2018
18:23:46

Привет! Тут выше обсуждались диски 1х12Тб или 6х2Тб (объемы были немного другие, но суть примерно такая). И я помню, что там были пруфы, что лучше много дисков малого объема. Но я их никак не могу найти. Поможете?) У меня тут тоже хотят поставить 2х12ТБ на ноду.

Yaroslav

26.09.2018
18:24:48

Привет! Тут выше обсуждались диски 1х12Тб или 6х2Тб (объемы были немного другие, но суть примерно такая). И я помню, что там были пруфы, что лучше много дисков малого объема. Но я их никак не могу найти. Поможете?) У меня тут тоже хотят поставить 2х12ТБ на ноду.

io

как минимум

Oleg

26.09.2018
18:25:37

io

Не, это все понятно. И почему тоже. Но мне нужны пруфы из авторитетных источников, так сказать :)

И их тут кидали. Но не могу найти

Yaroslav

26.09.2018
18:26:46

Не, это все понятно. И почему тоже. Но мне нужны пруфы из авторитетных источников, так сказать :)

я - авторитетный источник =)

Alexander

26.09.2018
18:27:21

Открой HDP Cluster Planning, будет тебе обоснование JBOD и много HDD.

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.5/bk_cluster-planning/content/ch_hardware-recommendations_chapter.html https://docs.hortonworks.com/HDPDocuments/HDP3/HDP-3.0.0/cluster-planning/content/hardware-recommendations.html

Andrey

26.09.2018
18:38:05

Привет! Тут выше обсуждались диски 1х12Тб или 6х2Тб (объемы были немного другие, но суть примерно такая). И я помню, что там были пруфы, что лучше много дисков малого объема. Но я их никак не могу найти. Поможете?) У меня тут тоже хотят поставить 2х12ТБ на ноду.

ну это же логично, когда диск один ты ограничен его скоростью в любом случае, больше дисков, больше шанса что данные будут на разных дисках, и чтение будет параллельно

Yaroslav

26.09.2018
18:39:41

ему пруфы нужны

на слово не верит)

Alexander

26.09.2018
18:41:21

btw а кто-нибудь гонял уже дистрибутивы хадупа 3?

Привет! В ближайших планах переезд с 2.x на 3.x (дистрибутив HDP) , какие могут быть подводные камни?

Рамиль

26.09.2018
18:43:44

там ведь все совсем по другому будет(докер вместо cgroups и т.д. и т.п.), я думаю там сплошные рифы будут :)

Alexander

26.09.2018
18:44:32

Ну я надеюсь на обратную совместимость, которую обещали?

Рамиль

26.09.2018
18:45:46

:)

Uncel

26.09.2018
18:49:31

например https://issues.apache.org/jira/browse/HDFS-13596

Alexander

26.09.2018
18:54:10

например https://issues.apache.org/jira/browse/HDFS-13596

Ага, HortonWorks говорит, что не надо Rolling: There is only one method for upgrading HDP-2.6 to HDP-3.0 with Ambari: Express Upgrade.

Uncel

26.09.2018
18:54:34

А сапорт есть?

Alexander

26.09.2018
18:55:42

А сапорт есть?

Если очень надо, то можно. Без него обходимся?

Google

Uncel

26.09.2018
18:56:04

Ну банально эскалация

Alexander

26.09.2018
19:02:40

Ну банально эскалация

HDP лишь один из кубиков большой платформы, поэтому мы сами? Информацию мы у них запросили, тем не менее, хочется услышать реальные примеры перехода и проблемы. Документацию на HDP уже не раз корректировали?

Ruslan

27.09.2018
01:05:08

На первом подводном камне я уже спотыкнулся. Рабочий кластер на 6 рхеле, а 3-му хдп нужен 7-й. Вот думаю, или сделать апргрейд, или новый кластер развернуть на семёрке сразу

Sergei