@hadoopusers

Страница 162 из 182
Daniel
09.10.2018
06:43:55
у меня опять флэшбэк от py4j где сериализация чисел идет в строки (ну тоже байты)

Решаемой задачей хранить миллиард миллиардов объектов :)
пробовали в hbase хранить объекты размером в несколько метров и более?

Mikhail
09.10.2018
06:47:01
пробовали в hbase хранить объекты размером в несколько метров и более?
пробовали нарезать и хранить чанками, а поверх длеать объектный сторадж

такое себе удовольствие:)

Google
Daniel
09.10.2018
06:47:35
ну вот я и намекаю Станиславу, что это специфичная задача)

Stanislav
09.10.2018
06:47:47
Нет, да и не соберусь его так использовать. Вечный упор в ио заставляет скорее наоборот клеить объекты, чем создавать миллиарды их

Daniel
09.10.2018
06:48:22
нормальная тема
а кейс какой по обращениям?

Grigory
09.10.2018
06:48:32
только лексиграфические запросы

рендж / по ключу

ну и она норм работала; никаких специфическиъ настроек не хотела

Daniel
09.10.2018
06:49:09
большой объем был?

Grigory
09.10.2018
06:49:13
да

ну как

не очень

пара тб

Google
Daniel
09.10.2018
06:49:29
я че т не очень верю, что оно с кучей регионов будет вести себя хорошо

но это диванное размышление

Grigory
09.10.2018
06:50:04
нормально вела; к слову оно все заработало и тесты прогнало и показало хороший резльутат

но ты верно говоришь, для больших ячеек есть accumulo

там прост на страничке иъ говроится что ячейка до экзобайта => подразумевает что ты там можешь хранить блокчейн

KrivdaAllStars
09.10.2018
07:30:52
Mikhail
09.10.2018
07:31:21
Кассандра лучше подходит для этого
Её мы тоже пробовали, да, подходила лучше:)

Рамиль
09.10.2018
07:31:34
Daniel
09.10.2018
07:31:47
Кассандра лучше подходит для этого
как всегда бесподобно конкретен

Grigory
09.10.2018
07:32:12
да на самом деле кассандра тож норм с большими блобами живет

в целом после монги тяжело разочароваться в какой-либо субд

Daniel
09.10.2018
07:32:59
эт да, но есть еще тарантул и оранго

Mikhail
09.10.2018
07:33:02
и как вам она?
Ну в итоге просто написали свой object storage поверх самописного key-value storage, работает лучше всего:)

Nikita Blagodarnyy
09.10.2018
07:34:43
Вы не из Сбертеха?

Mikhail
09.10.2018
07:35:47
Евгений
09.10.2018
08:17:45
Больше на яндекс похоже)

Александр
09.10.2018
08:18:56
Яндекс разве топ в мире велосипедостроительства?

Я думал ВК и одноклассники

Евгений
09.10.2018
08:20:04
Там всё ещё списки сами пишут, не доверяют java.util)

Google
Nikita Blagodarnyy
09.10.2018
08:24:36
Это что. В одном зеленом учреждении своя сборка хадупа.

Stanislav
09.10.2018
08:33:47
Это что. В одном зеленом учреждении своя сборка хадупа.
Так и Мейл вроде тоже об этом говорил гордо

Andrey
09.10.2018
08:35:56
вы так говорите, как будто это плохо

Nikita Blagodarnyy
09.10.2018
08:37:26
Ничего такого я не имел ввиду.

Evgeny
09.10.2018
08:40:30
Интересно, а кто-то использует хадуп на чем-то отличном от линукса ?

Grigory
09.10.2018
08:42:13
Интересно, а кто-то использует хадуп на чем-то отличном от линукса ?
используют, но к слову даже hdinsight ажуры на линухах

Евгений
09.10.2018
08:43:40
Можно вроде как и на винде, только в 2 раза дороже)

Evgeny
09.10.2018
08:44:59
Можно вроде как и на винде, только в 2 раза дороже)
Ну, винда сама по себе не бесплатная

Grigory
09.10.2018
08:45:36
мне было бы инетерсно послшуать о юзейсе хадупов под виндой

Евгений
09.10.2018
08:46:28
Прост не очень понятно, зачем платить за лицензию, если можно не платить и абсолютно ничего не потерять

Nikita Blagodarnyy
09.10.2018
08:46:53
Интересно, а кто-то использует хадуп на чем-то отличном от линукса ?
Чет большие сомнения. Он же много возможностей ОС использует.

Евгений
09.10.2018
08:47:10
Удобство винды в хорошем графическом интерфейсе, но на 50 нод всё равно через rdp не залезешь)

Grigory
09.10.2018
08:47:33
Чет большие сомнения. Он же много возможностей ОС использует.
работает все под виндой, проблемы могут быть линковать линухоноды с виндонодами

Evgeny
09.10.2018
08:47:56
Прост не очень понятно, зачем платить за лицензию, если можно не платить и абсолютно ничего не потерять
Например "исторически так сложилось". Примерно как у нас с хадупом под фрёй.

Alexander
09.10.2018
08:54:49
вы так говорите, как будто это плохо
Не подходит для enterprise в большинстве случаев (лучше стабильная коробка и поддержка), но ничего плохого в этом нет.

Alexander
09.10.2018
09:02:36
работает все под виндой, проблемы могут быть линковать линухоноды с виндонодами
Ага, не стоит использовать одновременно машины с разной ОС.

Evgeny
09.10.2018
09:04:14
Александр
09.10.2018
09:21:00
может они по ZFS угорели

Mikhail
09.10.2018
09:22:39
может они по ZFS угорели
Кстати много кто таким образом бекапы делает:)

Google
Oleg
09.10.2018
10:38:52
Привет! Такой вопрос) а хайв отдельно от хадупа можно поставить?

Старый
09.10.2018
10:40:39
по воображаемой?

Oleg
09.10.2018
10:41:18
ну не, на диске будут лежать файлики parquet, где-то будет его PG с метаданными

я понимаю, что это может звучать очень глупо, но мне интересно, реально ли это и если да, насколько это бессмысленно)

Andrey
09.10.2018
11:03:52
Привет всем, ни у кого не было такой странности: спарк джоба (одна и та же) с разной нагрузкой в EMR порождает разный объем трафика между драйвером и экзекьютором, проблема в том что этот трафик остается даже когда джобу прибиваешь



как то так это выглядит

первый небольшой пик это та же джоба на меньшем количестве данных

потом все плато это запущенная джоба, и расти трафик начал уже после того как я ее кильнул

я не очень понимаю куда копать можно

Stanislav
09.10.2018
11:17:50
и по какой бд он будет запросы делать?
Бд как раз тут не при чем, метастор стоит отдельно. Вопрос хранения данных - орки на хдфс. Скорее интересно, зачем так делать?

Nikita Blagodarnyy
09.10.2018
11:20:05
Ну если нужен только хайв, нафига весь хадуп?

Напихал найфаем паркетов на локальный диск и сидишь селектишь.

Я так понял.

Stanislav
09.10.2018
11:21:31
И чем тогда постгре плох?

Daniel
09.10.2018
11:21:41
так и хайв тогда зачем и паркет?

Alexander
09.10.2018
11:25:27
а что тогда от hive остается? по умолчанию там движок Tez, он без yarn жить умеет?

можно конечно извратиться, сделать hive on spark, такая связка чисто теретически может прожить без hadoop, но боюсь там гвозди есть... даже не сотка )

Google
Nikita Blagodarnyy
09.10.2018
11:27:09
Ну всем говорить бигдата мол у меня, 500 Мб распарсил.

Alexander
09.10.2018
11:30:04
ну тогда spark в local mode + sparj thrift server )

Stanislav
09.10.2018
12:12:52
Так что, никто не гонял 3 хадуп на 11 рэках с новым кодированием?)

Старый
09.10.2018
12:18:48
?

Евгений
09.10.2018
12:19:08
Они даже сами от его поддержки отказались в какой-то момент)

Старый
09.10.2018
12:22:44
предложим, я в hbase храню методанные большие, на hdfs сами данные, а ignite краткие методанные с ключевыми. как мне понять, сколько нужно будет времени, чтобы достать все данные, и сделать полный олап

и как обьяснить, что там никаких потоковых данных не будет

Oleg
09.10.2018
12:56:06
Бд как раз тут не при чем, метастор стоит отдельно. Вопрос хранения данных - орки на хдфс. Скорее интересно, зачем так делать?
пока предполагается объем где-то до 50ТБ (с учетом х3 репликации). На этом хочется использовать spark ML. Есть предположение, что для чего-нибудь понадобится hive или что-то типа того) Хадуп ради пары десятков ТБ разворачивать странно. Плюс hdfs медленный будет. Надежность данных не так важна, ибо там будет лежать не сырье а только предобработанные данные. Само сырье будет тянуться из хадупа (он уже есть, с ним все хорошо). Почему не делать это на уже существующем хадупе? Нужно полностью изолировать ресурсы на эти задачи. Он и так сильно нагружен + эксперементы с оптимизацией и отсутствие тестового стенда делают его потенциально (и не только, хехе) не очень надежным в плане готовности данных к определенному времени.

Stanislav
09.10.2018
13:04:23
пока предполагается объем где-то до 50ТБ (с учетом х3 репликации). На этом хочется использовать spark ML. Есть предположение, что для чего-нибудь понадобится hive или что-то типа того) Хадуп ради пары десятков ТБ разворачивать странно. Плюс hdfs медленный будет. Надежность данных не так важна, ибо там будет лежать не сырье а только предобработанные данные. Само сырье будет тянуться из хадупа (он уже есть, с ним все хорошо). Почему не делать это на уже существующем хадупе? Нужно полностью изолировать ресурсы на эти задачи. Он и так сильно нагружен + эксперементы с оптимизацией и отсутствие тестового стенда делают его потенциально (и не только, хехе) не очень надежным в плане готовности данных к определенному времени.
Надёжность не важна, но репликация х3. Данных 15 ТБ в каком виде то? А то может хайв нужен будет, а может нет. Втф? И хдфс достаточно быстрая штука, все зависит от нагрузки. Как раз в таком виде развернуть рядом кластер хадупа и бросать данные между ними с репликой х1 вообще легко. Даже проще

Oleg
09.10.2018
14:22:17
> Данных 15 ТБ в каком виде то? parquet, в каком-нибудь bzip или snappy Тут еще проблема в том, что разворачиванием кластера буду заниматься не я, а админ. И он что-то не горит желанием поддерживать 2 кластера хадупа. Четко обосновать, что нужен именно второй хадуп, а не какой-нибудь месос со спарком я не могу, ибо сам сомневаюсь, что хадуп нужен)

Пока видится, что поставить какой-нибудь кластер на месос, цеф, кубернетнес (или как там пишется) и туда закинуть либы спарка гораздо проще, чем рядом разворачивать, настраивать и поддерживать еще один хадуп.

Alexander
09.10.2018
14:25:39
хм. мне казалось, с точки зрения админа чем однороднее ландшафт, тем лучше ) на прод тоже двумя отдельными наборами сред покатите?

Stanislav
09.10.2018
14:26:43
Вот мне кажется, что поддержка одного только к8с/цеф в разы более трудоёмка, нежели хадуп, с которого только пылинки сдувай раз в квартал, да тряпочкой протирай. Но вам виднее.

Oleg
09.10.2018
14:28:19
Вот мне кажется, что поддержка одного только к8с/цеф в разы более трудоёмка, нежели хадуп, с которого только пылинки сдувай раз в квартал, да тряпочкой протирай. Но вам виднее.
вот как раз таки не виднее) несколько дней назад я задавался вопросом, а какой тогда ресурс менеджер использовать и не нашел и тут как-то тоже не подсказали. Поэтому тут не понятно. Спарк отдельно от хадупа я еще не юзал, поэтому не представляю, с какими проблемами можно столкнуться)

Страница 162 из 182