@hadoopusers

« Назад

Страница 162 из 182

Далее »

Daniel

09.10.2018
06:43:55

у меня опять флэшбэк от py4j где сериализация чисел идет в строки (ну тоже байты)

Решаемой задачей хранить миллиард миллиардов объектов :)

пробовали в hbase хранить объекты размером в несколько метров и более?

Mikhail

09.10.2018
06:47:01

пробовали в hbase хранить объекты размером в несколько метров и более?

пробовали нарезать и хранить чанками, а поверх длеать объектный сторадж

такое себе удовольствие:)

Google

Daniel

09.10.2018
06:47:35

ну вот я и намекаю Станиславу, что это специфичная задача)

Stanislav

09.10.2018
06:47:47

Нет, да и не соберусь его так использовать. Вечный упор в ио заставляет скорее наоборот клеить объекты, чем создавать миллиарды их

Grigory

09.10.2018
06:47:48

пробовали в hbase хранить объекты размером в несколько метров и более?

я пробовал

нормальная тема

Daniel

09.10.2018
06:48:22

нормальная тема

а кейс какой по обращениям?

Grigory

09.10.2018
06:48:32

только лексиграфические запросы

рендж / по ключу

ну и она норм работала; никаких специфическиъ настроек не хотела

Daniel

09.10.2018
06:49:09

большой объем был?

Grigory

09.10.2018
06:49:13

да

ну как

не очень

пара тб

Google

Daniel

09.10.2018
06:49:29

я че т не очень верю, что оно с кучей регионов будет вести себя хорошо

но это диванное размышление

Grigory

09.10.2018
06:50:04

нормально вела; к слову оно все заработало и тесты прогнало и показало хороший резльутат

но ты верно говоришь, для больших ячеек есть accumulo

там прост на страничке иъ говроится что ячейка до экзобайта => подразумевает что ты там можешь хранить блокчейн

KrivdaAllStars

09.10.2018
07:30:52

пробовали нарезать и хранить чанками, а поверх длеать объектный сторадж

Кассандра лучше подходит для этого

Mikhail

09.10.2018
07:31:21

Кассандра лучше подходит для этого

Её мы тоже пробовали, да, подходила лучше:)

Рамиль

09.10.2018
07:31:34

Её мы тоже пробовали, да, подходила лучше:)

и как вам она?

Grigory

09.10.2018
07:31:39

Кассандра лучше подходит для этого

oO

Daniel

09.10.2018
07:31:47

Кассандра лучше подходит для этого

как всегда бесподобно конкретен

Grigory

09.10.2018
07:32:12

да на самом деле кассандра тож норм с большими блобами живет

в целом после монги тяжело разочароваться в какой-либо субд

Daniel

09.10.2018
07:32:59

эт да, но есть еще тарантул и оранго

Mikhail

09.10.2018
07:33:02

и как вам она?

Ну в итоге просто написали свой object storage поверх самописного key-value storage, работает лучше всего:)

Nikita Blagodarnyy

09.10.2018
07:34:43

Вы не из Сбертеха?

Mikhail

09.10.2018
07:35:47

Вы не из Сбертеха?

Вовсе нет

Евгений

09.10.2018
08:17:45

Больше на яндекс похоже)

Александр

09.10.2018
08:18:56

Яндекс разве топ в мире велосипедостроительства?

Я думал ВК и одноклассники

Евгений

09.10.2018
08:20:04

Там всё ещё списки сами пишут, не доверяют java.util)

Google

Nikita Blagodarnyy

09.10.2018
08:24:36

Это что. В одном зеленом учреждении своя сборка хадупа.

Stanislav

09.10.2018
08:33:47

Это что. В одном зеленом учреждении своя сборка хадупа.

Так и Мейл вроде тоже об этом говорил гордо

Andrey

09.10.2018
08:35:56

вы так говорите, как будто это плохо

Nikita Blagodarnyy

09.10.2018
08:37:26

Ничего такого я не имел ввиду.

Evgeny

09.10.2018
08:40:30

Интересно, а кто-то использует хадуп на чем-то отличном от линукса ?

Grigory

09.10.2018
08:42:13

Интересно, а кто-то использует хадуп на чем-то отличном от линукса ?

используют, но к слову даже hdinsight ажуры на линухах

Евгений

09.10.2018
08:43:40

Можно вроде как и на винде, только в 2 раза дороже)

Evgeny

09.10.2018
08:44:59

Можно вроде как и на винде, только в 2 раза дороже)

Ну, винда сама по себе не бесплатная

Grigory

09.10.2018
08:45:36

мне было бы инетерсно послшуать о юзейсе хадупов под виндой

Евгений

09.10.2018
08:46:28

Прост не очень понятно, зачем платить за лицензию, если можно не платить и абсолютно ничего не потерять

Nikita Blagodarnyy

09.10.2018
08:46:53

Интересно, а кто-то использует хадуп на чем-то отличном от линукса ?

Чет большие сомнения. Он же много возможностей ОС использует.

Евгений

09.10.2018
08:47:10

Удобство винды в хорошем графическом интерфейсе, но на 50 нод всё равно через rdp не залезешь)

Grigory

09.10.2018
08:47:33

Чет большие сомнения. Он же много возможностей ОС использует.

работает все под виндой, проблемы могут быть линковать линухоноды с виндонодами

Evgeny

09.10.2018
08:47:56

Прост не очень понятно, зачем платить за лицензию, если можно не платить и абсолютно ничего не потерять

Например "исторически так сложилось". Примерно как у нас с хадупом под фрёй.

Alexander

09.10.2018
08:54:49

вы так говорите, как будто это плохо

Не подходит для enterprise в большинстве случаев (лучше стабильная коробка и поддержка), но ничего плохого в этом нет.

KrivdaAllStars

09.10.2018
08:59:49

Интересно, а кто-то использует хадуп на чем-то отличном от линукса ?

У Рамблера на фрибсд был

Alexander

09.10.2018
09:02:36

работает все под виндой, проблемы могут быть линковать линухоноды с виндонодами

Ага, не стоит использовать одновременно машины с разной ОС.

Evgeny

09.10.2018
09:04:14

У Рамблера на фрибсд был

.. и есть

Александр

09.10.2018
09:21:00

может они по ZFS угорели

Mikhail

09.10.2018
09:22:39

может они по ZFS угорели

Кстати много кто таким образом бекапы делает:)

Google

Oleg

09.10.2018
10:38:52

Привет! Такой вопрос) а хайв отдельно от хадупа можно поставить?

Старый

09.10.2018
10:40:39

Привет! Такой вопрос) а хайв отдельно от хадупа можно поставить?

и по какой бд он будет запросы делать?

по воображаемой?

Oleg

09.10.2018
10:41:18

ну не, на диске будут лежать файлики parquet, где-то будет его PG с метаданными

я понимаю, что это может звучать очень глупо, но мне интересно, реально ли это и если да, насколько это бессмысленно)

Andrey

09.10.2018
11:03:52

Привет всем, ни у кого не было такой странности: спарк джоба (одна и та же) с разной нагрузкой в EMR порождает разный объем трафика между драйвером и экзекьютором, проблема в том что этот трафик остается даже когда джобу прибиваешь

как то так это выглядит

первый небольшой пик это та же джоба на меньшем количестве данных

потом все плато это запущенная джоба, и расти трафик начал уже после того как я ее кильнул

я не очень понимаю куда копать можно

Stanislav

09.10.2018
11:17:50

и по какой бд он будет запросы делать?

Бд как раз тут не при чем, метастор стоит отдельно. Вопрос хранения данных - орки на хдфс. Скорее интересно, зачем так делать?

Nikita Blagodarnyy

09.10.2018
11:20:05

Ну если нужен только хайв, нафига весь хадуп?

Напихал найфаем паркетов на локальный диск и сидишь селектишь.

Я так понял.

Stanislav

09.10.2018
11:21:31

И чем тогда постгре плох?

Daniel

09.10.2018
11:21:41

так и хайв тогда зачем и паркет?

Alexander

09.10.2018
11:25:27

а что тогда от hive остается? по умолчанию там движок Tez, он без yarn жить умеет?

можно конечно извратиться, сделать hive on spark, такая связка чисто теретически может прожить без hadoop, но боюсь там гвозди есть... даже не сотка )

Nikita Blagodarnyy

09.10.2018
11:26:19

а что тогда от hive остается? по умолчанию там движок Tez, он без yarn жить умеет?

Cbo, metastore, hiveserver2, hcat

Google

Nikita Blagodarnyy

09.10.2018
11:27:09

Ну всем говорить бигдата мол у меня, 500 Мб распарсил.

Alexander

09.10.2018
11:30:04

ну тогда spark в local mode + sparj thrift server )

Stanislav

09.10.2018
12:12:52

Так что, никто не гонял 3 хадуп на 11 рэках с новым кодированием?)

Евгений

09.10.2018
12:18:36

можно конечно извратиться, сделать hive on spark, такая связка чисто теретически может прожить без hadoop, но боюсь там гвозди есть... даже не сотка )

Хайв на спарке гораздо хуже самого спарка

Старый

09.10.2018
12:18:48

?

Евгений

09.10.2018
12:19:08

Они даже сами от его поддержки отказались в какой-то момент)

Старый

09.10.2018
12:22:44

предложим, я в hbase храню методанные большие, на hdfs сами данные, а ignite краткие методанные с ключевыми. как мне понять, сколько нужно будет времени, чтобы достать все данные, и сделать полный олап

и как обьяснить, что там никаких потоковых данных не будет

Oleg

09.10.2018
12:56:06

Бд как раз тут не при чем, метастор стоит отдельно. Вопрос хранения данных - орки на хдфс. Скорее интересно, зачем так делать?

пока предполагается объем где-то до 50ТБ (с учетом х3 репликации). На этом хочется использовать spark ML. Есть предположение, что для чего-нибудь понадобится hive или что-то типа того) Хадуп ради пары десятков ТБ разворачивать странно. Плюс hdfs медленный будет. Надежность данных не так важна, ибо там будет лежать не сырье а только предобработанные данные. Само сырье будет тянуться из хадупа (он уже есть, с ним все хорошо). Почему не делать это на уже существующем хадупе? Нужно полностью изолировать ресурсы на эти задачи. Он и так сильно нагружен + эксперементы с оптимизацией и отсутствие тестового стенда делают его потенциально (и не только, хехе) не очень надежным в плане готовности данных к определенному времени.

Stanislav

09.10.2018
13:04:23

пока предполагается объем где-то до 50ТБ (с учетом х3 репликации). На этом хочется использовать spark ML. Есть предположение, что для чего-нибудь понадобится hive или что-то типа того) Хадуп ради пары десятков ТБ разворачивать странно. Плюс hdfs медленный будет. Надежность данных не так важна, ибо там будет лежать не сырье а только предобработанные данные. Само сырье будет тянуться из хадупа (он уже есть, с ним все хорошо). Почему не делать это на уже существующем хадупе? Нужно полностью изолировать ресурсы на эти задачи. Он и так сильно нагружен + эксперементы с оптимизацией и отсутствие тестового стенда делают его потенциально (и не только, хехе) не очень надежным в плане готовности данных к определенному времени.

Надёжность не важна, но репликация х3. Данных 15 ТБ в каком виде то? А то может хайв нужен будет, а может нет. Втф? И хдфс достаточно быстрая штука, все зависит от нагрузки. Как раз в таком виде развернуть рядом кластер хадупа и бросать данные между ними с репликой х1 вообще легко. Даже проще

Oleg

09.10.2018
14:22:17

> Данных 15 ТБ в каком виде то? parquet, в каком-нибудь bzip или snappy Тут еще проблема в том, что разворачиванием кластера буду заниматься не я, а админ. И он что-то не горит желанием поддерживать 2 кластера хадупа. Четко обосновать, что нужен именно второй хадуп, а не какой-нибудь месос со спарком я не могу, ибо сам сомневаюсь, что хадуп нужен)

Пока видится, что поставить какой-нибудь кластер на месос, цеф, кубернетнес (или как там пишется) и туда закинуть либы спарка гораздо проще, чем рядом разворачивать, настраивать и поддерживать еще один хадуп.

Alexander

09.10.2018
14:25:39

хм. мне казалось, с точки зрения админа чем однороднее ландшафт, тем лучше ) на прод тоже двумя отдельными наборами сред покатите?

Старый

09.10.2018
14:26:07

Пока видится, что поставить какой-нибудь кластер на месос, цеф, кубернетнес (или как там пишется) и туда закинуть либы спарка гораздо проще, чем рядом разворачивать, настраивать и поддерживать еще один хадуп.

15 тб в кубере?о боже

Stanislav

09.10.2018
14:26:43

Вот мне кажется, что поддержка одного только к8с/цеф в разы более трудоёмка, нежели хадуп, с которого только пылинки сдувай раз в квартал, да тряпочкой протирай. Но вам виднее.

Старый

09.10.2018
14:27:13

Вот мне кажется, что поддержка одного только к8с/цеф в разы более трудоёмка, нежели хадуп, с которого только пылинки сдувай раз в квартал, да тряпочкой протирай. Но вам виднее.

с моим кейсом я чтот советов не увидел

Oleg

09.10.2018
14:28:19

Вот мне кажется, что поддержка одного только к8с/цеф в разы более трудоёмка, нежели хадуп, с которого только пылинки сдувай раз в квартал, да тряпочкой протирай. Но вам виднее.

вот как раз таки не виднее) несколько дней назад я задавался вопросом, а какой тогда ресурс менеджер использовать и не нашел и тут как-то тоже не подсказали. Поэтому тут не понятно. Спарк отдельно от хадупа я еще не юзал, поэтому не представляю, с какими проблемами можно столкнуться)

« Назад

Страница 162 из 182

Далее »

Открыть в Telegram