
Daniel
09.10.2018
06:43:55
у меня опять флэшбэк от py4j где сериализация чисел идет в строки (ну тоже байты)

Mikhail
09.10.2018
06:47:01
такое себе удовольствие:)

Google

Daniel
09.10.2018
06:47:35
ну вот я и намекаю Станиславу, что это специфичная задача)

Stanislav
09.10.2018
06:47:47
Нет, да и не соберусь его так использовать. Вечный упор в ио заставляет скорее наоборот клеить объекты, чем создавать миллиарды их

Grigory
09.10.2018
06:47:48
нормальная тема

Daniel
09.10.2018
06:48:22

Grigory
09.10.2018
06:48:32
только лексиграфические запросы
рендж / по ключу
ну и она норм работала; никаких специфическиъ настроек не хотела

Daniel
09.10.2018
06:49:09
большой объем был?

Grigory
09.10.2018
06:49:13
да
ну как
не очень
пара тб

Google

Daniel
09.10.2018
06:49:29
я че т не очень верю, что оно с кучей регионов будет вести себя хорошо
но это диванное размышление

Grigory
09.10.2018
06:50:04
нормально вела; к слову оно все заработало и тесты прогнало и показало хороший резльутат
но ты верно говоришь, для больших ячеек есть accumulo
там прост на страничке иъ говроится что ячейка до экзобайта => подразумевает что ты там можешь хранить блокчейн

KrivdaAllStars
09.10.2018
07:30:52

Mikhail
09.10.2018
07:31:21

Рамиль
09.10.2018
07:31:34

Grigory
09.10.2018
07:31:39

Daniel
09.10.2018
07:31:47

Grigory
09.10.2018
07:32:12
да на самом деле кассандра тож норм с большими блобами живет
в целом после монги тяжело разочароваться в какой-либо субд

Daniel
09.10.2018
07:32:59
эт да, но есть еще тарантул и оранго

Mikhail
09.10.2018
07:33:02
и как вам она?
Ну в итоге просто написали свой object storage поверх самописного key-value storage, работает лучше всего:)

Nikita Blagodarnyy
09.10.2018
07:34:43
Вы не из Сбертеха?

Mikhail
09.10.2018
07:35:47

Евгений
09.10.2018
08:17:45
Больше на яндекс похоже)

Александр
09.10.2018
08:18:56
Яндекс разве топ в мире велосипедостроительства?
Я думал ВК и одноклассники

Евгений
09.10.2018
08:20:04
Там всё ещё списки сами пишут, не доверяют java.util)

Google

Nikita Blagodarnyy
09.10.2018
08:24:36
Это что. В одном зеленом учреждении своя сборка хадупа.

Stanislav
09.10.2018
08:33:47

Andrey
09.10.2018
08:35:56
вы так говорите, как будто это плохо

Nikita Blagodarnyy
09.10.2018
08:37:26
Ничего такого я не имел ввиду.

Evgeny
09.10.2018
08:40:30
Интересно, а кто-то использует хадуп на чем-то отличном от линукса ?

Grigory
09.10.2018
08:42:13

Евгений
09.10.2018
08:43:40
Можно вроде как и на винде, только в 2 раза дороже)

Evgeny
09.10.2018
08:44:59

Grigory
09.10.2018
08:45:36
мне было бы инетерсно послшуать о юзейсе хадупов под виндой

Евгений
09.10.2018
08:46:28
Прост не очень понятно, зачем платить за лицензию, если можно не платить и абсолютно ничего не потерять

Nikita Blagodarnyy
09.10.2018
08:46:53

Евгений
09.10.2018
08:47:10
Удобство винды в хорошем графическом интерфейсе, но на 50 нод всё равно через rdp не залезешь)

Grigory
09.10.2018
08:47:33

Evgeny
09.10.2018
08:47:56

Alexander
09.10.2018
08:54:49

KrivdaAllStars
09.10.2018
08:59:49

Alexander
09.10.2018
09:02:36

Evgeny
09.10.2018
09:04:14

Александр
09.10.2018
09:21:00
может они по ZFS угорели

Mikhail
09.10.2018
09:22:39

Google

Oleg
09.10.2018
10:38:52
Привет!
Такой вопрос) а хайв отдельно от хадупа можно поставить?

Старый
09.10.2018
10:40:39
по воображаемой?

Oleg
09.10.2018
10:41:18
ну не, на диске будут лежать файлики parquet, где-то будет его PG с метаданными
я понимаю, что это может звучать очень глупо, но мне интересно, реально ли это
и если да, насколько это бессмысленно)

Andrey
09.10.2018
11:03:52
Привет всем, ни у кого не было такой странности: спарк джоба (одна и та же) с разной нагрузкой в EMR порождает разный объем трафика между драйвером и экзекьютором, проблема в том что этот трафик остается даже когда джобу прибиваешь
как то так это выглядит
первый небольшой пик это та же джоба на меньшем количестве данных
потом все плато это запущенная джоба, и расти трафик начал уже после того как я ее кильнул
я не очень понимаю куда копать можно

Stanislav
09.10.2018
11:17:50

Nikita Blagodarnyy
09.10.2018
11:20:05
Ну если нужен только хайв, нафига весь хадуп?
Напихал найфаем паркетов на локальный диск и сидишь селектишь.
Я так понял.

Stanislav
09.10.2018
11:21:31
И чем тогда постгре плох?

Daniel
09.10.2018
11:21:41
так и хайв тогда зачем и паркет?

Alexander
09.10.2018
11:25:27
а что тогда от hive остается? по умолчанию там движок Tez, он без yarn жить умеет?
можно конечно извратиться, сделать hive on spark, такая связка чисто теретически может прожить без hadoop, но боюсь там гвозди есть... даже не сотка )

Nikita Blagodarnyy
09.10.2018
11:26:19

Google

Nikita Blagodarnyy
09.10.2018
11:27:09
Ну всем говорить бигдата мол у меня, 500 Мб распарсил.

Alexander
09.10.2018
11:30:04
ну тогда spark в local mode + sparj thrift server )

Stanislav
09.10.2018
12:12:52
Так что, никто не гонял 3 хадуп на 11 рэках с новым кодированием?)

Евгений
09.10.2018
12:18:36

Старый
09.10.2018
12:18:48
?

Евгений
09.10.2018
12:19:08
Они даже сами от его поддержки отказались в какой-то момент)

Старый
09.10.2018
12:22:44
предложим, я в hbase храню методанные большие, на hdfs сами данные, а ignite краткие методанные с ключевыми.
как мне понять, сколько нужно будет времени, чтобы достать все данные, и сделать полный олап
и как обьяснить, что там никаких потоковых данных не будет


Oleg
09.10.2018
12:56:06
Бд как раз тут не при чем, метастор стоит отдельно. Вопрос хранения данных - орки на хдфс. Скорее интересно, зачем так делать?
пока предполагается объем где-то до 50ТБ (с учетом х3 репликации). На этом хочется использовать spark ML.
Есть предположение, что для чего-нибудь понадобится hive или что-то типа того)
Хадуп ради пары десятков ТБ разворачивать странно. Плюс hdfs медленный будет. Надежность данных не так важна, ибо там будет лежать не сырье а только предобработанные данные.
Само сырье будет тянуться из хадупа (он уже есть, с ним все хорошо).
Почему не делать это на уже существующем хадупе? Нужно полностью изолировать ресурсы на эти задачи. Он и так сильно нагружен + эксперементы с оптимизацией и отсутствие тестового стенда делают его потенциально (и не только, хехе) не очень надежным в плане готовности данных к определенному времени.

Stanislav
09.10.2018
13:04:23


Oleg
09.10.2018
14:22:17
> Данных 15 ТБ в каком виде то?
parquet, в каком-нибудь bzip или snappy
Тут еще проблема в том, что разворачиванием кластера буду заниматься не я, а админ. И он что-то не горит желанием поддерживать 2 кластера хадупа. Четко обосновать, что нужен именно второй хадуп, а не какой-нибудь месос со спарком я не могу, ибо сам сомневаюсь, что хадуп нужен)
Пока видится, что поставить какой-нибудь кластер на месос, цеф, кубернетнес (или как там пишется) и туда закинуть либы спарка гораздо проще, чем рядом разворачивать, настраивать и поддерживать еще один хадуп.

Alexander
09.10.2018
14:25:39
хм. мне казалось, с точки зрения админа чем однороднее ландшафт, тем лучше ) на прод тоже двумя отдельными наборами сред покатите?

Старый
09.10.2018
14:26:07

Stanislav
09.10.2018
14:26:43
Вот мне кажется, что поддержка одного только к8с/цеф в разы более трудоёмка, нежели хадуп, с которого только пылинки сдувай раз в квартал, да тряпочкой протирай. Но вам виднее.

Старый
09.10.2018
14:27:13

Oleg
09.10.2018
14:28:19