@hadoopusers

« Назад

Страница 118 из 182

Далее »

Andriy

19.07.2018
10:35:33

Alexey

19.07.2018
10:36:48

давайте вызовем сотону.

Sergey

19.07.2018
10:38:07

Sergioss

19.07.2018
11:09:06

Это менеджер ресурсов кластера. Он старается эффективно распределять ресурсы кластера (память, цпу) в условиях множественных конкурирующих задач

МУЖИК!!! Спасибо большое за мануал!!!

Google

ptchol

19.07.2018
11:10:19

Завелось ?

Sergioss

19.07.2018
11:13:55

Завелось ?

Да, уже к финишу подхожу, были траблы но из за рук, ман четкий понятно хоть что куда и как, в данный момент не стартует датанода, но над просто перепроверить похоже чет натыкал, блин чтоб я без тебя делал) ща наконец то доставлю и пойду теорию читать.

Dan

19.07.2018
11:21:55

по спарку можно послушать курсы на курсере от яндекса и смотреть туториалы на оф сайте spark.apache.org

Спасибо!

Sergioss

19.07.2018
15:28:10

Ребята чет фаловер нерабоает, может кто подскажет. 8/07/19 18:06:03 INFO zookeeper.ZooKeeper: Initiating client connection, connectString= name.node:2181,name1.node:2181,data1.node:2181 sessionTimeout=5000 watcher=org.apache.hadoop.ha.ActiveStandbyElector$WatcherWithClientRef@1139b2f3 18/07/19 18:06:03 FATAL tools.DFSZKFailoverController: DFSZKFailOverController exiting due to earlier exception java.lang.NumberFormatException: For input string: "2181 " хотя хосты доступен, служба кворума тоже запущена на них

Mikhail

19.07.2018
15:31:06

Ребята чет фаловер нерабоает, может кто подскажет. 8/07/19 18:06:03 INFO zookeeper.ZooKeeper: Initiating client connection, connectString= name.node:2181,name1.node:2181,data1.node:2181 sessionTimeout=5000 watcher=org.apache.hadoop.ha.ActiveStandbyElector$WatcherWithClientRef@1139b2f3 18/07/19 18:06:03 FATAL tools.DFSZKFailoverController: DFSZKFailOverController exiting due to earlier exception java.lang.NumberFormatException: For input string: "2181 " хотя хосты доступен, служба кворума тоже запущена на них

пробел в конце порта лишний

Sergioss

19.07.2018
15:33:13

пробел в конце порта лишний

For input string: "2181 " хм, он не может быть лишним в zoo.cfg а вот в hdfs проверял там норм, но тем не менее видмо вы правы, проверю еще раз

пробел в конце порта лишний

да, глаз замылился,спасибо за помощь!

Mikhail

19.07.2018
15:37:41

да, глаз замылился,спасибо за помощь!

кавычки не просто так ставят, будьте бдительней.

Sergioss

19.07.2018
15:38:25

Да, спасибо!

Valeriy

19.07.2018
18:39:39

Приветствую, у кого есть опыт в связке kafka-flume-hive? Пытаюсь реализовать схему, когда флюм пишет стандартным hive sink в stage таблицу (stored as orc), а потом эти данные мержатся хайвом в основную таблицу (тоже orc). Пытался сделать стэйджиговую таблицу с партицированием по дате, но такое чувство, что flume требует только статические партиции. org.apache.hive.hcatalog.streaming.ConnectionError: HiveEndPoint {metaStoreUri='thrift://xxxx:9083', database='default', table='table_orc_stage', partitionVals=[] } doesn't specify any partitions for partitioned table

Andrei

19.07.2018
19:58:13

С флюмом грустно как-то. Я делал на Spark, работает хорошо. Если много мелких ORC файлов то в hive удобно мержить через ALTER TABLE ... PARTITION (...) CONCATENATE

Sergey

19.07.2018
20:21:15

Приветствую, у кого есть опыт в связке kafka-flume-hive? Пытаюсь реализовать схему, когда флюм пишет стандартным hive sink в stage таблицу (stored as orc), а потом эти данные мержатся хайвом в основную таблицу (тоже orc). Пытался сделать стэйджиговую таблицу с партицированием по дате, но такое чувство, что flume требует только статические партиции. org.apache.hive.hcatalog.streaming.ConnectionError: HiveEndPoint {metaStoreUri='thrift://xxxx:9083', database='default', table='table_orc_stage', partitionVals=[] } doesn't specify any partitions for partitioned table

почему стейдж таблица as ORC? у нас такая же связка. мы пишем в CSV и раз в час перекладываем в Parquet. потом раз в сутки еще раз перекладываем часовые паркетины в суточную

Daniel

20.07.2018
04:47:42

@dos65 Вадим, подскажи, а ваша платформа она что именно охватывает (этапы разработки и внедрения моделей)? Верхнеуровнево. А то я возможно забыл её включить в список для расследования.

Google

Valeriy

20.07.2018
05:53:07

почему стейдж таблица as ORC? у нас такая же связка. мы пишем в CSV и раз в час перекладываем в Parquet. потом раз в сутки еще раз перекладываем часовые паркетины в суточную

Да, так сложилось .... До того, как таблицу пересоздали как партицированную - оно работало прекрасно, пока не возник вопрос о ежесуточном мерже в основную таблицу. Решили сделать партиции по датам, а оно вот как....

а в csv пишите своим каким-то синком ? из стандартных я что-то не вижу в доках по флюму....

С флюмом грустно как-то. Я делал на Spark, работает хорошо. Если много мелких ORC файлов то в hive удобно мержить через ALTER TABLE ... PARTITION (...) CONCATENATE

Мне тоже spark больше по душе.... но, в данном случае - "...пробуем достичь однообразия в заливке данных...". Поскольку используется, hive sink, который пишет в hive таблицу, то далее просто выполняем MERGE INTO table USING table_stage ....

Vadim

20.07.2018
06:16:13

@dos65 Вадим, подскажи, а ваша платформа она что именно охватывает (этапы разработки и внедрения моделей)? Верхнеуровнево. А то я возможно забыл её включить в список для расследования.

охватывает постразработку - то есть можешь модельки натренить, задеплоить их туда, мониторинг аномального поведения (входы/выходы) повесить. сейчас в процессе прикучивание возможность собрать данные с реального использования, чтобы потом ретеренинг можно было проводить

Daniel

20.07.2018
06:18:29

всякое аб и версионность есть?

Vadim

20.07.2018
06:27:40

всякое аб и версионность есть?

ага

Daniel

20.07.2018
06:28:21

ага

я вдруг захотел почитать детали)

Vadim

20.07.2018
06:33:06

там доку недавно подвезли

Daniel

20.07.2018
06:33:49

??

Vadim

20.07.2018
06:35:58

ток ссылку в ридми забыли добавить https://hydrosphere.io/serving-docs/

Daniel

20.07.2018
06:36:28

спасиб

Andrei

20.07.2018
06:36:58

Мне тоже spark больше по душе.... но, в данном случае - "...пробуем достичь однообразия в заливке данных...". Поскольку используется, hive sink, который пишет в hive таблицу, то далее просто выполняем MERGE INTO table USING table_stage ....

Тогда можно через промежуточную таблицу. Flume -> Tmp Table -> Partitioned Table

Valeriy

20.07.2018
11:40:49

Тогда можно через промежуточную таблицу. Flume -> Tmp Table -> Partitioned Table

Так это уже громоздко..... мне потом в конечном итоге нужна таблица без партиций с уникальным ключём..... ладно, я победил флюм тем что в настройках синка прописал шаблон по дате и указал автосоздание партиций. Шаблон на основе поля никак не работал....

KrivdaAllStars

20.07.2018
11:52:16

Так это уже громоздко..... мне потом в конечном итоге нужна таблица без партиций с уникальным ключём..... ладно, я победил флюм тем что в настройках синка прописал шаблон по дате и указал автосоздание партиций. Шаблон на основе поля никак не работал....

а есть возможность пошарить) ?

Andrei

20.07.2018
11:52:30

https://blog.cloudera.com/blog/2013/07/morphlines-the-easy-way-to-build-and-integrate-etl-apps-for-apache-hadoop/

Как вариант, работает партицирование по полю. Могу поискать рабочий пример, если надо.

Anton

20.07.2018
12:10:15

Привет! Кто-нибудь писал в хайв из питона без спарка и вызова баша?)

Pavel

20.07.2018
12:12:15

External таблицами, да

Anton

20.07.2018
12:14:33

Спс

Peter

20.07.2018
12:21:10

Есть еще pyhive)) from pyhive import hive conn = hive.Connection(host="YOUR_HIVE_HOST", port=PORT, username="YOU")

Google

Peter

20.07.2018
12:22:24

Если HiveServer2, то pyhs2

Stanislav

20.07.2018
12:24:03

Если HiveServer2, то pyhs2

А оно через что работает, через http умеет чтоб прокси пройти?

Pavel

20.07.2018
12:24:21

Если HiveServer2, то pyhs2

Нам больше impyla зашла, кстати

Peter

20.07.2018
12:35:21

прокси в окружении можно задать, import os, потом proxy = ‘http://user:pass@proxy:port’, потом os.environ[‘http(и / или https)’] = proxy ну и твой код. но в connection увы прокси описать нельзя

Нам больше impyla зашла, кстати

Тоже вариант)

Stanislav

20.07.2018
14:17:32

прокси в окружении можно задать, import os, потом proxy = ‘http://user:pass@proxy:port’, потом os.environ[‘http(и / или https)’] = proxy ну и твой код. но в connection увы прокси описать нельзя

Это я к работу через нокс с керберизованным кластером. Ясно, спс

Andrey

20.07.2018
15:12:28

@pomadchin пару месяцев назад ты говорил что спарк трифт сервер это плохо. Напомни чем плохо?

Grigory

20.07.2018
17:03:49

@pomadchin пару месяцев назад ты говорил что спарк трифт сервер это плохо. Напомни чем плохо?

Спарк трифт сервер? Лучше контекст добавь)

Я мог говорить что спарк сервер ниоч и что трифт старый

Andrey

20.07.2018
17:15:22

ну который jdbc гейт

который как отдельное приложение работает и sql делает

Grigory

20.07.2018
17:16:34

А ты про трифт сервер, не про него ничо не говорил)

Andrey

20.07.2018
17:22:50

погоди, а ты про какой говорил?)

Андрей

20.07.2018
17:24:15

так, а если не трифт, то кот?

Grigory

20.07.2018
18:32:54

погоди, а ты про какой говорил?)

Я багеты на жоп сервер выкладывал

Roman

21.07.2018
08:37:31

Хитро, хитро

Grigory

21.07.2018
09:18:12

Да старая тема кстати) добавляются и в никах реклама

Товарищ Майор

22.07.2018
17:36:06

Приветы, ambari это читерство или норм?

Андрей

22.07.2018
17:46:58

Приветы, ambari это читерство или норм?

сноси эту пакость!

Товарищ Майор

22.07.2018
17:47:34

сноси эту пакость!

ага так и думал), н очто с ней не так?

Google

Андрей

22.07.2018
17:48:22

Да все с ней так, на самом деле. Все равно придется иногда руками подкручивать.

Nikita

22.07.2018
18:15:34

По моему опыту норм, обычный опенсорс

Товарищ Майор

22.07.2018
18:19:06

Ага, ок, а impala в docker норм живёт? Просто не охота отделный сервак под неё

Grigory

22.07.2018
18:20:58

Ага, ок, а impala в docker норм живёт? Просто не охота отделный сервак под неё

Все норм в докерах при наличии прямых рук

Товарищ Майор

22.07.2018
18:21:51

Все норм в докерах при наличии прямых рук

tnx, просто до этого с hadoop дела не имел совсем, а хочется попробовать http://spot.incubator.apache.org и по-быстрому.

Nikita

22.07.2018
18:22:55

Opensource cybersecurity сильно конечно

Товарищ Майор

22.07.2018
18:26:46

Opensource cybersecurity сильно конечно

ну... такое вроде как нахваливают. Я так понимаю это тот же apache-metron/cloudera только опен сорс. у нас не так много серваков (~700) чтоб покупать коммерческое решения

Nikita

22.07.2018
18:29:22

Смотря что за проект. Вообще звучит как оксюморон по моему))

Товарищ Майор

22.07.2018
18:31:33

Смотря что за проект. Вообще звучит как оксюморон по моему))

Открыть в Telegram