@hadoopusers

Страница 118 из 182
Andriy
19.07.2018
10:35:33


Alexey
19.07.2018
10:36:48
давайте вызовем сотону.

Sergey
19.07.2018
10:38:07


Google
ptchol
19.07.2018
11:10:19
Завелось ?

Sergioss
19.07.2018
11:13:55
Завелось ?
Да, уже к финишу подхожу, были траблы но из за рук, ман четкий понятно хоть что куда и как, в данный момент не стартует датанода, но над просто перепроверить похоже чет натыкал, блин чтоб я без тебя делал) ща наконец то доставлю и пойду теорию читать.

Sergioss
19.07.2018
15:28:10
Ребята чет фаловер нерабоает, может кто подскажет. 8/07/19 18:06:03 INFO zookeeper.ZooKeeper: Initiating client connection, connectString= name.node:2181,name1.node:2181,data1.node:2181 sessionTimeout=5000 watcher=org.apache.hadoop.ha.ActiveStandbyElector$WatcherWithClientRef@1139b2f3 18/07/19 18:06:03 FATAL tools.DFSZKFailoverController: DFSZKFailOverController exiting due to earlier exception java.lang.NumberFormatException: For input string: "2181 " хотя хосты доступен, служба кворума тоже запущена на них

Sergioss
19.07.2018
15:33:13
пробел в конце порта лишний
For input string: "2181 " хм, он не может быть лишним в zoo.cfg а вот в hdfs проверял там норм, но тем не менее видмо вы правы, проверю еще раз

пробел в конце порта лишний
да, глаз замылился,спасибо за помощь!

Mikhail
19.07.2018
15:37:41
да, глаз замылился,спасибо за помощь!
кавычки не просто так ставят, будьте бдительней.

Sergioss
19.07.2018
15:38:25
Да, спасибо!

Valeriy
19.07.2018
18:39:39
Приветствую, у кого есть опыт в связке kafka-flume-hive? Пытаюсь реализовать схему, когда флюм пишет стандартным hive sink в stage таблицу (stored as orc), а потом эти данные мержатся хайвом в основную таблицу (тоже orc). Пытался сделать стэйджиговую таблицу с партицированием по дате, но такое чувство, что flume требует только статические партиции. org.apache.hive.hcatalog.streaming.ConnectionError: HiveEndPoint {metaStoreUri='thrift://xxxx:9083', database='default', table='table_orc_stage', partitionVals=[] } doesn't specify any partitions for partitioned table

Andrei
19.07.2018
19:58:13
С флюмом грустно как-то. Я делал на Spark, работает хорошо. Если много мелких ORC файлов то в hive удобно мержить через ALTER TABLE ... PARTITION (...) CONCATENATE

Daniel
20.07.2018
04:47:42
@dos65 Вадим, подскажи, а ваша платформа она что именно охватывает (этапы разработки и внедрения моделей)? Верхнеуровнево. А то я возможно забыл её включить в список для расследования.

Google
Valeriy
20.07.2018
05:53:07
почему стейдж таблица as ORC? у нас такая же связка. мы пишем в CSV и раз в час перекладываем в Parquet. потом раз в сутки еще раз перекладываем часовые паркетины в суточную
Да, так сложилось .... До того, как таблицу пересоздали как партицированную - оно работало прекрасно, пока не возник вопрос о ежесуточном мерже в основную таблицу. Решили сделать партиции по датам, а оно вот как....

а в csv пишите своим каким-то синком ? из стандартных я что-то не вижу в доках по флюму....

С флюмом грустно как-то. Я делал на Spark, работает хорошо. Если много мелких ORC файлов то в hive удобно мержить через ALTER TABLE ... PARTITION (...) CONCATENATE
Мне тоже spark больше по душе.... но, в данном случае - "...пробуем достичь однообразия в заливке данных...". Поскольку используется, hive sink, который пишет в hive таблицу, то далее просто выполняем MERGE INTO table USING table_stage ....

Vadim
20.07.2018
06:16:13
@dos65 Вадим, подскажи, а ваша платформа она что именно охватывает (этапы разработки и внедрения моделей)? Верхнеуровнево. А то я возможно забыл её включить в список для расследования.
охватывает постразработку - то есть можешь модельки натренить, задеплоить их туда, мониторинг аномального поведения (входы/выходы) повесить. сейчас в процессе прикучивание возможность собрать данные с реального использования, чтобы потом ретеренинг можно было проводить

Daniel
20.07.2018
06:18:29
всякое аб и версионность есть?

Daniel
20.07.2018
06:28:21
ага
я вдруг захотел почитать детали)

Vadim
20.07.2018
06:33:06
там доку недавно подвезли

Daniel
20.07.2018
06:33:49
??

Vadim
20.07.2018
06:35:58
ток ссылку в ридми забыли добавить https://hydrosphere.io/serving-docs/

Daniel
20.07.2018
06:36:28
спасиб

Valeriy
20.07.2018
11:40:49
Тогда можно через промежуточную таблицу. Flume -> Tmp Table -> Partitioned Table
Так это уже громоздко..... мне потом в конечном итоге нужна таблица без партиций с уникальным ключём..... ладно, я победил флюм тем что в настройках синка прописал шаблон по дате и указал автосоздание партиций. Шаблон на основе поля никак не работал....

Andrei
20.07.2018
11:52:30
https://blog.cloudera.com/blog/2013/07/morphlines-the-easy-way-to-build-and-integrate-etl-apps-for-apache-hadoop/

Как вариант, работает партицирование по полю. Могу поискать рабочий пример, если надо.

Anton
20.07.2018
12:10:15
Привет! Кто-нибудь писал в хайв из питона без спарка и вызова баша?)

Pavel
20.07.2018
12:12:15
External таблицами, да

Anton
20.07.2018
12:14:33
Спс

Peter
20.07.2018
12:21:10
Есть еще pyhive)) from pyhive import hive conn = hive.Connection(host="YOUR_HIVE_HOST", port=PORT, username="YOU")

Google
Peter
20.07.2018
12:22:24
Если HiveServer2, то pyhs2

Stanislav
20.07.2018
12:24:03
Если HiveServer2, то pyhs2
А оно через что работает, через http умеет чтоб прокси пройти?

Pavel
20.07.2018
12:24:21
Если HiveServer2, то pyhs2
Нам больше impyla зашла, кстати

Peter
20.07.2018
12:35:21
прокси в окружении можно задать, import os, потом proxy = ‘http://user:pass@proxy:port’, потом os.environ[‘http(и / или https)’] = proxy ну и твой код. но в connection увы прокси описать нельзя

Andrey
20.07.2018
15:12:28
@pomadchin пару месяцев назад ты говорил что спарк трифт сервер это плохо. Напомни чем плохо?

Grigory
20.07.2018
17:03:49
Я мог говорить что спарк сервер ниоч и что трифт старый

Andrey
20.07.2018
17:15:22
ну который jdbc гейт

который как отдельное приложение работает и sql делает

Grigory
20.07.2018
17:16:34
А ты про трифт сервер, не про него ничо не говорил)

Andrey
20.07.2018
17:22:50
погоди, а ты про какой говорил?)

Андрей
20.07.2018
17:24:15
так, а если не трифт, то кот?

Grigory
20.07.2018
18:32:54
погоди, а ты про какой говорил?)
Я багеты на жоп сервер выкладывал

Roman
21.07.2018
08:37:31
Хитро, хитро

Grigory
21.07.2018
09:18:12
Да старая тема кстати) добавляются и в никах реклама

Товарищ Майор
22.07.2018
17:36:06
Приветы, ambari это читерство или норм?

Андрей
22.07.2018
17:46:58
Товарищ Майор
22.07.2018
17:47:34
сноси эту пакость!
ага так и думал), н очто с ней не так?

Google
Андрей
22.07.2018
17:48:22
Да все с ней так, на самом деле. Все равно придется иногда руками подкручивать.

Nikita
22.07.2018
18:15:34
По моему опыту норм, обычный опенсорс

Товарищ Майор
22.07.2018
18:19:06
Ага, ок, а impala в docker норм живёт? Просто не охота отделный сервак под неё

Grigory
22.07.2018
18:20:58
Товарищ Майор
22.07.2018
18:21:51
Все норм в докерах при наличии прямых рук
tnx, просто до этого с hadoop дела не имел совсем, а хочется попробовать http://spot.incubator.apache.org и по-быстрому.

Nikita
22.07.2018
18:22:55
Opensource cybersecurity сильно конечно

Товарищ Майор
22.07.2018
18:26:46
Opensource cybersecurity сильно конечно
ну... такое вроде как нахваливают. Я так понимаю это тот же apache-metron/cloudera только опен сорс. у нас не так много серваков (~700) чтоб покупать коммерческое решения

Nikita
22.07.2018
18:29:22
Смотря что за проект. Вообще звучит как оксюморон по моему))

Товарищ Майор
22.07.2018
18:31:33

Страница 118 из 182