
Grigory
14.08.2017
15:28:37
ну мезос еще есть

Iaroslav
14.08.2017
15:29:22
есть, мне там очень не нравится ключевое решение в архитектуре, хотя я могу чего-то не понимать
именно то решение, где мезос тебе предлагает какие контейнеры есть доступные, вместо того, чтобы просто выполнить твой риквест
+ непонятно как дистрибьютить ресурсы

Google

Iaroslav
14.08.2017
15:30:15
у ярна то есть hdfs
но сам я его не юзал, так что это все imo
короче будущее за Spanner'ом и True Clock API

Grigory
14.08.2017
15:33:16
¯\_(ツ)_/¯
слишокм категаричная статья, но какое это имеет глобальное значение?
скуль уже все давно везде опять сувать стали; старый тренд.
и гугл биг квери с момента открытия гугл клауд
но, возможно для людей в ентерпрайзе хадупа, это откровение

Iaroslav
14.08.2017
15:36:27
да тут прикол, что идет возвращение к реляционным истокам. статья на самом деле херня и вброс. Чувак не очень разбирается в тех аспектах и это заметно. Тем не менее это попало в хадуп викли рассылку

Grigory
14.08.2017
15:36:53
да все всегда циклично; не реляционки это не нонсенс
Кашэ отличный тому пример - динозавр ентерпрайза

Vova
14.08.2017
15:40:31

Grigory
14.08.2017
15:41:32
KrivdaDB // @krivdaallstarts

KrivdaTheTriewe
14.08.2017
15:49:57
это распредленная бд которая нарушает теорему САР

Google

Andrey
14.08.2017
19:46:16

KrivdaTheTriewe
14.08.2017
19:47:59

Andrey
14.08.2017
20:00:47
а строить индексы по ним умеет?

KrivdaTheTriewe
15.08.2017
00:15:22
сорьки(
А работал ли кто с динамическими партициями паркета из спарка, допустим есть задача хранить по партициям год-месяц-день, а последние поступления год-месяц-день-час ( или как-то апппендить вменяемо год-месяц-день) , а потом запускать отдельную джобу которая схлопывала бы набор партиций год-месяц-день-час в год-месяц-час. Как вы реализовывали такие штуки, чтобы внешние серивисы не сходили с ума, но при этом число блоков не разрасталось ?
(Данные льются из кафки в авро)

Iaroslav
17.08.2017
11:52:18
ну во первых надо все же юзать hive если хочешь писать в одно и тоже место не перетирая существующие данные. так как это делать спарк с partitionBy
потом когда день закончен, запускаешь джобу, которая мержит все в новый аутпут, но ставишь "." в названиях новых мультипарт файлов
потом переименовываешь и дропаешь почасовые фолдеры

KrivdaTheTriewe
17.08.2017
12:01:06

Andrey
17.08.2017
12:02:17

KrivdaTheTriewe
17.08.2017
12:02:55

Andrey
17.08.2017
12:03:08
почему?

KrivdaTheTriewe
17.08.2017
12:03:36
Если я буду каждый час писать в год-месяц-день обновления, она в момент обновления не будет доступна

Andrey
17.08.2017
12:03:50
а, это да

KrivdaTheTriewe
17.08.2017
12:04:18
Ночью, впринципе, можно обновлять и удалять сколько влезет

Iaroslav
17.08.2017
12:04:39
Типа spark.sql + внешняя хайв таблица

KrivdaTheTriewe
17.08.2017
12:05:37
Благодарю

Andrey
17.08.2017
12:09:23
Никто не встречался с ошибкой warn token: cannot find class for token kind hive_delegation_token
?

Google

Andrey
17.08.2017
12:09:35
спарк стриминг, пишу в орк
кластер с крб

Iaroslav
17.08.2017
12:16:58

Andrey
17.08.2017
12:28:10
через спарк ток

Iaroslav
17.08.2017
12:29:44
через спарк ток
и кроме ворнинга, никаких симптомов? каталог читается и все окей?

Andrey
17.08.2017
12:29:52
да

Iaroslav
17.08.2017
12:29:59
это странно. не должно было бы работать совсем

Andrey
17.08.2017
12:30:03
все работает :)

Iaroslav
17.08.2017
12:30:41
аа, стоп. это с драйвера логи? или экзекьютора?

Andrey
17.08.2017
12:31:02
это с yarn logs -applicationId

Iaroslav
17.08.2017
12:31:10
ага. контейнер какой?)
id не 00001 в конце?

Andrey
17.08.2017
12:31:37
мм, ща уточню
1 у драйвера?

Iaroslav
17.08.2017
12:31:56
ага, если он не падал
может быть другой, если падал
но там с отсальных логов того же контейнера, должно быть очень понятно, воркер ли это
там будет что-то типа spark.executor в fqn логов
если у вас не шибко кастомный log4j конечно
в общем если окажется, что это экзекьютор, то вообще ничего страшного. Экзекьюторы не читают из хайв метастора, они читают с HDFS. Драйвер же для доступа к метастору юзает тикет напрямую, а не токен. Так что я хз зачем они вообще бросают этот ворнинг.

Google

Andrey
17.08.2017
13:30:12
есть и там и там
во всех контейнерах этот ворнингт:)

Iaroslav
17.08.2017
14:06:26
ну в обоих случаях не играет роли по причинам описанным выше
токен просто не юзается

Andrey
17.08.2017
14:32:27
спасибо :)

Артем
19.08.2017
09:56:44
Коллеги, добрый день. Подскажите пожалуйста, есть ли какие-то ресурсы для изучения spark c нуля? Интересует как поднятие/администрирование кластера, так и разработки программ (в основном ETL). Заранее спасибо!

Artem
19.08.2017
10:33:54
Дока?)

Andrei
19.08.2017
10:51:34

Артем
19.08.2017
10:57:37
Дока?)
Как вариант ) У меня была надежда, что где-то это есть в одном месте, но увы. Разработка в одних книжках, деплой в других.