@hadoopusers

Страница 28 из 182
Andrey
11.08.2017
13:29:04
это дневной объем данных или что?

ag0n1k
11.08.2017
13:32:59
не совсем. Сейчас есть входные данные весом в терабайт в таблице 1 селектим эти данные и записываем в таблицу 2 Кстати, какой формат использовали для хранения?

Pavel
11.08.2017
13:46:07
Задача-та какая? )

Google
ag0n1k
11.08.2017
13:53:05
Задача-та какая? )
Переложить данные из одной таблицы в другую :)

Andrey
11.08.2017
13:53:29
ну спарк сырые данные тоже читает

и пишет их в любом удобно формате

хоть в iso

Pavel
11.08.2017
13:53:57
А там бизнес-логика какая-нибудь есть? Может на хайве все же )

Pavel
11.08.2017
14:02:07
Просто если бизнес логики нет или мало, и пройтись по данным нужно один раз, то я бы хайв выбрал. Там и возьни с ресурсами меньше и понадежней он будет.

ag0n1k
11.08.2017
14:04:34
спарк зависает с множеством таких логов.. 17/08/11 12:28:00 INFO storage.BlockManagerInfo: Added broadcast_0_piece0 in memory on data-node4:34885 (size: 50.7 KB, free: 6.7 GB) 17/08/11 12:28:00 INFO storage.BlockManagerInfo: Added broadcast_0_piece0 in memory on data-node1::34216 (size: 50.7 KB, free: 6.7 GB) 17/08/11 12:28:00 INFO storage.BlockManagerInfo: Added broadcast_0_piece0 in memory on data-node2:44564 (size: 50.7 KB, free: 6.7 GB) 17/08/11 12:28:00 INFO storage.BlockManagerInfo: Added broadcast_0_piece0 in memory on data-node3:38284 (size: 50.7 KB, free: 6.7 GB)

Grigory
11.08.2017
14:05:08
много данных на каждоый из партиций

Grigory
11.08.2017
14:05:24
а откуда куда положить надо?

ag0n1k
11.08.2017
14:05:39
из одной таблицы в другую=)

Google
Grigory
11.08.2017
14:05:48
какие таблицы, имею ввиду

что это

ag0n1k
11.08.2017
14:07:37
external таблица на вход из сырых файликов сделанная, пока у нас 2 варианта решения - партиционирование и хранение в паркете

выходная тоже external в паркете

Andrey
11.08.2017
14:10:11
формат данных какой

как читаешь данные

ag0n1k
11.08.2017
14:10:38
входной - сырой, тобишь txt, да это херово))

Andrey
11.08.2017
14:11:01
Это как раз нормально

как данные читаются?

они не в архиве?

ag0n1k
11.08.2017
14:16:34
HiveContext.sql(Select from t...) нет не в архиве. Сейчас прогнали на parquet->parquet все ок.

Andrey
11.08.2017
14:17:42
а зачем читать сырые текстовые данные спарком через хайв?

sc.textFile можно например

ag0n1k
11.08.2017
14:18:22
хороший вопрос =) Я админю ребят....

Andrey
11.08.2017
14:18:35
нуээ это важный вопрос :)

ag0n1k
11.08.2017
14:18:56
скуп засунул их в external table

файлы структурированы из другой базы взяты

Andrey
11.08.2017
14:19:31
смотри

external table это внешние данные, с небольшой метой в метасторе хайва

смотришь где он лежат

Google
Andrey
11.08.2017
14:20:15
читаешь их как обычные текстовые данные как я выше написал

трансформируешь

пишешь в хайв спарком

смысл читать так как ты читаешь только если тебе ну совсем лень распарсить текст в dataframe

внутри спарка

ag0n1k
11.08.2017
14:21:52
И типа так будет быстрее?

Andrey
11.08.2017
14:22:11
ну так будет точно работать, если все правильно настроено

ag0n1k
11.08.2017
14:27:42
спасибо! попробуем. Если будут результаты отпишем, но пока остановились на parquet->parquet

?
13.08.2017
05:17:09
Это спамер @jkvd35 ?



Grigory
13.08.2017
05:24:45
Бот советует не то

Daniel
13.08.2017
05:25:38
статы нет, а историю подтянуть похоже нельзя

и персист статы еще не привентил

после перезапуска будет амнезия

Grigory
13.08.2017
05:27:05
Спасибо, думаю как начало отличное

Daniel
13.08.2017
05:28:52
еще подстава, что если username отсутствует то mention ботом не сделать) зато если обучится нормально, то можно сделать чтоб сам удалял сообщения

считать ли это спамом? ?

?
13.08.2017
05:30:41
считать ли это спамом? ?
Это пусть админы решают?

Iaroslav
14.08.2017
15:24:54
https://medium.com/@garyorenstein/did-google-send-the-big-data-industry-on-a-10-year-head-fake-9c94d553925a tl;dr - хадуп через пару лет будет никому не интересен :)

Google
Grigory
14.08.2017
15:25:57
ну не будет хадупа будет что-то другое)

хадупом как мр я уже давно не пользовался

Andrew
14.08.2017
15:26:45
гм, а он сейчас много кому интересен?

Grigory
14.08.2017
15:26:53
)) нет, старье

Iaroslav
14.08.2017
15:27:10
ну HDFS и YARN довольно плотно сидят в интерпрайзе уже

Grigory
14.08.2017
15:27:43
HDFS это очень удобная и дешевая вещь; а ярн отличный менеджер ресурсов

Iaroslav
14.08.2017
15:27:59
со вторым я бы не очень согласился :D

Grigory
14.08.2017
15:28:11
ну у него свои заскоки есть

Страница 28 из 182