
Andrey
11.08.2017
13:29:04
это дневной объем данных или что?

ag0n1k
11.08.2017
13:32:59
не совсем. Сейчас есть входные данные весом в терабайт в таблице 1
селектим эти данные и записываем в таблицу 2
Кстати, какой формат использовали для хранения?

Pavel
11.08.2017
13:46:07
Задача-та какая? )

Andrey
11.08.2017
13:46:48

Google

ag0n1k
11.08.2017
13:53:05

Andrey
11.08.2017
13:53:29
ну спарк сырые данные тоже читает
и пишет их в любом удобно формате
хоть в iso

Pavel
11.08.2017
13:53:57
А там бизнес-логика какая-нибудь есть? Может на хайве все же )

ag0n1k
11.08.2017
14:01:00

Pavel
11.08.2017
14:02:07
Просто если бизнес логики нет или мало, и пройтись по данным нужно один раз, то я бы хайв выбрал. Там и возьни с ресурсами меньше и понадежней он будет.

ag0n1k
11.08.2017
14:04:34
спарк зависает с множеством таких логов..
17/08/11 12:28:00 INFO storage.BlockManagerInfo: Added broadcast_0_piece0 in memory on data-node4:34885 (size: 50.7 KB, free: 6.7 GB)
17/08/11 12:28:00 INFO storage.BlockManagerInfo: Added broadcast_0_piece0 in memory on data-node1::34216 (size: 50.7 KB, free: 6.7 GB)
17/08/11 12:28:00 INFO storage.BlockManagerInfo: Added broadcast_0_piece0 in memory on data-node2:44564 (size: 50.7 KB, free: 6.7 GB)
17/08/11 12:28:00 INFO storage.BlockManagerInfo: Added broadcast_0_piece0 in memory on data-node3:38284 (size: 50.7 KB, free: 6.7 GB)

Grigory
11.08.2017
14:05:08
много данных на каждоый из партиций

ag0n1k
11.08.2017
14:05:18

Grigory
11.08.2017
14:05:24
а откуда куда положить надо?

ag0n1k
11.08.2017
14:05:39
из одной таблицы в другую=)

Google

Grigory
11.08.2017
14:05:48
какие таблицы, имею ввиду
что это

ag0n1k
11.08.2017
14:07:37
external таблица на вход из сырых файликов сделанная, пока у нас 2 варианта решения - партиционирование и хранение в паркете
выходная тоже external в паркете

Andrey
11.08.2017
14:10:11
формат данных какой
как читаешь данные

ag0n1k
11.08.2017
14:10:38
входной - сырой, тобишь txt, да это херово))

Andrey
11.08.2017
14:11:01
Это как раз нормально
как данные читаются?
они не в архиве?

ag0n1k
11.08.2017
14:16:34
HiveContext.sql(Select from t...)
нет не в архиве.
Сейчас прогнали на parquet->parquet все ок.

Andrey
11.08.2017
14:17:42
а зачем читать сырые текстовые данные спарком через хайв?
sc.textFile можно например

ag0n1k
11.08.2017
14:18:22
хороший вопрос =) Я админю ребят....

Andrey
11.08.2017
14:18:35
нуээ это важный вопрос :)

ag0n1k
11.08.2017
14:18:56
скуп засунул их в external table
файлы структурированы из другой базы взяты

Andrey
11.08.2017
14:19:31
смотри
external table это внешние данные, с небольшой метой в метасторе хайва
смотришь где он лежат

Google

Andrey
11.08.2017
14:20:15
читаешь их как обычные текстовые данные как я выше написал
трансформируешь
пишешь в хайв спарком
смысл читать так как ты читаешь только если тебе ну совсем лень распарсить текст в dataframe
внутри спарка

ag0n1k
11.08.2017
14:21:52
И типа так будет быстрее?

Andrey
11.08.2017
14:22:11
ну так будет точно работать, если все правильно настроено

ag0n1k
11.08.2017
14:27:42
спасибо! попробуем. Если будут результаты отпишем, но пока остановились на parquet->parquet

?
13.08.2017
05:17:09
Это спамер @jkvd35 ?

Grigory
13.08.2017
05:24:45
Бот советует не то

Daniel
13.08.2017
05:25:38
статы нет, а историю подтянуть похоже нельзя
и персист статы еще не привентил
после перезапуска будет амнезия

Grigory
13.08.2017
05:27:05
Спасибо, думаю как начало отличное

Daniel
13.08.2017
05:28:52
еще подстава, что если username отсутствует то mention ботом не сделать)
зато если обучится нормально, то можно сделать чтоб сам удалял сообщения
считать ли это спамом? ?

?
13.08.2017
05:30:41

Grigory
13.08.2017
07:38:08

Iaroslav
14.08.2017
15:24:54
https://medium.com/@garyorenstein/did-google-send-the-big-data-industry-on-a-10-year-head-fake-9c94d553925a
tl;dr - хадуп через пару лет будет никому не интересен :)

Google

Grigory
14.08.2017
15:25:57
ну не будет хадупа будет что-то другое)
хадупом как мр я уже давно не пользовался

Andrew
14.08.2017
15:26:45
гм, а он сейчас много кому интересен?

Grigory
14.08.2017
15:26:53
)) нет, старье

Iaroslav
14.08.2017
15:27:10
ну HDFS и YARN довольно плотно сидят в интерпрайзе уже

Grigory
14.08.2017
15:27:43
HDFS это очень удобная и дешевая вещь; а ярн отличный менеджер ресурсов

Iaroslav
14.08.2017
15:27:59
со вторым я бы не очень согласился :D

Grigory
14.08.2017
15:28:11
ну у него свои заскоки есть