@hadoopusers

« Назад

Страница 44 из 182

Далее »

Vova

24.10.2017
13:36:35

ReadOnly is ok

Sergey

24.10.2017
14:15:25

For AWS, this is not possible. But the main question is "Why you need it?" ?

And this discussion looks like offtopic for this channel..

Vova

24.10.2017
14:16:35

cheap data replication for cloud computing

Google

Vova

24.10.2017
14:24:09

"attach the same SSD" paradigm instead of BD-paradigms "move code to data" (and vice versa) ?

not for true BD but ...

Andrey

24.10.2017
14:31:03

Guys, who knows: is it possible to attach one SSD to multiple instances (GC? Azure?etc) at the same time?

I am not sure if it fits your requirements, but the most obvious option is to use NFS or iSCSI

Vova

24.10.2017
14:36:10

latency is crucial

IOPS, etc

Grigory

24.10.2017
14:42:06

"attach the same SSD" paradigm instead of BD-paradigms "move code to data" (and vice versa) ?

how such 'dual' ssd interface should be implemented? o: // or can

Einfach

24.10.2017
14:43:04

Всем приветик есть ли программка для дебага апаче лог файла? У меня лог в 1,8гб и более 4м. Строк...

Andrey

24.10.2017
14:43:46

latency is crucial

In this case I would not recommend to use shared drive. This will always become bottleneck eventually

Einfach

24.10.2017
14:43:51

Ответ Желательно в пм

Vova

24.10.2017
14:45:44

In this case I would not recommend to use shared drive. This will always become bottleneck eventually

It depends on data traffic profile, data consumption pattern.

And the real scale of the problem

Sergey

24.10.2017
14:46:58

Cloud instances can be located on any node in the datacenter. It looks impossible from a physical point of view.

Vova

24.10.2017
14:47:08

thats why I said "not for true Big Data but.."

Google

Vova

24.10.2017
14:47:54

not for really large scale problems

Sergey

24.10.2017
14:48:25

You can order nodes with high network bandwidth )

Andrey

24.10.2017
14:49:15

It depends on data traffic profile, data consumption pattern.

Why did you decide not to use something like redis?

If latency is really crucial, do not use storage

RAM is way better

Vova

24.10.2017
14:50:37

agree

found something

https://cloud.google.com/compute/docs/disks/add-persistent-disk#use_multi_instances

Andrey

24.10.2017
14:50:54

Also, if u use shared drive, u will face consistency, concurrent access and other problems u will have to manually resolve

Vova

24.10.2017
14:51:21

If you attach a persistent disk to multiple instances, all of those instances must attach the persistent disk in read-only mode.

Andrey

24.10.2017
14:51:55

https://cloud.google.com/compute/docs/disks/add-persistent-disk#use_multi_instances

I believe it is based on iSCSI

Vova

24.10.2017
14:52:39

I believe it is based on iSCSI

Under the hood?

maybe

Andrey

24.10.2017
14:55:06

Yes, under the hood

Vova

24.10.2017
14:55:44

Also, if u use shared drive, u will face consistency, concurrent access and other problems u will have to manually resolve

read only mode gives me low or moderate risks.

Jaga

24.10.2017
14:56:21

For AWS, this is not possible. But the main question is "Why you need it?" ?

I want to copy a file from my PC to Hdfs for hive to put that data on to a table.

Andrey

24.10.2017
14:56:59

I want to copy a file from my PC to Hdfs for hive to put that data on to a table.

Use scp + hdfs put

scp to upload file to hadoop data node and hdfs put to upload it to hdfs

this is the easiest way

I believe you can also use S3 for that

Google

Jaga

25.10.2017
10:25:47

When MySQL is used and when Derby is used as metastore for hive

Danis

30.10.2017
08:19:30

Помимо newprolab есть ещё какие-нибудь нормальные очные курсы в Москве?

По Hadoop.

Ruslan

30.10.2017
14:29:48

У hp посмотри

KrivdaTheTriewe

30.10.2017
15:01:11

http://tiledb.io/

Grigory

30.10.2017
15:08:32

oO

пробовал уже?

KrivdaTheTriewe

30.10.2017
15:09:38

пробовал уже?

не, но задумываюсь в диссер

Grigory

30.10.2017
15:09:48

я попробую посмотреть ближе к выхам

интересная шляпа

Vova

30.10.2017
22:16:55

http://tiledb.io/

интересно, кто попробует не поленитесь плиз рассказать

Pavel

31.10.2017
13:23:49

Ну, что, вы так долго жадил (а вы ведь ждали?), так получите! Новый, офигенный, крутой Moscow Spark #3 https://rambler-co-e-org.timepad.ru/event/604814/

KrivdaTheTriewe

31.10.2017
13:37:46

Ну, что, вы так долго жадил (а вы ведь ждали?), так получите! Новый, офигенный, крутой Moscow Spark #3 https://rambler-co-e-org.timepad.ru/event/604814/

занимайте скорее, а то сбербанк все места займет!

Pavel

31.10.2017
13:37:56

+1

Pavel

31.10.2017
13:42:14

Сбербанк не дремлет!

Danis

31.10.2017
14:09:02

Можно ли как-то красиво и удобно отключить HDFS-команду? distcp, например.

Pavel

31.10.2017
14:36:06

Снять exec флаг на команду hadoop и обернуть ее вызов в свой скрипт?

Danis

31.10.2017
15:22:13

Снять exec флаг на команду hadoop и обернуть ее вызов в свой скрипт?

К сожалению не красиво и не удобно.

KrivdaTheTriewe

01.11.2017
13:33:16

Есть кто уже перешёл на стракчеред стримминг в спарке и решил не возвращаться?

Egor

01.11.2017
14:02:07

Есть кто уже перешёл на стракчеред стримминг в спарке и решил не возвращаться?

пока как-то ощущения так себе. думаю переписать джобу на флинк

Google

KrivdaTheTriewe

01.11.2017
14:07:12

пока как-то ощущения так себе. думаю переписать джобу на флинк

а был опыт с агрегацией в какой-нибудь паркет ? ну есть поток, и скажем раз в час сливать в партицированный паркет его ( микробатч час )

или через базу агрегировали

Andrey

01.11.2017
14:11:45

Есть кто уже перешёл на стракчеред стримминг в спарке и решил не возвращаться?

те кто в 1.6 rdd в датафреймы превращает считаются?

KrivdaTheTriewe

01.11.2017
14:13:18

те кто в 1.6 rdd в датафреймы превращает считаются?

не, как считать

если там(2.2) синки появились и прочие вкусности

Andrey

01.11.2017
14:14:34

ок, так то мы датафреймы пишем в орк партиционированный на стриминге

KrivdaTheTriewe

01.11.2017
14:18:26

ок, так то мы датафреймы пишем в орк партиционированный на стриминге

микробатч в час? ( в смысле большие микробатчи )

Andrey

01.11.2017
14:18:43

не, мы не такие рисковые парни

KrivdaTheTriewe

01.11.2017
14:18:47

ну в смысле большие

Andrey

01.11.2017
14:18:49

микробатч в минуту у нас

KrivdaTheTriewe

01.11.2017
14:19:03

а проблему большого количества файлов как решаете?

Andrey

01.11.2017
14:19:25

оффлайн компакшен

месяц прошел - по старым данным read, repartition, write

Egor

01.11.2017
14:19:52

у меня схема такая: данные из кафки агрегирую в пятиминутные окна, сливаю в другой топик кафки. потом раз в сутки агрегирую уже из этого топика обычным спарком почему не делаю окна больше - периодически дохнет чекпоинт (есть бага в 2.2, сейчас не нашел ссылки на этот issue), приходится перезапускать с удалением чекпоинта. меньше окно - меньше потеря данных при перезапуске вторая проблема - чекпоинт генерит нездоровое количество мелких файлов, что не айс для hdfs. наверное можно перенести папку чекпоинта на обычную файловую систему, но кажется не лучшим вариантом сама запись в паркет идет без проблем - как с обычным датафреймом. проблема в том, что до момента записи данные лежат в чекпоинте, что хреново по вышеуказанным причинам дисклеймер: возможно это у меня кривые руки и кто-то сможет докрутить до нормального состояния

ну и меня напрягает отсутствие ветвления потоков. хочешь другой агрегат - читай заново, начиная с самого источника

KrivdaTheTriewe

01.11.2017
14:21:07

оффлайн компакшен

тож отдельна яджоба?

Andrey

01.11.2017
14:21:19

ага, кроном)

KrivdaTheTriewe

01.11.2017
14:21:35

ага, кроном)

у меня так и будет!

Andrey

01.11.2017
14:21:56

ну вроде норм, чо)

ага, кроном)

Точнее, кроном 2.0! (с) @optician_owl

Google

Daniel

01.11.2017
14:36:15

distributed strongly consistent cron 2.0 *

Oleksandr

01.11.2017
14:37:01

я смотрю, все примерно одни и те же костыли делают ?

Andrey

01.11.2017
14:37:35

нуачо, работает жи

KrivdaTheTriewe

01.11.2017
14:38:45

я уже как только не пробовал

Andrey

01.11.2017
14:39:03

какое у тебя количество файлов на hdfs ?

KrivdaTheTriewe

01.11.2017
14:39:06

теперь думаю в hbase писать с ttl и оттуда выгребать уже

какое у тебя количество файлов на hdfs ?

порядка нескольких миллионов блоков

Grigory

01.11.2017
14:40:26

теперь думаю в hbase писать с ttl и оттуда выгребать уже

Открыть в Telegram