@hadoopusers

Страница 44 из 182
Vova
24.10.2017
13:36:35
ReadOnly is ok

Sergey
24.10.2017
14:15:25
For AWS, this is not possible. But the main question is "Why you need it?" ?

And this discussion looks like offtopic for this channel..

Vova
24.10.2017
14:16:35
cheap data replication for cloud computing

Google
Vova
24.10.2017
14:24:09
"attach the same SSD" paradigm instead of BD-paradigms "move code to data" (and vice versa) ?

not for true BD but ...

Andrey
24.10.2017
14:31:03
Guys, who knows: is it possible to attach one SSD to multiple instances (GC? Azure?etc) at the same time?
I am not sure if it fits your requirements, but the most obvious option is to use NFS or iSCSI

Vova
24.10.2017
14:36:10
latency is crucial

IOPS, etc

Grigory
24.10.2017
14:42:06
"attach the same SSD" paradigm instead of BD-paradigms "move code to data" (and vice versa) ?
how such 'dual' ssd interface should be implemented? o: // or can

Einfach
24.10.2017
14:43:04
Всем приветик есть ли программка для дебага апаче лог файла? У меня лог в 1,8гб и более 4м. Строк...

Andrey
24.10.2017
14:43:46
latency is crucial
In this case I would not recommend to use shared drive. This will always become bottleneck eventually

Einfach
24.10.2017
14:43:51
Ответ Желательно в пм

Vova
24.10.2017
14:45:44
And the real scale of the problem

Sergey
24.10.2017
14:46:58
Cloud instances can be located on any node in the datacenter. It looks impossible from a physical point of view.

Vova
24.10.2017
14:47:08
thats why I said "not for true Big Data but.."

Google
Vova
24.10.2017
14:47:54
not for really large scale problems

Sergey
24.10.2017
14:48:25
You can order nodes with high network bandwidth )

Andrey
24.10.2017
14:49:15
It depends on data traffic profile, data consumption pattern.
Why did you decide not to use something like redis?

If latency is really crucial, do not use storage

RAM is way better

Vova
24.10.2017
14:50:37
agree

found something

https://cloud.google.com/compute/docs/disks/add-persistent-disk#use_multi_instances

Andrey
24.10.2017
14:50:54
Also, if u use shared drive, u will face consistency, concurrent access and other problems u will have to manually resolve

Vova
24.10.2017
14:51:21
If you attach a persistent disk to multiple instances, all of those instances must attach the persistent disk in read-only mode.

Andrey
24.10.2017
14:51:55
Vova
24.10.2017
14:52:39
maybe

Andrey
24.10.2017
14:55:06
Yes, under the hood

Jaga
24.10.2017
14:56:21
For AWS, this is not possible. But the main question is "Why you need it?" ?
I want to copy a file from my PC to Hdfs for hive to put that data on to a table.

Andrey
24.10.2017
14:56:59
scp to upload file to hadoop data node and hdfs put to upload it to hdfs

this is the easiest way

I believe you can also use S3 for that

Google
Jaga
25.10.2017
10:25:47
When MySQL is used and when Derby is used as metastore for hive

Danis
30.10.2017
08:19:30
Помимо newprolab есть ещё какие-нибудь нормальные очные курсы в Москве?

По Hadoop.

Ruslan
30.10.2017
14:29:48
У hp посмотри

KrivdaTheTriewe
30.10.2017
15:01:11
http://tiledb.io/

Grigory
30.10.2017
15:08:32
oO

пробовал уже?

KrivdaTheTriewe
30.10.2017
15:09:38
пробовал уже?
не, но задумываюсь в диссер

Grigory
30.10.2017
15:09:48
я попробую посмотреть ближе к выхам

интересная шляпа

Vova
30.10.2017
22:16:55
http://tiledb.io/
интересно, кто попробует не поленитесь плиз рассказать

Pavel
31.10.2017
13:23:49
Ну, что, вы так долго жадил (а вы ведь ждали?), так получите! Новый, офигенный, крутой Moscow Spark #3 https://rambler-co-e-org.timepad.ru/event/604814/

Pavel
31.10.2017
13:37:56
+1

Pavel
31.10.2017
13:42:14
Сбербанк не дремлет!

Danis
31.10.2017
14:09:02
Можно ли как-то красиво и удобно отключить HDFS-команду? distcp, например.

Pavel
31.10.2017
14:36:06
Снять exec флаг на команду hadoop и обернуть ее вызов в свой скрипт?

Danis
31.10.2017
15:22:13
KrivdaTheTriewe
01.11.2017
13:33:16
Есть кто уже перешёл на стракчеред стримминг в спарке и решил не возвращаться?

Egor
01.11.2017
14:02:07
Есть кто уже перешёл на стракчеред стримминг в спарке и решил не возвращаться?
пока как-то ощущения так себе. думаю переписать джобу на флинк

Google
KrivdaTheTriewe
01.11.2017
14:07:12
пока как-то ощущения так себе. думаю переписать джобу на флинк
а был опыт с агрегацией в какой-нибудь паркет ? ну есть поток, и скажем раз в час сливать в партицированный паркет его ( микробатч час )

или через базу агрегировали

Andrey
01.11.2017
14:11:45
KrivdaTheTriewe
01.11.2017
14:13:18
если там(2.2) синки появились и прочие вкусности

Andrey
01.11.2017
14:14:34
ок, так то мы датафреймы пишем в орк партиционированный на стриминге

KrivdaTheTriewe
01.11.2017
14:18:26
ок, так то мы датафреймы пишем в орк партиционированный на стриминге
микробатч в час? ( в смысле большие микробатчи )

Andrey
01.11.2017
14:18:43
не, мы не такие рисковые парни

KrivdaTheTriewe
01.11.2017
14:18:47
ну в смысле большие

Andrey
01.11.2017
14:18:49
микробатч в минуту у нас

KrivdaTheTriewe
01.11.2017
14:19:03
а проблему большого количества файлов как решаете?

Andrey
01.11.2017
14:19:25
оффлайн компакшен

месяц прошел - по старым данным read, repartition, write

Egor
01.11.2017
14:19:52
у меня схема такая: данные из кафки агрегирую в пятиминутные окна, сливаю в другой топик кафки. потом раз в сутки агрегирую уже из этого топика обычным спарком почему не делаю окна больше - периодически дохнет чекпоинт (есть бага в 2.2, сейчас не нашел ссылки на этот issue), приходится перезапускать с удалением чекпоинта. меньше окно - меньше потеря данных при перезапуске вторая проблема - чекпоинт генерит нездоровое количество мелких файлов, что не айс для hdfs. наверное можно перенести папку чекпоинта на обычную файловую систему, но кажется не лучшим вариантом сама запись в паркет идет без проблем - как с обычным датафреймом. проблема в том, что до момента записи данные лежат в чекпоинте, что хреново по вышеуказанным причинам дисклеймер: возможно это у меня кривые руки и кто-то сможет докрутить до нормального состояния

ну и меня напрягает отсутствие ветвления потоков. хочешь другой агрегат - читай заново, начиная с самого источника

KrivdaTheTriewe
01.11.2017
14:21:07
оффлайн компакшен
тож отдельна яджоба?

Andrey
01.11.2017
14:21:19
ага, кроном)

KrivdaTheTriewe
01.11.2017
14:21:35
ага, кроном)
у меня так и будет!

Andrey
01.11.2017
14:21:56
ну вроде норм, чо)

ага, кроном)
Точнее, кроном 2.0! (с) @optician_owl

Google
Daniel
01.11.2017
14:36:15
distributed strongly consistent cron 2.0 *

Oleksandr
01.11.2017
14:37:01
я смотрю, все примерно одни и те же костыли делают ?

Andrey
01.11.2017
14:37:35
нуачо, работает жи

KrivdaTheTriewe
01.11.2017
14:38:45
я уже как только не пробовал

Andrey
01.11.2017
14:39:03
какое у тебя количество файлов на hdfs ?

KrivdaTheTriewe
01.11.2017
14:39:06
теперь думаю в hbase писать с ttl и оттуда выгребать уже

какое у тебя количество файлов на hdfs ?
порядка нескольких миллионов блоков

Страница 44 из 182