
Vova
24.10.2017
13:36:35
ReadOnly is ok

Sergey
24.10.2017
14:15:25
For AWS, this is not possible. But the main question is "Why you need it?" ?
And this discussion looks like offtopic for this channel..

Vova
24.10.2017
14:16:35
cheap data replication for cloud computing

Google

Vova
24.10.2017
14:24:09
"attach the same SSD" paradigm instead of BD-paradigms "move code to data" (and vice versa) ?
not for true BD but ...

Andrey
24.10.2017
14:31:03

Vova
24.10.2017
14:36:10
latency is crucial
IOPS, etc

Grigory
24.10.2017
14:42:06

Einfach
24.10.2017
14:43:04
Всем приветик есть ли программка для дебага апаче лог файла?
У меня лог в 1,8гб и более 4м. Строк...

Andrey
24.10.2017
14:43:46
latency is crucial
In this case I would not recommend to use shared drive. This will always become bottleneck eventually

Einfach
24.10.2017
14:43:51
Ответ Желательно в пм

Vova
24.10.2017
14:45:44
And the real scale of the problem

Sergey
24.10.2017
14:46:58
Cloud instances can be located on any node in the datacenter. It looks impossible from a physical point of view.

Vova
24.10.2017
14:47:08
thats why I said "not for true Big Data but.."

Google

Vova
24.10.2017
14:47:54
not for really large scale problems

Sergey
24.10.2017
14:48:25
You can order nodes with high network bandwidth )

Andrey
24.10.2017
14:49:15
If latency is really crucial, do not use storage
RAM is way better

Vova
24.10.2017
14:50:37
agree
found something
https://cloud.google.com/compute/docs/disks/add-persistent-disk#use_multi_instances

Andrey
24.10.2017
14:50:54
Also, if u use shared drive, u will face consistency, concurrent access and other problems u will have to manually resolve

Vova
24.10.2017
14:51:21
If you attach a persistent disk to multiple instances, all of those instances must attach the persistent disk in read-only mode.

Andrey
24.10.2017
14:51:55

Vova
24.10.2017
14:52:39
maybe

Andrey
24.10.2017
14:55:06
Yes, under the hood

Vova
24.10.2017
14:55:44

Jaga
24.10.2017
14:56:21

Andrey
24.10.2017
14:56:59
scp to upload file to hadoop data node and hdfs put to upload it to hdfs
this is the easiest way
I believe you can also use S3 for that

Google

Jaga
25.10.2017
10:25:47
When MySQL is used and when Derby is used as metastore for hive

Danis
30.10.2017
08:19:30
Помимо newprolab есть ещё какие-нибудь нормальные очные курсы в Москве?
По Hadoop.

Ruslan
30.10.2017
14:29:48
У hp посмотри

KrivdaTheTriewe
30.10.2017
15:01:11
http://tiledb.io/

Grigory
30.10.2017
15:08:32
oO
пробовал уже?

KrivdaTheTriewe
30.10.2017
15:09:38

Grigory
30.10.2017
15:09:48
я попробую посмотреть ближе к выхам
интересная шляпа

Vova
30.10.2017
22:16:55

Pavel
31.10.2017
13:23:49
Ну, что, вы так долго жадил (а вы ведь ждали?), так получите! Новый, офигенный, крутой Moscow Spark #3 https://rambler-co-e-org.timepad.ru/event/604814/

KrivdaTheTriewe
31.10.2017
13:37:46

Pavel
31.10.2017
13:37:56
+1

Pavel
31.10.2017
13:42:14
Сбербанк не дремлет!

Danis
31.10.2017
14:09:02
Можно ли как-то красиво и удобно отключить HDFS-команду?
distcp, например.

Pavel
31.10.2017
14:36:06
Снять exec флаг на команду hadoop и обернуть ее вызов в свой скрипт?

Danis
31.10.2017
15:22:13

KrivdaTheTriewe
01.11.2017
13:33:16
Есть кто уже перешёл на стракчеред стримминг в спарке и решил не возвращаться?

Egor
01.11.2017
14:02:07

Google

KrivdaTheTriewe
01.11.2017
14:07:12
или через базу агрегировали

Andrey
01.11.2017
14:11:45

KrivdaTheTriewe
01.11.2017
14:13:18
если там(2.2) синки появились и прочие вкусности

Andrey
01.11.2017
14:14:34
ок, так то мы датафреймы пишем в орк партиционированный на стриминге

KrivdaTheTriewe
01.11.2017
14:18:26

Andrey
01.11.2017
14:18:43
не, мы не такие рисковые парни

KrivdaTheTriewe
01.11.2017
14:18:47
ну в смысле большие

Andrey
01.11.2017
14:18:49
микробатч в минуту у нас

KrivdaTheTriewe
01.11.2017
14:19:03
а проблему большого количества файлов как решаете?

Andrey
01.11.2017
14:19:25
оффлайн компакшен
месяц прошел - по старым данным read, repartition, write


Egor
01.11.2017
14:19:52
у меня схема такая: данные из кафки агрегирую в пятиминутные окна, сливаю в другой топик кафки. потом раз в сутки агрегирую уже из этого топика обычным спарком
почему не делаю окна больше - периодически дохнет чекпоинт (есть бага в 2.2, сейчас не нашел ссылки на этот issue), приходится перезапускать с удалением чекпоинта. меньше окно - меньше потеря данных при перезапуске
вторая проблема - чекпоинт генерит нездоровое количество мелких файлов, что не айс для hdfs. наверное можно перенести папку чекпоинта на обычную файловую систему, но кажется не лучшим вариантом
сама запись в паркет идет без проблем - как с обычным датафреймом. проблема в том, что до момента записи данные лежат в чекпоинте, что хреново по вышеуказанным причинам
дисклеймер: возможно это у меня кривые руки и кто-то сможет докрутить до нормального состояния
ну и меня напрягает отсутствие ветвления потоков. хочешь другой агрегат - читай заново, начиная с самого источника


KrivdaTheTriewe
01.11.2017
14:21:07

Andrey
01.11.2017
14:21:19
ага, кроном)

KrivdaTheTriewe
01.11.2017
14:21:35

Andrey
01.11.2017
14:21:56
ну вроде норм, чо)

Google

Daniel
01.11.2017
14:36:15
distributed strongly consistent cron 2.0 *

Oleksandr
01.11.2017
14:37:01
я смотрю, все примерно одни и те же костыли делают ?

Andrey
01.11.2017
14:37:35
нуачо, работает жи

KrivdaTheTriewe
01.11.2017
14:38:45
я уже как только не пробовал

Andrey
01.11.2017
14:39:03
какое у тебя количество файлов на hdfs ?

KrivdaTheTriewe
01.11.2017
14:39:06
теперь думаю в hbase писать с ttl и оттуда выгребать уже

Grigory
01.11.2017
14:40:26