Vova
24.10.2017
13:36:35
ReadOnly is ok
Sergey
24.10.2017
14:15:25
For AWS, this is not possible. But the main question is "Why you need it?" ?
And this discussion looks like offtopic for this channel..
Vova
24.10.2017
14:16:35
cheap data replication for cloud computing
Google
Vova
24.10.2017
14:24:09
"attach the same SSD" paradigm instead of BD-paradigms "move code to data" (and vice versa) ?
not for true BD but ...
Andrey
24.10.2017
14:31:03
Vova
24.10.2017
14:36:10
latency is crucial
IOPS, etc
Grigory
24.10.2017
14:42:06
Einfach
24.10.2017
14:43:04
Всем приветик есть ли программка для дебага апаче лог файла?
У меня лог в 1,8гб и более 4м. Строк...
Andrey
24.10.2017
14:43:46
latency is crucial
In this case I would not recommend to use shared drive. This will always become bottleneck eventually
Einfach
24.10.2017
14:43:51
Ответ Желательно в пм
Vova
24.10.2017
14:45:44
And the real scale of the problem
Sergey
24.10.2017
14:46:58
Cloud instances can be located on any node in the datacenter. It looks impossible from a physical point of view.
Vova
24.10.2017
14:47:08
thats why I said "not for true Big Data but.."
Google
Vova
24.10.2017
14:47:54
not for really large scale problems
Sergey
24.10.2017
14:48:25
You can order nodes with high network bandwidth )
Andrey
24.10.2017
14:49:15
If latency is really crucial, do not use storage
RAM is way better
Vova
24.10.2017
14:50:37
agree
found something
https://cloud.google.com/compute/docs/disks/add-persistent-disk#use_multi_instances
Andrey
24.10.2017
14:50:54
Also, if u use shared drive, u will face consistency, concurrent access and other problems u will have to manually resolve
Vova
24.10.2017
14:51:21
If you attach a persistent disk to multiple instances, all of those instances must attach the persistent disk in read-only mode.
Andrey
24.10.2017
14:51:55
Vova
24.10.2017
14:52:39
maybe
Andrey
24.10.2017
14:55:06
Yes, under the hood
Vova
24.10.2017
14:55:44
Jaga
24.10.2017
14:56:21
Andrey
24.10.2017
14:56:59
scp to upload file to hadoop data node and hdfs put to upload it to hdfs
this is the easiest way
I believe you can also use S3 for that
Google
Jaga
25.10.2017
10:25:47
When MySQL is used and when Derby is used as metastore for hive
Danis
30.10.2017
08:19:30
Помимо newprolab есть ещё какие-нибудь нормальные очные курсы в Москве?
По Hadoop.
Ruslan
30.10.2017
14:29:48
У hp посмотри
KrivdaTheTriewe
30.10.2017
15:01:11
http://tiledb.io/
Grigory
30.10.2017
15:08:32
oO
пробовал уже?
KrivdaTheTriewe
30.10.2017
15:09:38
Grigory
30.10.2017
15:09:48
я попробую посмотреть ближе к выхам
интересная шляпа
Vova
30.10.2017
22:16:55
Pavel
31.10.2017
13:23:49
Ну, что, вы так долго жадил (а вы ведь ждали?), так получите! Новый, офигенный, крутой Moscow Spark #3 https://rambler-co-e-org.timepad.ru/event/604814/
KrivdaTheTriewe
31.10.2017
13:37:46
Pavel
31.10.2017
13:37:56
+1
Pavel
31.10.2017
13:42:14
Сбербанк не дремлет!
Danis
31.10.2017
14:09:02
Можно ли как-то красиво и удобно отключить HDFS-команду?
distcp, например.
Pavel
31.10.2017
14:36:06
Снять exec флаг на команду hadoop и обернуть ее вызов в свой скрипт?
Danis
31.10.2017
15:22:13
KrivdaTheTriewe
01.11.2017
13:33:16
Есть кто уже перешёл на стракчеред стримминг в спарке и решил не возвращаться?
Egor
01.11.2017
14:02:07
Google
KrivdaTheTriewe
01.11.2017
14:07:12
или через базу агрегировали
Andrey
01.11.2017
14:11:45
KrivdaTheTriewe
01.11.2017
14:13:18
если там(2.2) синки появились и прочие вкусности
Andrey
01.11.2017
14:14:34
ок, так то мы датафреймы пишем в орк партиционированный на стриминге
KrivdaTheTriewe
01.11.2017
14:18:26
Andrey
01.11.2017
14:18:43
не, мы не такие рисковые парни
KrivdaTheTriewe
01.11.2017
14:18:47
ну в смысле большие
Andrey
01.11.2017
14:18:49
микробатч в минуту у нас
KrivdaTheTriewe
01.11.2017
14:19:03
а проблему большого количества файлов как решаете?
Andrey
01.11.2017
14:19:25
оффлайн компакшен
месяц прошел - по старым данным read, repartition, write
Egor
01.11.2017
14:19:52
у меня схема такая: данные из кафки агрегирую в пятиминутные окна, сливаю в другой топик кафки. потом раз в сутки агрегирую уже из этого топика обычным спарком
почему не делаю окна больше - периодически дохнет чекпоинт (есть бага в 2.2, сейчас не нашел ссылки на этот issue), приходится перезапускать с удалением чекпоинта. меньше окно - меньше потеря данных при перезапуске
вторая проблема - чекпоинт генерит нездоровое количество мелких файлов, что не айс для hdfs. наверное можно перенести папку чекпоинта на обычную файловую систему, но кажется не лучшим вариантом
сама запись в паркет идет без проблем - как с обычным датафреймом. проблема в том, что до момента записи данные лежат в чекпоинте, что хреново по вышеуказанным причинам
дисклеймер: возможно это у меня кривые руки и кто-то сможет докрутить до нормального состояния
ну и меня напрягает отсутствие ветвления потоков. хочешь другой агрегат - читай заново, начиная с самого источника
KrivdaTheTriewe
01.11.2017
14:21:07
Andrey
01.11.2017
14:21:19
ага, кроном)
KrivdaTheTriewe
01.11.2017
14:21:35
Andrey
01.11.2017
14:21:56
ну вроде норм, чо)
Google
Daniel
01.11.2017
14:36:15
distributed strongly consistent cron 2.0 *
Oleksandr
01.11.2017
14:37:01
я смотрю, все примерно одни и те же костыли делают ?
Andrey
01.11.2017
14:37:35
нуачо, работает жи
KrivdaTheTriewe
01.11.2017
14:38:45
я уже как только не пробовал
Andrey
01.11.2017
14:39:03
какое у тебя количество файлов на hdfs ?
KrivdaTheTriewe
01.11.2017
14:39:06
теперь думаю в hbase писать с ttl и оттуда выгребать уже
Grigory
01.11.2017
14:40:26