
Anton
25.10.2018
16:36:03
Для интерактива тоже норм
Я видел китайцев у которых импала поверх Alluxio поверх Swift - страшно счастливы

Mikhail
25.10.2018
16:36:49
impala и так большую часть кешировать будет

Google

Mikhail
25.10.2018
16:37:42
может у них конечно сам swift не вывозил и поэтому сверху приходилось еще один слой многоуровнего кеша в alluxio делать

Anton
25.10.2018
16:38:58
Импала кэш другим не даёт, а если поднято в общий кэш то можно например два кластера на него натравить)
Или сразу много фреймворков

Mikhail
25.10.2018
16:50:47

Anton
25.10.2018
16:51:41

Mikhail
25.10.2018
16:53:14

Anton
25.10.2018
16:53:46
Может они

KrivdaAllStars
25.10.2018
17:02:53
Поверх
А престо умеет

Stanislav
25.10.2018
17:03:39

Старый
25.10.2018
17:04:19

Google

Старый
25.10.2018
17:04:51
плюс сейчас есть мнение, очень причём популярное, что кубер+девупс заменяют отдел тестирования

Andrey
25.10.2018
17:08:09

Старый
25.10.2018
17:09:10

Andrey
25.10.2018
17:10:16
бизнес любит хайп
бизнесу надо чтобы работало, люди с новыми свистоперделками с непонятным профитом вообще не нужны

Старый
25.10.2018
17:12:00
Многие даже хвастаются как сколько фот сэкономили

Anton
25.10.2018
17:12:36

Dan
25.10.2018
17:29:31

Anton
25.10.2018
17:32:05

Andrey
25.10.2018
17:40:29

Старый
25.10.2018
17:43:39

Anton
25.10.2018
17:44:19

Старый
25.10.2018
17:46:23
Я такую ахинею слушал про чудотворные свойства кубера на 30 собесах
Вот просто божественное проведение

Anton
25.10.2018
17:48:42

Старый
25.10.2018
17:49:12

Anton
25.10.2018
17:50:33
Любой старый хрыч (как я) знает что это сокращение от социальное обеспечение ;)
Я про хадуп такое слышу до сих пор, как он победит все вертики экзадаты терадаты

Старый
25.10.2018
18:03:53

Dan
25.10.2018
18:04:41

Google

Старый
25.10.2018
18:05:01

Dan
25.10.2018
18:05:11

Старый
25.10.2018
18:05:37
Для тебя да
Его многие не любят, просто я открыто высказываю своё мнение

Stanislav
25.10.2018
18:11:48

Anton
25.10.2018
18:12:23

Старый
25.10.2018
18:12:44

Artem
25.10.2018
18:14:04

Anton
25.10.2018
18:14:24

Artem
25.10.2018
18:14:46
k8s не хватает там %)

Anton
25.10.2018
18:14:50
Кстати вариант отскочить в таких случаях - предложить LXD вместо докера

Artem
25.10.2018
18:15:08
+1

Andrey
25.10.2018
18:15:18
а что плохого в этом (в нодах спарка н докере)

Anton
25.10.2018
18:15:29
Системные контейнеры проще совпровождать чем приложения, но оверхеда на виртуализацию не будет

Dan
25.10.2018
18:15:54

Старый
25.10.2018
18:16:35

Google

Artem
25.10.2018
18:17:49

Старый
25.10.2018
18:19:30

Vladislav
25.10.2018
18:21:06

Stanislav
25.10.2018
18:21:14

Anton
25.10.2018
18:22:13

Vladislav
25.10.2018
18:22:53
Как обеспечить быстрый доступ по сети? Ssd профитнее всегда

Stanislav
25.10.2018
18:23:23
Память быстрее

Anton
25.10.2018
18:23:29
Ssd будет быстрее по latency

Stanislav
25.10.2018
18:23:36
Потоковое чтение в память быстрее

Anton
25.10.2018
18:23:46
По throughput есть сети быстрее дисков
И потом иногда производительности хватает

Vladislav
25.10.2018
18:24:11

Anton
25.10.2018
18:25:30
Пример S3, я не видел быстрее 200 мегабайт в сек на узел, но зато масштабируется хорошо и реплики сразу в трёх АЗ

Vladislav
25.10.2018
18:26:53
Вы сейчас обсуждаете момент, когда вам надо просто файлики переложить? Или все таки тот выше момент, когда вы обсуждаете даталейк по сети?

Anton
25.10.2018
18:27:07
Даталейк

Vladislav
25.10.2018
18:27:49
Тогда 200мбс вам может не хватить, когда необходимо будет кучу данных

Anton
25.10.2018
18:28:23
200 это в очень солнечные дни
Так 100-120
Но на каждый узел

Google

Anton
25.10.2018
18:29:19
Делаете сто машин - вот вам 10 гигов в сек

Vladislav
25.10.2018
18:29:22
Параллельность конечно выручает, но довольно часто присутствуют операции, которые нельзя просто распараллелить. Причем не только в автоматическом режиме, но и через костыли

Anton
25.10.2018
18:29:59
Если речь о производительности из расчета на доллар то S3 вполне тягается с HDFS
Если мы берём HDFS on ephemerals
Case and point https://databricks.com/blog/2017/05/31/top-5-reasons-for-choosing-s3-over-hdfs.html
S3 не подарок тоже, я тут не продаю Амазон, но если живете на облаке - почти всегда лучше чем hdfs на локальных дисках

Vladislav
25.10.2018
18:35:38
Мне просто интересно, как вы обосновываете более 10к$ в год тупо за хранение данных

Anton
25.10.2018
18:37:19
10к это цена одной тухлой датаноды если он прем

Vladislav
25.10.2018
18:38:27
Проблема в долгосрочной перспективе

Anton
25.10.2018
18:38:48
Какая?

Vladislav
25.10.2018
18:39:21
Ладно, вопрос довольно интересный, но сегодня релиз рдр2, поэтому обсудим это как-нибудь в другой раз, возможно даже лично

Anton
25.10.2018
18:39:54
Вы платите 25 баксов в месяц за терабайт хранения с безумным количеством девяток надежности, не платя за электричество, место в цоде и остальное

Vladislav
25.10.2018
18:40:39
Помимо хранения, вам нужно еще что-то, в противном случае это не даталейк, а просто помойка

Anton
25.10.2018
18:40:42
Вам для такого хранения он прем нужно минимум два кластера из трёх датанодов и солюшен для репликации
Остальное мы строим, тот же метадата стор, линедж если требуется, все как везде
У меня были проблемы с ценой компьюта на Амазоне, но цена хранения как раз копеечная

Dan
25.10.2018
18:42:25
на самом деле оно стоит этих денег если использовать для бизнеса и на полную катушку

Stanislav
25.10.2018
18:43:45