
kutepovfedor
03.09.2018
14:53:22

Andrey
03.09.2018
14:55:07

kutepovfedor
03.09.2018
14:55:07
аэроспайк есть бесплатный?

Google

Daniel
03.09.2018
14:55:11

kutepovfedor
03.09.2018
14:55:49

Daniel
03.09.2018
14:56:37

Andrey
03.09.2018
14:56:50

kutepovfedor
03.09.2018
15:00:11

Andrey
03.09.2018
15:01:16

Daniel
03.09.2018
15:01:45

kutepovfedor
03.09.2018
15:01:59
Лан, почитаю про аэроспайк
clickhouse ещё посоветовали.
Благодарю!

Google

Daniel
03.09.2018
15:03:48
Но про кассандру по чатику диагностику делать сложно. У нас были как тупые проблемы рук, так и двойные баги в кишках ее, которые и метриками не все видно.

kutepovfedor
03.09.2018
15:07:17

Andrey
03.09.2018
15:09:28

kutepovfedor
03.09.2018
15:10:46

Daniel
03.09.2018
15:14:50

Andrey
03.09.2018
15:18:01

Daniel
03.09.2018
15:24:24
Апачевское

Artem
03.09.2018
15:24:50
датастакс не закрыл проекты разве? помню кассандру они похерили ж

Daniel
03.09.2018
15:25:23
Энтерпрайзная у них и сейчас есть
Кассандру отпустили в мир. Даж домен и сайте сделали. Только его никто не наполняет.

Andrey
03.09.2018
15:31:30

Artem
03.09.2018
15:31:51
ну я осуществлял переезд на апачевую)
то еще адище.

Bhavesh
03.09.2018
15:44:11
Check out "BigData Interview Guide"
https://play.google.com/store/apps/details?id=com.software.navnath.bigdatainterviewquestionbank

Хайрулло
03.09.2018
16:04:20
foundationdb, если нужны транзакции
опыта использования конечно нет

Daniel
03.09.2018
16:08:15

J
04.09.2018
01:56:44
Any cloudera manager groups pls share

Alexey
04.09.2018
10:44:30
коллеги, а посоветуйте нормальный ЦОД в этой стране.
есть вообще hosted hadoop на tier III у кого-то окромя мэйлру?

Google

Sergey
04.09.2018
10:54:15

Alexey
04.09.2018
11:00:36
> клиентам в России необходимо, ЦОД был в России (по законодательству)
вот чё мне начальство пишет. типа, ответить что в этой стране ЦОД нет, идём лесом?

Paul
04.09.2018
11:02:51
Подскажите по airflow плиз - сервер работает, даги выполняет, но веб интерфейс примерно раз в день падает - куда смотреть, что копать?

Evgeny
04.09.2018
11:05:32

Андрей
04.09.2018
11:06:08
У них там, правда, свой дистриб.

Alexey
04.09.2018
11:15:26

Андрей
04.09.2018
11:18:38
К мейловому у меня тоже много вопросов :)

Artem
04.09.2018
11:18:56

Александр
04.09.2018
11:22:23

Андрей
04.09.2018
11:25:15
каких если не секрет ?
Мы тестируем у себя их кластер - много что приходится донастраивать (HDP запускается по дефолту на минималках), масштабирование вверх-вниз глючило. Ремонтируют, донастраивают - молодцы, да.
Пока что не до конца решен вопрос безопасности хадупа и сертификации ЦОДа, что точно возбудит госзаказчика

Alexey
04.09.2018
11:27:18
не обязательно быть гос, чтобы подпадать под требования фз о персданных
короче, ясно всё. плохо всё.

Sergioss
04.09.2018
11:42:30

KrivdaAllStars
04.09.2018
12:26:03
там у мейл ру облака хдфс считается на ссд дисках
кстати

Andrey
04.09.2018
12:33:55

KrivdaAllStars
04.09.2018
12:36:45
https://mcs.mail.ru/bigdata/
там калькулятор внизу

Google

Андрей
04.09.2018
12:50:47

Sergioss
04.09.2018
12:54:48

Oxana
04.09.2018
17:09:12
#job #dataengineer #москва
Контакты: job.ozon.ru, otalyzina@ozon.ru и можно в личку)
Всем привет!
Мы в ozon.ru сейчас очень растем, и планируем спроектировать и создать нашу новую data платформу включающую, data lake, olap, bi и т.п. Поэтому в поисках людей, которым интересно и смогут это сделать с нашей командой.
Описание есть здесь:
https://job.ozon.ru/vacancies/23563/
Готова ответить на все вопросы)

Nick
04.09.2018
18:50:15

Fedor
04.09.2018
18:55:26
Если есть деньги, то лучше без хадупа =)

Андрей
04.09.2018
18:55:52
На пляже

Andrey
04.09.2018
19:59:42
Если есть деньги, то лучше ssd
своего опыта работы hadoop на ssd у меня не было (нет денег), только hdd, только hardcore. Нашел довольно старый обзор https://blog.cloudera.com/blog/2014/03/the-truth-about-mapreduce-performance-on-ssds/
From our tests, SSDs have up to 70 percent higher performance, for 2.5x higher $ per performance (average performance divided by cost). This is far lower than the 50x difference in $ per TB computed in the table below.

KrivdaAllStars
04.09.2018
21:10:56
А смысла особого нет
На последовательном чтении hdd не настолько проигрывает ссд, а для hdfs как раз будет последовательное чтение запись

Uncel
04.09.2018
21:16:54
Если есть доступ к печатному станку, у флеша плотности выше
1u забитый линейками на 8-32TB
https://www.intel.com/content/www/us/en/products/memory-storage/solid-state-drives/data-center-ssds/dc-p4500-series/dc-p4500-8tb-ruler-3d1.html

Fedor
04.09.2018
21:52:39
Серьезно, если есть так много денег, то лучше отправить часть бюджета на лицензии на вертику.
Даже в дорогущем Oracle BDA (Cloudera Enterprise на Sun'овском железе) диски круглые, хоть и SAS:
https://www.oracle.com/technetwork/database/bigdata-appliance/overview/bigdataappliance-datasheet-1883358.pdf
Все-таки, хадуп это решение для тех, кто экономит.

KrivdaAllStars
04.09.2018
21:59:03

Fedor
04.09.2018
21:59:25
Смотря какой критерий ты оптимизируешь
HDFS выигрывает по цене гигабайта места и по цене сырого IO на full scan.

Google

KrivdaAllStars
04.09.2018
22:24:47
Например банки не в рф
Но там импала не работает
А престо работает

Dan
05.09.2018
00:55:29
я тут готовлю демку - спарк, сцилла/кассандра, и что нибудь time series, никто не делал похожее? Я ищу готовую базу и шаблоны нагрузок

Andrey
05.09.2018
01:17:56
Я бы взял просто bare metal и хадупил бы по своим хотелкам

Fedor
05.09.2018
05:57:53
Есть инициативы типа Alluxio, когда люди хотят поднять избранные куски hdfs в in-memory cache. Но это, опять-таки, не от хорошей жизни, а потому что хочется онлайн аналитику подешевле. :)

ivanovalla
05.09.2018
06:32:16
#job друзья, вакансия на удаленку в киберспортивном проекте https://hh.ru/vacancy/27621547
за подробностями пишите в личку @ivanovalla