@hadoopusers

Страница 141 из 182
kutepovfedor
03.09.2018
14:53:22
Ну и характер запросов тоже не ясен.
Если составлю требования "по науке", то подберёте БД ровно такую, которая нужна?)))

Andrey
03.09.2018
14:55:07
Да, мы скоро упрёмся в потолок походу блин =(((
можно разбивать по времени сами индексы (а ля kibana-logstash), но тут важны требования по объемам и времени отклика

kutepovfedor
03.09.2018
14:55:07
аэроспайк есть бесплатный?

Google
Daniel
03.09.2018
14:55:11
Если составлю требования "по науке", то подберёте БД ровно такую, которая нужна?)))
При требованиях сейчас подойдет любое кей вэлью. Но реальность сурова.

аэроспайк есть бесплатный?
Есть. Но там по фичам ограничения и с 4ой версии не более 6 нод.

kutepovfedor
03.09.2018
14:55:49
При требованиях сейчас подойдет любое кей вэлью. Но реальность сурова.
Да да. Но вот касандра у меня не справляется, например. Что Ооооочень странно

Daniel
03.09.2018
14:56:37
Да да. Но вот касандра у меня не справляется, например. Что Ооооочень странно
У меня справляется. Но это опять разговор беспредметный.

Andrey
03.09.2018
14:56:50
статистика юр , реестры фнс, суды и прочая лабуда из корпоративной среды
а потом понадобится поиск, все равно придется эластик поднимать, зачем тогда два раза вставать :)

kutepovfedor
03.09.2018
15:00:11
а потом понадобится поиск, все равно придется эластик поднимать, зачем тогда два раза вставать :)
Ластик уже прекрасно пашет Но это же полнотекстовый движ, я не могу там терабайты документоы и их версий хранить

У меня справляется. Но это опять разговор беспредметный.
А не могли бы скинуть пример требований?

Andrey
03.09.2018
15:01:16
Daniel
03.09.2018
15:01:45
А не могли бы скинуть пример требований?
Требований к чему? К моей кассандре? NDA

kutepovfedor
03.09.2018
15:01:59
Лан, почитаю про аэроспайк

clickhouse ещё посоветовали. Благодарю!

Google
Daniel
03.09.2018
15:03:48
Но про кассандру по чатику диагностику делать сложно. У нас были как тупые проблемы рук, так и двойные баги в кишках ее, которые и метриками не все видно.

kutepovfedor
03.09.2018
15:07:17
Но про кассандру по чатику диагностику делать сложно. У нас были как тупые проблемы рук, так и двойные баги в кишках ее, которые и метриками не все видно.
На самом деле проблема очень актуальна, уже длительное время не могу добиться от админов нормальной настройки Касандры Периодически она вообще не пишет данные, не выдавая никаких ошибок. Бред... Сделали БД которая не пишет данные...

Andrey
03.09.2018
15:09:28
clickhouse ещё посоветовали. Благодарю!
не подойдет точно, забудь (у тебя требования к kv системам)

Daniel
03.09.2018
15:14:50
На самом деле проблема очень актуальна, уже длительное время не могу добиться от админов нормальной настройки Касандры Периодически она вообще не пишет данные, не выдавая никаких ошибок. Бред... Сделали БД которая не пишет данные...
Надо читать жиру, рассылку. У нас была бага с апдейтами, когда неуказанное поле затиралось нуллом. И была бага с падениями, которую админ только по рассылке смог диагностировать. Все пофиксилось обновлением.

Daniel
03.09.2018
15:24:24
Апачевское

Artem
03.09.2018
15:24:50
датастакс не закрыл проекты разве? помню кассандру они похерили ж

Daniel
03.09.2018
15:25:23
Энтерпрайзная у них и сейчас есть

Кассандру отпустили в мир. Даж домен и сайте сделали. Только его никто не наполняет.

Andrey
03.09.2018
15:31:30
датастакс не закрыл проекты разве? помню кассандру они похерили ж
спасибо, не знал, как время бежит, в 2016-начале 2017 использовал от них кассандру

Artem
03.09.2018
15:31:51
ну я осуществлял переезд на апачевую)

то еще адище.

Bhavesh
03.09.2018
15:44:11
Check out "BigData Interview Guide" https://play.google.com/store/apps/details?id=com.software.navnath.bigdatainterviewquestionbank

Хайрулло
03.09.2018
16:04:20
foundationdb, если нужны транзакции

опыта использования конечно нет

Daniel
03.09.2018
16:08:15
опыта использования конечно нет
особенно к месту рядом с рекламой приложения для подготовки к интервью

J
04.09.2018
01:56:44
Any cloudera manager groups pls share

Alexey
04.09.2018
10:44:30
коллеги, а посоветуйте нормальный ЦОД в этой стране.

есть вообще hosted hadoop на tier III у кого-то окромя мэйлру?

Google
Alexey
04.09.2018
11:00:36
> клиентам в России необходимо, ЦОД был в России (по законодательству) вот чё мне начальство пишет. типа, ответить что в этой стране ЦОД нет, идём лесом?

Paul
04.09.2018
11:02:51
Подскажите по airflow плиз - сервер работает, даги выполняет, но веб интерфейс примерно раз в день падает - куда смотреть, что копать?

Evgeny
04.09.2018
11:05:32
коллеги, а посоветуйте нормальный ЦОД в этой стране.
Зависит от требований и формата заказа мощностей. Вам облако нужно? Есть у Ростелика, вроде. Есть Техносерв-Cloud.

Андрей
04.09.2018
11:06:08
У них там, правда, свой дистриб.

Alexey
04.09.2018
11:15:26
У Яндекса
так не в продакшене же ещё?

Андрей
04.09.2018
11:18:38
К мейловому у меня тоже много вопросов :)

Александр
04.09.2018
11:22:23
Андрей
04.09.2018
11:25:15
каких если не секрет ?
Мы тестируем у себя их кластер - много что приходится донастраивать (HDP запускается по дефолту на минималках), масштабирование вверх-вниз глючило. Ремонтируют, донастраивают - молодцы, да. Пока что не до конца решен вопрос безопасности хадупа и сертификации ЦОДа, что точно возбудит госзаказчика

Alexey
04.09.2018
11:27:18
не обязательно быть гос, чтобы подпадать под требования фз о персданных

короче, ясно всё. плохо всё.

KrivdaAllStars
04.09.2018
12:26:03
там у мейл ру облака хдфс считается на ссд дисках

кстати

Andrey
04.09.2018
12:33:55
там у мейл ру облака хдфс считается на ссд дисках
Потому что могут? Hdd для хадупа лучше будет

KrivdaAllStars
04.09.2018
12:36:45
https://mcs.mail.ru/bigdata/

там калькулятор внизу

Google
Андрей
04.09.2018
12:50:47
Потому что могут? Hdd для хадупа лучше будет
При пошаренном дисковом пуле может стать все очень печально.

не обязательно быть гос, чтобы подпадать под требования фз о персданных
С персданными уже почти решили. А вот огораживание хадупа ляжет на плечи заказчика.

Ок.ру dataLine юзает
Облако мейла вроде там же. Но там тупо ЦОД, ни о каких хадупах речи не идет.

Oxana
04.09.2018
17:09:12
#job #dataengineer #москва Контакты: job.ozon.ru, otalyzina@ozon.ru и можно в личку) Всем привет! Мы в ozon.ru сейчас очень растем, и планируем спроектировать и создать нашу новую data платформу включающую, data lake, olap, bi и т.п. Поэтому в поисках людей, которым интересно и смогут это сделать с нашей командой. Описание есть здесь: https://job.ozon.ru/vacancies/23563/ Готова ответить на все вопросы)

Nick
04.09.2018
18:50:15
Fedor
04.09.2018
18:55:26
Если есть деньги, то лучше без хадупа =)

Андрей
04.09.2018
18:55:52
На пляже

Andrey
04.09.2018
19:59:42
Если есть деньги, то лучше ssd
своего опыта работы hadoop на ssd у меня не было (нет денег), только hdd, только hardcore. Нашел довольно старый обзор https://blog.cloudera.com/blog/2014/03/the-truth-about-mapreduce-performance-on-ssds/ From our tests, SSDs have up to 70 percent higher performance, for 2.5x higher $ per performance (average performance divided by cost). This is far lower than the 50x difference in $ per TB computed in the table below.

KrivdaAllStars
04.09.2018
21:10:56
А смысла особого нет

На последовательном чтении hdd не настолько проигрывает ссд, а для hdfs как раз будет последовательное чтение запись

Uncel
04.09.2018
21:16:54
Если есть доступ к печатному станку, у флеша плотности выше

1u забитый линейками на 8-32TB

https://www.intel.com/content/www/us/en/products/memory-storage/solid-state-drives/data-center-ssds/dc-p4500-series/dc-p4500-8tb-ruler-3d1.html

Fedor
04.09.2018
21:52:39
Серьезно, если есть так много денег, то лучше отправить часть бюджета на лицензии на вертику.

Даже в дорогущем Oracle BDA (Cloudera Enterprise на Sun'овском железе) диски круглые, хоть и SAS: https://www.oracle.com/technetwork/database/bigdata-appliance/overview/bigdataappliance-datasheet-1883358.pdf

Все-таки, хадуп это решение для тех, кто экономит.

KrivdaAllStars
04.09.2018
21:59:03
Все-таки, хадуп это решение для тех, кто экономит.
Не экономит , а рационально тратит бюджет

Fedor
04.09.2018
21:59:25
Смотря какой критерий ты оптимизируешь

HDFS выигрывает по цене гигабайта места и по цене сырого IO на full scan.

Google
KrivdaAllStars
04.09.2018
22:24:47
Смотря какой критерий ты оптимизируешь
Возможно вы правы,жизнь штука сложная, кто то hdfs в рам кладёт

Например банки не в рф

Но там импала не работает

А престо работает

Dan
05.09.2018
00:55:29
я тут готовлю демку - спарк, сцилла/кассандра, и что нибудь time series, никто не делал похожее? Я ищу готовую базу и шаблоны нагрузок

Andrey
05.09.2018
01:17:56
Я бы взял просто bare metal и хадупил бы по своим хотелкам

Fedor
05.09.2018
05:57:53
Есть инициативы типа Alluxio, когда люди хотят поднять избранные куски hdfs в in-memory cache. Но это, опять-таки, не от хорошей жизни, а потому что хочется онлайн аналитику подешевле. :)

ivanovalla
05.09.2018
06:32:16
#job друзья, вакансия на удаленку в киберспортивном проекте https://hh.ru/vacancy/27621547 за подробностями пишите в личку @ivanovalla

Страница 141 из 182