@hadoopusers

« Назад

Страница 45 из 182

Далее »

Grigory

01.11.2017
14:40:39

что конечно не сложно но фимоз

KrivdaTheTriewe

01.11.2017
14:40:41

просто тебе еще за ней следить придется

у меня есть крон)

Grigory

01.11.2017
14:40:48

крон 2.0?

Andrey

01.11.2017
14:40:51

само собой

Google

Grigory

01.11.2017
14:40:54

отлично!

KrivdaTheTriewe

01.11.2017
14:40:59

если что - то упадет мне письмо придет

Andrey

01.11.2017
14:41:04

1.0 уже не используют в продакшене

говорят он нестабилен

KrivdaTheTriewe

01.11.2017
14:41:17

вот и локальные мемы подъехали

Andrey

01.11.2017
14:41:30

а 2.0 на джаве написан, с ним все ок, только хип сайз надо тюнить

Grigory

01.11.2017
14:41:38

KrivdaTheTriewe

01.11.2017
14:41:52

в хбейз офф доку для спарка добавили

Grigory

01.11.2017
14:41:57

отлично

а когда они рещлизят новую версию?

потому что я писал свою лабуду чтоб в хбейз постить данные

а теперь ун их свою спарк модуль будет

KrivdaTheTriewe

01.11.2017
14:42:23

там прям смотри как предлагают работать

Google

Grigory

01.11.2017
14:42:29

(который я конечно же скопировал)

KrivdaTheTriewe

01.11.2017
14:43:16

val sc = new SparkContext("local", "test") val config = new HBaseConfiguration() val hbaseContext = new HBaseContext(sc, config) val ssc = new StreamingContext(sc, Milliseconds(200)) val rdd1 = ... val rdd2 = ... val queue = mutable.Queue[RDD[(Array[Byte], Array[(Array[Byte], Array[Byte], Array[Byte])])]]() queue += rdd1 queue += rdd2 val dStream = ssc.queueStream(queue) dStream.hbaseBulkPut( hbaseContext, TableName.valueOf(tableName), (putRecord) => { val put = new Put(putRecord._1) putRecord._2.foreach((putValue) => put.addColumn(putValue._1, putValue._2, putValue._3)) put })

Andrey

01.11.2017
14:44:45

мы вот кстати кассандрочку используем в стриминге, оч нравится

Oleksandr

01.11.2017
14:45:57

любопытно, тут кликхаус много кто юзает?

Grigory

01.11.2017
14:45:58

KrivdaAllStars дык я по мотивам их апи делал свое

потому что у них давно сорцы на гитхабе лежат и не особо активно обвноляются

(спарк модуля)

Andrey

01.11.2017
14:50:28

Andrey а вы покупали где-нибудь поддержку или нафиг не нужна?

Я тоже использую Cassandra но есть страх нарваться на баг, который не даст двигаться дальше

А так тоже очень нравится

Andrey

01.11.2017
14:52:04

мы присматриваемся к датастаксу для одного из проектов, но пока точно не решили

в текущий момент у нас ванильная кассандра

Grigory

01.11.2017
14:52:20

а динаму никто не использовал?

ну типа почему кассандра именно

Andrey

01.11.2017
14:52:37

Кассандра зрелая

Grigory

01.11.2017
14:52:52

ну динама всего на 4 года моложе

(эт просто вопрос я не исползвоал динаму тоже особо ток палкой тыкал)

Andrey

01.11.2017
14:53:05

а динаму никто не использовал?

мы ж банк, кто нам даст в амазоне данные хранить

Andrey

01.11.2017
14:53:09

Хорошая интеграция со спарк

Grigory

01.11.2017
14:53:14

да у динамы тож

Google

Grigory

01.11.2017
14:53:19

мы ж банк, кто нам даст в амазоне данные хранить

вот эт аргумент

постойте это какая у кассандры хорошая спарк интеграция?

Andrey

01.11.2017
14:53:52

ну, типа датафреймы там все дела

Grigory

01.11.2017
14:53:59

а

Andrey

01.11.2017
14:54:08

пушдаун неплохо работает

Grigory

01.11.2017
14:54:09

вы про датастакс жуткий вот этот плагин

мм ясн да она норм

Andrey

01.11.2017
14:54:43

в отличии от ластика, когда одна из нод кассандры умирает, спарк не отъезжает

фрозен типы поддерживаются

чо еще..

Andrey

01.11.2017
14:56:10

У меня (Псб) процесс выглядит так

В Кафку падают платёжки юриков

В касандре агрегированная история по юрикам

Стреминг читает Кафку, агрегирует входящие платёжки добавляет из истории

Потом прогоняет по мл модели и назад результат в Кафку

Andrey

01.11.2017
14:58:15

с кафкой проблем не было?

Andrey

01.11.2017
14:58:29

Пока нет)

Andrey

01.11.2017
14:58:52

а то интернеты прям на два лагеря разделились, одни топят за нее, другие считают ее ни разу не ентрепрайз реди

Andrey

01.11.2017
14:59:35

Я тогда в первый лагерь , потому как много процессов хочу на нее завернуть

Andrey

01.11.2017
14:59:52

а нагрузка большая у вас?

Google

Andrey

01.11.2017
14:59:58

на ней

Andrey

01.11.2017
15:01:23

Пока нет, но мы только начали все строить

Из того что читал не должно быть проблем

Andrey

01.11.2017
15:01:41

ясно, потом расскажите обязательно как впечатления)

Andrey

01.11.2017
15:02:00

Обязательно )

Daniel

01.11.2017
15:02:28

против кафки обычно выступают те у кого нагрузка в миллионах рпс, потому что там начинаются проблемы со скейлингом

Andrey

01.11.2017
15:03:21

то есть до, скажем, 200к рпс ее можно смело использовать? ну разумеется с прямыми руками

Daniel

01.11.2017
15:04:45

ну 200к рпс у нас в одном жирном топике и живет это на 3х виртуалках проблем не было за полгода но у нас там ретеншн всего 2ч, поэтому он и ребалансится относительно нормально

Andrey

01.11.2017
15:04:58

ясно, спасибо

Daniel

01.11.2017
15:07:28

кстати, кафка сегодня зарелизила 1.0

mature technology)

Egor

01.11.2017
15:20:41

300к рпс (два жирных топика + мелочь), год живем без проблем (ретеншен 8 часов на жирных, 3 физические тачки). за все время падала 1 раз по своим внутренним причинам и пару раз из-за кривых рук (хотя и тогда проблема была не в кафке, а в зукиперах). переезд всей кафки с зукиперами на новые серваки и обновление с 0.9 на 0.10 без даунтайма прошло

Nikolai

01.11.2017
18:05:39

Всем привет Столкнулся с такой проблемой. Есть паркет файлы с данными +- 3гб. После того как читаю их спарком, делаю несколько фильтров и обратно записываю в паркет, получается 2гб. Все вроде ок. Но когда я добавляю к фильтрам dropDuplicates() и записываю, объём данных становится около 7гб. Что происходит? ??‍♂️

Andrey

01.11.2017
19:22:48

Всем привет Столкнулся с такой проблемой. Есть паркет файлы с данными +- 3гб. После того как читаю их спарком, делаю несколько фильтров и обратно записываю в паркет, получается 2гб. Все вроде ок. Но когда я добавляю к фильтрам dropDuplicates() и записываю, объём данных становится около 7гб. Что происходит? ??‍♂️

Привет. Скинь код сюда

Nikolai

01.11.2017
19:40:57

Ну в код ничего особенного

contracts_df = spark.read.load(root_dir_DTContracts + date_path)\ .withColumn("search_guid", F.lower(F.col("search_guid")))\ .withColumn("contract_key", F.concat_ws("_", "supplier_code", "contract_key") )\ .filter((F.col("origin")!="") & (F.col("destination")!="")) contracts_df = contracts_df\ .dropDuplicates(subset=list(set(contracts_df.columns) - {"searched_on", "contract_id"})) contracts_df.coalesce(16).write.parquet("mnt/data-science-users/nikolai/DTContracts/" + date_path, mode="overwrite")

Andrey

01.11.2017
20:56:13

для начала я бы попробовал сохранить в json и посмотреть как там обстоят дела

Vyacheslav

06.11.2017
10:49:17

Всем привет! Кто-нибудь пробовал подружить spark notebook и stanford-corenlp?

Nick

06.11.2017
14:38:07

в apache ignite хотя ga завести

кароч и туда ml всунули)

Google

Grigory

06.11.2017
14:39:19

все так игнит юзают что прям самому хочется заюзать

Nick

06.11.2017
14:39:45

все?)

аахахаха

ну потрогать наверное смысл есть

Dmitry

06.11.2017
14:40:14

в apache ignite хотя ga завести

ga?

ну потрогать наверное смысл есть

ну год назад хорошо работало только key-value storage

Ну и всякие авторизации через ldap

в gg

KrivdaTheTriewe

06.11.2017
14:41:27

меня игнайт пугает

Nick

06.11.2017
14:42:33

ну год назад хорошо работало только key-value storage

ну не, там уже ж давно транзакционность и sql есть

Dmitry

06.11.2017
14:42:40

так был

мы его юзали

Nick

06.11.2017
14:42:52

ga genetic algorithm

Dmitry

06.11.2017
14:43:17

ну транзакции были, но типа read uncommited

но тут могу соврать

кароче

юзали sql, dist queue

« Назад

Страница 45 из 182

Далее »

Открыть в Telegram