@hadoopusers

Страница 45 из 182
Grigory
01.11.2017
14:40:39
что конечно не сложно но фимоз

KrivdaTheTriewe
01.11.2017
14:40:41
Grigory
01.11.2017
14:40:48
крон 2.0?

Andrey
01.11.2017
14:40:51
само собой

Google
Grigory
01.11.2017
14:40:54
отлично!

KrivdaTheTriewe
01.11.2017
14:40:59
если что - то упадет мне письмо придет

Andrey
01.11.2017
14:41:04
1.0 уже не используют в продакшене

говорят он нестабилен

KrivdaTheTriewe
01.11.2017
14:41:17
вот и локальные мемы подъехали

Andrey
01.11.2017
14:41:30
а 2.0 на джаве написан, с ним все ок, только хип сайз надо тюнить

Grigory
01.11.2017
14:41:38


KrivdaTheTriewe
01.11.2017
14:41:52
в хбейз офф доку для спарка добавили

Grigory
01.11.2017
14:41:57
отлично

а когда они рещлизят новую версию?

потому что я писал свою лабуду чтоб в хбейз постить данные

а теперь ун их свою спарк модуль будет

KrivdaTheTriewe
01.11.2017
14:42:23
там прям смотри как предлагают работать

Google
Grigory
01.11.2017
14:42:29
(который я конечно же скопировал)

KrivdaTheTriewe
01.11.2017
14:43:16
val sc = new SparkContext("local", "test") val config = new HBaseConfiguration() val hbaseContext = new HBaseContext(sc, config) val ssc = new StreamingContext(sc, Milliseconds(200)) val rdd1 = ... val rdd2 = ... val queue = mutable.Queue[RDD[(Array[Byte], Array[(Array[Byte], Array[Byte], Array[Byte])])]]() queue += rdd1 queue += rdd2 val dStream = ssc.queueStream(queue) dStream.hbaseBulkPut( hbaseContext, TableName.valueOf(tableName), (putRecord) => { val put = new Put(putRecord._1) putRecord._2.foreach((putValue) => put.addColumn(putValue._1, putValue._2, putValue._3)) put })

Andrey
01.11.2017
14:44:45
мы вот кстати кассандрочку используем в стриминге, оч нравится

Oleksandr
01.11.2017
14:45:57
любопытно, тут кликхаус много кто юзает?

Grigory
01.11.2017
14:45:58
KrivdaAllStars дык я по мотивам их апи делал свое

потому что у них давно сорцы на гитхабе лежат и не особо активно обвноляются

(спарк модуля)

Andrey
01.11.2017
14:50:28
Andrey а вы покупали где-нибудь поддержку или нафиг не нужна?

Я тоже использую Cassandra но есть страх нарваться на баг, который не даст двигаться дальше

А так тоже очень нравится

Andrey
01.11.2017
14:52:04
мы присматриваемся к датастаксу для одного из проектов, но пока точно не решили

в текущий момент у нас ванильная кассандра

Grigory
01.11.2017
14:52:20
а динаму никто не использовал?

ну типа почему кассандра именно

Andrey
01.11.2017
14:52:37
Кассандра зрелая

Grigory
01.11.2017
14:52:52
ну динама всего на 4 года моложе

(эт просто вопрос я не исползвоал динаму тоже особо ток палкой тыкал)

Andrey
01.11.2017
14:53:05
а динаму никто не использовал?
мы ж банк, кто нам даст в амазоне данные хранить

Andrey
01.11.2017
14:53:09
Хорошая интеграция со спарк

Grigory
01.11.2017
14:53:14
да у динамы тож

Google
Grigory
01.11.2017
14:53:19
постойте это какая у кассандры хорошая спарк интеграция?

Andrey
01.11.2017
14:53:52
ну, типа датафреймы там все дела

Grigory
01.11.2017
14:53:59
а

Andrey
01.11.2017
14:54:08
пушдаун неплохо работает

Grigory
01.11.2017
14:54:09
вы про датастакс жуткий вот этот плагин

мм ясн да она норм

Andrey
01.11.2017
14:54:43
в отличии от ластика, когда одна из нод кассандры умирает, спарк не отъезжает

фрозен типы поддерживаются

чо еще..

Andrey
01.11.2017
14:56:10
У меня (Псб) процесс выглядит так

В Кафку падают платёжки юриков

В касандре агрегированная история по юрикам

Стреминг читает Кафку, агрегирует входящие платёжки добавляет из истории

Потом прогоняет по мл модели и назад результат в Кафку

Andrey
01.11.2017
14:58:15
с кафкой проблем не было?

Andrey
01.11.2017
14:58:29
Пока нет)

Andrey
01.11.2017
14:58:52
а то интернеты прям на два лагеря разделились, одни топят за нее, другие считают ее ни разу не ентрепрайз реди

Andrey
01.11.2017
14:59:35
Я тогда в первый лагерь , потому как много процессов хочу на нее завернуть

Andrey
01.11.2017
14:59:52
а нагрузка большая у вас?

Google
Andrey
01.11.2017
14:59:58
на ней

Andrey
01.11.2017
15:01:23
Пока нет, но мы только начали все строить

Из того что читал не должно быть проблем

Andrey
01.11.2017
15:01:41
ясно, потом расскажите обязательно как впечатления)

Andrey
01.11.2017
15:02:00
Обязательно )

Daniel
01.11.2017
15:02:28
против кафки обычно выступают те у кого нагрузка в миллионах рпс, потому что там начинаются проблемы со скейлингом

Andrey
01.11.2017
15:03:21
то есть до, скажем, 200к рпс ее можно смело использовать? ну разумеется с прямыми руками

Daniel
01.11.2017
15:04:45
ну 200к рпс у нас в одном жирном топике и живет это на 3х виртуалках проблем не было за полгода но у нас там ретеншн всего 2ч, поэтому он и ребалансится относительно нормально

Andrey
01.11.2017
15:04:58
ясно, спасибо

Daniel
01.11.2017
15:07:28
кстати, кафка сегодня зарелизила 1.0

mature technology)

Egor
01.11.2017
15:20:41
300к рпс (два жирных топика + мелочь), год живем без проблем (ретеншен 8 часов на жирных, 3 физические тачки). за все время падала 1 раз по своим внутренним причинам и пару раз из-за кривых рук (хотя и тогда проблема была не в кафке, а в зукиперах). переезд всей кафки с зукиперами на новые серваки и обновление с 0.9 на 0.10 без даунтайма прошло

Nikolai
01.11.2017
18:05:39
Всем привет Столкнулся с такой проблемой. Есть паркет файлы с данными +- 3гб. После того как читаю их спарком, делаю несколько фильтров и обратно записываю в паркет, получается 2гб. Все вроде ок. Но когда я добавляю к фильтрам dropDuplicates() и записываю, объём данных становится около 7гб. Что происходит? ??‍♂️

Nikolai
01.11.2017
19:40:57
Ну в код ничего особенного

contracts_df = spark.read.load(root_dir_DTContracts + date_path)\ .withColumn("search_guid", F.lower(F.col("search_guid")))\ .withColumn("contract_key", F.concat_ws("_", "supplier_code", "contract_key") )\ .filter((F.col("origin")!="") & (F.col("destination")!="")) contracts_df = contracts_df\ .dropDuplicates(subset=list(set(contracts_df.columns) - {"searched_on", "contract_id"})) contracts_df.coalesce(16).write.parquet("mnt/data-science-users/nikolai/DTContracts/" + date_path, mode="overwrite")

Andrey
01.11.2017
20:56:13
для начала я бы попробовал сохранить в json и посмотреть как там обстоят дела

Vyacheslav
06.11.2017
10:49:17
Всем привет! Кто-нибудь пробовал подружить spark notebook и stanford-corenlp?

Nick
06.11.2017
14:38:07
в apache ignite хотя ga завести

кароч и туда ml всунули)

Google
Grigory
06.11.2017
14:39:19
все так игнит юзают что прям самому хочется заюзать

Nick
06.11.2017
14:39:45
все?)

аахахаха

ну потрогать наверное смысл есть

Dmitry
06.11.2017
14:40:14
ну потрогать наверное смысл есть
ну год назад хорошо работало только key-value storage

Ну и всякие авторизации через ldap

в gg

KrivdaTheTriewe
06.11.2017
14:41:27
меня игнайт пугает

Nick
06.11.2017
14:42:33
ну год назад хорошо работало только key-value storage
ну не, там уже ж давно транзакционность и sql есть

Dmitry
06.11.2017
14:42:40
так был

мы его юзали

Nick
06.11.2017
14:42:52
ga genetic algorithm

Dmitry
06.11.2017
14:43:17
ну транзакции были, но типа read uncommited

но тут могу соврать

кароче

юзали sql, dist queue

Страница 45 из 182