Grigory
01.11.2017
14:40:39
что конечно не сложно но фимоз
KrivdaTheTriewe
01.11.2017
14:40:41
Grigory
01.11.2017
14:40:48
крон 2.0?
Andrey
01.11.2017
14:40:51
само собой
Google
Grigory
01.11.2017
14:40:54
отлично!
KrivdaTheTriewe
01.11.2017
14:40:59
если что - то упадет мне письмо придет
Andrey
01.11.2017
14:41:04
1.0 уже не используют в продакшене
говорят он нестабилен
KrivdaTheTriewe
01.11.2017
14:41:17
вот и локальные мемы подъехали
Andrey
01.11.2017
14:41:30
а 2.0 на джаве написан, с ним все ок, только хип сайз надо тюнить
Grigory
01.11.2017
14:41:38
KrivdaTheTriewe
01.11.2017
14:41:52
в хбейз офф доку для спарка добавили
Grigory
01.11.2017
14:41:57
отлично
а когда они рещлизят новую версию?
потому что я писал свою лабуду чтоб в хбейз постить данные
а теперь ун их свою спарк модуль будет
KrivdaTheTriewe
01.11.2017
14:42:23
там прям смотри как предлагают работать
Google
Grigory
01.11.2017
14:42:29
(который я конечно же скопировал)
KrivdaTheTriewe
01.11.2017
14:43:16
val sc = new SparkContext("local", "test")
val config = new HBaseConfiguration()
val hbaseContext = new HBaseContext(sc, config)
val ssc = new StreamingContext(sc, Milliseconds(200))
val rdd1 = ...
val rdd2 = ...
val queue = mutable.Queue[RDD[(Array[Byte], Array[(Array[Byte],
Array[Byte], Array[Byte])])]]()
queue += rdd1
queue += rdd2
val dStream = ssc.queueStream(queue)
dStream.hbaseBulkPut(
hbaseContext,
TableName.valueOf(tableName),
(putRecord) => {
val put = new Put(putRecord._1)
putRecord._2.foreach((putValue) => put.addColumn(putValue._1, putValue._2, putValue._3))
put
})
Andrey
01.11.2017
14:44:45
мы вот кстати кассандрочку используем в стриминге, оч нравится
Oleksandr
01.11.2017
14:45:57
любопытно, тут кликхаус много кто юзает?
Grigory
01.11.2017
14:45:58
KrivdaAllStars дык я по мотивам их апи делал свое
потому что у них давно сорцы на гитхабе лежат и не особо активно обвноляются
(спарк модуля)
Andrey
01.11.2017
14:50:28
Andrey а вы покупали где-нибудь поддержку или нафиг не нужна?
Я тоже использую Cassandra но есть страх нарваться на баг, который не даст двигаться дальше
А так тоже очень нравится
Andrey
01.11.2017
14:52:04
мы присматриваемся к датастаксу для одного из проектов, но пока точно не решили
в текущий момент у нас ванильная кассандра
Grigory
01.11.2017
14:52:20
а динаму никто не использовал?
ну типа почему кассандра именно
Andrey
01.11.2017
14:52:37
Кассандра зрелая
Grigory
01.11.2017
14:52:52
ну динама всего на 4 года моложе
(эт просто вопрос я не исползвоал динаму тоже особо ток палкой тыкал)
Andrey
01.11.2017
14:53:05
Andrey
01.11.2017
14:53:09
Хорошая интеграция со спарк
Grigory
01.11.2017
14:53:14
да у динамы тож
Google
Grigory
01.11.2017
14:53:19
постойте это какая у кассандры хорошая спарк интеграция?
Andrey
01.11.2017
14:53:52
ну, типа датафреймы там все дела
Grigory
01.11.2017
14:53:59
а
Andrey
01.11.2017
14:54:08
пушдаун неплохо работает
Grigory
01.11.2017
14:54:09
вы про датастакс жуткий вот этот плагин
мм ясн да она норм
Andrey
01.11.2017
14:54:43
в отличии от ластика, когда одна из нод кассандры умирает, спарк не отъезжает
фрозен типы поддерживаются
чо еще..
Andrey
01.11.2017
14:56:10
У меня (Псб) процесс выглядит так
В Кафку падают платёжки юриков
В касандре агрегированная история по юрикам
Стреминг читает Кафку, агрегирует входящие платёжки добавляет из истории
Потом прогоняет по мл модели и назад результат в Кафку
Andrey
01.11.2017
14:58:15
с кафкой проблем не было?
Andrey
01.11.2017
14:58:29
Пока нет)
Andrey
01.11.2017
14:58:52
а то интернеты прям на два лагеря разделились, одни топят за нее, другие считают ее ни разу не ентрепрайз реди
Andrey
01.11.2017
14:59:35
Я тогда в первый лагерь , потому как много процессов хочу на нее завернуть
Andrey
01.11.2017
14:59:52
а нагрузка большая у вас?
Google
Andrey
01.11.2017
14:59:58
на ней
Andrey
01.11.2017
15:01:23
Пока нет, но мы только начали все строить
Из того что читал не должно быть проблем
Andrey
01.11.2017
15:01:41
ясно, потом расскажите обязательно как впечатления)
Andrey
01.11.2017
15:02:00
Обязательно )
Daniel
01.11.2017
15:02:28
против кафки обычно выступают те у кого нагрузка в миллионах рпс, потому что там начинаются проблемы со скейлингом
Andrey
01.11.2017
15:03:21
то есть до, скажем, 200к рпс ее можно смело использовать? ну разумеется с прямыми руками
Daniel
01.11.2017
15:04:45
ну 200к рпс у нас в одном жирном топике и живет это на 3х виртуалках
проблем не было за полгода
но у нас там ретеншн всего 2ч, поэтому он и ребалансится относительно нормально
Andrey
01.11.2017
15:04:58
ясно, спасибо
Daniel
01.11.2017
15:07:28
кстати, кафка сегодня зарелизила 1.0
mature technology)
Egor
01.11.2017
15:20:41
300к рпс (два жирных топика + мелочь), год живем без проблем (ретеншен 8 часов на жирных, 3 физические тачки). за все время падала 1 раз по своим внутренним причинам и пару раз из-за кривых рук (хотя и тогда проблема была не в кафке, а в зукиперах). переезд всей кафки с зукиперами на новые серваки и обновление с 0.9 на 0.10 без даунтайма прошло
Nikolai
01.11.2017
18:05:39
Всем привет
Столкнулся с такой проблемой. Есть паркет файлы с данными +- 3гб.
После того как читаю их спарком, делаю несколько фильтров и обратно записываю в паркет, получается 2гб. Все вроде ок. Но когда я добавляю к фильтрам dropDuplicates() и записываю, объём данных становится около 7гб. Что происходит? ??♂️
Andrey
01.11.2017
19:22:48
Nikolai
01.11.2017
19:40:57
Ну в код ничего особенного
contracts_df = spark.read.load(root_dir_DTContracts + date_path)\
.withColumn("search_guid", F.lower(F.col("search_guid")))\
.withColumn("contract_key", F.concat_ws("_", "supplier_code", "contract_key") )\
.filter((F.col("origin")!="") & (F.col("destination")!=""))
contracts_df = contracts_df\
.dropDuplicates(subset=list(set(contracts_df.columns) - {"searched_on", "contract_id"}))
contracts_df.coalesce(16).write.parquet("mnt/data-science-users/nikolai/DTContracts/" + date_path, mode="overwrite")
Andrey
01.11.2017
20:56:13
для начала я бы попробовал сохранить в json и посмотреть как там обстоят дела
Vyacheslav
06.11.2017
10:49:17
Всем привет! Кто-нибудь пробовал подружить spark notebook и stanford-corenlp?
Nick
06.11.2017
14:38:07
в apache ignite хотя ga завести
кароч и туда ml всунули)
Google
Grigory
06.11.2017
14:39:19
все так игнит юзают что прям самому хочется заюзать
Nick
06.11.2017
14:39:45
все?)
аахахаха
ну потрогать наверное смысл есть
Dmitry
06.11.2017
14:40:14
Ну и всякие авторизации через ldap
в gg
KrivdaTheTriewe
06.11.2017
14:41:27
меня игнайт пугает
Nick
06.11.2017
14:42:33
Dmitry
06.11.2017
14:42:40
так был
мы его юзали
Nick
06.11.2017
14:42:52
ga genetic algorithm
Dmitry
06.11.2017
14:43:17
ну транзакции были, но типа read uncommited
но тут могу соврать
кароче
юзали sql, dist queue