@hadoopusers

« Назад

Страница 174 из 182

Далее »

Рамиль

22.10.2018
10:22:16

но опять же это было правильно для 11ой версии

Nikita Blagodarnyy

22.10.2018
10:22:30

В случае с rac-еще и с кластерными ожиданиями синхронизации кэша буферов блоков.

delete это эксклюзивная блокировка таблицы

Что значит эксклюзивная блокировка? Какие операции она блокирует?

читать чисто закомиченные данные - это не магия

Без ожидания.

Google

Рамиль

22.10.2018
10:23:55

ну так это может привести к не согласованности данных

Nikita Blagodarnyy

22.10.2018
10:24:00

а если они читают что бы изменить?

Это уже не чтение, если for update

Рамиль

22.10.2018
10:24:11

т.е. как бы это должно регулирвоаться уровнями изоляции

Nikita Blagodarnyy

22.10.2018
10:24:14

ну так это может привести к не согласованности данных

Что это?

Рамиль

22.10.2018
10:24:15

кмк

вот же

а если они читают что бы изменить?

а когда меняют то не верно из за того что конкурентный сеанс изменил данные?

в противном случае думаю это в любой базе есть

не так что бы это выглядело как сложная фича....

Nikita Blagodarnyy

22.10.2018
10:25:42

ну так это может привести к не согласованности данных

В оракле ты ни при каких обстоятельствах не можешь получить несогласованные данные.

Рамиль

22.10.2018
10:25:51

?

ораклу это расскажи

Google

Рамиль

22.10.2018
10:26:44

у них при всем при этом в лицензионном соглашение написано, что они не несут ответственности за потерю и искажение данных, как в общем и за их консистентность.

в общем ок, пусть будет оракл суперкрутой

но я думаю что он тупо самый дорогой ?

тема примерно как с айфоном

Nikita Blagodarnyy

22.10.2018
10:29:06

а когда меняют то не верно из за того что конкурентный сеанс изменил данные?

Это проблема потерянных обновлений. Она решается оптимистической/пессимистической блокировкой. В любом случае, это грязные данные не даст.

Vladislav

22.10.2018
10:30:03

и оракл наиболее стабильная из всех баз и проверенная различными банками(там где потеря транзакций ну уж очень критична)

исторически сложилось

Рамиль

22.10.2018
10:30:32

спору нет, просто совпало ?

Старый

23.10.2018
10:25:44

erasure coding cassandra кто использовал?

Mikhail

23.10.2018
10:30:46

erasure coding cassandra кто использовал?

Разве в cassandra он есть? Может новый hdfs имелся ввиду?

Старый

23.10.2018
11:08:23

Разве в cassandra он есть? Может новый hdfs имелся ввиду?

ну что-то пишут, правда не на самой доке кассандры, просто hbase+hive у меня программисты не осилили, а cassandra осилили, но вот как теперь в бюджет укладываться, не оч ясно

Renarde

23.10.2018
13:58:09

Всем привет! Возник вопрос - а как нынче из python по удобному записывать/читать бинарные файлы из HDFS? Скажем, у меня есть процесс в который прилетают данные, он генерирует на них дообученную модель (не spark.ml) и складывает ее в виде .pkl в hdfs директорию в виде: model_checkpoint_12312371238 model_checkpoint_12312374444 model_checkpoint_12312723124 ...Далее у меня есть другой python со spark-submit - нужно чтобы он нашел в этой hdfs директории последний файл по номеру в хвосте и прочитал его в pkl. Пока все сделал через вызов hdfs cli через subprocess, но кажется каким-то жутким костылем...

George

23.10.2018
14:10:00

Всем привет! Возник вопрос - а как нынче из python по удобному записывать/читать бинарные файлы из HDFS? Скажем, у меня есть процесс в который прилетают данные, он генерирует на них дообученную модель (не spark.ml) и складывает ее в виде .pkl в hdfs директорию в виде: model_checkpoint_12312371238 model_checkpoint_12312374444 model_checkpoint_12312723124 ...Далее у меня есть другой python со spark-submit - нужно чтобы он нашел в этой hdfs директории последний файл по номеру в хвосте и прочитал его в pkl. Пока все сделал через вызов hdfs cli через subprocess, но кажется каким-то жутким костылем...

Есть же модуль пайтона соответствующий. Название забыл.

Renarde

23.10.2018
14:11:13

Есть же модуль пайтона соответствующий. Название забыл.

в том то и дело что их аж три штуки, как пишет Wes McKinney: http://wesmckinney.com/blog/python-hdfs-interfaces/ и я что-то не могу понять что из этого стабильно нормальное, а что мертво

George

23.10.2018
14:11:56

snakebite

Я его юзал

Либо используй pyarrow с libhdfs

Старый

23.10.2018
14:15:35

Либо используй pyarrow с libhdfs

?ты там вообще что-нить не делаешь?

Grigory

23.10.2018
14:19:02

Либо используй pyarrow с libhdfs

а ты не сранивал стрелку с py4j и cpython?

George

23.10.2018
14:22:06

а ты не сранивал стрелку с py4j и cpython?

Я вообще слабак и не датаинж, в отличие от @erzentd ????

Старый

23.10.2018
14:22:32

Я вообще слабак и не датаинж, в отличие от @erzentd ????

?не надо таких шуток вот чес

Google

Grigory

23.10.2018
14:22:41

Я вообще слабак и не датаинж, в отличие от @erzentd ????

ну он у нас тут бог и отец, но я серьезно спросил

просто у меня все руки никак не дойдут отбенчить разные варианты использования стрелки

Uncel

23.10.2018
14:23:45

а ты не сранивал стрелку с py4j и cpython?

только с паркетом, жрет меньше и побыстрее

Grigory

23.10.2018
14:24:01

спасибо, тоже полезно

Stanislav

23.10.2018
14:24:22

только с паркетом, жрет меньше и побыстрее

Которая из? Ж?

Grigory

23.10.2018
14:24:43

Которая из? Ж?

стрелку с паркетом говорит сравнивал

петоно похоже

Старый

23.10.2018
14:25:15

?а я вот думаю, как мечты реализовывать

Grigory

23.10.2018
14:25:29

но конечно да, интересна платформа все же

и какая стрелка тоже интересно, через их эекстернал сторедж или файлы или мемкопи?

Nikita Blagodarnyy

23.10.2018
14:26:20

Ребя, а чё такое стрелка? Гугл не предлагать, был там уже.

Renarde

23.10.2018
14:26:58

Ребя, а чё такое стрелка? Гугл не предлагать, был там уже.

pyarrow и фреймворк Apache Arrow

Uncel

23.10.2018
14:27:03

стрелку с паркетом говорит сравнивал

кек, фастпаркет и паркет от стрелы

Grigory

23.10.2018
14:27:16

кек, фастпаркет и паркет от стрелы

пу или ж?

Uncel

23.10.2018
14:27:49

пу или ж?

питоний

Grigory

23.10.2018
14:28:01

Ребя, а чё такое стрелка? Гугл не предлагать, был там уже.

формат хранения данных; обещают спидап засчет 0кост копирования в / из

Старый

23.10.2018
14:30:15

?а я вон скоро буду монстров делать с 10 тб дисками ?

надо ток потом подумать, как всё же уговорить статью из этого зафигачить

Nikita Blagodarnyy

23.10.2018
14:31:17

Уголовную?

Grigory

23.10.2018
14:31:34

поддерживают кучу яп, плафторм, и жпу тоже поддерживают

Google

Старый

23.10.2018
14:31:36

и назвать её - "русское авось, бестпрактис и рекомендации в сторону - у нас рулит бюджет"

Grigory

23.10.2018
14:31:57

вообше на самом деле достаточно круто было бы оттетсировать насоклько быстрее / медленне копировать достаточно массивные структыр напрямую в жпу / через стрелку

Stanislav

23.10.2018
14:33:42

Прямо волшебство, а не стрелка )

Старый

23.10.2018
14:34:13

?интересно, будет кому интересна статья о проекте с кассандрой на 10 тб хдд

Grigory

23.10.2018
14:34:16

ну идея что прост копируешь кусок памяти или что они там обещают

Uncel

23.10.2018
14:34:27

Ща придет ретейл со своими пивотами

Grigory

23.10.2018
14:34:33

и он интерпретируетс одинаково независимо от платормы

Uncel

23.10.2018
14:34:39

Массив из миллионов структур

Nikita Blagodarnyy

23.10.2018
14:35:01

вообше на самом деле достаточно круто было бы оттетсировать насоклько быстрее / медленне копировать достаточно массивные структыр напрямую в жпу / через стрелку

А поюзал кто, насколько оно всё сырое?

Grigory

23.10.2018
14:35:22

А поюзал кто, насколько оно всё сырое?

непонятно, собственно поэтому и спросил

да поидее уже нормальная тема

тотже спарк активно юзает стрелку

для скуля

так что я бы предположил, что некоторые вещи там достаточно стабильны

Nikita Blagodarnyy

23.10.2018
14:37:59

Типа сериализовать его можно в любой формат на диске?

Grigory

23.10.2018
14:39:54

не в любой, а в конкретный

Mikhail

23.10.2018
15:07:43

?интересно, будет кому интересна статья о проекте с кассандрой на 10 тб хдд

А правда стоит это делать? Учитывая компактизацию, ребаланс и вот это всё?

?интересно, будет кому интересна статья о проекте с кассандрой на 10 тб хдд

Проект построить можно, вопрос как его потом сопровождать. Переливка таких нод будет больным событием

Старый

23.10.2018
15:08:21

А правда стоит это делать? Учитывая компактизацию, ребаланс и вот это всё?

не стоит, потому и статья потом будет "русское авось, бестпрактис и рекомендации в сторону - у нас рулит бюджет"

Stanislav

23.10.2018
15:11:18

Проект построить можно, вопрос как его потом сопровождать. Переливка таких нод будет больным событием

Никак. Все довольны, заказчик освоил бюджет и вроде получил результат, хрыч выступил на каком-нибудь хайлоаде. А поддержку повесили на эникеев и все умерло.

Google

Старый

23.10.2018
15:12:20

Никак. Все довольны, заказчик освоил бюджет и вроде получил результат, хрыч выступил на каком-нибудь хайлоаде. А поддержку повесили на эникеев и все умерло.

?хрыч полтора месяца обьяснял, показывал примеры, говорил с разрабами, хрычу сказали - нам по*, вот бюджет, делай

Renarde

23.10.2018
15:13:21

Arrow интересно используется в rapids.ai проекте как in memory платформа для GPU вычислений. Не знаю как он с CPU, но если я не ошибаюсь его пилит та же команда, что сделала Parquet

Mikhail

23.10.2018
15:13:30

Никак. Все довольны, заказчик освоил бюджет и вроде получил результат, хрыч выступил на каком-нибудь хайлоаде. А поддержку повесили на эникеев и все умерло.

нафиг с таким выступать, потом не возьмут никуда :D

Старый

23.10.2018
15:32:37

Никак. Все довольны, заказчик освоил бюджет и вроде получил результат, хрыч выступил на каком-нибудь хайлоаде. А поддержку повесили на эникеев и все умерло.

?ну кстати ты угадал кому передавать буду

Nikita Blagodarnyy

23.10.2018
16:13:33

нафиг с таким выступать, потом не возьмут никуда :D

На fuckup nigths можно выступить.