@hadoopusers

Страница 63 из 182

Sergey

08.01.2018
12:35:38

конечно простой а потом Task serialization exception ... not enough memory ... runtime class is not avaible... partition size is larger that 2gbs ...

А это просто разработчики спарка криворукие?

Grigory

08.01.2018
12:36:06

скорее те кто используют спарк

клац клац клац

Sergey

08.01.2018
12:36:51

не, он же простой

Google

Ilya

08.01.2018
12:43:44

Как я понимаю, не получится

А по сабжу есть что сказать?

sherzod

08.01.2018
12:44:04

Например пробежаться по всем строкам по порядку

Смотря что под этим понимать. Если применить функцию получится легко

Ilya

08.01.2018
12:44:21

Не map

Типо окна

Зависит от предыдущих строк

sherzod

08.01.2018
12:45:48

Получится. Ну нет никакого волшебства, просто данные на разных тачках, разделены горизонтально, то есть одни строки на одной другие на другой. В зависимости от размера окна спарк будет пересылать нужные строки на нужный узел

Отличие от pandas в том что об этом придётся задумываться.

Ilya

08.01.2018
12:47:34

Вот мануал с какими то такими штуками и хочется

Или пример хотя бы

sherzod

08.01.2018
12:51:06

Начать отсюда, попробовать все примерчики https://spark.apache.org/docs/latest/sql-programming-guide.html Возникнут вопросы как всё это устроено изнутри https://spark.apache.org/docs/latest/rdd-programming-guide.html Дальше можно mastering spark (ссылка выше) и Spark Internals https://github.com/JerryLead/SparkInternals/tree/master/markdown

Ilya

08.01.2018
12:51:54

Спасибо

Не подскажете, как сделать вот это:

Google

Ilya

08.01.2018
17:15:27

Фактически, занумеровать строки с совпадающим timestamp

Сам решил

Kirill

09.01.2018
17:36:35

Чат, привет def storyViewed(n: Integer): Boolean = { val num = Option(n).getOrElse(return true) num > 3 } println (df_rdd.filter(v => (storyViewed(v(4).asInstanceOf[Int]))).count()) println (df_rdd.filter(v => v(4) == null || v(4).asInstanceOf[Int] > 3).count()) 275044 424950

как сделать так, чтобы принималась v(4) переменная, которая имеет тип df.schema(4) StructField(view_time,IntegerType,true)

Andrey

09.01.2018
18:17:42

поясни, что ты пытаешься сделать :)

Saydiolim Ganiev

10.01.2018
01:35:12

Dobroe utro. Est li sredi nas te kto nastraival GS dlya Hbase?

Grigory

10.01.2018
04:35:12

Геосервер?

побольше набрось контекста)

Nick

10.01.2018
07:02:21

Геосервер?

Гугл сервер

Grigory

10.01.2018
07:02:53

и что это значит

Nick

10.01.2018
07:03:56

Не знаю

Не придумал ещё

Andrey

10.01.2018
09:22:04

Привет

Нужна помощь от коллективного разума)) в hdfs du и df показывают разницу почти в 2 раза, как такое может быть?

Евгений

10.01.2018
09:23:39

hdfs du / ?

Или какой-то папки?

Andrey

10.01.2018
09:24:50

$ hadoop fs -df -h / Filesystem Size Used Available Use% hdfs://some_cluster 525.5 T 451.5 T 54.7 T 86% $ hadoop fs -du -s -h / 88.8 T 266.8 T /

если по всем директориям в / сделать count и суммировать объем - то он сходится с du - 88.8 T

Daniel

10.01.2018
09:26:15

репликация?

Google

Andrey

10.01.2018
09:26:37

фактор 3

средний показатель - 3,0046

Daniel

10.01.2018
09:27:12

ну это оно и есть

Grigory

10.01.2018
09:27:21

88.8 T 266.8 T /

88 это размер

266 с учетом фактора 3

Andrey

10.01.2018
09:27:33

88.8*3=266.4, но репорт показывает - 451

Daniel

10.01.2018
09:27:55

а-а, не посмотрел

Евгений

10.01.2018
09:28:24

Права на папки?

Andrey

10.01.2018
09:28:27

вопрос именно в разнице 266 и 451

Права на папки?

Мог бы уточнить, не совсем понял вопрос

Grigory

10.01.2018
09:31:50

Мог бы уточнить, не совсем понял вопрос

добавь флаг -q к df -h команде мб?

Евгений

10.01.2018
09:31:58

В HDFS есть поддержка разделения прав доступа к папкам в FS

Grigory

10.01.2018
09:32:07

hdfs dfs -count -q -h -v /

он и правда у тебя иначе просто показывает емкость и занятость всего кластера

Andrey

10.01.2018
09:33:00

2.0 G 2.0 G none inf 203.1 K 4.0 M 88.8 T /

те же 88 T

Grigory

10.01.2018
09:33:42

ну во

hdfs dfs -df -h / твоя изначальная команда была

мы добавили квоту

Google

Grigory

10.01.2018
09:34:30

https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsQuotaAdminGuide.html

Andrey

10.01.2018
09:36:45

ок, так почему hdfs dfs -df -h / показывает 451 тб используемого места?

В HDFS есть поддержка разделения прав доступа к папкам в FS

ок, это может как то создать разницу между выводами du и df ?

Daniel

10.01.2018
09:39:45

могло бы если б оно не валилось с ошибкой при отсутствии доступа, а так по идее права больше не должны влиять

Andrey

10.01.2018
09:41:29

с ошибкой не валиться, есть доступ ко всем каталогам

я себе представлял, что вывод df, колонка used говорит о полной занятости кластера, и если значение этой колонки разделить на фактор репликации, то получиться примерно реальный объем данных - в моем случае 450/3 = 150, но du мне показывает, что всего лежит 88Т без учета репликации

в fsck проблем нет

похоже на проблему в файловах системах, когда удаляется файл, но остается дескриптор - но все, что могло бы писать на hdfs остановленно

Daniel

10.01.2018
09:48:05

как вариант посмотреть на локальных фс df -h и df -i

Andrey

10.01.2018
09:51:06

на локальных ничего подозрений не вызывает

sherzod

10.01.2018
10:01:45

Посмотри hadoop dfsadmin -report

Возможно есть overreplicated blocks

еще да, возможно есть файлы на которые кто-то держит ссылки

Andrey

10.01.2018
10:02:27

overreplicated blocks нет

sherzod

10.01.2018
10:03:00

на локальной системе возможно кто-то держит ссылки на удалённые блоки

Andrey

10.01.2018
10:03:13

еще да, возможно есть файлы на которые кто-то держит ссылки

можешь подсказать, как это посмотреть

sherzod

10.01.2018
10:04:18

если по простому можно попробовать перезагрузить hdfs. если нет можно поковырять в сторону lsof и грепать

Andrey

10.01.2018
10:04:30

все приложения грохнул, ярн тоже

сейчас запущенны только сервисы hdfs

в lsof удаленных нет

Google

Andrey

10.01.2018
10:05:28

мистика блин какая то

« Назад

Страница 63 из 182

Далее »

Открыть в Telegram