@hadoopusers

Страница 63 из 182
Grigory
08.01.2018
12:36:06
скорее те кто используют спарк

клац клац клац

Sergey
08.01.2018
12:36:51
не, он же простой

Google
Ilya
08.01.2018
12:43:44
Как я понимаю, не получится
А по сабжу есть что сказать?

sherzod
08.01.2018
12:44:04
Например пробежаться по всем строкам по порядку
Смотря что под этим понимать. Если применить функцию получится легко

Ilya
08.01.2018
12:44:21
Не map

Типо окна

Зависит от предыдущих строк

sherzod
08.01.2018
12:45:48
Получится. Ну нет никакого волшебства, просто данные на разных тачках, разделены горизонтально, то есть одни строки на одной другие на другой. В зависимости от размера окна спарк будет пересылать нужные строки на нужный узел

Отличие от pandas в том что об этом придётся задумываться.

Ilya
08.01.2018
12:47:34
Вот мануал с какими то такими штуками и хочется

Или пример хотя бы

sherzod
08.01.2018
12:51:06
Начать отсюда, попробовать все примерчики https://spark.apache.org/docs/latest/sql-programming-guide.html Возникнут вопросы как всё это устроено изнутри https://spark.apache.org/docs/latest/rdd-programming-guide.html Дальше можно mastering spark (ссылка выше) и Spark Internals https://github.com/JerryLead/SparkInternals/tree/master/markdown

Ilya
08.01.2018
12:51:54
Спасибо

Не подскажете, как сделать вот это:



Google
Ilya
08.01.2018
17:15:27
Фактически, занумеровать строки с совпадающим timestamp

Сам решил



Kirill
09.01.2018
17:36:35
Чат, привет def storyViewed(n: Integer): Boolean = { val num = Option(n).getOrElse(return true) num > 3 } println (df_rdd.filter(v => (storyViewed(v(4).asInstanceOf[Int]))).count()) println (df_rdd.filter(v => v(4) == null || v(4).asInstanceOf[Int] > 3).count()) 275044 424950

как сделать так, чтобы принималась v(4) переменная, которая имеет тип df.schema(4) StructField(view_time,IntegerType,true)

Andrey
09.01.2018
18:17:42
поясни, что ты пытаешься сделать :)

Saydiolim Ganiev
10.01.2018
01:35:12
Dobroe utro. Est li sredi nas te kto nastraival GS dlya Hbase?

Grigory
10.01.2018
04:35:12
Геосервер?

побольше набрось контекста)

Nick
10.01.2018
07:02:21
Геосервер?
Гугл сервер

Grigory
10.01.2018
07:02:53
и что это значит

Nick
10.01.2018
07:03:56
Не знаю

Не придумал ещё

Andrey
10.01.2018
09:22:04
Привет

Нужна помощь от коллективного разума)) в hdfs du и df показывают разницу почти в 2 раза, как такое может быть?

Евгений
10.01.2018
09:23:39
hdfs du / ?

Или какой-то папки?

Andrey
10.01.2018
09:24:50
$ hadoop fs -df -h / Filesystem Size Used Available Use% hdfs://some_cluster 525.5 T 451.5 T 54.7 T 86% $ hadoop fs -du -s -h / 88.8 T 266.8 T /

если по всем директориям в / сделать count и суммировать объем - то он сходится с du - 88.8 T

Daniel
10.01.2018
09:26:15
репликация?

Google
Andrey
10.01.2018
09:26:37
фактор 3

средний показатель - 3,0046

Daniel
10.01.2018
09:27:12
ну это оно и есть

Grigory
10.01.2018
09:27:21
88.8 T 266.8 T /

88 это размер

266 с учетом фактора 3

Andrey
10.01.2018
09:27:33
88.8*3=266.4, но репорт показывает - 451

Daniel
10.01.2018
09:27:55
а-а, не посмотрел

Евгений
10.01.2018
09:28:24
Права на папки?

Andrey
10.01.2018
09:28:27
вопрос именно в разнице 266 и 451

Права на папки?
Мог бы уточнить, не совсем понял вопрос

Grigory
10.01.2018
09:31:50
Мог бы уточнить, не совсем понял вопрос
добавь флаг -q к df -h команде мб?

Евгений
10.01.2018
09:31:58
В HDFS есть поддержка разделения прав доступа к папкам в FS

Grigory
10.01.2018
09:32:07
hdfs dfs -count -q -h -v /

он и правда у тебя иначе просто показывает емкость и занятость всего кластера

Andrey
10.01.2018
09:33:00
2.0 G 2.0 G none inf 203.1 K 4.0 M 88.8 T /

те же 88 T

Grigory
10.01.2018
09:33:42
ну во

hdfs dfs -df -h / твоя изначальная команда была

мы добавили квоту

Google
Grigory
10.01.2018
09:34:30
https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsQuotaAdminGuide.html

Andrey
10.01.2018
09:36:45
ок, так почему hdfs dfs -df -h / показывает 451 тб используемого места?

В HDFS есть поддержка разделения прав доступа к папкам в FS
ок, это может как то создать разницу между выводами du и df ?

Daniel
10.01.2018
09:39:45
могло бы если б оно не валилось с ошибкой при отсутствии доступа, а так по идее права больше не должны влиять

Andrey
10.01.2018
09:41:29
с ошибкой не валиться, есть доступ ко всем каталогам

я себе представлял, что вывод df, колонка used говорит о полной занятости кластера, и если значение этой колонки разделить на фактор репликации, то получиться примерно реальный объем данных - в моем случае 450/3 = 150, но du мне показывает, что всего лежит 88Т без учета репликации

в fsck проблем нет

похоже на проблему в файловах системах, когда удаляется файл, но остается дескриптор - но все, что могло бы писать на hdfs остановленно

Daniel
10.01.2018
09:48:05
как вариант посмотреть на локальных фс df -h и df -i

Andrey
10.01.2018
09:51:06
на локальных ничего подозрений не вызывает

sherzod
10.01.2018
10:01:45
Посмотри hadoop dfsadmin -report

Возможно есть overreplicated blocks

еще да, возможно есть файлы на которые кто-то держит ссылки

Andrey
10.01.2018
10:02:27
overreplicated blocks нет

sherzod
10.01.2018
10:03:00
на локальной системе возможно кто-то держит ссылки на удалённые блоки

Andrey
10.01.2018
10:03:13
sherzod
10.01.2018
10:04:18
если по простому можно попробовать перезагрузить hdfs. если нет можно поковырять в сторону lsof и грепать

Andrey
10.01.2018
10:04:30
все приложения грохнул, ярн тоже

сейчас запущенны только сервисы hdfs

в lsof удаленных нет

Google
Andrey
10.01.2018
10:05:28
мистика блин какая то

Страница 63 из 182