
Sergey
08.01.2018
12:35:38

Grigory
08.01.2018
12:36:06
скорее те кто используют спарк
клац клац клац

Sergey
08.01.2018
12:36:51
не, он же простой

Google

Ilya
08.01.2018
12:43:44

sherzod
08.01.2018
12:44:04

Ilya
08.01.2018
12:44:21
Не map
Типо окна
Зависит от предыдущих строк

sherzod
08.01.2018
12:45:48
Получится. Ну нет никакого волшебства, просто данные на разных тачках, разделены горизонтально, то есть одни строки на одной другие на другой. В зависимости от размера окна спарк будет пересылать нужные строки на нужный узел
Отличие от pandas в том что об этом придётся задумываться.

Ilya
08.01.2018
12:47:34
Вот мануал с какими то такими штуками и хочется
Или пример хотя бы

sherzod
08.01.2018
12:51:06
Начать отсюда, попробовать все примерчики
https://spark.apache.org/docs/latest/sql-programming-guide.html
Возникнут вопросы как всё это устроено изнутри
https://spark.apache.org/docs/latest/rdd-programming-guide.html
Дальше можно
mastering spark (ссылка выше)
и Spark Internals
https://github.com/JerryLead/SparkInternals/tree/master/markdown

Ilya
08.01.2018
12:51:54
Спасибо
Не подскажете, как сделать вот это:

Google

Ilya
08.01.2018
17:15:27
Фактически, занумеровать строки с совпадающим timestamp
Сам решил

Kirill
09.01.2018
17:36:35
Чат, привет
def storyViewed(n: Integer): Boolean = {
val num = Option(n).getOrElse(return true)
num > 3
}
println (df_rdd.filter(v => (storyViewed(v(4).asInstanceOf[Int]))).count())
println (df_rdd.filter(v => v(4) == null || v(4).asInstanceOf[Int] > 3).count())
275044
424950
как сделать так, чтобы принималась v(4) переменная, которая имеет тип
df.schema(4)
StructField(view_time,IntegerType,true)

Andrey
09.01.2018
18:17:42
поясни, что ты пытаешься сделать :)

Saydiolim Ganiev
10.01.2018
01:35:12
Dobroe utro. Est li sredi nas te kto nastraival GS dlya Hbase?

Grigory
10.01.2018
04:35:12
Геосервер?
побольше набрось контекста)

Nick
10.01.2018
07:02:21

Grigory
10.01.2018
07:02:53
и что это значит

Nick
10.01.2018
07:03:56
Не знаю
Не придумал ещё

Andrey
10.01.2018
09:22:04
Привет
Нужна помощь от коллективного разума)) в hdfs du и df показывают разницу почти в 2 раза, как такое может быть?

Евгений
10.01.2018
09:23:39
hdfs du / ?
Или какой-то папки?

Andrey
10.01.2018
09:24:50
$ hadoop fs -df -h /
Filesystem Size Used Available Use%
hdfs://some_cluster 525.5 T 451.5 T 54.7 T 86%
$ hadoop fs -du -s -h /
88.8 T 266.8 T /
если по всем директориям в / сделать count и суммировать объем - то он сходится с du - 88.8 T

Daniel
10.01.2018
09:26:15
репликация?

Google

Andrey
10.01.2018
09:26:37
фактор 3
средний показатель - 3,0046

Daniel
10.01.2018
09:27:12
ну это оно и есть

Grigory
10.01.2018
09:27:21
88.8 T 266.8 T /
88 это размер
266 с учетом фактора 3

Andrey
10.01.2018
09:27:33
88.8*3=266.4, но репорт показывает - 451

Daniel
10.01.2018
09:27:55
а-а, не посмотрел

Евгений
10.01.2018
09:28:24
Права на папки?

Andrey
10.01.2018
09:28:27
вопрос именно в разнице 266 и 451

Grigory
10.01.2018
09:31:50

Евгений
10.01.2018
09:31:58
В HDFS есть поддержка разделения прав доступа к папкам в FS

Grigory
10.01.2018
09:32:07
hdfs dfs -count -q -h -v /
он и правда у тебя иначе просто показывает емкость и занятость всего кластера

Andrey
10.01.2018
09:33:00
2.0 G 2.0 G none inf 203.1 K 4.0 M 88.8 T /
те же 88 T

Grigory
10.01.2018
09:33:42
ну во
hdfs dfs -df -h / твоя изначальная команда была
мы добавили квоту

Google

Grigory
10.01.2018
09:34:30
https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsQuotaAdminGuide.html

Andrey
10.01.2018
09:36:45
ок, так почему hdfs dfs -df -h / показывает 451 тб используемого места?

Daniel
10.01.2018
09:39:45
могло бы если б оно не валилось с ошибкой при отсутствии доступа, а так по идее права больше не должны влиять

Andrey
10.01.2018
09:41:29
с ошибкой не валиться, есть доступ ко всем каталогам
я себе представлял, что вывод df, колонка used говорит о полной занятости кластера, и если значение этой колонки разделить на фактор репликации, то получиться примерно реальный объем данных - в моем случае 450/3 = 150, но du мне показывает, что всего лежит 88Т без учета репликации
в fsck проблем нет
похоже на проблему в файловах системах, когда удаляется файл, но остается дескриптор - но все, что могло бы писать на hdfs остановленно

Daniel
10.01.2018
09:48:05
как вариант посмотреть на локальных фс df -h и df -i

Andrey
10.01.2018
09:51:06
на локальных ничего подозрений не вызывает

sherzod
10.01.2018
10:01:45
Посмотри
hadoop dfsadmin -report
Возможно есть overreplicated blocks
еще да, возможно есть файлы на которые кто-то держит ссылки

Andrey
10.01.2018
10:02:27
overreplicated blocks нет

sherzod
10.01.2018
10:03:00
на локальной системе возможно кто-то держит ссылки на удалённые блоки

Andrey
10.01.2018
10:03:13

sherzod
10.01.2018
10:04:18
если по простому можно попробовать перезагрузить hdfs.
если нет можно поковырять в сторону lsof и грепать

Andrey
10.01.2018
10:04:30
все приложения грохнул, ярн тоже
сейчас запущенны только сервисы hdfs
в lsof удаленных нет

Google

Andrey
10.01.2018
10:05:28
мистика блин какая то