@hadoopusers

« Назад

Страница 161 из 182

Далее »

Eldar

06.10.2018
16:33:24

Админ, удали всех участников "1 2"

В чатах по питону они активно спамят

Sergey

06.10.2018
16:37:53

прошу прощения, навеяло

Google

Evgeny

06.10.2018
16:41:04

Админ, удали всех участников "1 2"

Тут такое количество спецов по BD и ML на квадратный метр, что нужно антиспам бота писать ;)

Stanislav

06.10.2018
17:20:20

Рядом, но не мейлру ;-))

Я уже запутался в "пожалуй, самый большой даталейк в РФ"

Grigory

06.10.2018
18:37:23

Переобученная модель

Шаришь

Надо было разные кейсы давать

А то в локальный экстремум очевидно свалилась

Старый

08.10.2018
08:23:17

прошу прощения, навеяло

да невеяло не то слово, я сейсас тоже думаю где программиста искать

Sergii

08.10.2018
08:42:39

Привет, сталкивался кто-нибудь с такой ошибкой? Unable to close file because the last block BP-... does not have enough number of replicas.

Grigory

08.10.2018
08:43:41

Привет, сталкивался кто-нибудь с такой ошибкой? Unable to close file because the last block BP-... does not have enough number of replicas.

как скфонижен dfs.replication в настройках хдфс?

Sergii

08.10.2018
08:43:52

2

Alexander

08.10.2018
08:44:33

hdfs в нормальном режиме? stanby случайно не включился? место на датанодах не кончилось?

Sergii

08.10.2018
08:45:28

Вроде все в порядке, свободно еще 20%. Есть только warning о том что слишком много блоков

Grigory

08.10.2018
08:48:02

Вроде все в порядке, свободно еще 20%. Есть только warning о том что слишком много блоков

это говорит о том что много мелких файлов хранится не раицонально

а пробовал ребалансировку? или оно отбалансено?

Google

Grigory

08.10.2018
08:48:57

ну и чтоб ворн небеспокоил там в настройках можн конфижить этот параметр))

Sergii

08.10.2018
08:54:14

это говорит о том что много мелких файлов хранится не раицонально

мы знаем об этом :) пока что это by design. но по идее это не должно сильно влиять на загрузку. балансировку тоже недавно делали параметр пока что тоже by design. временно храним больше данных, чем влезет с 3х репликацией

в обычном режиме таких ошибок нет, но стоит рядом еще запустить какой-нибудь спарк, больше чем на 5 минут, начинается хаос

Есть какой-нибудь способ узнать где узкое место?

Grigory

08.10.2018
08:56:07

похоже в колвах конектов или что-то в этом духе, слишком мног блоков выделяет сразу, я не помню в чем соль, но часто для персиста на тех же спарках ретрай с бекофом на персисте делают, чтоб как раз такое сохранить

Stanislav

08.10.2018
08:56:17

Есть какой-нибудь способ узнать где узкое место?

Так ио судя по всему. У вас не успевают реплицироваться блоки

Grigory

08.10.2018
08:57:03

вот да, станислав очень хорошую идею сказал

точно

Sergii

08.10.2018
08:57:15

ага, то есть решение снизить нагрузку?) ну или "забросать идею железом"?

Grigory

08.10.2018
08:57:48

ретрай с бекоффом можно) посмотреть чо с дисками и сетью

Sergii

08.10.2018
08:58:33

ретрай с бекоффом можно) посмотреть чо с дисками и сетью

ретрай есть)

в любом случае, спасибо за советы :) попробуем еще официальному саппорту написать, пусть копаются в логах

Stanislav

08.10.2018
09:04:00

ага, то есть решение снизить нагрузку?) ну или "забросать идею железом"?

Ссд во все поля с вашей кучей блоков )

Либо начать клеить данные в большие блоки

Sergii

08.10.2018
09:05:15

ssd дороговато выйдет) наверно, придется все-таки написать склеивающий код)

Artem

08.10.2018
09:06:02

есть ещё предположение - ipv6 вкл/выкл?

Просто наблюдение, ошибка имеет временной херактер, то есть последнняя началась в 11:32:00 и закончалась 11:33:46, то есть все мапперы упали в этот момент, а не в разнобой в разное время

В кронах пусто

и это так было всегда, то есть не только сегодня, а всегда все падало "на одно минуту", но в разное время

И именно с той ошибкой

Nikita Blagodarnyy

08.10.2018
09:27:33

А что у вас за формат хранится и сколько примерно файлов?

Google

Nikita Blagodarnyy

08.10.2018
09:27:47

Может хип неймноды не справляться.

Stanislav

08.10.2018
10:02:03

Может хип неймноды не справляться.

Была б другая ошибка. От неймноды требуется только отдать клиенту список свободных блоков для записи. Дальше клиент сам пишет и ждёт - удачно или нет. Ошибка явно говорит о том, что ио не успевает закомитить реплику

Старый

08.10.2018
11:25:43

А что у вас за формат хранится и сколько примерно файлов?

у меня программист по блокам за менше суток сумел мне ошибку сделать

Евгений

08.10.2018
11:49:47

у меня программист по блокам за менше суток сумел мне ошибку сделать

Если отладка — процесс удаления ошибок, то программирование должно быть процессом их внесения. (с) Дейкстра)

Alex

08.10.2018
16:06:55

Я уже запутался в "пожалуй, самый большой даталейк в РФ"

Спасибо, теперь я понял ход мыслей почему майлру.

Рамиль

08.10.2018
16:08:32

если не мейл - то сбер

Ruslan

08.10.2018
17:49:11

Привет, дата инженеры! Я много лет разрабатывал всякие сервисы на python, имею обширный опыт построения микросервисной архитектуры. С некоторых пор заинтересовала тема потоковой обработки данных. Скажите, стоит ли туда соваться без знания Java. И насколько хорошо нужно знать Java, чтобы эффективно использовать Hadoop, Spark и т. д.?

Daniel

08.10.2018
17:50:30

соваться можно, но если хочется серьезно погружаться, то надо и стэк новый знать лучше

Ruslan

08.10.2018
18:03:56

А что под новым стеком подразумевается?

java, jvm?

Daniel

08.10.2018
18:05:24

jvm как платформа доминирующая и scala/java

sherzod

08.10.2018
18:05:28

Привет, дата инженеры! Я много лет разрабатывал всякие сервисы на python, имею обширный опыт построения микросервисной архитектуры. С некоторых пор заинтересовала тема потоковой обработки данных. Скажите, стоит ли туда соваться без знания Java. И насколько хорошо нужно знать Java, чтобы эффективно использовать Hadoop, Spark и т. д.?

Сейчас очень много работы на написание расчётов на спарке (pyspark). Там нужно знать только сам спарк и SQL. Но это тоска зелёная.

Daniel

08.10.2018
18:06:17

Сейчас очень много работы на написание расчётов на спарке (pyspark). Там нужно знать только сам спарк и SQL. Но это тоска зелёная.

ну и ты ничего в плане оптимизаций и проектирования с этим не сделаешь, разве что "А ДАВАЙТЕ ВСЕ НАПИХАЕМ КУЧЕЙ В ЭРРОУ!!!!"

Uncel

08.10.2018
18:07:12

Будто что-то плохое

Ruslan

08.10.2018
18:07:31

Может быть, для начала пойдёт?)

Renarde

08.10.2018
18:08:02

Джава наверное не обязательна, но Scala однозначно нужна. Дело в том что спарковское апи в питоне для наиболее сложных и/или интересных функций (например, стриминг) всегда немного отстаёт от Scala.

Daniel

08.10.2018
18:08:19

Может быть, для начала пойдёт?)

так про начало я написал что с питоном вкатываться можно без проблем сложности будут, когда надо тюнить, фиксить, понимать устройство

Uncel

08.10.2018
18:09:31

Хипдампы @ хипдампы

Sergii

08.10.2018
19:38:06

А есть кто-то, кто хоть что-то понимает в том что происходит в jvm спарка? Есть какие-то ресурсы?

Из питона вообще ничего не получается затюнить касательно памяти

Google

Grigory

08.10.2018
19:45:02

А есть кто-то, кто хоть что-то понимает в том что происходит в jvm спарка? Есть какие-то ресурсы?

сорцы открываешь и куришь

Ali

08.10.2018
19:50:28

Слишком толсто

А что именно хотелось бы тюнить? Спарковые конфиги можно проставить так же в pyspark

Daniel

08.10.2018
19:53:41

чтобы крутить ручки надо понять что и ради чего (ну есть конечно большинство этой планеты, которые делает пальцем в небо, но это мягко говоря не дальновидно) а чтобы диагностировать проблемы то придется и в устройстве платформы хоть как то разбираться (но это конечно от тяжести случаев зависит)

так то можно конечно и совсем без головы работать и даже весьма успешно и популярно (py4j)

Sergii

08.10.2018
19:56:49

Хотелось бы понять почему Спарк жрет столько сколько жрет. Когда ему чкармливаешь 15 мб файл а потом он падает на оом при map only джобе

Daniel

08.10.2018
20:00:19

ну можно метрики спарка смотреть, можно по коду гадать, а можно смотреть метрики vm собсно когда первого и второго не хватит, то третьего не особо избежать получится (хотя еще можно забить)

да и не понимаю чего бояться изучить что-то новое особенно когда только питон в багаже (помадчин.жпг)

Uncel

08.10.2018
20:04:09

ебпф есть, трейсишь все как боженька

Daniel

08.10.2018
20:07:39

ну можно и по наводкам эмп, но зачем

Nikita Blagodarnyy

08.10.2018
20:10:36

А это такая частая задача- понимать что происходит в jvm? Ну кроме статистики gc, естесьно.

да невеяло не то слово, я сейсас тоже думаю где программиста искать

Того, который ошибок наделал? Он потерялся?

Sergii

08.10.2018
20:14:45

А это такая частая задача- понимать что происходит в jvm? Ну кроме статистики gc, естесьно.

Ну раньше была, сейчас чуть побольше железа и не так критично. А так я пытался имея 25 GB на четырех узлах делать что-то с таблицей в 100 гб

Daniel

08.10.2018
20:14:55

А это такая частая задача- понимать что происходит в jvm? Ну кроме статистики gc, естесьно.

нет, но это что то вроде тяжелого но более дотошного инструмента, когда не помогло все предыдущее ну и если выпал ООМ, то можно либо памяти добавить и спокойно идти на обед, а может памяти уже и не быть доступной

Nikita Blagodarnyy

08.10.2018
20:16:37

нет, но это что то вроде тяжелого но более дотошного инструмента, когда не помогло все предыдущее ну и если выпал ООМ, то можно либо памяти добавить и спокойно идти на обед, а может памяти уже и не быть доступной

Только надо понимать куда.

Sergii

08.10.2018
20:16:57

ну можно метрики спарка смотреть, можно по коду гадать, а можно смотреть метрики vm собсно когда первого и второго не хватит, то третьего не особо избежать получится (хотя еще можно забить)

Это можно делать и в питоне. Но для меня до сих пор загадка как так, в спарке максимальное использование памяти 100 мб в какой-нибудь стейдже, а он падает с 20 гигами

Daniel

08.10.2018
20:17:49

Это можно делать и в питоне. Но для меня до сих пор загадка как так, в спарке максимальное использование памяти 100 мб в какой-нибудь стейдже, а он падает с 20 гигами

что можно делать в питоне? прожирать память? думаю, легко в любом существующем яп

Sergii

08.10.2018
20:18:13

что можно делать в питоне? прожирать память? думаю, легко в любом существующем яп

Смотреть в Спарк и гадать на коде

Daniel

08.10.2018
20:19:02

так да, я ж и не говорил иного пункт 3 требует знаний уже за рамками апи фреймворка и собственного кода

Nikita Blagodarnyy

08.10.2018
20:19:20

Это можно делать и в питоне. Но для меня до сих пор загадка как так, в спарке максимальное использование памяти 100 мб в какой-нибудь стейдже, а он падает с 20 гигами

Нет адекватной статы, хотел зачитать на драйвер какую-то "мелкую" таблицу, чтобы забродкастить, не шмог из-за ограничений памяти драйвера на максимум обрабатываемой инфы.

Google

Daniel

08.10.2018
20:20:32

Нет адекватной статы, хотел зачитать на драйвер какую-то "мелкую" таблицу, чтобы забродкастить, не шмог из-за ограничений памяти драйвера на максимум обрабатываемой инфы.

а спроблемами логических ресурсов придется в код спарка лазить, да

в общем пока все хорошо, то оно всё и не надо =)

Sergii

08.10.2018
20:20:58

Нет адекватной статы, хотел зачитать на драйвер какую-то "мелкую" таблицу, чтобы забродкастить, не шмог из-за ограничений памяти драйвера на максимум обрабатываемой инфы.

Map only джобы, причем максимально прямые. Разобрать json и взять нужных пять полей)

Daniel

08.10.2018
20:21:02