@hadoopusers

« Назад

Страница 106 из 182

Далее »

Grigory

08.06.2018
07:58:22

она пишет

Zelmm

08.06.2018
07:58:32

а логи ноды какие

Вот сейчас ковырять пытаюсь

лог на тачке прям

Grigory

08.06.2018
08:00:19

да посмотри в больших конечно последние строчки

Google

Grigory

08.06.2018
08:00:22

но не уверен что это надо

а не

все верно

нодменеджера же порт

Zelmm

08.06.2018
08:04:38

Ничерта там нет, кроме службных INFO сообщений :(

Grigory

08.06.2018
08:06:56

а чтото старый лог

это тоно он?

Zelmm

08.06.2018
08:07:48

в смысле старый? вчерашний

Grigory

08.06.2018
08:08:04

актуальный посмотри

стукнись в ноду и в момент стучания в ноду посмотри что в логах ового появится

Nikita

08.06.2018
08:32:08

Данных там пара терабайт, во время работы джобы фиксируем вот такой график использования дисков Non-HDFS

ну то есть это точно она, как так получается, что запись мимо hdfs идет?

Google

MaxIT

08.06.2018
08:44:31

#job #вакансия #IT #офис #Москва #datascientist Компания Stafory, которая работает над полноценной диалоговой системой для проведения интервью с соискателями, ищет в команду человека на позицю Data Scientist . Основная работа ведется в области NLP,есть большие массивы текстов вакансий и резюме, диалоги кандидатов с роботом и рекрутерами. ?Требования: Знание Python Знание и опыт работы с алгоритмами машинного обучения:word-embedding, RNN, LSTM, seq2seq Опыт работы с фреймворками word2vec, fastText, tensorflow, pytorch Знание и опыт работы с СУБД, а также NoSQL-базами данных. ?Обязанности: Разработка алгоритмов машинного обучения в сфере диалоговых систем и HR Обучение и настройка word-embedding сетей Внедрение функционала с элементами машинного обучение в основной продукт Работа с данными, подготовка данных для обучения Тестирование моделей, работа с метриками: accuracy, recall, precision и др. ?Условия: метро Курская Белая ЗП до 250 000 рублей «на руки» Оформление по ТК

Daniel

08.06.2018
08:56:45

хех

Zelmm

08.06.2018
08:59:42

стукнись в ноду и в момент стучания в ноду посмотри что в логах ового появится

Сранно. В общем стукался по разному, лог не меняется - последние записи в логменеджере за вчера и только INFO. И заметил, что с последнего рестарта нет сообщений в логе о том, что на порту 8042 хоть что-то поднялось.

Хотя по netstat -at4np порт 8042 прослушивается

Grigory

08.06.2018
09:00:51

Сранно. В общем стукался по разному, лог не меняется - последние записи в логменеджере за вчера и только INFO. И заметил, что с последнего рестарта нет сообщений в логе о том, что на порту 8042 хоть что-то поднялось.

не те логи значит палишь мож

Zelmm

08.06.2018
09:01:14

Дык, а какие еще? Я и не видел то других

Именно в этиз логах писалось до этого "запущено-выключено", "запущено-выключено". А тут пусто...

Grigory

08.06.2018
09:05:34

а ты локально поднимаешь все?

Zelmm

08.06.2018
09:05:54

Нет, три машины: master, slave1, slave2

дебиан на всех

Grigory

08.06.2018
09:06:17

манутишь? мож криво маунтится

зайди на тачки прям

и руками чекни логи

Zelmm

08.06.2018
09:06:40

сейчас

Grigory

08.06.2018
09:06:56

логи хадуп пишет в HADOOP_LOG_DIR помоему; который $HADOOP_HOME/logs по дефолту

степится эта переменная в хадуп енве

для чистоты эксперимента можешь даже все кильнуть переназначить лог дир

Zelmm

08.06.2018
09:09:54

и руками чекни логи

там тоже самое написано. Ничего нового :(

Grigory

08.06.2018
09:13:07

кильни нод менеджер и руками стартани; он аутпут будет кидать в консоль мне кажется

Zelmm

08.06.2018
09:14:28

момент

Google

Grigory

08.06.2018
09:20:28

момент

я не помню точно что надо пускать, но я имел ввиду что-то по типу hdfs datanode для поднятия датаноды хдфс; она заатачится к консоли

Tsh

08.06.2018
09:26:04

Пардон, но жаба Хоум и прочее точно правильно выставлено? По ходу просто не стартует

Zelmm

08.06.2018
09:31:09

Пардон, но жаба Хоум и прочее точно правильно выставлено? По ходу просто не стартует

Ну до этого то стартовало. И я переменные точно не менял.

П

08.06.2018
10:12:56

https://pastebin.com/68VVbQ8g Кто-нибудь сталкивался с такой проблемой в spark sql? такая колонка на самом деле есть, как там видно

По этой колонке в отличие от всех других было партиционирование

Grigory

08.06.2018
10:13:42

там их две

он прост не понимает по какой

П

08.06.2018
10:14:39

SELECT attr._accountId AS app_id, ... FROM adroll_attributions as attr JOIN adroll_deliveries as del ON attr.campaign_eid=del.campaign_eid

Там такой запрос, если вкратце Почему он не понимает?

Без птичек

Grigory

08.06.2018
10:16:30

посмотри ипут коломнс список: _accountId, report_date, …, has_approved_consent_solution, _accountId,

ты гдето там del._accountId зовешь

¯\_(ツ)_/¯ сча скуль эксперты подбегут мож.

П

08.06.2018
10:18:36

Я и дел и аттр пробовал в том месте ?

Andrey

08.06.2018
10:21:26

через датафрейм апи работает?

Grigory

08.06.2018
10:21:52

https://docs.databricks.com/spark/latest/faq/join-two-dataframes-duplicated-column.html ^

можно попробовать

там хотяб побогаче ошибки могут вылести

Andrey

08.06.2018
10:22:09

df.select(..).join(..., Seq(“campaign_eid”)) ?

П

08.06.2018
10:28:26

Годная ссылка, спасибо

Google

Zelmm

08.06.2018
11:21:31

я не помню точно что надо пускать, но я имел ввиду что-то по типу hdfs datanode для поднятия датаноды хдфс; она заатачится к консоли

В общем не помогля даже ручное останавливание нодманагера и запуск его по новой.

Тупо скопировал все настройки, и накатил хадуп по новой.

Все заработало.

Благо там ничего толком не лежало важного.

Little

10.06.2018
22:04:58

Александр

10.06.2018
22:13:51

Хорошее повтори и ещё раз повтори

Avinash

12.06.2018
16:23:28

Urgent Requirement Networking & Vmware Client: WWT Visa: Opt,H1B Ping me offline

The mirror

12.06.2018
17:23:17

Apache Beam кто-нибудь пробовал?

Sergey

12.06.2018
18:15:55

Apache Beam кто-нибудь пробовал?

это по сути опенсорс-вариант гуглового Dataflow, а тот очень неплох

http://www.vldb.org/pvldb/vol8/p1792-Akidau.pdf

Mikhail

12.06.2018
18:23:06

Емнип google как раз активно вкладывается в apache beam

Скорее их dataflow построен на основе beam

Sergey

12.06.2018
18:27:56

вначале это было закрытой разработкой, потом заопенсорсили

initial design - команда в гугле, причем from the good parts of google

Andrey

13.06.2018
03:55:16

Data Engineers are in Greater Demand than Data Scientists https://www.infoworks.io/2018/04/23/data-engineers-greater-demand-data-scientists/

KrivdaAllStars

13.06.2018
13:12:07

Apache Beam кто-нибудь пробовал?

судя по всему он бесполезный, если есть спарк 2.0

они раннер 1.6 ток поддерживают, а спарк 2 раннер - нет

The Spark runner currently supports Spark’s 1.6 branch, and more specifically any version greater than 1.6.0.

питон 3 версии тож не умеет

Господа, использует кто такое http://www.alluxio.org/ ?

Google

Alexander

13.06.2018
13:42:20

Господа, использует кто такое http://www.alluxio.org/ ?

+ тоже интересно

Tsh

13.06.2018
13:55:00

Я использовал

Лучше игнайта (полный отстой) но не надо верить алюксио рпзрабам

Все зависит от конкретных данных и data access patterns

Если используется заоптимизированный паркет с тщательной проработанной структурой таблиц, то ускорение незначительно

Если в хдфс валяются текстовые файлы и с ними идёт работа, то ускорение ощутимо

« Назад

Страница 106 из 182

Далее »

Открыть в Telegram