@hadoopusers

Страница 106 из 182
Grigory
08.06.2018
07:58:22
она пишет

Zelmm
08.06.2018
07:58:32
а логи ноды какие
Вот сейчас ковырять пытаюсь

Grigory
08.06.2018
08:00:19
да посмотри в больших конечно последние строчки

Google
Grigory
08.06.2018
08:00:22
но не уверен что это надо

а не

все верно

нодменеджера же порт

Zelmm
08.06.2018
08:04:38
Ничерта там нет, кроме службных INFO сообщений :(

Grigory
08.06.2018
08:06:56
а чтото старый лог

это тоно он?

Zelmm
08.06.2018
08:07:48
в смысле старый? вчерашний

Grigory
08.06.2018
08:08:04
актуальный посмотри

стукнись в ноду и в момент стучания в ноду посмотри что в логах ового появится

Nikita
08.06.2018
08:32:08


Данных там пара терабайт, во время работы джобы фиксируем вот такой график использования дисков Non-HDFS

ну то есть это точно она, как так получается, что запись мимо hdfs идет?

Google
MaxIT
08.06.2018
08:44:31
#job #вакансия #IT #офис #Москва #datascientist Компания Stafory, которая работает над полноценной диалоговой системой для проведения интервью с соискателями, ищет в команду человека на позицю Data Scientist . Основная работа ведется в области NLP,есть большие массивы текстов вакансий и резюме, диалоги кандидатов с роботом и рекрутерами. ?Требования: Знание Python Знание и опыт работы с алгоритмами машинного обучения:word-embedding, RNN, LSTM, seq2seq Опыт работы с фреймворками word2vec, fastText, tensorflow, pytorch Знание и опыт работы с СУБД, а также NoSQL-базами данных. ?Обязанности: Разработка алгоритмов машинного обучения в сфере диалоговых систем и HR Обучение и настройка word-embedding сетей Внедрение функционала с элементами машинного обучение в основной продукт Работа с данными, подготовка данных для обучения Тестирование моделей, работа с метриками: accuracy, recall, precision и др. ?Условия: метро Курская Белая ЗП до 250 000 рублей «на руки» Оформление по ТК

Daniel
08.06.2018
08:56:45
хех

Zelmm
08.06.2018
08:59:42
стукнись в ноду и в момент стучания в ноду посмотри что в логах ового появится
Сранно. В общем стукался по разному, лог не меняется - последние записи в логменеджере за вчера и только INFO. И заметил, что с последнего рестарта нет сообщений в логе о том, что на порту 8042 хоть что-то поднялось.

Хотя по netstat -at4np порт 8042 прослушивается

Zelmm
08.06.2018
09:01:14
Дык, а какие еще? Я и не видел то других

Именно в этиз логах писалось до этого "запущено-выключено", "запущено-выключено". А тут пусто...

Grigory
08.06.2018
09:05:34
а ты локально поднимаешь все?

Zelmm
08.06.2018
09:05:54
Нет, три машины: master, slave1, slave2

дебиан на всех

Grigory
08.06.2018
09:06:17
манутишь? мож криво маунтится

зайди на тачки прям

и руками чекни логи

Zelmm
08.06.2018
09:06:40
сейчас

Grigory
08.06.2018
09:06:56
логи хадуп пишет в HADOOP_LOG_DIR помоему; который $HADOOP_HOME/logs по дефолту

степится эта переменная в хадуп енве

для чистоты эксперимента можешь даже все кильнуть переназначить лог дир

Zelmm
08.06.2018
09:09:54
и руками чекни логи
там тоже самое написано. Ничего нового :(

Grigory
08.06.2018
09:13:07
кильни нод менеджер и руками стартани; он аутпут будет кидать в консоль мне кажется

Zelmm
08.06.2018
09:14:28
момент

Google
Grigory
08.06.2018
09:20:28
момент
я не помню точно что надо пускать, но я имел ввиду что-то по типу hdfs datanode для поднятия датаноды хдфс; она заатачится к консоли

Tsh
08.06.2018
09:26:04
Пардон, но жаба Хоум и прочее точно правильно выставлено? По ходу просто не стартует

Zelmm
08.06.2018
09:31:09
Пардон, но жаба Хоум и прочее точно правильно выставлено? По ходу просто не стартует
Ну до этого то стартовало. И я переменные точно не менял.

П
08.06.2018
10:12:56
https://pastebin.com/68VVbQ8g Кто-нибудь сталкивался с такой проблемой в spark sql? такая колонка на самом деле есть, как там видно

По этой колонке в отличие от всех других было партиционирование

Grigory
08.06.2018
10:13:42
там их две

он прост не понимает по какой

П
08.06.2018
10:14:39
SELECT attr._accountId AS app_id, ... FROM adroll_attributions as attr JOIN adroll_deliveries as del ON attr.campaign_eid=del.campaign_eid

Там такой запрос, если вкратце Почему он не понимает?

Без птичек

Grigory
08.06.2018
10:16:30
посмотри ипут коломнс список: _accountId, report_date, …, has_approved_consent_solution, _accountId,

ты гдето там del._accountId зовешь

¯\_(ツ)_/¯ сча скуль эксперты подбегут мож.

П
08.06.2018
10:18:36
Я и дел и аттр пробовал в том месте ?

Andrey
08.06.2018
10:21:26
через датафрейм апи работает?

Grigory
08.06.2018
10:21:52
https://docs.databricks.com/spark/latest/faq/join-two-dataframes-duplicated-column.html ^

можно попробовать

там хотяб побогаче ошибки могут вылести

Andrey
08.06.2018
10:22:09
df.select(..).join(..., Seq(“campaign_eid”)) ?

П
08.06.2018
10:28:26
Годная ссылка, спасибо

Google
Zelmm
08.06.2018
11:21:31
Тупо скопировал все настройки, и накатил хадуп по новой.

Все заработало.

Благо там ничего толком не лежало важного.

Little
10.06.2018
22:04:58


Александр
10.06.2018
22:13:51
Хорошее повтори и ещё раз повтори

Avinash
12.06.2018
16:23:28
Urgent Requirement Networking & Vmware Client: WWT Visa: Opt,H1B Ping me offline

The mirror
12.06.2018
17:23:17
Apache Beam кто-нибудь пробовал?

Sergey
12.06.2018
18:15:55
Apache Beam кто-нибудь пробовал?
это по сути опенсорс-вариант гуглового Dataflow, а тот очень неплох

http://www.vldb.org/pvldb/vol8/p1792-Akidau.pdf

Mikhail
12.06.2018
18:23:06
Емнип google как раз активно вкладывается в apache beam

Скорее их dataflow построен на основе beam

Sergey
12.06.2018
18:27:56
вначале это было закрытой разработкой, потом заопенсорсили

initial design - команда в гугле, причем from the good parts of google

Andrey
13.06.2018
03:55:16
Data Engineers are in Greater Demand than Data Scientists https://www.infoworks.io/2018/04/23/data-engineers-greater-demand-data-scientists/

KrivdaAllStars
13.06.2018
13:12:07
Apache Beam кто-нибудь пробовал?
судя по всему он бесполезный, если есть спарк 2.0

они раннер 1.6 ток поддерживают, а спарк 2 раннер - нет

The Spark runner currently supports Spark’s 1.6 branch, and more specifically any version greater than 1.6.0.

питон 3 версии тож не умеет

Господа, использует кто такое http://www.alluxio.org/ ?

Google
Alexander
13.06.2018
13:42:20
Tsh
13.06.2018
13:55:00
Я использовал

Лучше игнайта (полный отстой) но не надо верить алюксио рпзрабам

Все зависит от конкретных данных и data access patterns

Если используется заоптимизированный паркет с тщательной проработанной структурой таблиц, то ускорение незначительно

Если в хдфс валяются текстовые файлы и с ними идёт работа, то ускорение ощутимо

Страница 106 из 182