
Grigory
08.06.2018
07:58:22
она пишет

Zelmm
08.06.2018
07:58:32

Grigory
08.06.2018
08:00:19
да посмотри в больших конечно последние строчки

Google

Grigory
08.06.2018
08:00:22
но не уверен что это надо
а не
все верно
нодменеджера же порт

Zelmm
08.06.2018
08:04:38
Ничерта там нет, кроме службных INFO сообщений :(

Grigory
08.06.2018
08:06:56
а чтото старый лог
это тоно он?

Zelmm
08.06.2018
08:07:48
в смысле старый? вчерашний

Grigory
08.06.2018
08:08:04
актуальный посмотри
стукнись в ноду и в момент стучания в ноду посмотри что в логах ового появится

Nikita
08.06.2018
08:32:08
Данных там пара терабайт, во время работы джобы фиксируем вот такой график использования дисков Non-HDFS
ну то есть это точно она, как так получается, что запись мимо hdfs идет?

Google


MaxIT
08.06.2018
08:44:31
#job #вакансия #IT #офис #Москва #datascientist
Компания Stafory, которая работает над полноценной диалоговой системой для проведения интервью с соискателями, ищет в команду человека на позицю Data Scientist .
Основная работа ведется в области NLP,есть большие массивы текстов вакансий и резюме, диалоги кандидатов с роботом и рекрутерами.
?Требования:
Знание Python
Знание и опыт работы с алгоритмами машинного обучения:word-embedding, RNN, LSTM, seq2seq
Опыт работы с фреймворками word2vec, fastText, tensorflow, pytorch
Знание и опыт работы с СУБД, а также NoSQL-базами данных.
?Обязанности:
Разработка алгоритмов машинного обучения в сфере диалоговых систем и HR
Обучение и настройка word-embedding сетей
Внедрение функционала с элементами машинного обучение в основной продукт
Работа с данными, подготовка данных для обучения
Тестирование моделей, работа с метриками: accuracy, recall, precision и др.
?Условия:
метро Курская
Белая ЗП до 250 000 рублей «на руки»
Оформление по ТК


Daniel
08.06.2018
08:56:45
хех

Zelmm
08.06.2018
08:59:42
Хотя по netstat -at4np порт 8042 прослушивается

Grigory
08.06.2018
09:00:51

Zelmm
08.06.2018
09:01:14
Дык, а какие еще? Я и не видел то других
Именно в этиз логах писалось до этого "запущено-выключено", "запущено-выключено". А тут пусто...

Grigory
08.06.2018
09:05:34
а ты локально поднимаешь все?

Zelmm
08.06.2018
09:05:54
Нет, три машины: master, slave1, slave2
дебиан на всех

Grigory
08.06.2018
09:06:17
манутишь? мож криво маунтится
зайди на тачки прям
и руками чекни логи

Zelmm
08.06.2018
09:06:40
сейчас

Grigory
08.06.2018
09:06:56
логи хадуп пишет в HADOOP_LOG_DIR помоему; который $HADOOP_HOME/logs по дефолту
степится эта переменная в хадуп енве
для чистоты эксперимента можешь даже все кильнуть переназначить лог дир

Zelmm
08.06.2018
09:09:54

Grigory
08.06.2018
09:13:07
кильни нод менеджер и руками стартани; он аутпут будет кидать в консоль мне кажется

Zelmm
08.06.2018
09:14:28
момент

Google

Grigory
08.06.2018
09:20:28
момент
я не помню точно что надо пускать, но я имел ввиду что-то по типу hdfs datanode для поднятия датаноды хдфс; она заатачится к консоли

Tsh
08.06.2018
09:26:04
Пардон, но жаба Хоум и прочее точно правильно выставлено? По ходу просто не стартует

Zelmm
08.06.2018
09:31:09

П
08.06.2018
10:12:56
https://pastebin.com/68VVbQ8g
Кто-нибудь сталкивался с такой проблемой в spark sql?
такая колонка на самом деле есть, как там видно
По этой колонке в отличие от всех других было партиционирование

Grigory
08.06.2018
10:13:42
там их две
он прост не понимает по какой

П
08.06.2018
10:14:39
SELECT
attr._accountId AS app_id,
...
FROM
adroll_attributions as attr
JOIN
adroll_deliveries as del
ON
attr.campaign_eid=del.campaign_eid
Там такой запрос, если вкратце
Почему он не понимает?
Без птичек

Grigory
08.06.2018
10:16:30
посмотри ипут коломнс список:
_accountId, report_date, …, has_approved_consent_solution, _accountId,
ты гдето там del._accountId зовешь
¯\_(ツ)_/¯ сча скуль эксперты подбегут мож.

П
08.06.2018
10:18:36
Я и дел и аттр пробовал в том месте ?

Andrey
08.06.2018
10:21:26
через датафрейм апи работает?

Grigory
08.06.2018
10:21:52
https://docs.databricks.com/spark/latest/faq/join-two-dataframes-duplicated-column.html ^
можно попробовать
там хотяб побогаче ошибки могут вылести

Andrey
08.06.2018
10:22:09
df.select(..).join(..., Seq(“campaign_eid”)) ?

П
08.06.2018
10:28:26
Годная ссылка, спасибо

Google

Zelmm
08.06.2018
11:21:31
Тупо скопировал все настройки, и накатил хадуп по новой.
Все заработало.
Благо там ничего толком не лежало важного.

Little
10.06.2018
22:04:58

Александр
10.06.2018
22:13:51
Хорошее повтори и ещё раз повтори

Avinash
12.06.2018
16:23:28
Urgent Requirement
Networking & Vmware
Client: WWT
Visa: Opt,H1B
Ping me offline

The mirror
12.06.2018
17:23:17
Apache Beam кто-нибудь пробовал?

Sergey
12.06.2018
18:15:55
http://www.vldb.org/pvldb/vol8/p1792-Akidau.pdf

Mikhail
12.06.2018
18:23:06
Емнип google как раз активно вкладывается в apache beam
Скорее их dataflow построен на основе beam

Sergey
12.06.2018
18:27:56
вначале это было закрытой разработкой, потом заопенсорсили
initial design - команда в гугле, причем from the good parts of google

Andrey
13.06.2018
03:55:16
Data Engineers are in Greater Demand than Data Scientists https://www.infoworks.io/2018/04/23/data-engineers-greater-demand-data-scientists/

KrivdaAllStars
13.06.2018
13:12:07
они раннер 1.6 ток поддерживают, а спарк 2 раннер - нет
The Spark runner currently supports Spark’s 1.6 branch, and more specifically any version greater than 1.6.0.
питон 3 версии тож не умеет
Господа, использует кто такое http://www.alluxio.org/ ?

Google

Alexander
13.06.2018
13:42:20

Tsh
13.06.2018
13:55:00
Я использовал
Лучше игнайта (полный отстой) но не надо верить алюксио рпзрабам
Все зависит от конкретных данных и data access patterns
Если используется заоптимизированный паркет с тщательной проработанной структурой таблиц, то ускорение незначительно
Если в хдфс валяются текстовые файлы и с ними идёт работа, то ускорение ощутимо