@hadoopusers

Страница 7 из 182
KrivdaTheTriewe
28.04.2017
12:20:55
Презентации - https://www.slideshare.net/RamblerML Бенчмарк популярных библиотек машинного обучения на датасете Criteo - https://git.io/v9sNz

При работе с паркетом из спарка, есть какой-нибудь вменяемый способ избегать файлов которые хайв не убрал за собой ( стейджинг и прочее) ? Имел кто-нибудь опыт?

Andrey
03.05.2017
16:46:12
ага

кроном чисти старые файлы

Google
Andrey
03.05.2017
16:46:59
можно без остановки джобы

Maxim
03.05.2017
16:49:30
Начинаю поиск специалиста на позицию Data Engineer с переездом на Кипр, Лимасол, крупная финтех-компания. Условия обсуждаю в личке, в skype: borschevm Резюме просьба скидывать на почту: maxim.goodjob@gmail.com, Задачи: - интеграция источников данных с хранилищем Hadoop - разработка ELT-процедур - проектирование архитектуры хранения и обработки данных - подготовка, очистка, обеспечение качества данных - визуализация данных - разработка production-решений на основе готовых прототипов - исследование новых технологий и инструментов работы с данными Обязательные требования: - опыт разработки приложений в экосистеме Hadoop от 2 лет - глубокое понимание моделей распределённых вычислений - опыт разработки на Java от 3 лет - опыт работы с Linux - опыт работы с реляционными СУБД (мы работаем с PostgreSQL) - понимание алгоритмов и структур данных - опыт разработки высоконагруженных систем Будет плюсом: - опыт программирования на Python, Erlang, PHP - опыт решения задач с использованием машинного обучения - интерес к функциональному программированию - опыт работы с NoSQL базами данных (ClickHouse) #вакансия #dataengineer #hadoop #postgre #linux #cyprus

KrivdaTheTriewe
03.05.2017
16:50:32
Начинаю поиск специалиста на позицию Data Engineer с переездом на Кипр, Лимасол, крупная финтех-компания. Условия обсуждаю в личке, в skype: borschevm Резюме просьба скидывать на почту: maxim.goodjob@gmail.com, Задачи: - интеграция источников данных с хранилищем Hadoop - разработка ELT-процедур - проектирование архитектуры хранения и обработки данных - подготовка, очистка, обеспечение качества данных - визуализация данных - разработка production-решений на основе готовых прототипов - исследование новых технологий и инструментов работы с данными Обязательные требования: - опыт разработки приложений в экосистеме Hadoop от 2 лет - глубокое понимание моделей распределённых вычислений - опыт разработки на Java от 3 лет - опыт работы с Linux - опыт работы с реляционными СУБД (мы работаем с PostgreSQL) - понимание алгоритмов и структур данных - опыт разработки высоконагруженных систем Будет плюсом: - опыт программирования на Python, Erlang, PHP - опыт решения задач с использованием машинного обучения - интерес к функциональному программированию - опыт работы с NoSQL базами данных (ClickHouse) #вакансия #dataengineer #hadoop #postgre #linux #cyprus
о, кликхаус входу, вы с вертикой его сравнивали?

Maxim
03.05.2017
16:50:44
да

В итоге его выбрали.

Pavel
03.05.2017
16:51:59
Не удивиительно, вертика же бешенные миллионы стоит

Pavel
03.05.2017
16:52:23
Или предлагается хранить в ней ровно терабайт, а отальное дропать?

Maxim
03.05.2017
16:52:39
PS: вакансии еще нет в пабликах, по всем подробностям - лучше в почту, личку и скайп, отвечу как смогу. Поток людей будет большой.

Maxim
03.05.2017
16:53:29
Павел, нет. История важна, все транзакции хранить. Собственно, это целая экосистема, понятно же :)

Pavel
03.05.2017
16:53:50
Вот я и говорю, бабла-то немерянно надо )

KrivdaTheTriewe
03.05.2017
16:54:07
Павел, нет. История важна, все транзакции хранить. Собственно, это целая экосистема, понятно же :)
я товарищу кинул, у него был опыт всего практически. в том числе и кликхауса

Google
Maxim
03.05.2017
16:54:29
CH - вопрос решенный, если что :) Все ok в этом смысле.

Спасибо. Я отвечаю на все запросы. По времени Москва -2 часа и Москва +4 часа. :)

KrivdaTheTriewe
04.05.2017
12:18:15
ребят , решал кто проблему с логами на спарке, когда ,slf4j-nop подключается при работе с паркетом в некоторых ситуациях ?

Pavel явно word2vec от рамблера)работал (лента.ру)

Хочешь стать программистом? 6 причин начать изучать программирование на JavaRush. Узнай сейчас! javarush.ru Купить костыли, трости, ходунки Широкий ассортимент. Доставка по России. Все товары в наличии store.ortonica.ruАдрес и телефонМосква

Maxim
05.05.2017
09:48:45
Коллеги, порекомендуйте, пожалуйста, где можно посмотреть срез зарплат по позициям Data Engineer / Data Analyst (стек BigData: Hadoop, NoSql, ClickHouse etc.). Интересует Европа. Спасибо!

KrivdaTheTriewe
05.05.2017
09:52:48
indeed.com

Maxim
05.05.2017
09:56:18
Тут придется поресерчить... Спасибо.

KrivdaTheTriewe
05.05.2017
13:28:56
https://www.s7.ru/home/offers/hackathon/index.dot

?Ivan
05.05.2017
14:10:40
https://www.s7.ru/home/offers/hackathon/index.dot
— Победитель Хакатона гарантирует передачу исключительных прав в отношении РИД в полном объеме на основе договора передачи Спонсору Хакатона с момента проведения презентации в отношении соответствующего РИД в составе того или иного Продукта (по усмотрению Спонсора Хакатона). При этом победитель Хакатона соглашается, что полученный Приз является достаточным вознаграждением за передачу исключительных прав в отношении РИД, являющегося частью Продукта, выигравшего Приз; — Победитель Хакатона гарантирует, что не существует в момент проведения Хакатона и не будет существовать в будущем каких-либо обстоятельств, тем или иным образом препятствующих правомерному использованию Спонсором Хакатона РИД в любых целях и любым правомерным способом;

KrivdaTheTriewe
05.05.2017
14:11:34
— Победитель Хакатона гарантирует передачу исключительных прав в отношении РИД в полном объеме на основе договора передачи Спонсору Хакатона с момента проведения презентации в отношении соответствующего РИД в составе того или иного Продукта (по усмотрению Спонсора Хакатона). При этом победитель Хакатона соглашается, что полученный Приз является достаточным вознаграждением за передачу исключительных прав в отношении РИД, являющегося частью Продукта, выигравшего Приз; — Победитель Хакатона гарантирует, что не существует в момент проведения Хакатона и не будет существовать в будущем каких-либо обстоятельств, тем или иным образом препятствующих правомерному использованию Спонсором Хакатона РИД в любых целях и любым правомерным способом;
Да, я видел, сложилось впечатление, что они хотят продукт задешево. По бигдате там секция совсем грустная, просто пандас обычный. Но тем не менее, как бы кому-то может полезно будет

?Ivan
05.05.2017
14:12:27
в финансах - обычное ТЗ на разработку информационной системы

KrivdaTheTriewe
05.05.2017
14:13:16
в финансах - обычное ТЗ на разработку информационной системы
самое интересное, что они даже не потрудились сделать таблицу. И не совсем понятно , правомерно ли они выставили цены своего партнера

?Ivan
05.05.2017
14:14:13
вообще с точки зрения бизнеса - гениальна идея хакатона (собрать красноглазиков), выбрать тот результат который им понравится. Дать совсем немного денег за это и пользоваться продуктом ?

KrivdaTheTriewe
05.05.2017
14:14:58
?Ivan
05.05.2017
14:15:28
там одно из требований - что все должно разворачиваться на их инфраструктуре ?

А кто-нибудь вообще может объяснить цель участников таких хакатонов? Я еще понимаю когда идешь на хакатон, чтобы проверить идею своего стартапа, а вот в данном случае какой смысл? Я просто не сторонник всяких хакатонов, вот мне и интересно в чем мотивация может быть со стороны участников, чтобы тратить на это все выходные nonstop.

Да, я видел, сложилось впечатление, что они хотят продукт задешево. По бигдате там секция совсем грустная, просто пандас обычный. Но тем не менее, как бы кому-то может полезно будет
посмотрел биг-дата, больше похоже на тестовое задание для студентов на мой взгляд, хотя может просто отсев для уменьшения кол-ва участников на очном этапе.

Maxim
05.05.2017
14:46:57
Так там в-основном студенты и есть. Стартаперы еще... которые без инвестиций )

Google
KrivdaTheTriewe
10.05.2017
17:07:06
Ищем пару скалистов: удалёнка, Slack, Jira, всё начальство - редкие адекваты, нужен какой-то английский. Пользуем вот это: Scala Akka Apache Spark Docker Linux EC2, EMR, Redshift https://changedynamix.io/ Подробности: https://spb.hh.ru/vacancy/20481312 На hh откликаться не требуется, пишите мне - всё расскажу!

https://www.youtube.com/watch?v=OyaTrKwM3ew&list=PL-x35fyliRwgo10cX2nRQ8GH9DpoZdAs6&index=13

https://www.youtube.com/watch?v=UQiuyov4J-4&list=PL-x35fyliRwhN_2HPNh_jJfYAZy-cUpTR#t=114.825804 интересный доклад о новом спарк стриминге

Maxim
14.05.2017
05:48:09
В поиске Data Engineer с переездом на Кипр, Лимасол, крупная финтех-компания. Задачи: - интеграция источников данных с хранилищем Hadoop - разработка ELT-процедур - проектирование архитектуры хранения и обработки данных - подготовка, очистка, обеспечение качества данных - визуализация данных - разработка production-решений на основе готовых прототипов - исследование новых технологий и инструментов работы с данными Обязательные требования: - опыт разработки приложений в экосистеме Hadoop от 2 лет - глубокое понимание моделей распределённых вычислений - опыт разработки на Java от 3 лет - опыт работы с Linux - опыт работы с реляционными СУБД (мы работаем с PostgreSQL) - понимание алгоритмов и структур данных - опыт разработки высоконагруженных систем Будет плюсом: - опыт программирования на Python, Erlang, PHP - опыт решения задач с использованием машинного обучения - интерес к функциональному программированию - опыт работы с NoSQL базами данных (ClickHouse) Условия: - Работа в офисе на берегу моря в городе Лимасол, русскоязычная команда - Официальное трудоустройство по законодательству Кипра и ЕС, оформление рабочей визы сотруднику (необходим диплом о высшем образовании) и виз для членов семьи - Полная компенсация расходов на переезд - Медицинская страховка для сотрудника и членов его семьи - Бесплатное посещение спортзала, свежие фрукты в офисе. maxim.goodjob@gmail.com, skype: borschevm #вакансия #ищу #dataengineer #hadoop #linux #clickhouse #nosql

KrivdaTheTriewe
18.05.2017
17:54:52
решал ли кто вопрос распределенного (хадууп) кластера по нескольким датацентрам? Есть ли наработки у кого? Есть ли варианты для дистрибуции cloudera ?

Andrey
18.05.2017
18:07:02
А какой канал между датацентрами?:)

Pavel
18.05.2017
18:07:21
Да, интересно. Все известные мне пользователи забивали)

Andrey
18.05.2017
18:08:18
Просто растягивать hdfs между дц идея так себе, если у вас конечно нет темной оптики между ними

да и спарк спасибо не скажет

Oleg
18.05.2017
18:14:07
Ребят, пока движуха. Как быстрее скопировать данные из одного хадупа в другой с третьей машины (друг друга не видят)

Я не большой специалист)

Andrey
18.05.2017
18:14:53
ну есть api для питона например

модуль hdfs называется

Oleg
18.05.2017
18:16:28
Спасибо! Попробую

KrivdaTheTriewe
18.05.2017
18:17:36
для хдфс есть тулза для копирования между разными дц

Oleg
18.05.2017
18:17:43
Дистцп

?

KrivdaTheTriewe
18.05.2017
18:18:38
http://stackoverflow.com/questions/31862904/how-to-do-i-copy-data-from-one-hdfs-to-another-hdfs

Oleg
18.05.2017
18:21:45
У меня в тикет разработчик пишет мол "дистцп тут не подходит" ) уточню

В любом случае спасибо)

Google
KrivdaTheTriewe
18.05.2017
18:22:37
хпдудп гет

хадуп пут

Oleg
18.05.2017
18:24:35
Там данных много сотни терабайт, хадупы в разных сетях. Хочется скрипт им, запустить с машины, которая в обеих сетях и максимально быстро, желательно без сохранения на эту тачку, переложит данные

Ну типа на пару месяцев запустить

KrivdaTheTriewe
18.05.2017
18:25:53
а почему не подходит дистсцп ,

Oleg
18.05.2017
18:27:36
Я думаю что хадуп типа разных версий

Но уточню

Он мне объяснял что-то, но я в дневной запарке не понял

Напишу ему

Спасибо

Отпишу как решил

Все равно тишина тут обычно

Boris
18.05.2017
18:59:36
Сетевой связности вероятно нет между датанодами разных кластеров. Разные версии решается через hftp. Через одну тачку - гет+пут через пайп проще всего думаю.

Oleg
18.05.2017
19:22:22
Спасибо

Pavel
19.05.2017
06:09:13
Sergey V. привет )

Sergey V.
19.05.2017
07:48:00
KrivdaTheTriewe
20.05.2017
18:22:27
тут про спарк мультик сняли https://www.kinopoisk.ru/film/805197/

Grigory
20.05.2017
18:24:08
критики оценили ниоч

Nick
20.05.2017
18:29:25
тут про спарк мультик сняли https://www.kinopoisk.ru/film/805197/
Судя по рейтингу это про Спарк архитектуру

KrivdaTheTriewe
20.05.2017
18:30:07

Страница 7 из 182