
KrivdaTheTriewe
28.04.2017
12:20:55
Презентации - https://www.slideshare.net/RamblerML
Бенчмарк популярных библиотек машинного обучения на датасете Criteo - https://git.io/v9sNz
При работе с паркетом из спарка, есть какой-нибудь вменяемый способ избегать файлов которые хайв не убрал за собой ( стейджинг и прочее) ? Имел кто-нибудь опыт?

Andrey
03.05.2017
16:46:12
ага
кроном чисти старые файлы

Google

Andrey
03.05.2017
16:46:59
можно без остановки джобы


Maxim
03.05.2017
16:49:30
Начинаю поиск специалиста на позицию Data Engineer с переездом на Кипр, Лимасол, крупная финтех-компания.
Условия обсуждаю в личке, в skype: borschevm Резюме просьба скидывать на почту: maxim.goodjob@gmail.com,
Задачи:
- интеграция источников данных с хранилищем Hadoop
- разработка ELT-процедур
- проектирование архитектуры хранения и обработки данных
- подготовка, очистка, обеспечение качества данных
- визуализация данных
- разработка production-решений на основе готовых прототипов
- исследование новых технологий и инструментов работы с данными
Обязательные требования:
- опыт разработки приложений в экосистеме Hadoop от 2 лет
- глубокое понимание моделей распределённых вычислений
- опыт разработки на Java от 3 лет
- опыт работы с Linux
- опыт работы с реляционными СУБД (мы работаем с PostgreSQL)
- понимание алгоритмов и структур данных
- опыт разработки высоконагруженных систем
Будет плюсом:
- опыт программирования на Python, Erlang, PHP
- опыт решения задач с использованием машинного обучения
- интерес к функциональному программированию
- опыт работы с NoSQL базами данных (ClickHouse)
#вакансия #dataengineer #hadoop #postgre #linux #cyprus


KrivdaTheTriewe
03.05.2017
16:50:32
Начинаю поиск специалиста на позицию Data Engineer с переездом на Кипр, Лимасол, крупная финтех-компания.
Условия обсуждаю в личке, в skype: borschevm Резюме просьба скидывать на почту: maxim.goodjob@gmail.com,
Задачи:
- интеграция источников данных с хранилищем Hadoop
- разработка ELT-процедур
- проектирование архитектуры хранения и обработки данных
- подготовка, очистка, обеспечение качества данных
- визуализация данных
- разработка production-решений на основе готовых прототипов
- исследование новых технологий и инструментов работы с данными
Обязательные требования:
- опыт разработки приложений в экосистеме Hadoop от 2 лет
- глубокое понимание моделей распределённых вычислений
- опыт разработки на Java от 3 лет
- опыт работы с Linux
- опыт работы с реляционными СУБД (мы работаем с PostgreSQL)
- понимание алгоритмов и структур данных
- опыт разработки высоконагруженных систем
Будет плюсом:
- опыт программирования на Python, Erlang, PHP
- опыт решения задач с использованием машинного обучения
- интерес к функциональному программированию
- опыт работы с NoSQL базами данных (ClickHouse)
#вакансия #dataengineer #hadoop #postgre #linux #cyprus
о, кликхаус входу, вы с вертикой его сравнивали?


Maxim
03.05.2017
16:50:44
да
В итоге его выбрали.

Pavel
03.05.2017
16:51:59
Не удивиительно, вертика же бешенные миллионы стоит

KrivdaTheTriewe
03.05.2017
16:52:14

Pavel
03.05.2017
16:52:23
Или предлагается хранить в ней ровно терабайт, а отальное дропать?

Maxim
03.05.2017
16:52:39
PS: вакансии еще нет в пабликах, по всем подробностям - лучше в почту, личку и скайп, отвечу как смогу. Поток людей будет большой.

KrivdaTheTriewe
03.05.2017
16:52:46

Maxim
03.05.2017
16:53:29
Павел, нет. История важна, все транзакции хранить. Собственно, это целая экосистема, понятно же :)

Pavel
03.05.2017
16:53:50
Вот я и говорю, бабла-то немерянно надо )

KrivdaTheTriewe
03.05.2017
16:54:07

Google

Maxim
03.05.2017
16:54:29
CH - вопрос решенный, если что :)
Все ok в этом смысле.
Спасибо. Я отвечаю на все запросы. По времени Москва -2 часа и Москва +4 часа. :)

KrivdaTheTriewe
04.05.2017
12:18:15
ребят , решал кто проблему с логами на спарке, когда ,slf4j-nop подключается при работе с паркетом в некоторых ситуациях ?
Pavel явно word2vec от рамблера)работал (лента.ру)
Хочешь стать программистом?
6 причин начать изучать программирование на JavaRush. Узнай сейчас!
javarush.ru
Купить костыли, трости, ходунки
Широкий ассортимент. Доставка по России. Все товары в наличии
store.ortonica.ruАдрес и телефонМосква

Maxim
05.05.2017
09:48:45
Коллеги, порекомендуйте, пожалуйста, где можно посмотреть срез зарплат по позициям Data Engineer / Data Analyst (стек BigData: Hadoop, NoSql, ClickHouse etc.).
Интересует Европа.
Спасибо!

KrivdaTheTriewe
05.05.2017
09:52:48
indeed.com

Maxim
05.05.2017
09:56:18
Тут придется поресерчить...
Спасибо.

KrivdaTheTriewe
05.05.2017
13:28:56
https://www.s7.ru/home/offers/hackathon/index.dot

?Ivan
05.05.2017
14:10:40
https://www.s7.ru/home/offers/hackathon/index.dot
— Победитель Хакатона гарантирует передачу исключительных прав в отношении РИД в
полном объеме на основе договора передачи Спонсору Хакатона с момента проведения
презентации в отношении соответствующего РИД в составе того или иного Продукта (по
усмотрению Спонсора Хакатона). При этом победитель Хакатона соглашается, что
полученный Приз является достаточным вознаграждением за передачу исключительных прав в
отношении РИД, являющегося частью Продукта, выигравшего Приз;
— Победитель Хакатона гарантирует, что не существует в момент проведения Хакатона и не
будет существовать в будущем каких-либо обстоятельств, тем или иным образом
препятствующих правомерному использованию Спонсором Хакатона РИД в любых целях и
любым правомерным способом;


KrivdaTheTriewe
05.05.2017
14:11:34
— Победитель Хакатона гарантирует передачу исключительных прав в отношении РИД в
полном объеме на основе договора передачи Спонсору Хакатона с момента проведения
презентации в отношении соответствующего РИД в составе того или иного Продукта (по
усмотрению Спонсора Хакатона). При этом победитель Хакатона соглашается, что
полученный Приз является достаточным вознаграждением за передачу исключительных прав в
отношении РИД, являющегося частью Продукта, выигравшего Приз;
— Победитель Хакатона гарантирует, что не существует в момент проведения Хакатона и не
будет существовать в будущем каких-либо обстоятельств, тем или иным образом
препятствующих правомерному использованию Спонсором Хакатона РИД в любых целях и
любым правомерным способом;
Да, я видел, сложилось впечатление, что они хотят продукт задешево. По бигдате там секция совсем грустная, просто пандас обычный. Но тем не менее, как бы кому-то может полезно будет


?Ivan
05.05.2017
14:12:27
в финансах - обычное ТЗ на разработку информационной системы

KrivdaTheTriewe
05.05.2017
14:13:16

?Ivan
05.05.2017
14:14:13
вообще с точки зрения бизнеса - гениальна идея хакатона (собрать красноглазиков), выбрать тот результат который им понравится. Дать совсем немного денег за это и пользоваться продуктом ?

KrivdaTheTriewe
05.05.2017
14:14:58

?Ivan
05.05.2017
14:15:28
там одно из требований - что все должно разворачиваться на их инфраструктуре ?
А кто-нибудь вообще может объяснить цель участников таких хакатонов? Я еще понимаю когда идешь на хакатон, чтобы проверить идею своего стартапа, а вот в данном случае какой смысл? Я просто не сторонник всяких хакатонов, вот мне и интересно в чем мотивация может быть со стороны участников, чтобы тратить на это все выходные nonstop.

Maxim
05.05.2017
14:46:57
Так там в-основном студенты и есть. Стартаперы еще... которые без инвестиций )

KrivdaTheTriewe
05.05.2017
15:07:26

Google

KrivdaTheTriewe
10.05.2017
17:07:06
Ищем пару скалистов: удалёнка, Slack, Jira, всё начальство - редкие адекваты, нужен какой-то английский. Пользуем вот это:
Scala
Akka
Apache Spark
Docker
Linux
EC2, EMR, Redshift
https://changedynamix.io/
Подробности: https://spb.hh.ru/vacancy/20481312
На hh откликаться не требуется, пишите мне - всё расскажу!
https://www.youtube.com/watch?v=OyaTrKwM3ew&list=PL-x35fyliRwgo10cX2nRQ8GH9DpoZdAs6&index=13
https://www.youtube.com/watch?v=UQiuyov4J-4&list=PL-x35fyliRwhN_2HPNh_jJfYAZy-cUpTR#t=114.825804 интересный доклад о новом спарк стриминге


Maxim
14.05.2017
05:48:09
В поиске Data Engineer с переездом на Кипр, Лимасол, крупная финтех-компания.
Задачи:
- интеграция источников данных с хранилищем Hadoop
- разработка ELT-процедур
- проектирование архитектуры хранения и обработки данных
- подготовка, очистка, обеспечение качества данных
- визуализация данных
- разработка production-решений на основе готовых прототипов
- исследование новых технологий и инструментов работы с данными
Обязательные требования:
- опыт разработки приложений в экосистеме Hadoop от 2 лет
- глубокое понимание моделей распределённых вычислений
- опыт разработки на Java от 3 лет
- опыт работы с Linux
- опыт работы с реляционными СУБД (мы работаем с PostgreSQL)
- понимание алгоритмов и структур данных
- опыт разработки высоконагруженных систем
Будет плюсом:
- опыт программирования на Python, Erlang, PHP
- опыт решения задач с использованием машинного обучения
- интерес к функциональному программированию
- опыт работы с NoSQL базами данных (ClickHouse)
Условия:
- Работа в офисе на берегу моря в городе Лимасол, русскоязычная команда
- Официальное трудоустройство по законодательству Кипра и ЕС, оформление рабочей визы сотруднику (необходим диплом о высшем образовании) и виз для членов семьи
- Полная компенсация расходов на переезд
- Медицинская страховка для сотрудника и членов его семьи
- Бесплатное посещение спортзала, свежие фрукты в офисе.
maxim.goodjob@gmail.com, skype: borschevm
#вакансия #ищу #dataengineer #hadoop #linux #clickhouse #nosql


KrivdaTheTriewe
18.05.2017
17:54:52
решал ли кто вопрос распределенного (хадууп) кластера по нескольким датацентрам? Есть ли наработки у кого? Есть ли варианты для дистрибуции cloudera ?

Andrey
18.05.2017
18:07:02
А какой канал между датацентрами?:)

Pavel
18.05.2017
18:07:21
Да, интересно. Все известные мне пользователи забивали)

Andrey
18.05.2017
18:08:18
Просто растягивать hdfs между дц идея так себе, если у вас конечно нет темной оптики между ними
да и спарк спасибо не скажет

Oleg
18.05.2017
18:14:07
Ребят, пока движуха. Как быстрее скопировать данные из одного хадупа в другой с третьей машины (друг друга не видят)
Я не большой специалист)

Andrey
18.05.2017
18:14:53
ну есть api для питона например
модуль hdfs называется

Oleg
18.05.2017
18:16:28
Спасибо! Попробую

KrivdaTheTriewe
18.05.2017
18:17:36
для хдфс есть тулза для копирования между разными дц

Oleg
18.05.2017
18:17:43
Дистцп
?

KrivdaTheTriewe
18.05.2017
18:18:38
http://stackoverflow.com/questions/31862904/how-to-do-i-copy-data-from-one-hdfs-to-another-hdfs

Oleg
18.05.2017
18:21:45
У меня в тикет разработчик пишет мол "дистцп тут не подходит" ) уточню
В любом случае спасибо)

Google

KrivdaTheTriewe
18.05.2017
18:22:37
хпдудп гет
хадуп пут

Oleg
18.05.2017
18:24:35
Там данных много сотни терабайт, хадупы в разных сетях. Хочется скрипт им, запустить с машины, которая в обеих сетях и максимально быстро, желательно без сохранения на эту тачку, переложит данные
Ну типа на пару месяцев запустить

KrivdaTheTriewe
18.05.2017
18:25:53
а почему не подходит дистсцп ,

Oleg
18.05.2017
18:27:36
Я думаю что хадуп типа разных версий
Но уточню
Он мне объяснял что-то, но я в дневной запарке не понял
Напишу ему
Спасибо
Отпишу как решил
Все равно тишина тут обычно

Boris
18.05.2017
18:59:36
Сетевой связности вероятно нет между датанодами разных кластеров. Разные версии решается через hftp.
Через одну тачку - гет+пут через пайп проще всего думаю.

Oleg
18.05.2017
19:22:22
Спасибо

Pavel
19.05.2017
06:09:13
Sergey V. привет )

Sergey V.
19.05.2017
07:48:00

KrivdaTheTriewe
20.05.2017
18:22:27
тут про спарк мультик сняли https://www.kinopoisk.ru/film/805197/

Grigory
20.05.2017
18:24:08
критики оценили ниоч

Nick
20.05.2017
18:29:25

KrivdaTheTriewe
20.05.2017
18:30:07