@hadoopusers

Страница 138 из 182
Grigory
23.08.2018
12:27:49
ну и у тебя получается что хистори сервер хранит историю джобов все джобы сабмитишь через ярн

риалтайм в ярн трекере он тебе путь на юайку спарка предложит

на спарк морду драйвера считай

а вообще мастер порт мастер спарк юайки может быть доступен по 18080

Google
Mikhail
23.08.2018
12:29:46
а при деплое чего-то вычислительно жесткого оно сможет раскидать нагрузку по кластеру?

Grigory
23.08.2018
12:30:13
._.

ярн и используют потому что он более гибкий чем дефолтный шедулер)

Mikhail
23.08.2018
12:31:29
Ага, спасибо, будем пробовать.

Grigory
23.08.2018
12:32:05
? посмотри доки по ярну, использование ярна влечет за собой использование призовых параметров при сабмите джобы

Nishikant
23.08.2018
13:54:08
Please speak in English I don't understand u r language

Alexey
23.08.2018
13:56:47
learn Albanian (c)

Grigory
23.08.2018
13:57:02
Please speak in English I don't understand u r language
we have an en fork: https://t.me/dataengi

Александр
23.08.2018
13:57:34
Grigory
23.08.2018
13:57:42
the current chat is mostly RU speaking, if you have any questions you may post them here as well

Eduard
23.08.2018
13:59:13
Блин еще в одну группу вступать

Nishikant
23.08.2018
13:59:26
Whyyy buddy I am very small town bearly they speak English but I have good knowledge of hadoop and I want get job into big data that why I joined group and also this group is very good to get current knowledge but I don't understand u r language but right now I am trying to learn Russian

Александр
23.08.2018
14:00:00
Удачи !

Google
Grigory
23.08.2018
14:01:10
пришел к нам в реп, и спрашивает, что это мы по-русски говорим)

Sergey
23.08.2018
14:03:20
рашн дата инженеры не могут в игнлиш лол

Alexey
23.08.2018
14:10:13
сами-то себя по-русски не понимаем...

Eduard
23.08.2018
14:20:43
Ребята, сорян за оффтоп, есть задача по исследованию конверсии и вообще поведения в продукте. Есть свой бекенд, куда собираются все события с продукта и прочая инфа Хочется дать аналитикам интерфейс типа этого: https://www.woopra.com/analytics/journeys Проблема в том, что все что я видел (включая эту ссылку) - это saas со своим бекендом, а покупать такое имея свой бекенд, чтоб потом еще переливать куда-то данные не очень хочется. Может кто-то видел подобные инструменты, которые на свой бекенд можно натравить?

Grigory
23.08.2018
14:22:05
feel free to ask questions
он в муте, и потерли его историю; у него цель не вопросы задавать, а возмущаться - что это мы по английски не общаемся тут; ну и ищет курсы по русскому языку

Andrey
23.08.2018
14:24:18
>.<

Eduard
23.08.2018
14:36:36
у нас уже есть looker для этого :)

тут другой подход нужен

superset это примерно то же, но я еще раз гляну, спасибо

может там можно намутить кастом виз который будет генерить хитрющий sql и делать всем хорошо

Sergey
23.08.2018
14:38:26
поясни, чего ты хочешь добиться. красивые визуализации над своими данными? или какую-то интерактивность?

Eduard
23.08.2018
14:38:38
и то и то

красиво визуализировать я в лукере уже могу, но для этого мне надо сесть и написать жутко кастомный sql

который лукер сам сгенерить не в состоянии

я щас скину пример

Stanislav
23.08.2018
14:39:37
А чем цеппелин не угодил?

Eduard
23.08.2018
14:40:22
там надо код писать

вот пример как построить воронку в looker; https://discourse.looker.com/t/analytic-block-simple-funnel/279

Google
Eduard
23.08.2018
14:41:57
и вот пример из kissmetrics, это то что надо, но там только их бек, на свой не натравить и данные туда не залить http://support.kissmetrics.com/article/show/funnel-report_1

Sergey
23.08.2018
14:44:49
т.е. нужен тул для ad-hoc analytics?

Eduard
23.08.2018
14:45:09
да

но без кода

Sergey
23.08.2018
14:46:03
superset - ваще огонь! через sqlalchemy с базами работает. kibana - если у тебя данные в эластике

Eduard
23.08.2018
14:46:23
данные в s3

:)

поверх них hive metastore и presto

looker это superset на стероидах

Sergey
23.08.2018
14:47:18
попробуй Superset, он очень активно развивается

Eduard
23.08.2018
14:47:50
но я не могу там делать ad-hoc funnel, customer journey maps и тд, а очень хочется

у нас все PM хуярят a\b тесты и смотрят результат в kissmetrics и очень радуются

Sergey
23.08.2018
14:48:25
looker это superset на стероидах
это ты где-то в маркетинговой статье прочитал?

Eduard
23.08.2018
14:48:37
не, это мой вывод такой)

но я посмотрю все равно, да

может упустил чего

стало быть надо как то такой же пользовательский опыть во внутренней ситсеме повторить чтобы выкинуть киссметрику в итоге

Sergioss
23.08.2018
15:37:16
я удивился потому что в hdp hadoop 3.1.0 + hbase 2.0.1 всё работает https://docs.hortonworks.com/HDPDocuments/HDP3/HDP-3.0.0/release-notes/content/comp_versions.html
Похоже все же я накураебил, попробовал все тоже самое на хадупе пониже, траблы похожи, прост мнение о несовместимости сложилось с гугла, я гуглил ошибки и часто натыкался что люди пишут типа не совместимо, да и конф у меня простой в нем сложно налажать, тем не менее думаю я был не прав, дело как всегда в руках.

Sergioss
23.08.2018
15:38:13
Google
Daniel
23.08.2018
19:50:29
за возьмущащкой пара ушла на время в мут, бикос ай эм нот ин муд

ведите себя чуть взрослее

Andrey
24.08.2018
05:52:02
опять я все самое интересное пропустил :(

Александр
24.08.2018
13:38:57
Господа, а чем нынче модно case class из паркета наполнять, не руками же поля матчат в 2018

Daniel
24.08.2018
13:40:20
в каждом проекте пишем заново тайпклассы с дерайвингом на шейплеззе/магнолии

Александр
24.08.2018
13:42:26
спасибо, понял , приуныл

Andriy
24.08.2018
15:56:50
Сорян за офтоп

Но как в LIKE пару аргументов добавить?

1 роботает

А 2 и 3 добавить хз

В MS SQL

Eduard
24.08.2018
16:11:43
OR

Oleksandr
24.08.2018
16:38:43
слегка оффтоп, но тут наверняка знают, а я быстро не могу нагуглить вот есть df -h в докере, Filesystem Size Used Avail Use% Mounted on none 73G 71G 1.9G 98% / откуда 73G, если я ему выделил куда меньше?

Andrey
26.08.2018
14:54:20
Technologies for streaming, storing, and querying big data have matured to the point where the computer industry can usefully establish standards. https://www.oreilly.com/ideas/its-time-to-establish-big-data-standards?utm_medium=email&utm_source=topic+optin&utm_campaign=awareness&utm_content=20180822+data+nl&mkt_tok=eyJpIjoiWlRWa01UY3pZalkwWXpnNCIsInQiOiJlY1Y3SmlicFJxais3Vkt0QnE0eWNnaTdYRXFQNlV3b2NMaVFaQ1k4Uml6SkJrdmxVRjQwUkUya2wza1VrcWVmZUtVMnRVU3ZQUG83Nk52WjFSOFNMTlc3MHgwazRaelVBUitWSnI0cThSREQ3YlR6NE1WeFlrcEQwRXBFTloybyJ9

There are many situations where we prefer using Amazon S3 as the destination for our date lakes, but increasingly we are also using GitHub as a data lake destination. While GitHub repositories do have some constraints when compared to Amazon S3, when it comes to specific types of big data projects it also has some significant advantages over Amazon S3. Providing us with a solution that can be checked out, forked, and version controlled, helping us stream the data we need across different applications. https://dzone.com/articles/using-github-as-a-data-lake?edition=385406&utm_source=Weekly%20Digest&utm_medium=email&utm_campaign=Weekly%20Digest%202018-08-22

Eduard
27.08.2018
03:21:58
Wat?

Artem
27.08.2018
06:49:41
Всем привет! Есть некоторое количество моделей, которые обучает spark. Теперь нужно их развернуть в production для realtime обработки. Кто что использует? Экспорт в PMML/PFA/MLeap? Запускать микросервис со standalone нодой spark’a? Еще видел https://github.com/Hydrospheredata/hydro-serving Есть какие-нибудь guide lines, плюсы, минусы, грабли?

Google
Grigory
27.08.2018
07:05:37
@dos65 тебя тут саммонят; го прайся

Страница 138 из 182