
Henadz
19.07.2017
07:58:01
Имхо парадигма распределённых вычислений, реализованная в Спарке, гибче, нежели Хадуп мап-редьюс
благодаря тому, что можно несколько мап-шагов стакать
без промежуточного сохранения на диск/в память
редьюс вообще может отсутствовать

Google

Henadz
19.07.2017
07:59:06
на хадупе же, чтобы ты не хотел сделать, тебе обязательно надо натянуть это на мап-редьюс шаги

Mike
19.07.2017
07:59:27
К сожалению, я не большой гуру, но насколько помню - вся суть в том, что хадуп разрабатывался давно и в нем передача данных между нодами и тд через HDFS. В спарке не всегда, но,повторюсь, бывают частные случаи, когда работает идентично.

Henadz
19.07.2017
07:59:28
плюс в спарке есть гибкие настройки по перзистенсу данных (в память/на диск и т.д)
что тоже добавляет плюсов, по сравнению с хадуп мап-редьюсом
деление воркеров на мапперов и редьюсеров тоже хреново влияет на утилизацию ресурсов кластера в хадуп мап-редьюсе

Mike
19.07.2017
08:01:10

Henadz
19.07.2017
08:01:22
в спарке это сделано достаточно универсально, есть воркеры, у воркеров есть слоты, с определённым количеством ядер и памяти
а вот затюнить Хадуп, чтобы он в оперативке что-нибудь кешировал, это уже гораздо сложнее
ну и на Спарке, имхо, гораздо проще начать что-нибудь писать. Абстракция RDD/Dataset гораздо более дружественная, нежели Mapper Reducer на каждый чих
ну а в минусы спарку, пожалуй, можно записать неявную сериализацию кода, который потом закидывается на воркеры и там выполняется
помню немало багов на этом словил, пытаясь вычислить, как там это в скале всю сериализуется/десериализуется


Mike
19.07.2017
08:07:42
ну так это понятно. И Спарк успешно этот случай обработает
ой не очень то успешно. если ты скажешь persist(StorageLevel.MEMORY_ONLY) сам - он успешно будет забивать оперативную память, кряхтеть,считать, а потом понемногу убивать воркеров, которые не отвечают (а не отвечают по понятной причине - не справляются с нагрузкой). Я не помню, чтобы там был дефолт персиста. Без понимания и знания - выстрел в ногу обеспечен, но не критичен

Google

Henadz
19.07.2017
08:08:14
я просто о том, что в Спарке можно покрыть use case хадупа
обратное же маловероятно

Artyom
19.07.2017
10:55:46
всем привет. тут спрашивали про pdf книжки Андреаса Мюллера и Сары Гвидо
вот ссылка https://drive.google.com/open?id=0B6cpSQ5uHrxMVHZjQ3V2NmpWa3M
это мой последний перевод
Виллиамс впопыхах самый первый мой перевод в печать отправило)

redbeard
19.07.2017
11:00:33

Nick
19.07.2017
11:03:11
Спасибо за перевод!

Максим
19.07.2017
11:06:49
Ребят, а Рашка есть у кого на русском?

Alexander
19.07.2017
11:09:52
Подскажите, в какую сторону следует гуглить, если интересно по фейсбуку и лайкам человека составлять портрет его интересов?

Oleksandr
19.07.2017
11:13:02
самое примитивно-рабочее — коллаборативная фильтрация
ищешь людей с похожими (define "похожесть" по лайкам) взглядами и берешь их интересы

Проксимов
19.07.2017
11:13:35
Составляешь граф

Antonio
19.07.2017
12:44:22
https://habrahabr.ru/company/yandex/blog/333522/
Кто пробовал уже CatBoost ?

Artyom
19.07.2017
13:07:53
у меня есть Рашка на русском в самом первом переводе, но это не мой перевод, плохо переведено, я потом самые очевидные ляпы исправлял, но тоже не все поправил
я пробовал, все отлично, но не устраивает скорость вычислений, возможно не хватает технической информации

Проксимов
19.07.2017
13:12:43

Antonio
19.07.2017
14:11:48
а уот еще статья https://nplus1.ru/material/2017/07/18/yandex-catboost

Виталик
19.07.2017
14:28:28
Всем привет! Подскажите какой язык + бд выбрать для дата майнинга? Задача стоит по API ежесекундно(возможно быстрее) собирать информацию. Информации будет очень много, и соответсвенно скорость должна быть быстрой. Так же на каком языке потом можно написать веб интерфейс, для анализа этих данных, + реалтайм отображение нужных данных, построение различных графиков, а так же выполнение команд.
так же нуждаюсь в площадках по типу фриланса, апворка и тп для поиска исполнителей под такие задачи


Alex
19.07.2017
14:32:36
Всем привет! Подскажите какой язык + бд выбрать для дата майнинга? Задача стоит по API ежесекундно(возможно быстрее) собирать информацию. Информации будет очень много, и соответсвенно скорость должна быть быстрой. Так же на каком языке потом можно написать веб интерфейс, для анализа этих данных, + реалтайм отображение нужных данных, построение различных графиков, а так же выполнение команд.
так же нуждаюсь в площадках по типу фриланса, апворка и тп для поиска исполнителей под такие задачи
python, django, postgres, tableau, redis.

Google

Alex
19.07.2017
14:33:00
если хочется приключений то clojure

Kaspar
19.07.2017
14:46:02


Kirill Zonov
19.07.2017
14:53:14
питон если только для анализа данных. А это, я так понимаю, можно асинхронно делать. Не надо микроскопом гвозди забивать. Для этого clojure лучше, как Алекс заметил. Но чтобы было без приключений - не надо все на ней писать, а только то, для чего она реально нужна =) Ну и БД, куда все будете сказывать, скорее всего действительно nosql, но лучше исходить из операций, которые вы будете там производить. Навскидку вроде касандра должна для задачи быстрой записи и сохранности данных хорошо подойти, но ручаться не стану, пользовался только в песочнице с небольшим проектом

Виталик
19.07.2017
14:53:55
Спасибо

Kirill Zonov
19.07.2017
14:56:07
По поводу площадок тебя скорее всего никто не понял. Площадки ты перечислил, значит знаешь где искать. А вообще в России в основном исполнителей под подобные вещи ищут по рекомендациям. Если у тебя в планах не mvp, а полноценный проект (читай, бюджет не 300к, а 2М+) - вряд ли ты будешь готов нанять под это дело каких-то непонятных ребят с апворка.

Oleksandr
19.07.2017
14:56:22
на кагле же искать, там все сколько-либо серьезные типы сидят

Kirill Zonov
19.07.2017
14:58:31
по задаче я так понял, что навык разработки и проектирования то здесь стоит выше навыка анализа данных и работы с ними. Поэтому возможно и команды потребуются две, либо одна с широкой экспертизой

Виталик
19.07.2017
14:59:42
Ну не сказал бы что это большой какой-то проеэкт. Я бы это назвал бы инструментом для работы
То есть, то что я физичиски не смогу успеть проанализировать и выполнить такой объем работы
То есть сначала сбор информации, анализ и построение инструмента для работы с этими данными

Artyom
19.07.2017
16:15:11
Виталик, о какой информации идет речь? Структурированной ( можно класть в реляционную базу) или неструктурированной (текст, логи)? Аналитика по всем данным, по окну за последний час, по случайной выборке? Нужна ли консистентность, или можно параллелить безо всяких зазрений совести?

Alex
19.07.2017
16:26:47

Alejandro
19.07.2017
16:26:53
Делюсь инсайдом.
Вот увидите!
Осенью, в крайнем случае зимой, будет хайп по реактосу.
Все угорят по нему, как сейчас по криптовалютам и спинерам
Закупайтесь сейчас, пока не взлетело.

Alex
19.07.2017
16:27:54

Alejandro
19.07.2017
16:28:55

Oleksandr
19.07.2017
16:29:35
это которая пытается сделать вид, что умеет запускать виндовые приложения?

Admin
ERROR: S client not available

Tenni
19.07.2017
16:29:46

Alex
19.07.2017
16:30:00

Холм
19.07.2017
16:31:23

Google

Tenni
19.07.2017
16:31:43

Alejandro
19.07.2017
16:32:34

Tenni
19.07.2017
16:32:56

Alejandro
19.07.2017
16:33:01

Tenni
19.07.2017
16:34:09

Alejandro
19.07.2017
16:37:29

Tenni
19.07.2017
16:38:26

Холм
19.07.2017
16:38:43

Alejandro
19.07.2017
16:38:59

Холм
19.07.2017
16:40:51
ну вот взял видюху амд и до сих пор приходится каждый раз ядро собирать кастомное для поддержки hdmi, но это редкий пример)

Tenni
19.07.2017
16:40:53

Oleksandr
19.07.2017
16:54:56
а какое отношение имеет реактос к тематике этого чата?

Холм
19.07.2017
17:52:31
ровным счетом никакого, тут инсайдер ворвался просто.

Dan
19.07.2017
18:00:30
обострение?

bebebe
19.07.2017
19:24:45
линуксолюди в аджайле
казалось что может быть лучше?

Alexander
19.07.2017
20:13:43
Если не ошибаюсь, вы ее главный разраб?)

Google

Alexander
19.07.2017
20:13:43
Делюсь инсайдом.
Вот увидите!
Осенью, в крайнем случае зимой, будет хайп по реактосу.
Все угорят по нему, как сейчас по криптовалютам и спинерам
Закупайтесь сейчас, пока не взлетело.

Alejandro
19.07.2017
20:43:48
Реактос кстати уже сейчас поддерживает udf, ext234 и btrfs