@bigdata_ru

Страница 108 из 327
Henadz
19.07.2017
07:58:01
Имхо парадигма распределённых вычислений, реализованная в Спарке, гибче, нежели Хадуп мап-редьюс

благодаря тому, что можно несколько мап-шагов стакать

без промежуточного сохранения на диск/в память

редьюс вообще может отсутствовать

Google
Henadz
19.07.2017
07:59:06
на хадупе же, чтобы ты не хотел сделать, тебе обязательно надо натянуть это на мап-редьюс шаги

Mike
19.07.2017
07:59:27
К сожалению, я не большой гуру, но насколько помню - вся суть в том, что хадуп разрабатывался давно и в нем передача данных между нодами и тд через HDFS. В спарке не всегда, но,повторюсь, бывают частные случаи, когда работает идентично.

Henadz
19.07.2017
07:59:28
плюс в спарке есть гибкие настройки по перзистенсу данных (в память/на диск и т.д)

что тоже добавляет плюсов, по сравнению с хадуп мап-редьюсом

деление воркеров на мапперов и редьюсеров тоже хреново влияет на утилизацию ресурсов кластера в хадуп мап-редьюсе

Mike
19.07.2017
08:01:10
плюс в спарке есть гибкие настройки по перзистенсу данных (в память/на диск и т.д)
а тут уже вопрос в количестве данных и твоем кластере, на самом деле. было дело - все в память не влезало - и никуда от диска не уйдешь

Henadz
19.07.2017
08:01:22
в спарке это сделано достаточно универсально, есть воркеры, у воркеров есть слоты, с определённым количеством ядер и памяти

а вот затюнить Хадуп, чтобы он в оперативке что-нибудь кешировал, это уже гораздо сложнее

ну и на Спарке, имхо, гораздо проще начать что-нибудь писать. Абстракция RDD/Dataset гораздо более дружественная, нежели Mapper Reducer на каждый чих

ну а в минусы спарку, пожалуй, можно записать неявную сериализацию кода, который потом закидывается на воркеры и там выполняется

помню немало багов на этом словил, пытаясь вычислить, как там это в скале всю сериализуется/десериализуется

Mike
19.07.2017
08:07:42
ну так это понятно. И Спарк успешно этот случай обработает
ой не очень то успешно. если ты скажешь persist(StorageLevel.MEMORY_ONLY) сам - он успешно будет забивать оперативную память, кряхтеть,считать, а потом понемногу убивать воркеров, которые не отвечают (а не отвечают по понятной причине - не справляются с нагрузкой). Я не помню, чтобы там был дефолт персиста. Без понимания и знания - выстрел в ногу обеспечен, но не критичен

Google
Artyom
19.07.2017
10:55:46
всем привет. тут спрашивали про pdf книжки Андреаса Мюллера и Сары Гвидо

вот ссылка https://drive.google.com/open?id=0B6cpSQ5uHrxMVHZjQ3V2NmpWa3M

это мой последний перевод

Виллиамс впопыхах самый первый мой перевод в печать отправило)

redbeard
19.07.2017
11:00:33
Виллиамс впопыхах самый первый мой перевод в печать отправило)
отличная книга, добуду обязательно, спасибо за труд :)

Nick
19.07.2017
11:03:11
Спасибо за перевод!

Максим
19.07.2017
11:06:49
Ребят, а Рашка есть у кого на русском?

Alexander
19.07.2017
11:09:52
Подскажите, в какую сторону следует гуглить, если интересно по фейсбуку и лайкам человека составлять портрет его интересов?

Oleksandr
19.07.2017
11:13:02
самое примитивно-рабочее — коллаборативная фильтрация ищешь людей с похожими (define "похожесть" по лайкам) взглядами и берешь их интересы

Проксимов
19.07.2017
11:13:35
Составляешь граф

Antonio
19.07.2017
12:44:22
https://habrahabr.ru/company/yandex/blog/333522/ Кто пробовал уже CatBoost ?

Artyom
19.07.2017
13:07:53
у меня есть Рашка на русском в самом первом переводе, но это не мой перевод, плохо переведено, я потом самые очевидные ляпы исправлял, но тоже не все поправил

я пробовал, все отлично, но не устраивает скорость вычислений, возможно не хватает технической информации

Antonio
19.07.2017
14:11:48
а уот еще статья https://nplus1.ru/material/2017/07/18/yandex-catboost

Виталик
19.07.2017
14:28:28
Всем привет! Подскажите какой язык + бд выбрать для дата майнинга? Задача стоит по API ежесекундно(возможно быстрее) собирать информацию. Информации будет очень много, и соответсвенно скорость должна быть быстрой. Так же на каком языке потом можно написать веб интерфейс, для анализа этих данных, + реалтайм отображение нужных данных, построение различных графиков, а так же выполнение команд. так же нуждаюсь в площадках по типу фриланса, апворка и тп для поиска исполнителей под такие задачи

Google
Alex
19.07.2017
14:33:00
если хочется приключений то clojure

Kirill Zonov
19.07.2017
14:53:14
питон если только для анализа данных. А это, я так понимаю, можно асинхронно делать. Не надо микроскопом гвозди забивать. Для этого clojure лучше, как Алекс заметил. Но чтобы было без приключений - не надо все на ней писать, а только то, для чего она реально нужна =) Ну и БД, куда все будете сказывать, скорее всего действительно nosql, но лучше исходить из операций, которые вы будете там производить. Навскидку вроде касандра должна для задачи быстрой записи и сохранности данных хорошо подойти, но ручаться не стану, пользовался только в песочнице с небольшим проектом

Виталик
19.07.2017
14:53:55
Спасибо

Kirill Zonov
19.07.2017
14:56:07
По поводу площадок тебя скорее всего никто не понял. Площадки ты перечислил, значит знаешь где искать. А вообще в России в основном исполнителей под подобные вещи ищут по рекомендациям. Если у тебя в планах не mvp, а полноценный проект (читай, бюджет не 300к, а 2М+) - вряд ли ты будешь готов нанять под это дело каких-то непонятных ребят с апворка.

Oleksandr
19.07.2017
14:56:22
на кагле же искать, там все сколько-либо серьезные типы сидят

Kirill Zonov
19.07.2017
14:58:31
по задаче я так понял, что навык разработки и проектирования то здесь стоит выше навыка анализа данных и работы с ними. Поэтому возможно и команды потребуются две, либо одна с широкой экспертизой

Виталик
19.07.2017
14:59:42
Ну не сказал бы что это большой какой-то проеэкт. Я бы это назвал бы инструментом для работы

То есть, то что я физичиски не смогу успеть проанализировать и выполнить такой объем работы

То есть сначала сбор информации, анализ и построение инструмента для работы с этими данными

Artyom
19.07.2017
16:15:11
Виталик, о какой информации идет речь? Структурированной ( можно класть в реляционную базу) или неструктурированной (текст, логи)? Аналитика по всем данным, по окну за последний час, по случайной выборке? Нужна ли консистентность, или можно параллелить безо всяких зазрений совести?

Alex
19.07.2017
16:26:47
по задаче я так понял, что навык разработки и проектирования то здесь стоит выше навыка анализа данных и работы с ними. Поэтому возможно и команды потребуются две, либо одна с широкой экспертизой
Приключение это найти хотя бы 5 кложуристов в команду. Выбрать кложур для такого проекта — привязать себя к разработчику навсегда

Alejandro
19.07.2017
16:26:53
Делюсь инсайдом. Вот увидите! Осенью, в крайнем случае зимой, будет хайп по реактосу. Все угорят по нему, как сейчас по криптовалютам и спинерам Закупайтесь сейчас, пока не взлетело.

Alejandro
19.07.2017
16:28:55
Что такон реактос?
Операционная система это.

Oleksandr
19.07.2017
16:29:35
это которая пытается сделать вид, что умеет запускать виндовые приложения?

Admin
ERROR: S client not available

Tenni
19.07.2017
16:29:46
Что такон реактос?
никому ненужный нелинукс с ДЕ под икспишку и настроенным вайном

Alex
19.07.2017
16:30:00
Операционная система это.
А, это те наркоманы что 15 лет пилили винду и спас их только крымнаш?

Холм
19.07.2017
16:31:23
никому ненужный нелинукс с ДЕ под икспишку и настроенным вайном
реактос не линукс же. будь он линуксом, был бы стабильнее.

Google
Tenni
19.07.2017
16:31:43
Alejandro
19.07.2017
16:32:34
поправил, ладно, сути не меняет
Многое меняет. У линукса никогда столько драйверов не будет.

Tenni
19.07.2017
16:32:56
Многое меняет. У линукса никогда столько драйверов не будет.
вообще проблем с драйверами нет, здрасте из 2008 года что ли =)

Tenni
19.07.2017
16:34:09
Скажи это моему сканеру
реактос специализированный дистрибутив для сканеров? То есть это фича такая.

Alejandro
19.07.2017
16:37:29
реактос специализированный дистрибутив для сканеров? То есть это фича такая.
Нет. Просто не говори, что у линукса давно нет проблем. Как были так и остались.

Tenni
19.07.2017
16:38:26
Холм
19.07.2017
16:38:43
Нет. Просто не говори, что у линукса давно нет проблем. Как были так и остались.
вообще согласен, драйвера в первую очередь пишут под винду, а уж потом под линь, как показывает практика. с другой стороны я уже давно не встречался с проблемой поиска дров на лин.

Холм
19.07.2017
16:40:51
ну вот взял видюху амд и до сих пор приходится каждый раз ядро собирать кастомное для поддержки hdmi, но это редкий пример)

Tenni
19.07.2017
16:40:53
Просто ты уже научился выбирать совместимое железо. А 98% ещё нет.
на линуксе уже лет 6 проблем с дравами не наблюдаю, только совсем с экзотикой

Oleksandr
19.07.2017
16:54:56
а какое отношение имеет реактос к тематике этого чата?

Холм
19.07.2017
17:52:31
ровным счетом никакого, тут инсайдер ворвался просто.

Dan
19.07.2017
18:00:30
обострение?

bebebe
19.07.2017
19:24:45
линуксолюди в аджайле

казалось что может быть лучше?

Alexander
19.07.2017
20:13:43
Если не ошибаюсь, вы ее главный разраб?)

Google
Alexander
19.07.2017
20:13:43
Делюсь инсайдом. Вот увидите! Осенью, в крайнем случае зимой, будет хайп по реактосу. Все угорят по нему, как сейчас по криптовалютам и спинерам Закупайтесь сейчас, пока не взлетело.

Alejandro
19.07.2017
20:43:48
Если не ошибаюсь, вы ее главный разраб?)
Не главный, но я из этой компании

Реактос кстати уже сейчас поддерживает udf, ext234 и btrfs

Страница 108 из 327