@bigdata_ru

Страница 34 из 327
Ivan
19.01.2017
22:03:27
> Buried in a Reddit comment, Francois Chollet, author of Keras and AI researcher at Google, made an exciting announcement: Keras will be the first high-level library added to core TensorFlow at Google, which will effectively make it TensorFlow’s default API.

Farruh
20.01.2017
08:01:45
Ребята нужен совет. Как лучше перевести существующую БД (на MSSQL) на Hadoop? Вообще стоит ли??

Андрей
20.01.2017
08:09:58
Для начала самому себе надо ответить на вопрос: зачем?

MSSQL не справляется? С какими типами запросов не справляется?

Google
Daniel
20.01.2017
08:25:37
Возможно, лучше на Postgres
да что ж такое заведите инженера, эти решения явно не для вас

Farruh
20.01.2017
08:31:52
MSSQL не справляется? С какими типами запросов не справляется?
Да не справляется, для анализа данных. Количество запросов оч много, получается часто зависает

да что ж такое заведите инженера, эти решения явно не для вас
скорее всего заведем, но хотелось бы узнать у экспертов в этой области какой и путей лучше. Чтобы инженер не ошибся и не переделавать дважды одно рабоату

Андрей
20.01.2017
08:45:57
Да не справляется, для анализа данных. Количество запросов оч много, получается часто зависает
1. Оптимизировать запросы 2. Если не помогло, брать инженера и искать подходящие технологии

Хадуп - не панацея

если там лапша из джоинов, то станет только хуже

Farruh
20.01.2017
08:48:41
Хадуп - не панацея
Но объем данных большое, месяц региструются 500 000 человек

Доронин Евгений
20.01.2017
08:49:25
@Farruh5 Hadoop это не замена БД, это фреймворк для обработки большого объема данных. Это не серебрянная пуля и сам он не переварит много много данных. Какую бизнесс задачу вы хотите решить? А то может случиться, что вы поставить хадуп и у вас будут будут 2 проблемы: прошлая и хадуп

Доронин Евгений
20.01.2017
08:51:38
А вы определили что такое профиль клиента? из каких признаков он будет состоять?

А профиль клиента вам зачем? А какие требования ко времени составления профиля? Насколько быстро это нужно делать?

Farruh
20.01.2017
08:53:23
в течение часа, для интернет магазина, интернет магазин вроде как авито

Google
Pavel
20.01.2017
08:55:53
500 000 записей в месяц и *SQL должен кушать без проблем, вот когда будет 500 000 записей в минуту, то можно думать о Hadoop или о другой биг дате :) Скорее всего надо оптимизировать запросы и накинуть правильные индексы.

Oleksandr
20.01.2017
08:57:29
Но объем данных большое, месяц региструются 500 000 человек
500000 должна на раз-два жевать любая база, хоть мускуль, хоть мсскл, хоть что

скажем так

бигдата инструменты будут иметь смысл хотя бы от миллиарда записей

т.е. 2000х больше

Farruh
20.01.2017
08:59:21
500 000 записей в месяц и *SQL должен кушать без проблем, вот когда будет 500 000 записей в минуту, то можно думать о Hadoop или о другой биг дате :) Скорее всего надо оптимизировать запросы и накинуть правильные индексы.
Странно, но система сделана таким образом, что сперва данные записывается в EDW (в ночь 1 до 2) часов, и для аналитиков доступен только через день. Может тогда в системе что нибудь поменять?

Oleksandr
20.01.2017
08:59:37
Да, вероятно что-то было неудачно спроектировано

Pavel
20.01.2017
09:05:26
К сожалению я в технологиях MS не разбираюсь, думаю самым правильным вариантом будет найти специалиста-консультанта по вашему стеку технологий, чтобы он проанализировал ваши процессы и выдал варианты решения проблемы. Не посмотрев на конкретные данные, запросы и стек технологий что-то советовать не совсем корректно... Но пока могу сказать что в вашем случае думать о Hadoop не надо.

aodzaki.toko
20.01.2017
14:44:48
https://xakep.ru/2017/01/20/loops-in-r-v2/

Adil
20.01.2017
15:00:51
Хорошая статья?

Dan
20.01.2017
15:03:41
Хорошая

/dev
20.01.2017
15:03:51
Хорошая статья?
Вызывает чувство, что на R можно не только Research вести

Dan
20.01.2017
15:04:03
Но да, как-то неоднозначно

?
20.01.2017
15:12:11
Хорошая статья?
базовая для тех кто кроме цикла for ничего не знает для итерационного расчета чего-либо. Единственное там упоминается, что есть функции, которые можно только в один поток считать. Я с такими не встречался

KrivdaTheTriewe
20.01.2017
15:13:52
А можно группу попираю по хадуп стеку?

Alex
20.01.2017
15:15:11
А можно группу попираю по хадуп стеку?
Давай, если другой народ против то можно в личку.

Akceptor
20.01.2017
15:20:41
+ мне в личку тоже

KrivdaTheTriewe
20.01.2017
15:23:55
Я только сделал

https://t.me/hadoopusers

Google
Rtem
20.01.2017
18:03:15
Приветствую всех

Леонид
21.01.2017
09:34:52
Ребята нужен совет. Как лучше перевести существующую БД (на MSSQL) на Hadoop? Вообще стоит ли??
Не стоит. Hadoop использует совсем другой подход. То есть, под-проект перевести на хадуп можно (большие обсчеты данных, например), а mssql, с сохранением подхода - нет

Да не справляется, для анализа данных. Количество запросов оч много, получается часто зависает
Одно из условий для хадупа - объем данных. Посмотрите, есть ли у вас 10 терабайт, которые вы хотите в хадуп положить? Если нет, смотрите в сторону других решений.

Леонид
21.01.2017
10:11:39
Со спарком я не работал, но если данных мало, их всегда можно обработать более простыми инструментами.

Леонид
21.01.2017
10:54:09
Почему именно 10т. Я так понимаю кейс - все что не умещается на одной физической машине
Почти любая бд умеет шардирование, так что это можно считать критерием бигдата, но не причиной для использования хадупа

Roman
21.01.2017
10:55:38
Почти любая бд умеет шардирование, так что это можно считать критерием бигдата, но не причиной для использования хадупа
ну база это структурированные данные, hdfs все-таки в первую очередь хорош для неструктурированных логов

Леонид
21.01.2017
11:17:49
ну база это структурированные данные, hdfs все-таки в первую очередь хорош для неструктурированных логов
Если они на самом деле не структурированные, то обработать их невозможно ). Скорее структура есть, но может быть несколько вариантов логов и добавляться поля.

Roman
21.01.2017
11:29:16
В любом случае нужен новый DSL для каждой новой структуры, поэтому проще сразу яп юзать

Constantine
22.01.2017
06:15:00
domain specific language

Constantine
22.01.2017
06:15:05
язык программирования

Farruh
22.01.2017
07:08:15
Получается лучше создать с помощью языков программирование (Java, Phyton, R) приложения для обработки данных, я правильно понял?

Леонид
22.01.2017
09:01:53
Получается лучше создать с помощью языков программирование (Java, Phyton, R) приложения для обработки данных, я правильно понял?
Специализированные инструменты будут быстрее самописных в очень многих случаях. Так что лучше всего использовать подходящий инструмент

Леонид
22.01.2017
09:07:27
Есть десятки инструментов под разные задачи. В вашем случае вы можете просто поменять архитектуру или (вдруг) просто добавить индексов.

Можете выбрать колоночную базу данных (задача описана не очень четко, может не подойти)

Если я правильно понял ваши объемы (миллионы записей), то дело не в хранилище. Любая, самая популярная база данных справится с таким объемом

Оч много запросов - это сколько в секунду? Сколько джойнов в каждом?

Google
Admin
ERROR: S client not available

Леонид
22.01.2017
09:17:00
Например? Типа Microsoft BI или ???
Если ваш класс задач подходит под bi, то да, нормальный инструмент. Если у вас пяток отчетов, то удобнее самим их сделать

Farruh
22.01.2017
09:28:19
Если ваш класс задач подходит под bi, то да, нормальный инструмент. Если у вас пяток отчетов, то удобнее самим их сделать
Количество отчетов более 100 и с каждым днем растет. Значит надо изучить инструменты под разные задачи. Можете подсказать где найти инфу про инструменты? p.s. Количество запросов и джойнов еще не знаю. Как узнаю напишу, надо посмотреть и посчитать. Здесь количество запросов надо учитывать в пик время или в среднем?

Леонид
22.01.2017
09:40:08
Про поиск информации по готовым инструментам не могу подсказать (кроме Гугла, конечно), я не пользователь аналитики, а разработчик. По количеству запросов - можно скинуть график.

Snow
22.01.2017
15:44:09
Кстати давно хотел сказать курс от Яндекса по бигдате на курсере - днище адовое. Не ведитесь и не покупайте. В виде лекторов - подростки, дикция соответствующая, материал скомкан. Дополнительных материалов нет.

Pavel
22.01.2017
15:55:28
А что есть лучше?

Oleksandr
22.01.2017
16:01:51
если интересен спарк, то по нему в феврале будет курс

https://www.coursera.org/learn/big-data-analysys

Ksenia
22.01.2017
17:01:50
Просто по машинному обучению тут советовали и я хотела пройти...

La da de
22.01.2017
17:16:31
Ну я так понял курс больше рассчитан на тех кто знаком очень хорошо с книгой винберг машинное обучение и неплохо владеет питоном

La da de
22.01.2017
17:28:03
Больше бесил лектор по питону

Когда он развалившись на стуле

Объяснял основы питона

Snow
22.01.2017
17:34:16
Объяснял основы питона
Меня все выбесили, афродевочка например, явно никогда публично не выступала. Лекции никто не прописывал, похоже на школьную самодеятельность

La da de
22.01.2017
17:34:30
?

Google
Ilya
22.01.2017
17:42:21
а что вообще посоветуете для изучения новичку в бигдате?

(я имею ввиду фундаментально)

Ksenia
22.01.2017
17:54:07
Всегда скептически относилась к русскоязычным курсам) но в дата сайнс чат ее как раз советовали, эту специализацию.

Впрочем, мне все равно надо немного хотя бы питон подучить, прежде чем ее проходить

Snow
22.01.2017
18:16:58
Всегда скептически относилась к русскоязычным курсам) но в дата сайнс чат ее как раз советовали, эту специализацию.
На безрыбье и рак рыба конечно, но 100% советовал либо один из создателей, либо тот кто не пытался этот ад смотреть.

Идеальны курсы от линды и удеми - там видна работа, информация разбита на удобные кусочки, все визулизированно и разжевано, одна проблема - дорого и нужен хороший скилл листенинга.

Snow
22.01.2017
18:26:01
https://www.lynda.com/Big-Data-training-tutorials/2061-0.html вот например

https://www.udemy.com/big-data-and-hadoop-essentials-free-tutorial/

Страница 34 из 327