@bigdata_ru

Страница 34 из 327

Ivan

19.01.2017
22:03:27

> Buried in a Reddit comment, Francois Chollet, author of Keras and AI researcher at Google, made an exciting announcement: Keras will be the first high-level library added to core TensorFlow at Google, which will effectively make it TensorFlow’s default API.

Farruh

20.01.2017
08:01:45

Ребята нужен совет. Как лучше перевести существующую БД (на MSSQL) на Hadoop? Вообще стоит ли??

Андрей

20.01.2017
08:09:58

Для начала самому себе надо ответить на вопрос: зачем?

MSSQL не справляется? С какими типами запросов не справляется?

Google

Sergey

20.01.2017
08:19:42

Ребята нужен совет. Как лучше перевести существующую БД (на MSSQL) на Hadoop? Вообще стоит ли??

Возможно, лучше на Postgres

Daniel

20.01.2017
08:25:37

Возможно, лучше на Postgres

да что ж такое заведите инженера, эти решения явно не для вас

Farruh

20.01.2017
08:31:52

MSSQL не справляется? С какими типами запросов не справляется?

Да не справляется, для анализа данных. Количество запросов оч много, получается часто зависает

да что ж такое заведите инженера, эти решения явно не для вас

скорее всего заведем, но хотелось бы узнать у экспертов в этой области какой и путей лучше. Чтобы инженер не ошибся и не переделавать дважды одно рабоату

Андрей

20.01.2017
08:45:57

Да не справляется, для анализа данных. Количество запросов оч много, получается часто зависает

1. Оптимизировать запросы 2. Если не помогло, брать инженера и искать подходящие технологии

Хадуп - не панацея

если там лапша из джоинов, то станет только хуже

Farruh

20.01.2017
08:48:41

Хадуп - не панацея

Но объем данных большое, месяц региструются 500 000 человек

Доронин Евгений

20.01.2017
08:49:25

@Farruh5 Hadoop это не замена БД, это фреймворк для обработки большого объема данных. Это не серебрянная пуля и сам он не переварит много много данных. Какую бизнесс задачу вы хотите решить? А то может случиться, что вы поставить хадуп и у вас будут будут 2 проблемы: прошлая и хадуп

Farruh

20.01.2017
08:51:03

@Farruh5 Hadoop это не замена БД, это фреймворк для обработки большого объема данных. Это не серебрянная пуля и сам он не переварит много много данных. Какую бизнесс задачу вы хотите решить? А то может случиться, что вы поставить хадуп и у вас будут будут 2 проблемы: прошлая и хадуп

Задача создание профила клиентов

Доронин Евгений

20.01.2017
08:51:38

А вы определили что такое профиль клиента? из каких признаков он будет состоять?

А профиль клиента вам зачем? А какие требования ко времени составления профиля? Насколько быстро это нужно делать?

Farruh

20.01.2017
08:53:23

в течение часа, для интернет магазина, интернет магазин вроде как авито

Google

Pavel

20.01.2017
08:55:53

500 000 записей в месяц и *SQL должен кушать без проблем, вот когда будет 500 000 записей в минуту, то можно думать о Hadoop или о другой биг дате :) Скорее всего надо оптимизировать запросы и накинуть правильные индексы.

Oleksandr

20.01.2017
08:57:29

Но объем данных большое, месяц региструются 500 000 человек

500000 должна на раз-два жевать любая база, хоть мускуль, хоть мсскл, хоть что

скажем так

бигдата инструменты будут иметь смысл хотя бы от миллиарда записей

т.е. 2000х больше

Farruh

20.01.2017
08:59:21

500 000 записей в месяц и *SQL должен кушать без проблем, вот когда будет 500 000 записей в минуту, то можно думать о Hadoop или о другой биг дате :) Скорее всего надо оптимизировать запросы и накинуть правильные индексы.

Странно, но система сделана таким образом, что сперва данные записывается в EDW (в ночь 1 до 2) часов, и для аналитиков доступен только через день. Может тогда в системе что нибудь поменять?

Oleksandr

20.01.2017
08:59:37

Да, вероятно что-то было неудачно спроектировано

Pavel

20.01.2017
09:05:26

К сожалению я в технологиях MS не разбираюсь, думаю самым правильным вариантом будет найти специалиста-консультанта по вашему стеку технологий, чтобы он проанализировал ваши процессы и выдал варианты решения проблемы. Не посмотрев на конкретные данные, запросы и стек технологий что-то советовать не совсем корректно... Но пока могу сказать что в вашем случае думать о Hadoop не надо.

Farruh

20.01.2017
09:09:10

К сожалению я в технологиях MS не разбираюсь, думаю самым правильным вариантом будет найти специалиста-консультанта по вашему стеку технологий, чтобы он проанализировал ваши процессы и выдал варианты решения проблемы. Не посмотрев на конкретные данные, запросы и стек технологий что-то советовать не совсем корректно... Но пока могу сказать что в вашем случае думать о Hadoop не надо.

Спасибо всем за советы. Будем искать спец по МS

aodzaki.toko

20.01.2017
14:44:48

https://xakep.ru/2017/01/20/loops-in-r-v2/

Adil

20.01.2017
15:00:51

Хорошая статья?

Dan

20.01.2017
15:03:41

Хорошая

/dev

20.01.2017
15:03:51

Хорошая статья?

Вызывает чувство, что на R можно не только Research вести

Dan

20.01.2017
15:04:03

Но да, как-то неоднозначно

?

20.01.2017
15:12:11

Хорошая статья?

базовая для тех кто кроме цикла for ничего не знает для итерационного расчета чего-либо. Единственное там упоминается, что есть функции, которые можно только в один поток считать. Я с такими не встречался

KrivdaTheTriewe

20.01.2017
15:13:52

А можно группу попираю по хадуп стеку?

Alex

20.01.2017
15:15:11

А можно группу попираю по хадуп стеку?

Давай, если другой народ против то можно в личку.

Akceptor

20.01.2017
15:20:41

+ мне в личку тоже

KrivdaTheTriewe

20.01.2017
15:23:55

Я только сделал

https://t.me/hadoopusers

Google

Rtem

20.01.2017
18:03:15

Приветствую всех

Леонид

21.01.2017
09:34:52

Ребята нужен совет. Как лучше перевести существующую БД (на MSSQL) на Hadoop? Вообще стоит ли??

Не стоит. Hadoop использует совсем другой подход. То есть, под-проект перевести на хадуп можно (большие обсчеты данных, например), а mssql, с сохранением подхода - нет

Да не справляется, для анализа данных. Количество запросов оч много, получается часто зависает

Одно из условий для хадупа - объем данных. Посмотрите, есть ли у вас 10 терабайт, которые вы хотите в хадуп положить? Если нет, смотрите в сторону других решений.

Ruslan

21.01.2017
10:08:14

Одно из условий для хадупа - объем данных. Посмотрите, есть ли у вас 10 терабайт, которые вы хотите в хадуп положить? Если нет, смотрите в сторону других решений.

а что на счет спарка?

Леонид

21.01.2017
10:11:39

Со спарком я не работал, но если данных мало, их всегда можно обработать более простыми инструментами.

Roman

21.01.2017
10:48:48

Одно из условий для хадупа - объем данных. Посмотрите, есть ли у вас 10 терабайт, которые вы хотите в хадуп положить? Если нет, смотрите в сторону других решений.

Почему именно 10т. Я так понимаю кейс - все что не умещается на одной физической машине

Леонид

21.01.2017
10:54:09

Почему именно 10т. Я так понимаю кейс - все что не умещается на одной физической машине

Почти любая бд умеет шардирование, так что это можно считать критерием бигдата, но не причиной для использования хадупа

Roman

21.01.2017
10:55:38

Почти любая бд умеет шардирование, так что это можно считать критерием бигдата, но не причиной для использования хадупа

ну база это структурированные данные, hdfs все-таки в первую очередь хорош для неструктурированных логов

Леонид

21.01.2017
11:17:49

ну база это структурированные данные, hdfs все-таки в первую очередь хорош для неструктурированных логов

Если они на самом деле не структурированные, то обработать их невозможно ). Скорее структура есть, но может быть несколько вариантов логов и добавляться поля.

Roman

21.01.2017
11:29:16

В любом случае нужен новый DSL для каждой новой структуры, поэтому проще сразу яп юзать

Farruh

22.01.2017
00:53:53

В любом случае нужен новый DSL для каждой новой структуры, поэтому проще сразу яп юзать

я не очень понимаю что DSL и яп???

Constantine

22.01.2017
06:15:00

domain specific language

Constantine

22.01.2017
06:15:05

язык программирования

Farruh

22.01.2017
07:08:15

Получается лучше создать с помощью языков программирование (Java, Phyton, R) приложения для обработки данных, я правильно понял?

Леонид

22.01.2017
09:01:53

Получается лучше создать с помощью языков программирование (Java, Phyton, R) приложения для обработки данных, я правильно понял?

Специализированные инструменты будут быстрее самописных в очень многих случаях. Так что лучше всего использовать подходящий инструмент

Farruh

22.01.2017
09:04:41

Специализированные инструменты будут быстрее самописных в очень многих случаях. Так что лучше всего использовать подходящий инструмент

Например? Типа Microsoft BI или ???

Леонид

22.01.2017
09:07:27

Есть десятки инструментов под разные задачи. В вашем случае вы можете просто поменять архитектуру или (вдруг) просто добавить индексов.

Можете выбрать колоночную базу данных (задача описана не очень четко, может не подойти)

Если я правильно понял ваши объемы (миллионы записей), то дело не в хранилище. Любая, самая популярная база данных справится с таким объемом

Оч много запросов - это сколько в секунду? Сколько джойнов в каждом?

Google

Admin

ERROR: S client not available

Леонид

22.01.2017
09:17:00

Например? Типа Microsoft BI или ???

Если ваш класс задач подходит под bi, то да, нормальный инструмент. Если у вас пяток отчетов, то удобнее самим их сделать

Farruh

22.01.2017
09:28:19

Если ваш класс задач подходит под bi, то да, нормальный инструмент. Если у вас пяток отчетов, то удобнее самим их сделать

Количество отчетов более 100 и с каждым днем растет. Значит надо изучить инструменты под разные задачи. Можете подсказать где найти инфу про инструменты? p.s. Количество запросов и джойнов еще не знаю. Как узнаю напишу, надо посмотреть и посчитать. Здесь количество запросов надо учитывать в пик время или в среднем?

Леонид

22.01.2017
09:40:08

Про поиск информации по готовым инструментам не могу подсказать (кроме Гугла, конечно), я не пользователь аналитики, а разработчик. По количеству запросов - можно скинуть график.

Snow

22.01.2017
15:44:09

Кстати давно хотел сказать курс от Яндекса по бигдате на курсере - днище адовое. Не ведитесь и не покупайте. В виде лекторов - подростки, дикция соответствующая, материал скомкан. Дополнительных материалов нет.

Pavel

22.01.2017
15:55:28

А что есть лучше?

Oleksandr

22.01.2017
16:01:51

если интересен спарк, то по нему в феврале будет курс

https://www.coursera.org/learn/big-data-analysys

Ksenia

22.01.2017
17:01:50

Кстати давно хотел сказать курс от Яндекса по бигдате на курсере - днище адовое. Не ведитесь и не покупайте. В виде лекторов - подростки, дикция соответствующая, материал скомкан. Дополнительных материалов нет.

Имеется в виду не курс по машинному обучению от яндекса и физтеха, а другой? Конкретно по бигдате?

Просто по машинному обучению тут советовали и я хотела пройти...

La da de

22.01.2017
17:11:24

Кстати давно хотел сказать курс от Яндекса по бигдате на курсере - днище адовое. Не ведитесь и не покупайте. В виде лекторов - подростки, дикция соответствующая, материал скомкан. Дополнительных материалов нет.

Солидарен с этим. Объясняют просто хуже не куда)

Snow

22.01.2017
17:13:20

Имеется в виду не курс по машинному обучению от яндекса и физтеха, а другой? Конкретно по бигдате?

Именно этот, лекторы просто мрак.

La da de

22.01.2017
17:16:31

Ну я так понял курс больше рассчитан на тех кто знаком очень хорошо с книгой винберг машинное обучение и неплохо владеет питоном

Snow

22.01.2017
17:24:19

Ну я так понял курс больше рассчитан на тех кто знаком очень хорошо с книгой винберг машинное обучение и неплохо владеет питоном

Он рассчитан на мазохистов способных терпеть эти шепелеватые лекции

Geronimo

22.01.2017
17:24:56

Он рассчитан на мазохистов способных терпеть эти шепелеватые лекции

Главное что не индус

La da de

22.01.2017
17:28:03

Больше бесил лектор по питону

Когда он развалившись на стуле

Объяснял основы питона

Snow

22.01.2017
17:34:16

Объяснял основы питона

Меня все выбесили, афродевочка например, явно никогда публично не выступала. Лекции никто не прописывал, похоже на школьную самодеятельность

La da de

22.01.2017
17:34:30

?

Google

Ilya

22.01.2017
17:42:21

а что вообще посоветуете для изучения новичку в бигдате?

(я имею ввиду фундаментально)

Ksenia

22.01.2017
17:54:07

Всегда скептически относилась к русскоязычным курсам) но в дата сайнс чат ее как раз советовали, эту специализацию.

Впрочем, мне все равно надо немного хотя бы питон подучить, прежде чем ее проходить

Snow

22.01.2017
18:16:58

Всегда скептически относилась к русскоязычным курсам) но в дата сайнс чат ее как раз советовали, эту специализацию.

На безрыбье и рак рыба конечно, но 100% советовал либо один из создателей, либо тот кто не пытался этот ад смотреть.

Идеальны курсы от линды и удеми - там видна работа, информация разбита на удобные кусочки, все визулизированно и разжевано, одна проблема - дорого и нужен хороший скилл листенинга.

Ilya

22.01.2017
18:25:13

Идеальны курсы от линды и удеми - там видна работа, информация разбита на удобные кусочки, все визулизированно и разжевано, одна проблема - дорого и нужен хороший скилл листенинга.

скинь ссылки плз, не совсем понял, о чем речь

Snow

22.01.2017
18:26:01

https://www.lynda.com/Big-Data-training-tutorials/2061-0.html вот например

Открыть в Telegram