
Ivan
19.01.2017
22:03:27
> Buried in a Reddit comment, Francois Chollet, author of Keras and AI researcher at Google, made an exciting announcement: Keras will be the first high-level library added to core TensorFlow at Google, which will effectively make it TensorFlow’s default API.

Farruh
20.01.2017
08:01:45
Ребята нужен совет. Как лучше перевести существующую БД (на MSSQL) на Hadoop? Вообще стоит ли??

Андрей
20.01.2017
08:09:58
Для начала самому себе надо ответить на вопрос: зачем?
MSSQL не справляется? С какими типами запросов не справляется?

Google

Sergey
20.01.2017
08:19:42

Daniel
20.01.2017
08:25:37

Farruh
20.01.2017
08:31:52

Андрей
20.01.2017
08:45:57
Хадуп - не панацея
если там лапша из джоинов, то станет только хуже

Farruh
20.01.2017
08:48:41

Доронин Евгений
20.01.2017
08:49:25
@Farruh5 Hadoop это не замена БД, это фреймворк для обработки большого объема данных.
Это не серебрянная пуля и сам он не переварит много много данных.
Какую бизнесс задачу вы хотите решить?
А то может случиться, что вы поставить хадуп и у вас будут будут 2 проблемы: прошлая и хадуп

Farruh
20.01.2017
08:51:03

Доронин Евгений
20.01.2017
08:51:38
А вы определили что такое профиль клиента?
из каких признаков он будет состоять?
А профиль клиента вам зачем? А какие требования ко времени составления профиля? Насколько быстро это нужно делать?

Farruh
20.01.2017
08:53:23
в течение часа, для интернет магазина, интернет магазин вроде как авито

Google

Pavel
20.01.2017
08:55:53
500 000 записей в месяц и *SQL должен кушать без проблем, вот когда будет 500 000 записей в минуту, то можно думать о Hadoop или о другой биг дате :) Скорее всего надо оптимизировать запросы и накинуть правильные индексы.

Oleksandr
20.01.2017
08:57:29
скажем так
бигдата инструменты будут иметь смысл хотя бы от миллиарда записей
т.е. 2000х больше

Farruh
20.01.2017
08:59:21

Oleksandr
20.01.2017
08:59:37
Да, вероятно что-то было неудачно спроектировано

Pavel
20.01.2017
09:05:26
К сожалению я в технологиях MS не разбираюсь, думаю самым правильным вариантом будет найти специалиста-консультанта по вашему стеку технологий, чтобы он проанализировал ваши процессы и выдал варианты решения проблемы. Не посмотрев на конкретные данные, запросы и стек технологий что-то советовать не совсем корректно... Но пока могу сказать что в вашем случае думать о Hadoop не надо.

Farruh
20.01.2017
09:09:10

aodzaki.toko
20.01.2017
14:44:48
https://xakep.ru/2017/01/20/loops-in-r-v2/

Adil
20.01.2017
15:00:51
Хорошая статья?

Dan
20.01.2017
15:03:41
Хорошая

/dev
20.01.2017
15:03:51

Dan
20.01.2017
15:04:03
Но да, как-то неоднозначно

?
20.01.2017
15:12:11
Хорошая статья?
базовая для тех кто кроме цикла for ничего не знает для итерационного расчета чего-либо. Единственное там упоминается, что есть функции, которые можно только в один поток считать. Я с такими не встречался

KrivdaTheTriewe
20.01.2017
15:13:52
А можно группу попираю по хадуп стеку?

Alex
20.01.2017
15:15:11

Akceptor
20.01.2017
15:20:41
+ мне в личку тоже

KrivdaTheTriewe
20.01.2017
15:23:55
Я только сделал
https://t.me/hadoopusers

Google

Rtem
20.01.2017
18:03:15
Приветствую всех

Леонид
21.01.2017
09:34:52

Ruslan
21.01.2017
10:08:14

Леонид
21.01.2017
10:11:39
Со спарком я не работал, но если данных мало, их всегда можно обработать более простыми инструментами.

Roman
21.01.2017
10:48:48

Леонид
21.01.2017
10:54:09

Roman
21.01.2017
10:55:38

Леонид
21.01.2017
11:17:49

Roman
21.01.2017
11:29:16
В любом случае нужен новый DSL для каждой новой структуры, поэтому проще сразу яп юзать

Farruh
22.01.2017
00:53:53

Constantine
22.01.2017
06:15:00
domain specific language

Constantine
22.01.2017
06:15:05
язык программирования

Farruh
22.01.2017
07:08:15
Получается лучше создать с помощью языков программирование (Java, Phyton, R) приложения для обработки данных, я правильно понял?

Леонид
22.01.2017
09:01:53

Farruh
22.01.2017
09:04:41

Леонид
22.01.2017
09:07:27
Есть десятки инструментов под разные задачи.
В вашем случае вы можете просто поменять архитектуру или (вдруг) просто добавить индексов.
Можете выбрать колоночную базу данных (задача описана не очень четко, может не подойти)
Если я правильно понял ваши объемы (миллионы записей), то дело не в хранилище. Любая, самая популярная база данных справится с таким объемом
Оч много запросов - это сколько в секунду? Сколько джойнов в каждом?

Google

Admin
ERROR: S client not available

Леонид
22.01.2017
09:17:00

Farruh
22.01.2017
09:28:19

Леонид
22.01.2017
09:40:08
Про поиск информации по готовым инструментам не могу подсказать (кроме Гугла, конечно), я не пользователь аналитики, а разработчик.
По количеству запросов - можно скинуть график.

Snow
22.01.2017
15:44:09
Кстати давно хотел сказать курс от Яндекса по бигдате на курсере - днище адовое. Не ведитесь и не покупайте. В виде лекторов - подростки, дикция соответствующая, материал скомкан. Дополнительных материалов нет.

Pavel
22.01.2017
15:55:28
А что есть лучше?

Oleksandr
22.01.2017
16:01:51
если интересен спарк, то по нему в феврале будет курс
https://www.coursera.org/learn/big-data-analysys

Ksenia
22.01.2017
17:01:50
Просто по машинному обучению тут советовали и я хотела пройти...

La da de
22.01.2017
17:11:24

Snow
22.01.2017
17:13:20

La da de
22.01.2017
17:16:31
Ну я так понял курс больше рассчитан на тех кто знаком очень хорошо с книгой винберг машинное обучение и неплохо владеет питоном

Snow
22.01.2017
17:24:19

Geronimo
22.01.2017
17:24:56

La da de
22.01.2017
17:28:03
Больше бесил лектор по питону
Когда он развалившись на стуле
Объяснял основы питона

Snow
22.01.2017
17:34:16
Объяснял основы питона
Меня все выбесили, афродевочка например, явно никогда публично не выступала. Лекции никто не прописывал, похоже на школьную самодеятельность

La da de
22.01.2017
17:34:30
?

Google

Ilya
22.01.2017
17:42:21
а что вообще посоветуете для изучения новичку в бигдате?
(я имею ввиду фундаментально)

Ksenia
22.01.2017
17:54:07
Всегда скептически относилась к русскоязычным курсам) но в дата сайнс чат ее как раз советовали, эту специализацию.
Впрочем, мне все равно надо немного хотя бы питон подучить, прежде чем ее проходить

Snow
22.01.2017
18:16:58
Идеальны курсы от линды и удеми - там видна работа, информация разбита на удобные кусочки, все визулизированно и разжевано, одна проблема - дорого и нужен хороший скилл листенинга.

Ilya
22.01.2017
18:25:13

Snow
22.01.2017
18:26:01
https://www.lynda.com/Big-Data-training-tutorials/2061-0.html вот например
https://www.udemy.com/big-data-and-hadoop-essentials-free-tutorial/