@bigdata_ru

Страница 153 из 327
Nikolay
09.10.2017
16:52:52
http://img0.reactor.cc/pics/post/%D0%B0%D0%B2%D1%82%D0%BE-%D0%BF%D1%80%D0%B8%D0%BA%D0%BE%D0%BB%D1%8B-51006.jpeg

Удобная хоть?
зависит от того как ты держишь мышку

я держу пальцами и ладонь на неё не кладу - поэтому удобно

Google
Nikolay
09.10.2017
16:56:05
А зацикливания нигде нету?
походу реал зацикливание, точнее не сходиться

попробовал PCA воспользоваться, ничего полезного не даёт

вобщем буду работать с датасетом

Vlad
09.10.2017
16:56:52
А просто пробежать по датасету если?

Хотя бы изолировать логику ломающую

Nikolay
09.10.2017
16:57:29
как пробежать?

Vlad
09.10.2017
16:57:50
Ну внутряков я не знаю и особенностей задачи.

Nikolay
09.10.2017
16:58:08
глазами ты имеешь ввиду?

Vlad
09.10.2017
16:58:51
Кодом. Я так понимаю, кластеризация для распараллеливания обработки датасета?

Nikolay
09.10.2017
16:59:08
код в студию
k.max <- 15 # максимальное число кластеров wss <- sapply(1:k.max, function(k){ kmeans(df.stand, k, nstart = 10)$tot.withinss }) fviz_nbclust(df.stand, kmeans, method = "wss") + geom_vline(xintercept = 4, linetype = 2)

Andrey
09.10.2017
17:00:00
ну так 15 итераций по 10 итераций

Nikolay
09.10.2017
17:00:04
Кодом. Я так понимаю, кластеризация для распараллеливания обработки датасета?
задача простая: разбить клиентов на кластера по данным о прошлых покупках

Google
Andrey
09.10.2017
17:00:07
может, поэтому?

Nikolay
09.10.2017
17:01:20
ну не почти 500 гигов же

Andrey
09.10.2017
17:01:30
это да

Vlad
09.10.2017
17:01:39
10*15*300000? Выше же писали с расчетом, что даже 300000 * 300000 не даст такого сюрприза :)

хотя... пересчитаю сам

Andrey
09.10.2017
17:05:05
попробуй http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/k-means.html

Vlad
09.10.2017
17:05:57
если к примеру, у нас есть 300к*300к = 90ккк символов, если в латинице, то 1 символ = 1 байт, если unicode. Это ну максимум без учета хранения структур 83 гига

Denis
10.10.2017
07:57:40
всем привет! есть библиотека pyspark для вычислений на spark трансформаций, которые написаны на python. Но наверняка не все трансформации поддерживаются. Подскажите как найти таблицу соответствий команд, которые есть в pyspark и соответствующие им команды в python

Alexander
10.10.2017
07:59:30
Трансформации с pandas нужно перенести на pyspark?

Артём
10.10.2017
16:49:50
Может кому полезно будет

Evgeniy
10.10.2017
16:52:30
может)

Dan
10.10.2017
17:10:52
https://habrahabr.ru/company/mailru/blog/339496/

Кто спрашивал - вот подборка датасетов

Vlad
10.10.2017
17:12:07
http://academictorrents.com/browse.php?cat=6 вот ещё есть

mrx
11.10.2017
13:15:41
господа, pandas умеет пересекать множества по признаку? задача такая, есть два разных датафрейма, общий только столбец с датой. хочу в первом оставить только те значения, где дата пересекается с множеством второго. вроде как merge не подходит.

Drino
11.10.2017
13:17:23
join?

Google
mrx
11.10.2017
13:19:31
Да, получается isin подходит. Спасибо!

Nikolay
11.10.2017
13:28:32
раз уж тема пошла ? может кто подскажет? почему после удаления столбцов из таблицы: DS <- select(DS, -col1, -col2) выдаёт ошибку, при попытке преобразования в матрицу: mat = as.matrix(DS) ошибка: length of 'dimnames' [2] not equal to array extent

если удалять стоблцы так: DS <- DS[c(-2, -3, -4)] то затираются названия стобцов

*все столбцы имеют числовое название

Alexander
11.10.2017
13:50:40
Братцы, в чем разница бигдата разработчика от дата инженера?

Ведь оба настраивают потоки данных в хранилище?

eli5 а то я с деревни

.
11.10.2017
13:51:36
Что такое eli5?

А то я с деревни

Drino
11.10.2017
13:51:56
explain like i'm five

Andrey
11.10.2017
13:51:57
ну типо разраб разрабатывает код немножко еще. А дата инженер честно говоря ваще хз. дампы перекладывает с одного стореджа на другой))

Peter
11.10.2017
13:52:16
Наверное, инженер работает с архитектурой и железом хранилищ, а бигдата разраб - с фреймворками, железом и архитектурой для обсчета. Хотя хз

Наверное, они как сиамские близнецы должны быть в итоге

Alexander
11.10.2017
13:53:09
Что такое eli5?
объясни, как будто мне 5 лет.

Наверное, они как сиамские близнецы должны быть в итоге
вот и я сейчас в ступор пришел. раньше думал - разные профессии. Первый настраивает Хадуп со спраком, второй занимается ДатаФлоу в прод.

а потом до меня дошло, что это почти то же самое.

и я ничего не понял

.
11.10.2017
13:54:46
Peter
11.10.2017
14:04:32
Ну в современном понимании это близкие профессии, наверное, да. Но если делить по функциям: один отвечает за хранение данных и все связанное, другой за расчеты на данных и все связанное - есть логика в разделении. В большом предприятии это по идее д б разные люди/отделы. Просто оба должны знать все про все, как-то так

Artem
11.10.2017
14:10:33
Рядом со святым Граалем

Google
Juris.L.??
11.10.2017
15:38:59
DeepMind!

yopp
11.10.2017
16:14:28
Из-за твоего бота у меня теперь висит неубиваемая собачка в этом чяте

yopp
11.10.2017
16:15:12
Бота надо отучить выпиливать меньшены пользователей

Dan
11.10.2017
16:44:26
Бота надо отучить выпиливать меньшены пользователей
это хорошая идея. я уже прямо вот точно не помню правда причину, почему мы решили вообще выпиливать меншены, но да, надо обдумать

Сергей
11.10.2017
16:49:31
А подскажите новичку - какие IDE\RAD есть для нейронок? Не только писать, а тренировать, смотреть, вот это всё? (ubuntu если важно)

И еще сразу - какую архитектуру выбрать под анализ текстов программного кода7

Валентин
11.10.2017
16:52:04
Antonio
11.10.2017
20:43:13
подскажите такой вопрос, вот в вики написано что "Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. " а какие методы обучения требуют модель окружающей среды?

yopp
11.10.2017
21:05:00
Гипотетически, есть несколько потоков данных, например два видео (720p@30fps, hvec), четыре канала аудио (AAC, 96kbit на канал), данные с инерциальный системы на на 60Гц (9 осей, плюс давление и температура, часть данных с более высокой частотой, часть с менее), gps/glonass @ 1Hz, биометрия @ 0.01(6)Hz (пульс, температура виска). Поток 24/7, но в зависимости от могут быть пробелы (например нет видео в ночное время). Ретроспективно доступно последние 360 дней данных. Какие идеи смешных проектов с этим набором есть у чата?

Уточню: данные с носимого устройства на человеке. Стерео видео по углу обзора чуть шире человеческой пары глаз. Звук пишется с четырёх точек, можно считать что покрывает 360 градусов.

Страница 153 из 327