@bigdata_ru

« Назад

Страница 153 из 327

Далее »

Nikolay

09.10.2017
16:52:52

http://img0.reactor.cc/pics/post/%D0%B0%D0%B2%D1%82%D0%BE-%D0%BF%D1%80%D0%B8%D0%BA%D0%BE%D0%BB%D1%8B-51006.jpeg

Удобная хоть?

зависит от того как ты держишь мышку

я держу пальцами и ладонь на неё не кладу - поэтому удобно

?

09.10.2017
16:54:23

я держу пальцами и ладонь на неё не кладу - поэтому удобно

Круто. Такую же хочу

Google

Nikolay

09.10.2017
16:56:05

А зацикливания нигде нету?

походу реал зацикливание, точнее не сходиться

попробовал PCA воспользоваться, ничего полезного не даёт

вобщем буду работать с датасетом

Vlad

09.10.2017
16:56:52

А просто пробежать по датасету если?

Хотя бы изолировать логику ломающую

Nikolay

09.10.2017
16:57:29

как пробежать?

Andrey

09.10.2017
16:57:48

походу реал зацикливание, точнее не сходиться

код в студию

Vlad

09.10.2017
16:57:50

Ну внутряков я не знаю и особенностей задачи.

Nikolay

09.10.2017
16:58:08

глазами ты имеешь ввиду?

Vlad

09.10.2017
16:58:51

Кодом. Я так понимаю, кластеризация для распараллеливания обработки датасета?

Nikolay

09.10.2017
16:59:08

код в студию

k.max <- 15 # максимальное число кластеров wss <- sapply(1:k.max, function(k){ kmeans(df.stand, k, nstart = 10)$tot.withinss }) fviz_nbclust(df.stand, kmeans, method = "wss") + geom_vline(xintercept = 4, linetype = 2)

Andrey

09.10.2017
17:00:00

ну так 15 итераций по 10 итераций

Nikolay

09.10.2017
17:00:04

Кодом. Я так понимаю, кластеризация для распараллеливания обработки датасета?

задача простая: разбить клиентов на кластера по данным о прошлых покупках

Google

Andrey

09.10.2017
17:00:07

может, поэтому?

Nikolay

09.10.2017
17:01:20

ну не почти 500 гигов же

Andrey

09.10.2017
17:01:30

это да

Vlad

09.10.2017
17:01:39

10*15*300000? Выше же писали с расчетом, что даже 300000 * 300000 не даст такого сюрприза :)

хотя... пересчитаю сам

Andrey

09.10.2017
17:05:05

попробуй http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/k-means.html

Vlad

09.10.2017
17:05:57

если к примеру, у нас есть 300к*300к = 90ккк символов, если в латинице, то 1 символ = 1 байт, если unicode. Это ну максимум без учета хранения структур 83 гига

Nikolay

09.10.2017
17:29:09

попробуй http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/k-means.html

Угу, спасибо

если к примеру, у нас есть 300к*300к = 90ккк символов, если в латинице, то 1 символ = 1 байт, если unicode. Это ну максимум без учета хранения структур 83 гига

Одни числа: суммы и количества

Denis

10.10.2017
07:57:40

всем привет! есть библиотека pyspark для вычислений на spark трансформаций, которые написаны на python. Но наверняка не все трансформации поддерживаются. Подскажите как найти таблицу соответствий команд, которые есть в pyspark и соответствующие им команды в python

Alexander

10.10.2017
07:59:30

Трансформации с pandas нужно перенести на pyspark?

Артём

10.10.2017
16:49:50

Может кому полезно будет

Evgeniy

10.10.2017
16:52:30

может)

Dan

10.10.2017
17:10:52

https://habrahabr.ru/company/mailru/blog/339496/

Кто спрашивал - вот подборка датасетов

Vlad

10.10.2017
17:12:07

http://academictorrents.com/browse.php?cat=6 вот ещё есть

mrx

11.10.2017
13:15:41

господа, pandas умеет пересекать множества по признаку? задача такая, есть два разных датафрейма, общий только столбец с датой. хочу в первом оставить только те значения, где дата пересекается с множеством второго. вроде как merge не подходит.

Drino

11.10.2017
13:17:23

join?

tonko

11.10.2017
13:18:15

господа, pandas умеет пересекать множества по признаку? задача такая, есть два разных датафрейма, общий только столбец с датой. хочу в первом оставить только те значения, где дата пересекается с множеством второго. вроде как merge не подходит.

поидее это параметрами merge регулируется

Google

mrx

11.10.2017
13:19:31

Да, получается isin подходит. Спасибо!

Nikolay

11.10.2017
13:28:32

раз уж тема пошла ? может кто подскажет? почему после удаления столбцов из таблицы: DS <- select(DS, -col1, -col2) выдаёт ошибку, при попытке преобразования в матрицу: mat = as.matrix(DS) ошибка: length of 'dimnames' [2] not equal to array extent

если удалять стоблцы так: DS <- DS[c(-2, -3, -4)] то затираются названия стобцов

*все столбцы имеют числовое название

Alexander

11.10.2017
13:50:40

Братцы, в чем разница бигдата разработчика от дата инженера?

Ведь оба настраивают потоки данных в хранилище?

eli5 а то я с деревни

.

11.10.2017
13:51:36

Что такое eli5?

А то я с деревни

Drino

11.10.2017
13:51:56

explain like i'm five

Andrey

11.10.2017
13:51:57

ну типо разраб разрабатывает код немножко еще. А дата инженер честно говоря ваще хз. дампы перекладывает с одного стореджа на другой))

Peter

11.10.2017
13:52:16

Наверное, инженер работает с архитектурой и железом хранилищ, а бигдата разраб - с фреймворками, железом и архитектурой для обсчета. Хотя хз

Наверное, они как сиамские близнецы должны быть в итоге

Alexander

11.10.2017
13:53:09

Что такое eli5?

объясни, как будто мне 5 лет.

Наверное, они как сиамские близнецы должны быть в итоге

вот и я сейчас в ступор пришел. раньше думал - разные профессии. Первый настраивает Хадуп со спраком, второй занимается ДатаФлоу в прод.

а потом до меня дошло, что это почти то же самое.

и я ничего не понял

.

11.10.2017
13:54:46

объясни, как будто мне 5 лет.

Лоль... Понятно

Peter

11.10.2017
14:04:32

Ну в современном понимании это близкие профессии, наверное, да. Но если делить по функциям: один отвечает за хранение данных и все связанное, другой за расчеты на данных и все связанное - есть логика в разделении. В большом предприятии это по идее д б разные люди/отделы. Просто оба должны знать все про все, как-то так

Artem

11.10.2017
14:10:33

Рядом со святым Граалем

Google

Juris.L.??

11.10.2017
15:38:59

DeepMind!

yopp

11.10.2017
16:14:28

Из-за твоего бота у меня теперь висит неубиваемая собачка в этом чяте

Dan

11.10.2017
16:14:55

Из-за твоего бота у меня теперь висит неубиваемая собачка в этом чяте

как так?? ?

yopp

11.10.2017
16:15:12

Бота надо отучить выпиливать меньшены пользователей

Dan

11.10.2017
16:44:26

Бота надо отучить выпиливать меньшены пользователей

это хорошая идея. я уже прямо вот точно не помню правда причину, почему мы решили вообще выпиливать меншены, но да, надо обдумать

Сергей

11.10.2017
16:49:31

А подскажите новичку - какие IDE\RAD есть для нейронок? Не только писать, а тренировать, смотреть, вот это всё? (ubuntu если важно)

И еще сразу - какую архитектуру выбрать под анализ текстов программного кода7

Валентин

11.10.2017
16:52:04

И еще сразу - какую архитектуру выбрать под анализ текстов программного кода7

статический анализ + построение ast + свои правила

Antonio

11.10.2017
20:43:13

подскажите такой вопрос, вот в вики написано что "Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. " а какие методы обучения требуют модель окружающей среды?

yopp

11.10.2017
21:05:00

Гипотетически, есть несколько потоков данных, например два видео (720p@30fps, hvec), четыре канала аудио (AAC, 96kbit на канал), данные с инерциальный системы на на 60Гц (9 осей, плюс давление и температура, часть данных с более высокой частотой, часть с менее), gps/glonass @ 1Hz, биометрия @ 0.01(6)Hz (пульс, температура виска). Поток 24/7, но в зависимости от могут быть пробелы (например нет видео в ночное время). Ретроспективно доступно последние 360 дней данных. Какие идеи смешных проектов с этим набором есть у чата?

Уточню: данные с носимого устройства на человеке. Стерео видео по углу обзора чуть шире человеческой пары глаз. Звук пишется с четырёх точек, можно считать что покрывает 360 градусов.

« Назад

Страница 153 из 327

Далее »

Открыть в Telegram