
Nikolay
09.10.2017
16:52:52
http://img0.reactor.cc/pics/post/%D0%B0%D0%B2%D1%82%D0%BE-%D0%BF%D1%80%D0%B8%D0%BA%D0%BE%D0%BB%D1%8B-51006.jpeg
я держу пальцами и ладонь на неё не кладу - поэтому удобно

?
09.10.2017
16:54:23

Google

Nikolay
09.10.2017
16:56:05
попробовал PCA воспользоваться, ничего полезного не даёт
вобщем буду работать с датасетом

Vlad
09.10.2017
16:56:52
А просто пробежать по датасету если?
Хотя бы изолировать логику ломающую

Nikolay
09.10.2017
16:57:29
как пробежать?

Andrey
09.10.2017
16:57:48

Vlad
09.10.2017
16:57:50
Ну внутряков я не знаю и особенностей задачи.

Nikolay
09.10.2017
16:58:08
глазами ты имеешь ввиду?

Vlad
09.10.2017
16:58:51
Кодом. Я так понимаю, кластеризация для распараллеливания обработки датасета?

Nikolay
09.10.2017
16:59:08
код в студию
k.max <- 15 # максимальное число кластеров
wss <- sapply(1:k.max, function(k){
kmeans(df.stand, k, nstart = 10)$tot.withinss
})
fviz_nbclust(df.stand, kmeans, method = "wss") +
geom_vline(xintercept = 4, linetype = 2)

Andrey
09.10.2017
17:00:00
ну так 15 итераций по 10 итераций

Nikolay
09.10.2017
17:00:04

Google

Andrey
09.10.2017
17:00:07
может, поэтому?

Nikolay
09.10.2017
17:01:20
ну не почти 500 гигов же

Andrey
09.10.2017
17:01:30
это да

Vlad
09.10.2017
17:01:39
10*15*300000? Выше же писали с расчетом, что даже 300000 * 300000 не даст такого сюрприза :)
хотя... пересчитаю сам

Andrey
09.10.2017
17:05:05
попробуй http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/k-means.html

Vlad
09.10.2017
17:05:57
если к примеру, у нас есть 300к*300к = 90ккк символов, если в латинице, то 1 символ = 1 байт, если unicode. Это ну максимум без учета хранения структур 83 гига

Nikolay
09.10.2017
17:29:09

Denis
10.10.2017
07:57:40
всем привет! есть библиотека pyspark для вычислений на spark трансформаций, которые написаны на python. Но наверняка не все трансформации поддерживаются. Подскажите как найти таблицу соответствий команд, которые есть в pyspark и соответствующие им команды в python

Alexander
10.10.2017
07:59:30
Трансформации с pandas нужно перенести на pyspark?

Артём
10.10.2017
16:49:50
Может кому полезно будет

Evgeniy
10.10.2017
16:52:30
может)

Dan
10.10.2017
17:10:52
https://habrahabr.ru/company/mailru/blog/339496/
Кто спрашивал - вот подборка датасетов

Vlad
10.10.2017
17:12:07
http://academictorrents.com/browse.php?cat=6 вот ещё есть

mrx
11.10.2017
13:15:41
господа, pandas умеет пересекать множества по признаку?
задача такая, есть два разных датафрейма, общий только столбец с датой. хочу в первом оставить только те значения, где дата пересекается с множеством второго. вроде как merge не подходит.

Drino
11.10.2017
13:17:23
join?

tonko
11.10.2017
13:18:15

Google

mrx
11.10.2017
13:19:31
Да, получается isin подходит. Спасибо!

Nikolay
11.10.2017
13:28:32
раз уж тема пошла ? может кто подскажет? почему после удаления столбцов из таблицы:
DS <- select(DS, -col1, -col2)
выдаёт ошибку, при попытке преобразования в матрицу:
mat = as.matrix(DS)
ошибка:
length of 'dimnames' [2] not equal to array extent
если удалять стоблцы так:
DS <- DS[c(-2, -3, -4)]
то затираются названия стобцов
*все столбцы имеют числовое название

Alexander
11.10.2017
13:50:40
Братцы, в чем разница бигдата разработчика от дата инженера?
Ведь оба настраивают потоки данных в хранилище?
eli5 а то я с деревни

.
11.10.2017
13:51:36
Что такое eli5?
А то я с деревни

Drino
11.10.2017
13:51:56
explain like i'm five

Andrey
11.10.2017
13:51:57
ну типо разраб разрабатывает код немножко еще. А дата инженер честно говоря ваще хз. дампы перекладывает с одного стореджа на другой))

Peter
11.10.2017
13:52:16
Наверное, инженер работает с архитектурой и железом хранилищ, а бигдата разраб - с фреймворками, железом и архитектурой для обсчета. Хотя хз
Наверное, они как сиамские близнецы должны быть в итоге

Alexander
11.10.2017
13:53:09
а потом до меня дошло, что это почти то же самое.
и я ничего не понял

.
11.10.2017
13:54:46

Peter
11.10.2017
14:04:32
Ну в современном понимании это близкие профессии, наверное, да. Но если делить по функциям: один отвечает за хранение данных и все связанное, другой за расчеты на данных и все связанное - есть логика в разделении. В большом предприятии это по идее д б разные люди/отделы. Просто оба должны знать все про все, как-то так

Artem
11.10.2017
14:10:33
Рядом со святым Граалем

Google

Juris.L.??
11.10.2017
15:38:59
DeepMind!

yopp
11.10.2017
16:14:28
Из-за твоего бота у меня теперь висит неубиваемая собачка в этом чяте

Dan
11.10.2017
16:14:55

yopp
11.10.2017
16:15:12
Бота надо отучить выпиливать меньшены пользователей

Dan
11.10.2017
16:44:26

Сергей
11.10.2017
16:49:31
А подскажите новичку - какие IDE\RAD есть для нейронок? Не только писать, а тренировать, смотреть, вот это всё? (ubuntu если важно)
И еще сразу - какую архитектуру выбрать под анализ текстов программного кода7

Валентин
11.10.2017
16:52:04

Antonio
11.10.2017
20:43:13
подскажите такой вопрос, вот в вики написано что "Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. " а какие методы обучения требуют модель окружающей среды?


yopp
11.10.2017
21:05:00
Гипотетически, есть несколько потоков данных, например два видео (720p@30fps, hvec), четыре канала аудио (AAC, 96kbit на канал), данные с инерциальный системы на на 60Гц (9 осей, плюс давление и температура, часть данных с более высокой частотой, часть с менее), gps/glonass @ 1Hz, биометрия @ 0.01(6)Hz (пульс, температура виска). Поток 24/7, но в зависимости от могут быть пробелы (например нет видео в ночное время). Ретроспективно доступно последние 360 дней данных.
Какие идеи смешных проектов с этим набором есть у чата?
Уточню: данные с носимого устройства на человеке. Стерео видео по углу обзора чуть шире человеческой пары глаз. Звук пишется с четырёх точек, можно считать что покрывает 360 градусов.