@bigdata_ru

Страница 152 из 327
Alexandr
08.10.2017
00:24:17
https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%A6%D1%8B%D0%B1%D0%B5%D0%BD%D0%BA%D0%BE Теорема Цыбенко, Универсальная теорема аппроксимации — теорема, доказанная Джорджем Цыбенко (George Cybenko) в 1989 году, которая утверждает, что искусственная нейронная сеть прямой связи (англ. feed-forward; в которых связи не образуют циклов) с одним скрытым слоем может аппроксимировать любую непрерывную функцию многих переменных с любой точностью. Условиями являются: достаточное количество нейронов скрытого слоя, удачный подбор

https://stats.stackexchange.com/questions/220907/meaning-of-and-proof-of-rnn-can-approximate-any-algorithm The following paper shows that, for any computable function, there exists a finite recurrent neural network (RNN) that can compute it. Furthermore, there exist finite RNNs that are Turing complete, and can therefore implement any algorithm.

Vl@d
08.10.2017
09:32:52
Всем привет, собираю спарк из исходников с помощью sbt при компиляции примера в Idea выдается ошибка Error:(13, 14) SqlBaseBaseListener is already defined as object SqlBaseBaseListener public class SqlBaseBaseListener implements SqlBaseListener { Error:(13, 14) SqlBaseBaseListener is already defined as class SqlBaseBaseListener public class SqlBaseBaseListener implements SqlBaseListener { В чем может быть проблема?

Google
Проксимов
08.10.2017
10:23:12
!stop

?
08.10.2017
12:20:06
Я понял как сделать телепорт

Проксимов
08.10.2017
12:20:30
Вау

?
08.10.2017
12:21:20
Можно без проблем телепортировать большие энергии

Например Землю

Или Солнце

.
08.10.2017
12:22:41
И как?

Magic
08.10.2017
13:35:01
И как?
он телепортировался, наверное)

yopp
08.10.2017
15:05:24
Это. А что кроме faiss есть для поиска соедей?

Аргх

Дай название репы

Dann
08.10.2017
15:22:38
Для соседей это есть https://github.com/searchivarius/nmslib И просто код proof of concept от Бабенко https://github.com/arbabenko/GNOIMI

На каком количестве надо искать? Для баз порядка 10 миллионов есть много либ самодельных

Google
yopp
08.10.2017
15:23:48
На постоянно растущем

Dann
08.10.2017
15:24:05
На 100+ миллионах уже только faiss выглядит приемлемым решением, так как остальные либы памяти жрут как не в себя

Если что, стучись в личку, расскажу что и как подробнее, уже собаку съел на этой задаче

yopp
08.10.2017
15:30:03
А зачем личка. Тут отличное место для обсуждения

Dann
08.10.2017
15:30:44
Тут иногда в такой спам все выливается, хрен что отроешь

yopp
08.10.2017
15:31:27
Есть несколько потоков данных, на которых работают классификаторы. В данных переодически появляются какие-то объекты, они складываются в базу. Нужно группировать похожие объекты.

Там сейчас всего два класса по 128 параметров

Dann
08.10.2017
15:32:51
Так это же кластеризация обычная выходит. Зачем на каждую итерацию тебе входящий объект с каждым остальным сравнивать

Кластеризуй их и сравнивай с центрами классов уже

yopp
08.10.2017
15:33:16
Каждый и не надо, нужно только новые конечно.

Dann
08.10.2017
15:34:02
Ну посчитай kmeans на исходгной базе, а дальше просто с центроидами сравнивай

Это даже в один поток будет быстро

Pavlo
08.10.2017
18:43:55
день добрый. а может кто-нибудь подсказать хорошую (по опыту использования) реализацию structure from motion для задачи определения позиции и габаритов околокубических коробок в видеопотоке?

Andrey
08.10.2017
18:47:05
Там сейчас всего два класса по 128 параметров
Дерево решений построй, будет вообще быстро

Vladimir
08.10.2017
20:52:47
привет кто-то интересуется такими вещами? https://www.amazon.com/Algebraic-Statistical-Monographs-Computational-Mathematics/dp/0521864674 http://statweb.stanford.edu/~cgates/PERSI/papers/sturm98.pdf

.
08.10.2017
20:55:53
Приветик

Да

А что?

Vladimir
08.10.2017
21:02:29
хотелось бы сделать какой-то проект на таких вещах

знаю алгем, но пока не могу определиться с задачами

Google
Dan
09.10.2017
07:30:35
Natalia здесь не приветствуется публикация вакансий.

Mikhail
09.10.2017
07:37:29
Капибара, научи своего бота банить все сообщения где встречается домен hh.ru

Dan
09.10.2017
07:42:09
Капибара, научи своего бота банить все сообщения где встречается домен hh.ru
Была такая мысль, но банить жестоко. Достаточно удалять и предупреждать.

Mikhail
09.10.2017
07:42:43
ну не банить, а чтобы бот сказал что тут не приветсвуется то-то

Dan
09.10.2017
07:42:56
Но если Natalia например вздумает повторить, то можно будет устроить и более сложную процедуру

Да, подумаем на эту тему

Milana
09.10.2017
07:48:54
Ребята. Подскажите, где можно про курс программирования на языке R почитать или курсы пройти. Сорри, если не по теме

Спасибо большое

Milana
09.10.2017
08:25:44
Да, программирование. Это открытый курс?

Andrey
09.10.2017
08:40:58
Это книга

Milana
09.10.2017
08:44:17
Это книга
Спасибо

Vlad
09.10.2017
12:25:52
Привет! Я из логов вижу, что искать людей в помощь на проект здесь нельзя? Только обсуждения и посоветоваться?

Sergey
09.10.2017
12:29:29
Для поиска людей есть отдельный чат

Vlad
09.10.2017
12:29:43
А можно линку?

Dan
09.10.2017
13:31:10
А можно линку?
github.com/goq/telegram-list

Vlad
09.10.2017
13:31:50
Уже от Сергея получил, но все равно спасибо!

Nikolay
09.10.2017
15:46:01
Товарищи, подскажите пожалуйста. Делаю в R кластеризацию и при любом определении оптимального числа кластеров наталкиваюсь на ошибку "Error: cannot allocate vector of size 486.7 Gb". Неужели вектор из 300 000 значений может так много весить?

Constantine
09.10.2017
15:47:34
может у тебя 300k X 300k

Nikolay
09.10.2017
15:48:03
300к на 50

Google
Constantine
09.10.2017
15:48:09
486 000 000 000

Nikolay
09.10.2017
15:49:22
использую метод локтя и GAP статистику

300 000 на 50 - это даже не Биг дата

по крайней мере в моём понимании

Vlad
09.10.2017
16:08:29
Это даже обычная БД на продакшне среднего проекта.

Товарищи, подскажите пожалуйста. Делаю в R кластеризацию и при любом определении оптимального числа кластеров наталкиваюсь на ошибку "Error: cannot allocate vector of size 486.7 Gb". Неужели вектор из 300 000 значений может так много весить?
Не может даже в теории, если значения скалярные. У нас сырые данные на пару десятков миллионов строк с кучей столбцов, включая сериализированные массивы, json, текст столько весят

Nikolay
09.10.2017
16:11:16
вот и я про это, не могу понять в чём дело

Vlad
09.10.2017
16:15:08
А зацикливания нигде нету?

Alexandr
09.10.2017
16:15:16
>Неужели вектор из 300 000 значений может так много весить? 486000000000 /300000 1620000 / 8(size of dobule) 202500 / 50(elements) 4050 В 5000 раз меньше должен быть

Nikolay
09.10.2017
16:16:21
А зацикливания нигде нету?
да вроде нет, с другим датасетом всё норм

другим - многим меньше

Alexandr
09.10.2017
16:17:54
Другой датасет какой величины? 1000?

Nikolay
09.10.2017
16:19:23
встроенный - data("USArrests")

Alexandr
09.10.2017
16:29:58
https://forge.scilab.org/index.php/p/rdataset/source/tree/master/csv/datasets/USArrests.csv - 300 000 тут явно нет

Nikolay
09.10.2017
16:32:26
data("USArrests") - всё норм

на моём, где 300 000 - не норм

на самом деле идея с зацикливанием - возможно имеет место быть

есть какой то простой способ проверить строки на "похожесть" с заданным допущением?

имею ввиду абсолютную, так как линейно зависимые, но отличающиеся на порядки нужно оставить

Google
Nikolay
09.10.2017
16:51:41
так и знал что аву надо поменять.. ?

https://market.yandex.ru/product/6860142?hid=723088&nid=55335&clid=698

Страница 152 из 327