
MIkhail
08.12.2017
15:15:09
пока что смотрю на использование биг дата стека + люцен + нейронки
но писать этого монстра для PoC слишком сурово
и домен, есть мысль что препарация домена прямо пропорциональна качеству ответов, верно?
препарация = бизнес аналитик + лингвист

Google

Andrey
08.12.2017
15:44:58

MIkhail
08.12.2017
15:59:23
вкоряч, что себя сдерживать

Vova
08.12.2017
19:22:58
multivariate garch, ктонить реализацию на питоне видел? либы?

Sevak
08.12.2017
19:24:09
)))

Vyaches
08.12.2017
21:00:49
Народ, кто-нибудь может подсказать как работает findFace?)
Вернее, интересует алгоритм, по которому ищется лицо. Не заганяют же они в нейронку 1 млн вариантов...
Явно есть какая-то база данных для лиц. Но как реализован поиск по ней?

Henadz
08.12.2017
21:04:03

Vyaches
08.12.2017
21:04:40

Henadz
08.12.2017
21:05:06
можно и эвклидово

/dev
08.12.2017
21:45:52

Vyaches
08.12.2017
21:46:31

/dev
08.12.2017
21:47:07
может, даже из кешей cpu не вылезет

Google

Igor
08.12.2017
22:01:19
Лям не вылезет из кэша CPU?

/dev
08.12.2017
22:02:15

Igor
08.12.2017
22:03:47
Кэш на 36 мб это круто, но даже так не влезет, наверное?

/dev
08.12.2017
22:03:56
36MB это только L2

Vyaches
08.12.2017
22:06:14
так что в итоге то? как у них поиск лица по всей базе фоточек вк устроен*

Igor
08.12.2017
22:06:39

/dev
08.12.2017
22:06:45

Vyaches
08.12.2017
22:07:08

/dev
08.12.2017
22:07:51
очевидно, что сначала снижают размерность — хоть свёрточными автокодировщиками

Vyaches
08.12.2017
22:08:46

Igor
08.12.2017
22:10:15
kd-деревья ищут в n-мерном пространстве

Vyaches
08.12.2017
22:11:19
Я просто запилил сеточку, которая идентифицирует человека по голосу(без привязки к тексту), но пока только в формате классификатора. теперь вот думаю как к этому всему бд прикрутить.. и чет инфы нету.

/dev
08.12.2017
22:11:34
ну а дальше, 1-nearest neighbour — lsh и kd-деревья в евклиде здесь хорошо работают

Vyaches
08.12.2017
22:12:39
ок, спасибо. буду гуглить

Igor
08.12.2017
22:13:41
Finding 1 nearest neighbour in a balanced k-d tree with randomly distributed points takes O(log n) time on average.

Google

Vyaches
08.12.2017
22:15:11

Igor
08.12.2017
22:15:27
Собираетесь потом где-то результаты выкладывать?

Vyaches
08.12.2017
22:18:23
Кто работал с сиамскими сетями? Подскажите, можно ли добавлять в их "пространство" примеры без переобучения?

Andrey
09.12.2017
12:11:25
Обучающие сэмплы всегда можно добавлять без переобучения

Zidan
09.12.2017
12:14:05

Vyaches
09.12.2017
12:15:29
В итоге не кто не ответил как она работает ?
я сам разобрался. просто затупил)))
Там все просто. Сначала ты обучаешь сетку, чтобы она помещала твой вектор в некое пространство. Дальше подаешь на вход 2 вектора(которые будешь сравнивать), а она тебе обратно выкидывает расстояние между ними. Всё просто :)

Zidan
09.12.2017
12:16:25

Vyaches
09.12.2017
12:16:48

Zidan
09.12.2017
12:16:57
То есть готовая реализация, которой можно пользоватся ничего не изобретая

Igor
09.12.2017
12:17:02
И вам ответили, что kd-деревья, и другие структуры

Zidan
09.12.2017
12:17:34
ну каждое лицо потом проходит через хэш функцию, которое дает целое число
или множество чисел, если числа ближе, то похоже
в БД через индекс, это мнгновенно, хоть миллиард

Admin
ERROR: S client not available

Igor
09.12.2017
12:19:06
Какой индекс?

Vyaches
09.12.2017
12:19:38
Извиняюсь, я думал вы про сиамские сети.

Zidan
09.12.2017
12:19:44
я просто долго работал с ГИС системами
есть там отдельный раздел индексов для пространственных данных, вообще крутая тема, мало кто в этой теме разбирается

Google

Zidan
09.12.2017
12:20:24
R-Tree
так что н-мерные пространства легко ложатся на эти инджексы в БД и посик там очень быстрый
поиск*

Igor
09.12.2017
12:21:46
Какая там сложность поиска будет?

Zidan
09.12.2017
12:22:07
количество записей не имеет значения
такде как в сортировка, делишь по пополам, пока не придешь к цели
если у тебя сортировочные данные, каждая итерация, уменьшает половину

Vyaches
09.12.2017
12:22:54
Тоесть R-Tree может перегнать вектора в пространство, а даьльше каждому из них присвоить индекс?
Я просто все-таки склоняюсь к евклидову пространству...))

Zidan
09.12.2017
12:24:02
https://ru.wikipedia.org/wiki/R-%D0%B4%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_(%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85)
Найти все музеи в пределах 2 километров от моего текущего местоположения

Igor
09.12.2017
12:24:46
Логарифмическая же.

Zidan
09.12.2017
12:24:46
Это по двухмерному
к этим алгоритмам вообще тяжело применить хоть какую то математику

Igor
09.12.2017
12:28:54
что под этим подразумевается ?
Подразумевается, что в среднем для поиска в базе с N записями, потребуется ~ log(N) операций.
Но в худшем случае, может и N

Zidan
09.12.2017
12:29:10
Все случайные события
по мере наполнения индекса
где то плотность объектов больше где то меньше

Google

Zidan
09.12.2017
12:30:54
как произойдет распределение решает случайность

Evgeniy
09.12.2017
12:31:01