@bigdata_ru

Страница 191 из 327
MIkhail
08.12.2017
15:15:09
пока что смотрю на использование биг дата стека + люцен + нейронки

но писать этого монстра для PoC слишком сурово

и домен, есть мысль что препарация домена прямо пропорциональна качеству ответов, верно?

препарация = бизнес аналитик + лингвист

Google
MIkhail
08.12.2017
15:59:23
вкоряч, что себя сдерживать

Vova
08.12.2017
19:22:58
multivariate garch, ктонить реализацию на питоне видел? либы?

Sevak
08.12.2017
19:24:09
)))

Vyaches
08.12.2017
21:00:49
Народ, кто-нибудь может подсказать как работает findFace?) Вернее, интересует алгоритм, по которому ищется лицо. Не заганяют же они в нейронку 1 млн вариантов... Явно есть какая-то база данных для лиц. Но как реализован поиск по ней?

Vyaches
08.12.2017
21:04:40
предполагаю, что жмут изображения лиц в некие вектора а потом просто ищут ближайшие к искомой фотке
Какие методы для поиска ближайего вектора есть? эвклидово расстояние?

Henadz
08.12.2017
21:05:06
можно и эвклидово

/dev
08.12.2017
21:45:52
Какие методы для поиска ближайего вектора есть? эвклидово расстояние?
locality-sensitive hashing, kd-деревья, методы понижения размерности и комбирации всех этих методов

Vyaches
08.12.2017
21:46:31
locality-sensitive hashing, kd-деревья, методы понижения размерности и комбирации всех этих методов
и насколько быстро это всё работает с милионной базой векторов?

/dev
08.12.2017
21:47:07
может, даже из кешей cpu не вылезет

Google
Igor
08.12.2017
22:01:19
Лям не вылезет из кэша CPU?

/dev
08.12.2017
22:02:15
Лям не вылезет из кэша CPU?
https://ark.intel.com/ru/products/95830/Intel-Xeon-Phi-Processor-7290-16GB-1_50-GHz-72-core

Igor
08.12.2017
22:03:47
Кэш на 36 мб это круто, но даже так не влезет, наверное?

Vyaches
08.12.2017
22:06:14
так что в итоге то? как у них поиск лица по всей базе фоточек вк устроен*

Igor
08.12.2017
22:06:39
depends on миллион это же совсем мало
Как я понимаю, вопрос был про асимптотику поиска

/dev
08.12.2017
22:06:45
так что в итоге то? как у них поиск лица по всей базе фоточек вк устроен*
а, ну в такой формулировке и надо изначально ставить

Vyaches
08.12.2017
22:07:08
/dev
08.12.2017
22:07:51
так что в итоге то? как у них поиск лица по всей базе фоточек вк устроен*
одно дело в 3D ближайшие векторы искать, другое — картинки в 10^6-мерном пространстве с неевклидовой метрикой

очевидно, что сначала снижают размерность — хоть свёрточными автокодировщиками

Vyaches
08.12.2017
22:08:46
одно дело в 3D ближайшие векторы искать, другое — картинки в 10^6-мерном пространстве с неевклидовой метрикой
не, не картинки. Они ж перегоняют признаки лица в 100-мерный массив помоему. Ну а дальше хз шо там

очевидно, что сначала снижают размерность — хоть свёрточными автокодировщиками
ну вот этот момент я понимаю нормально. Но вот дальше - чет не особо. Даже если у них есть сжатое лицо, как найти ближайшее в милионной базе данных?

Igor
08.12.2017
22:10:15
kd-деревья ищут в n-мерном пространстве

Vyaches
08.12.2017
22:11:19
Я просто запилил сеточку, которая идентифицирует человека по голосу(без привязки к тексту), но пока только в формате классификатора. теперь вот думаю как к этому всему бд прикрутить.. и чет инфы нету.

/dev
08.12.2017
22:11:34
ну вот этот момент я понимаю нормально. Но вот дальше - чет не особо. Даже если у них есть сжатое лицо, как найти ближайшее в милионной базе данных?
дальше, наверняка, метрику учат с помощью специально обученных сотрудников (* или забивают и в сжатом пространстве по евклиду работают *)

ну а дальше, 1-nearest neighbour — lsh и kd-деревья в евклиде здесь хорошо работают

Vyaches
08.12.2017
22:12:39
ок, спасибо. буду гуглить

Google
Igor
08.12.2017
22:15:27
Собираетесь потом где-то результаты выкладывать?

Vyaches
08.12.2017
22:18:23
Собираетесь потом где-то результаты выкладывать?
Думаю да, но для начала нужно чтобы был более менее адекватный результат)

Кто работал с сиамскими сетями? Подскажите, можно ли добавлять в их "пространство" примеры без переобучения?

Andrey
09.12.2017
12:11:25
Обучающие сэмплы всегда можно добавлять без переобучения

Vyaches
09.12.2017
12:15:29
В итоге не кто не ответил как она работает ?
я сам разобрался. просто затупил))) Там все просто. Сначала ты обучаешь сетку, чтобы она помещала твой вектор в некое пространство. Дальше подаешь на вход 2 вектора(которые будешь сравнивать), а она тебе обратно выкидывает расстояние между ними. Всё просто :)

Vyaches
09.12.2017
12:16:48
Zidan
09.12.2017
12:16:57
То есть готовая реализация, которой можно пользоватся ничего не изобретая

Zidan
09.12.2017
12:17:34
ну каждое лицо потом проходит через хэш функцию, которое дает целое число

или множество чисел, если числа ближе, то похоже

в БД через индекс, это мнгновенно, хоть миллиард

Admin
ERROR: S client not available

Igor
09.12.2017
12:19:06
Какой индекс?

Vyaches
09.12.2017
12:19:38
Извиняюсь, я думал вы про сиамские сети.

Zidan
09.12.2017
12:19:44
я просто долго работал с ГИС системами

есть там отдельный раздел индексов для пространственных данных, вообще крутая тема, мало кто в этой теме разбирается

Google
Zidan
09.12.2017
12:20:24
R-Tree

так что н-мерные пространства легко ложатся на эти инджексы в БД и посик там очень быстрый

поиск*

Igor
09.12.2017
12:21:46
Какая там сложность поиска будет?

Zidan
09.12.2017
12:22:07
количество записей не имеет значения

такде как в сортировка, делишь по пополам, пока не придешь к цели

если у тебя сортировочные данные, каждая итерация, уменьшает половину

Vyaches
09.12.2017
12:22:54
Тоесть R-Tree может перегнать вектора в пространство, а даьльше каждому из них присвоить индекс?

Я просто все-таки склоняюсь к евклидову пространству...))

Zidan
09.12.2017
12:24:02
https://ru.wikipedia.org/wiki/R-%D0%B4%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_(%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85)

Найти все музеи в пределах 2 километров от моего текущего местоположения

Igor
09.12.2017
12:24:46
Логарифмическая же.

Zidan
09.12.2017
12:24:46
Это по двухмерному

Логарифмическая же.
что под этим подразумевается ?

к этим алгоритмам вообще тяжело применить хоть какую то математику

Igor
09.12.2017
12:28:54
что под этим подразумевается ?
Подразумевается, что в среднем для поиска в базе с N записями, потребуется ~ log(N) операций. Но в худшем случае, может и N

Zidan
09.12.2017
12:29:10
Все случайные события

по мере наполнения индекса

где то плотность объектов больше где то меньше

Google
Zidan
09.12.2017
12:30:54
как произойдет распределение решает случайность

Evgeniy
09.12.2017
12:31:01
так просто не поддается
у тебя ж прямо статье написано)

Страница 191 из 327