@bigdata_ru

« Назад

Страница 191 из 327

Далее »

MIkhail

08.12.2017
15:15:09

пока что смотрю на использование биг дата стека + люцен + нейронки

но писать этого монстра для PoC слишком сурово

и домен, есть мысль что препарация домена прямо пропорциональна качеству ответов, верно?

препарация = бизнес аналитик + лингвист

Google

Andrey

08.12.2017
15:44:58

желательно реалтайм дообучение через подкрепление при комбинированном подходе боты+люди на бэкенде

Еще блокчейн надо вкорячить сюда же

MIkhail

08.12.2017
15:59:23

вкоряч, что себя сдерживать

Vova

08.12.2017
19:22:58

multivariate garch, ктонить реализацию на питоне видел? либы?

Sevak

08.12.2017
19:24:09

)))

Vyaches

08.12.2017
21:00:49

Народ, кто-нибудь может подсказать как работает findFace?) Вернее, интересует алгоритм, по которому ищется лицо. Не заганяют же они в нейронку 1 млн вариантов... Явно есть какая-то база данных для лиц. Но как реализован поиск по ней?

Henadz

08.12.2017
21:04:03

Народ, кто-нибудь может подсказать как работает findFace?) Вернее, интересует алгоритм, по которому ищется лицо. Не заганяют же они в нейронку 1 млн вариантов... Явно есть какая-то база данных для лиц. Но как реализован поиск по ней?

предполагаю, что жмут изображения лиц в некие вектора а потом просто ищут ближайшие к искомой фотке

Vyaches

08.12.2017
21:04:40

предполагаю, что жмут изображения лиц в некие вектора а потом просто ищут ближайшие к искомой фотке

Какие методы для поиска ближайего вектора есть? эвклидово расстояние?

Henadz

08.12.2017
21:05:06

Какие методы для поиска ближайего вектора есть? эвклидово расстояние?

ну функций расстояний куча

можно и эвклидово

/dev

08.12.2017
21:45:52

Какие методы для поиска ближайего вектора есть? эвклидово расстояние?

locality-sensitive hashing, kd-деревья, методы понижения размерности и комбирации всех этих методов

Vyaches

08.12.2017
21:46:31

locality-sensitive hashing, kd-деревья, методы понижения размерности и комбирации всех этих методов

и насколько быстро это всё работает с милионной базой векторов?

/dev

08.12.2017
21:47:07

и насколько быстро это всё работает с милионной базой векторов?

depends on миллион это же совсем мало

может, даже из кешей cpu не вылезет

Google

Igor

08.12.2017
22:01:19

Лям не вылезет из кэша CPU?

/dev

08.12.2017
22:02:15

Лям не вылезет из кэша CPU?

https://ark.intel.com/ru/products/95830/Intel-Xeon-Phi-Processor-7290-16GB-1_50-GHz-72-core

Igor

08.12.2017
22:03:47

Кэш на 36 мб это круто, но даже так не влезет, наверное?

/dev

08.12.2017
22:03:56

Кэш на 36 мб это круто, но даже так не влезет, наверное?

16Gb кеш

36MB это только L2

Vyaches

08.12.2017
22:06:14

так что в итоге то? как у них поиск лица по всей базе фоточек вк устроен*

Igor

08.12.2017
22:06:39

depends on миллион это же совсем мало

Как я понимаю, вопрос был про асимптотику поиска

/dev

08.12.2017
22:06:45

так что в итоге то? как у них поиск лица по всей базе фоточек вк устроен*

а, ну в такой формулировке и надо изначально ставить

Vyaches

08.12.2017
22:07:08

а, ну в такой формулировке и надо изначально ставить

я примено это и пытался спросить))

/dev

08.12.2017
22:07:51

так что в итоге то? как у них поиск лица по всей базе фоточек вк устроен*

одно дело в 3D ближайшие векторы искать, другое — картинки в 10^6-мерном пространстве с неевклидовой метрикой

очевидно, что сначала снижают размерность — хоть свёрточными автокодировщиками

Vyaches

08.12.2017
22:08:46

одно дело в 3D ближайшие векторы искать, другое — картинки в 10^6-мерном пространстве с неевклидовой метрикой

не, не картинки. Они ж перегоняют признаки лица в 100-мерный массив помоему. Ну а дальше хз шо там

очевидно, что сначала снижают размерность — хоть свёрточными автокодировщиками

ну вот этот момент я понимаю нормально. Но вот дальше - чет не особо. Даже если у них есть сжатое лицо, как найти ближайшее в милионной базе данных?

Igor

08.12.2017
22:10:15

kd-деревья ищут в n-мерном пространстве

Vyaches

08.12.2017
22:11:19

Я просто запилил сеточку, которая идентифицирует человека по голосу(без привязки к тексту), но пока только в формате классификатора. теперь вот думаю как к этому всему бд прикрутить.. и чет инфы нету.

/dev

08.12.2017
22:11:34

ну вот этот момент я понимаю нормально. Но вот дальше - чет не особо. Даже если у них есть сжатое лицо, как найти ближайшее в милионной базе данных?

дальше, наверняка, метрику учат с помощью специально обученных сотрудников (* или забивают и в сжатом пространстве по евклиду работают *)

ну а дальше, 1-nearest neighbour — lsh и kd-деревья в евклиде здесь хорошо работают

Vyaches

08.12.2017
22:12:39

ок, спасибо. буду гуглить

Igor

08.12.2017
22:13:41

Finding 1 nearest neighbour in a balanced k-d tree with randomly distributed points takes O(log n) time on average.

Я просто запилил сеточку, которая идентифицирует человека по голосу(без привязки к тексту), но пока только в формате классификатора. теперь вот думаю как к этому всему бд прикрутить.. и чет инфы нету.

Пытаетесь сделать определение человека по голосу?

Google

Vyaches

08.12.2017
22:15:11

Пытаетесь сделать определение человека по голосу?

Ага

Igor

08.12.2017
22:15:27

Собираетесь потом где-то результаты выкладывать?

Vyaches

08.12.2017
22:18:23

Собираетесь потом где-то результаты выкладывать?

Думаю да, но для начала нужно чтобы был более менее адекватный результат)

Кто работал с сиамскими сетями? Подскажите, можно ли добавлять в их "пространство" примеры без переобучения?

Andrey

09.12.2017
12:11:25

Обучающие сэмплы всегда можно добавлять без переобучения

Zidan

09.12.2017
12:14:05

Народ, кто-нибудь может подсказать как работает findFace?) Вернее, интересует алгоритм, по которому ищется лицо. Не заганяют же они в нейронку 1 млн вариантов... Явно есть какая-то база данных для лиц. Но как реализован поиск по ней?

В итоге не кто не ответил как она работает ?

Vyaches

09.12.2017
12:15:29

В итоге не кто не ответил как она работает ?

я сам разобрался. просто затупил))) Там все просто. Сначала ты обучаешь сетку, чтобы она помещала твой вектор в некое пространство. Дальше подаешь на вход 2 вектора(которые будешь сравнивать), а она тебе обратно выкидывает расстояние между ними. Всё просто :)

Zidan

09.12.2017
12:16:25

я сам разобрался. просто затупил))) Там все просто. Сначала ты обучаешь сетку, чтобы она помещала твой вектор в некое пространство. Дальше подаешь на вход 2 вектора(которые будешь сравнивать), а она тебе обратно выкидывает расстояние между ними. Всё просто :)

ничего не понял findface имелось ввиду библиотека на питоне

Vyaches

09.12.2017
12:16:48

ничего не понял findface имелось ввиду библиотека на питоне

?? что за библиотека?) я про http://findface.ru/

Zidan

09.12.2017
12:16:57

То есть готовая реализация, которой можно пользоватся ничего не изобретая

Igor

09.12.2017
12:17:02

я сам разобрался. просто затупил))) Там все просто. Сначала ты обучаешь сетку, чтобы она помещала твой вектор в некое пространство. Дальше подаешь на вход 2 вектора(которые будешь сравнивать), а она тебе обратно выкидывает расстояние между ними. Всё просто :)

Так вопрос же был в том, как эффективно искать по 1 миллиону этих изображений

И вам ответили, что kd-деревья, и другие структуры

Zidan

09.12.2017
12:17:34

ну каждое лицо потом проходит через хэш функцию, которое дает целое число

или множество чисел, если числа ближе, то похоже

в БД через индекс, это мнгновенно, хоть миллиард

Admin

ERROR: S client not available

Igor

09.12.2017
12:19:06

Какой индекс?

Vyaches

09.12.2017
12:19:38

Извиняюсь, я думал вы про сиамские сети.

Zidan

09.12.2017
12:19:44

я просто долго работал с ГИС системами

есть там отдельный раздел индексов для пространственных данных, вообще крутая тема, мало кто в этой теме разбирается

Google

Zidan

09.12.2017
12:20:24

R-Tree

так что н-мерные пространства легко ложатся на эти инджексы в БД и посик там очень быстрый

поиск*

Igor

09.12.2017
12:21:46

Какая там сложность поиска будет?

Zidan

09.12.2017
12:22:07

количество записей не имеет значения

такде как в сортировка, делишь по пополам, пока не придешь к цели

если у тебя сортировочные данные, каждая итерация, уменьшает половину

Vyaches

09.12.2017
12:22:54

Тоесть R-Tree может перегнать вектора в пространство, а даьльше каждому из них присвоить индекс?

Я просто все-таки склоняюсь к евклидову пространству...))

Zidan

09.12.2017
12:24:02

https://ru.wikipedia.org/wiki/R-%D0%B4%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_(%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85)

Найти все музеи в пределах 2 километров от моего текущего местоположения

Igor

09.12.2017
12:24:46

Логарифмическая же.

Zidan

09.12.2017
12:24:46

Это по двухмерному

Логарифмическая же.

что под этим подразумевается ?

к этим алгоритмам вообще тяжело применить хоть какую то математику

Igor

09.12.2017
12:28:54