@bigdata_ru

Страница 214 из 327

Vladimir

11.01.2018
16:50:07

Ребят, всем привет. Вопрос такой. Как по-научному называется задача автоматического сопоставления одного объекта другому? Т.е. есть два объекта, которые имеют слегка разное признаковое описание, но в реальном мире они являются одним и тем же предметом / явлением, а нам нужно находить такие объекты. Есть данные для обучения, и много данных, подлежащих подобному сопоставлению. Логика подсказывает, что такую задачу можно легко рассмотреть и как задачу кластеризации (если например забить на данные для обучения), и как задачу классификации. Но может быть кто-то может что-то посоветовать на эту тему со знанием дела?

интересует именно термин или все-таки возможные рецепты, что делать?

если рецепты, тогда можно почитать форум вот здесь https://www.kaggle.com/c/avito-duplicate-ads-detection

Возможно, кто-то делился подходами к решению

и еще по этому соревнованию есть видео лекция от призеров с одного из субботников OpenDataScience в Яндексе (на ФБ они называются "ML тренировки")

Google

Vladimir

11.01.2018
16:54:12

они в смысле субботники

Daniil

11.01.2018
17:24:26

интересует именно термин или все-таки возможные рецепты, что делать?

и то, и другое, вообще говоря. спасибо, я почитаю)

Vladimir

11.01.2018
18:37:26

Я бы рекомендовал все-таки найти упомянутое видео. Оно было очень познавательное, я его смотрел.

Oleksandr

11.01.2018
18:44:44

Ребят, всем привет. Вопрос такой. Как по-научному называется задача автоматического сопоставления одного объекта другому? Т.е. есть два объекта, которые имеют слегка разное признаковое описание, но в реальном мире они являются одним и тем же предметом / явлением, а нам нужно находить такие объекты. Есть данные для обучения, и много данных, подлежащих подобному сопоставлению. Логика подсказывает, что такую задачу можно легко рассмотреть и как задачу кластеризации (если например забить на данные для обучения), и как задачу классификации. Но может быть кто-то может что-то посоветовать на эту тему со знанием дела?

coreference resolution

Daniil

11.01.2018
18:49:18

coreference resolution

О, классно. По формулировке прям что надо, но у меня нет текста структурированного к сожалению

Данные о товарах?

Vitaliy

12.01.2018
10:33:41

Подскажите толковую литературу по группам Ли. Хочется понятно изожение, а не многообразие формул

Pavlo

12.01.2018
10:41:45

Розенфельд - Замаховский, "Геометрия групп Ли". но это бурбакистское изложение, не все находят приятным (я нахожу)

Vitaliy

12.01.2018
10:44:26

Розенфельд - Замаховский, "Геометрия групп Ли". но это бурбакистское изложение, не все находят приятным (я нахожу)

спасибо. И задачник Бориса Шапукова. Больше толкового ничего не нашел.

Pavlo

12.01.2018
10:52:11

я знаю ещё несколько хороших учебников по теме, но нужно добраться до домашней библиотеки чтобы глянуть названия

Vitaliy

12.01.2018
10:53:06

Буду очень благодарен за рекомендации

Igor

12.01.2018
10:59:33

Кто нибудь? AWS? Cloudfront, Rout53, S3? http://golaso.io - bad request как починить? Друг гугл и мой мозг не справляются с нагрузкой.

golaso.io - bad request. Я не понимаю что я напутал с dns, cdn и правами на доступ к S3 bucket. Домен просто не отдает страницу. Он отдаватл, но мне нужно через amazon certification manager подключить SSL сертификат. Создал, верифицировал, подключил - и все. Слетел домен. Я бы задал вопрос поконкретнее, но сам не пойму чего же я напутал.

Google

Nick

12.01.2018
12:19:08

Посмотрите ещё сертификат на лоад балансере, если есть. Пробуйте тестировать по кускам и на каждом этапе концентрироваться на части, которая не работает

oles

12.01.2018
16:19:14

подскажите плз какойнибудь готовый инструмент для кластеризации текстов по похожести на английском. то есть на входе я загоняю в него массив текстов а на выходе он дает массив клстеров с какойто весовой оценкой похожести

Dan

12.01.2018
23:36:46

Ashur на первый раз прощаем.

Andrey

13.01.2018
10:33:16

но оно почему-то не очень и быстро их агрегирует, по одному пользователю да, по нескольким да - быстро, а если я хочу по всем 3кк взять аггрегацию, то всё - бай бай, минут 15 считает пол терабайта

Не очень понятно вот тут...что информация приходит по 3к пользователям каждые 2 минуты ?

Подход а целом советуют верный, ты хранить агрегаты а распеределенное бд (шбасе,касандра) приходят новые данные ты читаешь старые по ключам, агрегируешь новые , и сохраняешь а бд опять. Это масштабируется увеличением партиций в кафке

Т.е. Если все разумно реализовано и хорошо работает на 3, то и на 3к при увеличении партиций должно работать быстро

Vitalii

13.01.2018
11:36:34

Приветствую. Как лучше подать и классифицировать изображения, если у 1 изображения по умолчанию может быть несколько лейблов? Спасибо

Drino

13.01.2018
11:46:52

Приветствую. Как лучше подать и классифицировать изображения, если у 1 изображения по умолчанию может быть несколько лейблов? Спасибо

На каждый лейбл делать бинарную классификацию

Andrey

13.01.2018
16:21:54

На каждый лейбл делать бинарную классификацию

Нет

Все как обычно, но последний слой - сигмоидный, а не софтмакс

Drino

13.01.2018
17:35:30

Так это и будет бинарная классификация. Просто у этих сеток пошарены первые слои.

Нет

Все как обычно, но последний слой - сигмоидный, а не софтмакс

Viktor

13.01.2018
18:34:42

Коллеги, кто тренирует керас+тензорфлоу на CPU подскажите пересборка ТФ с поддержкой SSE4.1 SSE4.2 AVX AVX2 FMA сильно увеличивает производительность или не стоит возиться?

Andrey

13.01.2018
19:04:25

Так это и будет бинарная классификация. Просто у этих сеток пошарены первые слои.

Это не будет бинарная классификация. Этот multi-label классификация.

Сетка одна, ничего нигде не пошарено

Sergey

13.01.2018
19:08:38

Так сигмоида тебе даёт биномиальное распределение

Только два класса

Andrey

13.01.2018
19:18:27

Сигмоида - активация каждого из n нейронов выходного слоя (по числу классов)

Drino

13.01.2018
20:33:52

Это не будет бинарная классификация. Этот multi-label классификация.

Но ведь очевидно, что полученные задачи оптимизации эквивалентны. А мульти-лейбел теоретически допускает какие-нибудь label powerset и прочие не к ночи упомянутые извращения.

Google

Valeriy

13.01.2018
23:13:47

привет. не могу понять с какой стороны лучше подойти: есть история запросов (каждый запрос содержит 50 полей с данными н-р). нужно уметь составлять прогнозы по указанному фильтру. фильтр может содержать разные условия для всех полей с операциями И, ИЛИ, НЕ. получается вроде как поиск, но не хочется перебирать все записи в истории с наложением фильтра каждый раз

может у кого-нибудь было подобное, или есть идеи?

пример: нужно предсказать кол-во запросов в определенный день используя историю запросов и фильтр: пятница, запросы с мобильных устройств и из США

Andrey

14.01.2018
06:44:01

Но ведь очевидно, что полученные задачи оптимизации эквивалентны. А мульти-лейбел теоретически допускает какие-нибудь label powerset и прочие не к ночи упомянутые извращения.

Именно поэтому нужно делать так, как я описал, а не учить отдельные классификаторы.

Sergey

14.01.2018
09:25:43

Именно поэтому нужно делать так, как я описал, а не учить отдельные классификаторы.

А лосс какой?

Drino

14.01.2018
09:48:21

А лосс какой?

Сумма кросс-энтропий по каждому из лейблов. Формула есть у тф: https://www.tensorflow.org/versions/r1.1/api_docs/python/tf/nn/sigmoid_cross_entropy_with_logits

Андрей

15.01.2018
08:24:26

Парни, как подавать на вход слова и на выходе получить категорию? Задача такая: Вводится слово или фраза напримар вот один из вариантов: лошадь, конь, жеребенок, рысак, скакун, коняшка, лошеденок, арабский скакун и т.д. А на выходе мы (сеть) должны сообщить что это категория лошади. Как преобразовать входящие фразы в вектор постоянного размера?

Паша

15.01.2018
08:31:10

Парни, как подавать на вход слова и на выходе получить категорию? Задача такая: Вводится слово или фраза напримар вот один из вариантов: лошадь, конь, жеребенок, рысак, скакун, коняшка, лошеденок, арабский скакун и т.д. А на выходе мы (сеть) должны сообщить что это категория лошади. Как преобразовать входящие фразы в вектор постоянного размера?

Вроде как в гугле (на youtube) для представления фразы использовалась vord2vec. Каждое слово переводили в вектор, а потом делали сумму или среднее

Артем

15.01.2018
08:31:11

Надо собрать все фразы в наборе, разбить на слова => нужный вектор. Посмотри baf of words

tonko

15.01.2018
08:34:09

Надо собрать все фразы в наборе, разбить на слова => нужный вектор. Посмотри baf of words

Ну дк мешок слов тоже может быть разной длины

в ЛСТМ, например, обычно нужна постоянная длина входного вектора

обычно определяют максимальную длину исходя из датасета, а недостающие слова в документах забивают нулями

tonko

15.01.2018
08:35:42

но можно использовать свертки, или эмбеддинги как в w2v

Паша

15.01.2018
08:35:58

Не обязательно. Где-то читал, что они суммировали все векторы мешка слов, и получали один. Но это не совсем удобно, так как word2vec еще и "смысл" слов улавливает

Admin

ERROR: S client not available

Паша

15.01.2018
08:35:58

Ну дк мешок слов тоже может быть разной длины

Правда в той статье они это использовали с tf-idf

Serhii

15.01.2018
10:38:47

Я бы попробовал взять что-то вроде word2vec для эмбеддинга и какой нибудь k-nn для классификации

Андрей

15.01.2018
10:42:33

Я бы попробовал взять что-то вроде word2vec для эмбеддинга и какой нибудь k-nn для классификации