@bigdata_ru

Страница 214 из 327
Vladimir
11.01.2018
16:50:07
если рецепты, тогда можно почитать форум вот здесь https://www.kaggle.com/c/avito-duplicate-ads-detection

Возможно, кто-то делился подходами к решению

и еще по этому соревнованию есть видео лекция от призеров с одного из субботников OpenDataScience в Яндексе (на ФБ они называются "ML тренировки")

Google
Vladimir
11.01.2018
16:54:12
они в смысле субботники

Daniil
11.01.2018
17:24:26
интересует именно термин или все-таки возможные рецепты, что делать?
и то, и другое, вообще говоря. спасибо, я почитаю)

Vladimir
11.01.2018
18:37:26
Я бы рекомендовал все-таки найти упомянутое видео. Оно было очень познавательное, я его смотрел.

Daniil
11.01.2018
18:49:18
coreference resolution
О, классно. По формулировке прям что надо, но у меня нет текста структурированного к сожалению

Данные о товарах?

Vitaliy
12.01.2018
10:33:41
Подскажите толковую литературу по группам Ли. Хочется понятно изожение, а не многообразие формул

Pavlo
12.01.2018
10:41:45
Розенфельд - Замаховский, "Геометрия групп Ли". но это бурбакистское изложение, не все находят приятным (я нахожу)

Vitaliy
12.01.2018
10:44:26
Pavlo
12.01.2018
10:52:11
я знаю ещё несколько хороших учебников по теме, но нужно добраться до домашней библиотеки чтобы глянуть названия

Vitaliy
12.01.2018
10:53:06
Буду очень благодарен за рекомендации

Igor
12.01.2018
10:59:33
Кто нибудь? AWS? Cloudfront, Rout53, S3? http://golaso.io - bad request как починить? Друг гугл и мой мозг не справляются с нагрузкой.

golaso.io - bad request. Я не понимаю что я напутал с dns, cdn и правами на доступ к S3 bucket. Домен просто не отдает страницу. Он отдаватл, но мне нужно через amazon certification manager подключить SSL сертификат. Создал, верифицировал, подключил - и все. Слетел домен. Я бы задал вопрос поконкретнее, но сам не пойму чего же я напутал.

Google
Nick
12.01.2018
12:19:08
Посмотрите ещё сертификат на лоад балансере, если есть. Пробуйте тестировать по кускам и на каждом этапе концентрироваться на части, которая не работает

oles
12.01.2018
16:19:14
подскажите плз какойнибудь готовый инструмент для кластеризации текстов по похожести на английском. то есть на входе я загоняю в него массив текстов а на выходе он дает массив клстеров с какойто весовой оценкой похожести

Dan
12.01.2018
23:36:46
Ashur на первый раз прощаем.

Andrey
13.01.2018
10:33:16
Подход а целом советуют верный, ты хранить агрегаты а распеределенное бд (шбасе,касандра) приходят новые данные ты читаешь старые по ключам, агрегируешь новые , и сохраняешь а бд опять. Это масштабируется увеличением партиций в кафке

Т.е. Если все разумно реализовано и хорошо работает на 3, то и на 3к при увеличении партиций должно работать быстро

Vitalii
13.01.2018
11:36:34
Приветствую. Как лучше подать и классифицировать изображения, если у 1 изображения по умолчанию может быть несколько лейблов? Спасибо

Andrey
13.01.2018
16:21:54
Все как обычно, но последний слой - сигмоидный, а не софтмакс

Drino
13.01.2018
17:35:30
Так это и будет бинарная классификация. Просто у этих сеток пошарены первые слои.

Нет

Все как обычно, но последний слой - сигмоидный, а не софтмакс

Viktor
13.01.2018
18:34:42
Коллеги, кто тренирует керас+тензорфлоу на CPU подскажите пересборка ТФ с поддержкой SSE4.1 SSE4.2 AVX AVX2 FMA сильно увеличивает производительность или не стоит возиться?

Andrey
13.01.2018
19:04:25
Так это и будет бинарная классификация. Просто у этих сеток пошарены первые слои.
Это не будет бинарная классификация. Этот multi-label классификация.

Сетка одна, ничего нигде не пошарено

Sergey
13.01.2018
19:08:38
Так сигмоида тебе даёт биномиальное распределение

Только два класса

Andrey
13.01.2018
19:18:27
Сигмоида - активация каждого из n нейронов выходного слоя (по числу классов)

Drino
13.01.2018
20:33:52
Это не будет бинарная классификация. Этот multi-label классификация.
Но ведь очевидно, что полученные задачи оптимизации эквивалентны. А мульти-лейбел теоретически допускает какие-нибудь label powerset и прочие не к ночи упомянутые извращения.

Google
Valeriy
13.01.2018
23:13:47
привет. не могу понять с какой стороны лучше подойти: есть история запросов (каждый запрос содержит 50 полей с данными н-р). нужно уметь составлять прогнозы по указанному фильтру. фильтр может содержать разные условия для всех полей с операциями И, ИЛИ, НЕ. получается вроде как поиск, но не хочется перебирать все записи в истории с наложением фильтра каждый раз

может у кого-нибудь было подобное, или есть идеи?

пример: нужно предсказать кол-во запросов в определенный день используя историю запросов и фильтр: пятница, запросы с мобильных устройств и из США

Drino
14.01.2018
09:48:21
А лосс какой?
Сумма кросс-энтропий по каждому из лейблов. Формула есть у тф: https://www.tensorflow.org/versions/r1.1/api_docs/python/tf/nn/sigmoid_cross_entropy_with_logits

Андрей
15.01.2018
08:24:26
Парни, как подавать на вход слова и на выходе получить категорию? Задача такая: Вводится слово или фраза напримар вот один из вариантов: лошадь, конь, жеребенок, рысак, скакун, коняшка, лошеденок, арабский скакун и т.д. А на выходе мы (сеть) должны сообщить что это категория лошади. Как преобразовать входящие фразы в вектор постоянного размера?

Артем
15.01.2018
08:31:11
Надо собрать все фразы в наборе, разбить на слова => нужный вектор. Посмотри baf of words

tonko
15.01.2018
08:34:09
в ЛСТМ, например, обычно нужна постоянная длина входного вектора

обычно определяют максимальную длину исходя из датасета, а недостающие слова в документах забивают нулями

tonko
15.01.2018
08:35:42
но можно использовать свертки, или эмбеддинги как в w2v

Паша
15.01.2018
08:35:58
Не обязательно. Где-то читал, что они суммировали все векторы мешка слов, и получали один. Но это не совсем удобно, так как word2vec еще и "смысл" слов улавливает

Admin
ERROR: S client not available

Паша
15.01.2018
08:35:58
Ну дк мешок слов тоже может быть разной длины

Правда в той статье они это использовали с tf-idf

Serhii
15.01.2018
10:38:47
Я бы попробовал взять что-то вроде word2vec для эмбеддинга и какой нибудь k-nn для классификации

Андрей
15.01.2018
10:42:33
Я бы попробовал взять что-то вроде word2vec для эмбеддинга и какой нибудь k-nn для классификации
Не подскажете ссылку на наглядное описание этого алгоритма?

Serhii
15.01.2018
10:48:15
Word2vec или k-nn? Ну я не имею понятия работает это или нет, я предполагаю что это должно работать )

Google
tonko
15.01.2018
10:51:58
Андрей
15.01.2018
11:13:26
https://stats.stackexchange.com/questions/266782/understanding-word2vec
Спасибо. Жаль что английский, но попробую разобраться.

tonko
15.01.2018
11:15:09
Спасибо. Жаль что английский, но попробую разобраться.
Гугл переводчик сейчас неплохо справляется с длинными текстами. Кстати в переводчике тоже эмбеддинги используются.

Serhii
15.01.2018
11:19:04
tonko
15.01.2018
11:20:01
Там же вроде буковы сразу в seq2seq lstm с аттеншоном попадают, без word2vec?
Не знаю кстати как на данный момент, но судя по новостям, еще весной 2017 там в основе лежал word2vec

Serhii
15.01.2018
11:24:27
Да, my fault, перед lstm там эмбеддинг в вектор

tonko
15.01.2018
11:28:02
Ну логично, эмбеддинги никогда не помешают)

Dog
15.01.2018
14:04:02
58 терабайт это бигдата?)

Henadz
15.01.2018
14:04:11
двух терабайт не хватает

Dog
15.01.2018
14:04:32
а как впихнуть 58 терабайт на одну машину тогда?)

Dan
15.01.2018
14:04:47
Странный вопрос

А что тут сложного?

Dog
15.01.2018
14:06:11
А что тут сложного?
ну как минимум будет несколько жестких дисков, а это уже распределенное хранилище и распределенные вычисления

Henadz
15.01.2018
14:07:03
если вам записать и забыть для архива - то изи влазит на один комп, массив дисков

Dmitry Tron
15.01.2018
15:48:37
несколько жестких дисков это еще не распределенные вычисления

Stanislav
15.01.2018
16:14:23
raidix? питерская котора

Страница 214 из 327