
Vladimir
11.01.2018
16:50:07
если рецепты, тогда можно почитать форум вот здесь
https://www.kaggle.com/c/avito-duplicate-ads-detection
Возможно, кто-то делился подходами к решению
и еще по этому соревнованию есть видео лекция от призеров с одного из субботников OpenDataScience в Яндексе (на ФБ они называются "ML тренировки")

Google

Vladimir
11.01.2018
16:54:12
они в смысле субботники

Daniil
11.01.2018
17:24:26

Vladimir
11.01.2018
18:37:26
Я бы рекомендовал все-таки найти упомянутое видео. Оно было очень познавательное, я его смотрел.

Oleksandr
11.01.2018
18:44:44

Daniil
11.01.2018
18:49:18
coreference resolution
О, классно. По формулировке прям что надо, но у меня нет текста структурированного к сожалению
Данные о товарах?

Vitaliy
12.01.2018
10:33:41
Подскажите толковую литературу по группам Ли. Хочется понятно изожение, а не многообразие формул

Pavlo
12.01.2018
10:41:45
Розенфельд - Замаховский, "Геометрия групп Ли". но это бурбакистское изложение, не все находят приятным (я нахожу)

Vitaliy
12.01.2018
10:44:26

Pavlo
12.01.2018
10:52:11
я знаю ещё несколько хороших учебников по теме, но нужно добраться до домашней библиотеки чтобы глянуть названия

Vitaliy
12.01.2018
10:53:06
Буду очень благодарен за рекомендации

Igor
12.01.2018
10:59:33
Кто нибудь? AWS? Cloudfront, Rout53, S3?
http://golaso.io - bad request как починить? Друг гугл и мой мозг не справляются с нагрузкой.
golaso.io - bad request. Я не понимаю что я напутал с dns, cdn и правами на доступ к S3 bucket. Домен просто не отдает страницу.
Он отдаватл, но мне нужно через amazon certification manager подключить SSL сертификат. Создал, верифицировал, подключил - и все. Слетел домен.
Я бы задал вопрос поконкретнее, но сам не пойму чего же я напутал.

Google

Nick
12.01.2018
12:19:08
Посмотрите ещё сертификат на лоад балансере, если есть. Пробуйте тестировать по кускам и на каждом этапе концентрироваться на части, которая не работает

oles
12.01.2018
16:19:14
подскажите плз какойнибудь готовый инструмент для кластеризации текстов по похожести на английском. то есть на входе я загоняю в него массив текстов а на выходе он дает массив клстеров с какойто весовой оценкой похожести

Dan
12.01.2018
23:36:46
Ashur на первый раз прощаем.

Andrey
13.01.2018
10:33:16
Подход а целом советуют верный, ты хранить агрегаты а распеределенное бд (шбасе,касандра) приходят новые данные ты читаешь старые по ключам, агрегируешь новые , и сохраняешь а бд опять. Это масштабируется увеличением партиций в кафке
Т.е. Если все разумно реализовано и хорошо работает на 3, то и на 3к при увеличении партиций должно работать быстро

Vitalii
13.01.2018
11:36:34
Приветствую.
Как лучше подать и классифицировать изображения, если у 1 изображения по умолчанию может быть несколько лейблов? Спасибо

Drino
13.01.2018
11:46:52

Andrey
13.01.2018
16:21:54
Все как обычно, но последний слой - сигмоидный, а не софтмакс

Drino
13.01.2018
17:35:30
Так это и будет бинарная классификация. Просто у этих сеток пошарены первые слои.
Нет
Все как обычно, но последний слой - сигмоидный, а не софтмакс

Viktor
13.01.2018
18:34:42
Коллеги, кто тренирует керас+тензорфлоу на CPU подскажите пересборка ТФ с поддержкой SSE4.1 SSE4.2 AVX AVX2 FMA сильно увеличивает производительность или не стоит возиться?

Andrey
13.01.2018
19:04:25
Сетка одна, ничего нигде не пошарено

Sergey
13.01.2018
19:08:38
Так сигмоида тебе даёт биномиальное распределение
Только два класса

Andrey
13.01.2018
19:18:27
Сигмоида - активация каждого из n нейронов выходного слоя (по числу классов)

Drino
13.01.2018
20:33:52

Google

Valeriy
13.01.2018
23:13:47
привет. не могу понять с какой стороны лучше подойти: есть история запросов (каждый запрос содержит 50 полей с данными н-р). нужно уметь составлять прогнозы по указанному фильтру. фильтр может содержать разные условия для всех полей с операциями И, ИЛИ, НЕ. получается вроде как поиск, но не хочется перебирать все записи в истории с наложением фильтра каждый раз
может у кого-нибудь было подобное, или есть идеи?
пример: нужно предсказать кол-во запросов в определенный день используя историю запросов и фильтр: пятница, запросы с мобильных устройств и из США

Andrey
14.01.2018
06:44:01

Sergey
14.01.2018
09:25:43

Drino
14.01.2018
09:48:21
А лосс какой?
Сумма кросс-энтропий по каждому из лейблов. Формула есть у тф:
https://www.tensorflow.org/versions/r1.1/api_docs/python/tf/nn/sigmoid_cross_entropy_with_logits

Андрей
15.01.2018
08:24:26
Парни, как подавать на вход слова и на выходе получить категорию?
Задача такая:
Вводится слово или фраза напримар вот один из вариантов: лошадь, конь, жеребенок, рысак, скакун, коняшка, лошеденок, арабский скакун и т.д.
А на выходе мы (сеть) должны сообщить что это категория лошади.
Как преобразовать входящие фразы в вектор постоянного размера?

Паша
15.01.2018
08:31:10

Артем
15.01.2018
08:31:11
Надо собрать все фразы в наборе, разбить на слова => нужный вектор. Посмотри baf of words

tonko
15.01.2018
08:34:09
в ЛСТМ, например, обычно нужна постоянная длина входного вектора
обычно определяют максимальную длину исходя из датасета, а недостающие слова в документах забивают нулями

tonko
15.01.2018
08:35:42
но можно использовать свертки, или эмбеддинги как в w2v

Паша
15.01.2018
08:35:58
Не обязательно. Где-то читал, что они суммировали все векторы мешка слов, и получали один. Но это не совсем удобно, так как word2vec еще и "смысл" слов улавливает

Admin
ERROR: S client not available

Паша
15.01.2018
08:35:58
Ну дк мешок слов тоже может быть разной длины
Правда в той статье они это использовали с tf-idf

Serhii
15.01.2018
10:38:47
Я бы попробовал взять что-то вроде word2vec для эмбеддинга и какой нибудь k-nn для классификации

Андрей
15.01.2018
10:42:33

Serhii
15.01.2018
10:48:15
Word2vec или k-nn? Ну я не имею понятия работает это или нет, я предполагаю что это должно работать )

Google

Arslan
15.01.2018
10:48:51
а вообще wiki

tonko
15.01.2018
10:51:58

Андрей
15.01.2018
11:13:26

tonko
15.01.2018
11:15:09

Serhii
15.01.2018
11:19:04

tonko
15.01.2018
11:20:01

Serhii
15.01.2018
11:24:27
Да, my fault, перед lstm там эмбеддинг в вектор

tonko
15.01.2018
11:28:02
Ну логично, эмбеддинги никогда не помешают)

Dog
15.01.2018
14:04:02
58 терабайт это бигдата?)

Henadz
15.01.2018
14:04:11
двух терабайт не хватает

Dog
15.01.2018
14:04:32
а как впихнуть 58 терабайт на одну машину тогда?)

Dan
15.01.2018
14:04:47
Странный вопрос
А что тут сложного?

Dog
15.01.2018
14:06:11
А что тут сложного?
ну как минимум будет несколько жестких дисков, а это уже распределенное хранилище и распределенные вычисления

Henadz
15.01.2018
14:07:03
если вам записать и забыть для архива - то изи влазит на один комп, массив дисков

Dmitry Tron
15.01.2018
15:48:37
несколько жестких дисков это еще не распределенные вычисления

Stanislav
15.01.2018
16:14:23
raidix? питерская котора