
Paul
09.03.2017
12:59:07

Constantine
09.03.2017
12:59:48
т.е. точки лежат на одном векторе
но находятся на разном расстоянии от центра

Google

Paul
09.03.2017
13:00:03
Угу

Constantine
09.03.2017
13:00:18
для многомерного случая когда у нас нет tf-idf
а просто многомерная единичная сфера
отличий значительных не может же получиться

Paul
09.03.2017
13:01:29
В частных случаях может не получится
но если аксиома тождества не выполняется, то уже выбирать надо
Зависит от задачи, очевидно.

Constantine
09.03.2017
13:01:56
кинь ссылкой на почитать про аксиомы

Андрюшка :D
09.03.2017
13:02:05
я вот слушаю Вас диалог тут и ни слова не понимаю, метрики, меры, tf-idf... но кажется всё это очень интересным :)
в связи с этим очевидный вопрос - подскажите пожалуйста самую-самую начальную литературу с дальнейшим вектором развития?

Paul
09.03.2017
13:02:37
ну же, аксиома тождества, треугольника и симметрия

Constantine
09.03.2017
13:03:06
спасибо

Oleksandr
09.03.2017
13:19:01

Google

Oleksandr
09.03.2017
13:19:18
tf/idf -- ненадежный костыль :)

Paul
09.03.2017
13:21:29

Constantine
09.03.2017
13:23:11
просто в scikit есть http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
который всё за тебя сделает
ну и из него можно выдрать кучу инфы
и метрики посчитать

Larleyt
09.03.2017
13:23:37
Посоветуйте библиотеки для Python для классификации звуков, пожалуйста. Знаю пока только librosa

Oleksandr
09.03.2017
13:23:43

Constantine
09.03.2017
13:24:09
причем это самый tfidf отключается в параметрах
там нет магии
он объединяет два этапа
countvectorizer
и tfidf

Larleyt
09.03.2017
13:25:16

Constantine
09.03.2017
13:25:48
Цитата "Equivalent to CountVectorizer followed by TfidfTransformer"

Oleksandr
09.03.2017
13:31:49
насчет деревьев разбора -- у меня положительный опыт с http://nlp.stanford.edu/software/stanford-dependencies.shtml , рекомендую

Ayrana
09.03.2017
15:47:35
https://arxiv.org/abs/1702.07825
Baidu’s artificial intelligence lab has revealed its work on speech synthesis.

Ivan
09.03.2017
16:04:44
https://www.meetup.com/Coding-with-AppsFlyer/events/238293054/

Nick
10.03.2017
07:40:16
Здравствуйте, кто-нибудь пробовал классифицировать time series с помощью k-nn и Dynamic Time Warping?

Google


Denis
10.03.2017
08:08:26
Всем привет! Если есть кто, моогу предложить след вакансию:
Мы используем следующий стек технологий:
ClickHouse — храним все метаданные, основная база с ценной информацией для BigData вычислений
Percona Server (MySQL) — для справочников, прокинутых в ClickHouse, где пароли пользователей, другие перс. Данные и настройки системы
PHP 7 — основной язык программирования всей бизнесс логики
Фреймворки на PHP: Symfony 3, Silex, AnagularJS с LazyLoad, m3u8 и другими вкусностями (webpack, gulp, bulk....
Система контроля версий: Git
Вся работа в системе контроля версий ведется по Git Flow
Для деплоя используем Deployer как для php так и для разворачивания новых нод на физических серверах
На текущий момент около 20-ти серверов обеспечивают облако обработки и хранения данных, за 2 месяца планируется нарастить до 120-ти.
Все серверы обьеденены в PrivateCloud
В основе бекенда используется микросервисная архитектура с полным REST-API между сервисами и он же (REST-API) используется для выдачи данных в морду.
Методология разработки: SCRUM
С какими блоками работать придется:
Backend: Развитие бизнесс-логики для хранения и распределения данных в Private Cloud, работа на стыке низкого уровня работы ОС Linux с отдельным ПО. Разработка сервисов логики обработки и аналитики данных для распределения по API и базе данных. Передача и организация данных внутри архитектуры. Все пишется на Silex
Backend: Бизнесс-логика работы системы вцелом основного API, которое коммуницирует с API сервисов и распределяет задачи. Работа с выдачей данных в морду. Логика сбора данных с разных источников и их анализ. Все пишется на Symfony 3.
Frontend: Разработка основного интерфейса системы. Все работа ведется на Anagular JS.


Ivan
10.03.2017
08:19:36
php ?

Denis
10.03.2017
08:22:08
Пхп няшный язык)

Artem
10.03.2017
08:22:24
Особенно для бигдаты

Viktor
10.03.2017
08:22:58
да уж

Sergey
10.03.2017
08:24:35
возможно проблема только в параллелизации - но не такая уж и проблема. я готовлю данные на php сотни миллионов строк - выходит оч быстро и если что легко спеца найти в помощь, а потом отправляю на модели на питоне.

Constantine
10.03.2017
09:12:56
А почему не готовить сразу в петоне?
Зачем нужна промежуточная сущность
@ssergy1234

Sergey
10.03.2017
09:14:08
питон разрабов грамотных в сотни раз меньше чем php

Denis
10.03.2017
09:15:12

Sergey
10.03.2017
09:15:25
С одной стороны питон - язык оч простой, но как туда-сюда тыкнешься и опачки - ни кого нет)

Sergey
10.03.2017
09:15:51
Вот даж уже и с php-никами проблемы(

Kirill
10.03.2017
09:16:06

Sergey
10.03.2017
09:20:16
Мне кажется, примерно одинаково. Как минимум, не в сотни раз
Тут вопрос спорный ИМХО многие начинают писать на php со всяких вордпрессов и прочих ужасов -и постепенно дорастают до HL и учатся делать норм вещи. А в питоне непонятно с чего начинать - с джаного или flask или еще с чего - по факту распростанненности все это крайне "не очень".
Хотя статистику распространнености языков давно не видел.

/dev
10.03.2017
09:24:36
> php, scrum, вкусности из ангулярного дерьма
пожалуй, дневную порцию мерзотности за день получил, теперь можно перестать писать говнокод

Admin
ERROR: S client not available

Kirill
10.03.2017
09:28:23

Dan
10.03.2017
09:29:31
а в чём измеряется по вашему мнению критерий грамотности?

Google

Sergey
10.03.2017
09:36:17

Dan
10.03.2017
09:39:28
так вот, большинство кодеров сейчас это гуглокодеры или стэковерфлоу кодеры. и нет, это не плохо, потому что если кодер точно не знает реализации чего-то, это всегда можно подсмотреть и скопипастить откуда-нибудь.
но, есть предложение завершить бессмысленный спор о языках программирования ?

Sergey
10.03.2017
09:41:57

/dev
10.03.2017
12:03:52

Arslan
10.03.2017
13:01:19
Доброго времени суток всем! Друзья, как вы думаете какую область(имееться ввиду изображения, текст, мед данные) или задачу лучше было бы осветить на конференции? Какая, на ваш взляд, самая актуальная тема в ИИ?

Andrey
10.03.2017
13:05:04
Тема зарабатывания денег, вестимо!

/dev
10.03.2017
13:09:15

Arslan
10.03.2017
13:10:20

Ilya
10.03.2017
13:11:10
Дык конференция то платная?

Arslan
10.03.2017
13:11:42

Ilya
10.03.2017
13:12:06
Тогда он прав, отличная тема=)

Alexander
10.03.2017
15:13:58
Вот канал в телеграме куда мы собираем интересные вещи на такую тематику (Data Science, Machine Learning, данные, аналитика, философия)
- https://goo.gl/Ubw4fB
И обновляемая провалидированная таблица с лучшими источниками и статьями по ML и DS
- https://goo.gl/5VGU5A . Дополняйте, если есть полезные примеры / статьи / источники...

Naeim
10.03.2017
17:56:46
http://cooldatasets.com/

Geronimo
11.03.2017
01:40:03
найс ник

Boris
11.03.2017
06:01:12

Viktor
11.03.2017
06:09:03
ну да как-то так и сделали в итоге
+ расстояние еще добавили от опечаток

Google

Леонид
11.03.2017
15:20:06

Boris
11.03.2017
20:34:39
решаю задачу прогнозирования победителя в спортивном матче. начал с модели TrueSkill, идея с помощью разных выборок построить много рейтингов и затем смешать, подав как фичи для логистической регрессии.
вопросы такие: как прикинуть, в какой момент стоит прекратить улучшать конкретный рейтинг (по сути фичу для классификатора) и переходить к построению следующего признака?
корректно ли мерить log-loss по каждому рейтингу отдельно, или лучше сразу смотреть на различные их объединения в логистической регрессии? может ли возникнуть синергия между рейтингами, кажущимися не очень сильными по отдельности?

/dev
12.03.2017
00:08:51

Вячеслав
12.03.2017
02:03:04
https://www.instagram.com/p/kR_HpnHkvR9J_p3ifvZgBo5wCsv0PD2MAFY8Y0/?taken-by=rustohero