@bigdata_ru

Страница 52 из 327
Paul
09.03.2017
12:59:07
просто числа разные получаются
Нет же, два вектора могут быть близки друг другу по косиносному расстоянию, но далеки по эвклидову

манхэттеновское расстояние тоже мера?
да, но ещё и метрика, ведь соблюдаются все три аксиомы

Constantine
09.03.2017
12:59:48
т.е. точки лежат на одном векторе

но находятся на разном расстоянии от центра

Google
Paul
09.03.2017
13:00:03
Угу

Constantine
09.03.2017
13:00:18
для многомерного случая когда у нас нет tf-idf

а просто многомерная единичная сфера

отличий значительных не может же получиться

Paul
09.03.2017
13:01:29
В частных случаях может не получится

но если аксиома тождества не выполняется, то уже выбирать надо

Зависит от задачи, очевидно.

Constantine
09.03.2017
13:01:56
кинь ссылкой на почитать про аксиомы

Андрюшка :D
09.03.2017
13:02:05
я вот слушаю Вас диалог тут и ни слова не понимаю, метрики, меры, tf-idf... но кажется всё это очень интересным :) в связи с этим очевидный вопрос - подскажите пожалуйста самую-самую начальную литературу с дальнейшим вектором развития?

Paul
09.03.2017
13:02:37
ну же, аксиома тождества, треугольника и симметрия

Constantine
09.03.2017
13:03:06
спасибо

Google
Oleksandr
09.03.2017
13:19:18
tf/idf -- ненадежный костыль :)

Paul
09.03.2017
13:21:29
tf/idf -- ненадежный костыль :)
Смотря для чего. Ну и да, наверное скорее bm25 нежели tfidf, но не суть

Constantine
09.03.2017
13:23:11
просто в scikit есть http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

который всё за тебя сделает

ну и из него можно выдрать кучу инфы

и метрики посчитать

Larleyt
09.03.2017
13:23:37
Посоветуйте библиотеки для Python для классификации звуков, пожалуйста. Знаю пока только librosa

Oleksandr
09.03.2017
13:23:43
Смотря для чего. Ну и да, наверное скорее bm25 нежели tfidf, но не суть
сформулирую иначе -- это неплохая эвристика, которую саму по себе, тем не менее, юзать не стоит

который всё за тебя сделает
вот не надо так думать, магия -- плохо

Constantine
09.03.2017
13:24:09
причем это самый tfidf отключается в параметрах

там нет магии

он объединяет два этапа

countvectorizer

и tfidf

Constantine
09.03.2017
13:25:48
Цитата "Equivalent to CountVectorizer followed by TfidfTransformer"

Oleksandr
09.03.2017
13:31:49
насчет деревьев разбора -- у меня положительный опыт с http://nlp.stanford.edu/software/stanford-dependencies.shtml , рекомендую

Ayrana
09.03.2017
15:47:35
https://arxiv.org/abs/1702.07825 Baidu’s artificial intelligence lab has revealed its work on speech synthesis.

Ivan
09.03.2017
16:04:44
https://www.meetup.com/Coding-with-AppsFlyer/events/238293054/

Nick
10.03.2017
07:40:16
Здравствуйте, кто-нибудь пробовал классифицировать time series с помощью k-nn и Dynamic Time Warping?

Google
Denis
10.03.2017
08:08:26
Всем привет! Если есть кто, моогу предложить след вакансию: Мы используем следующий стек технологий: ClickHouse — храним все метаданные, основная база с ценной информацией для BigData вычислений Percona Server (MySQL) — для справочников, прокинутых в ClickHouse, где пароли пользователей, другие перс. Данные и настройки системы PHP 7 — основной язык программирования всей бизнесс логики Фреймворки на PHP: Symfony 3, Silex, AnagularJS с LazyLoad, m3u8 и другими вкусностями (webpack, gulp, bulk.... Система контроля версий: Git Вся работа в системе контроля версий ведется по Git Flow Для деплоя используем Deployer как для php так и для разворачивания новых нод на физических серверах На текущий момент около 20-ти серверов обеспечивают облако обработки и хранения данных, за 2 месяца планируется нарастить до 120-ти. Все серверы обьеденены в PrivateCloud В основе бекенда используется микросервисная архитектура с полным REST-API между сервисами и он же (REST-API) используется для выдачи данных в морду. Методология разработки: SCRUM С какими блоками работать придется: Backend: Развитие бизнесс-логики для хранения и распределения данных в Private Cloud, работа на стыке низкого уровня работы ОС Linux с отдельным ПО. Разработка сервисов логики обработки и аналитики данных для распределения по API и базе данных. Передача и организация данных внутри архитектуры. Все пишется на Silex Backend: Бизнесс-логика работы системы вцелом основного API, которое коммуницирует с API сервисов и распределяет задачи. Работа с выдачей данных в морду. Логика сбора данных с разных источников и их анализ. Все пишется на Symfony 3. Frontend: Разработка основного интерфейса системы. Все работа ведется на Anagular JS.

Ivan
10.03.2017
08:19:36
php ?

Denis
10.03.2017
08:22:08
Пхп няшный язык)

Artem
10.03.2017
08:22:24
Особенно для бигдаты

Viktor
10.03.2017
08:22:58
да уж

Sergey
10.03.2017
08:24:35
возможно проблема только в параллелизации - но не такая уж и проблема. я готовлю данные на php сотни миллионов строк - выходит оч быстро и если что легко спеца найти в помощь, а потом отправляю на модели на питоне.

Constantine
10.03.2017
09:12:56
А почему не готовить сразу в петоне?

Зачем нужна промежуточная сущность

@ssergy1234

Sergey
10.03.2017
09:14:08
питон разрабов грамотных в сотни раз меньше чем php

Denis
10.03.2017
09:15:12
Sergey
10.03.2017
09:15:25
С одной стороны питон - язык оч простой, но как туда-сюда тыкнешься и опачки - ни кого нет)

Sergey
10.03.2017
09:15:51
Вот даж уже и с php-никами проблемы(

Kirill
10.03.2017
09:16:06
питон разрабов грамотных в сотни раз меньше чем php
Мне кажется, примерно одинаково. Как минимум, не в сотни раз

Sergey
10.03.2017
09:20:16
Мне кажется, примерно одинаково. Как минимум, не в сотни раз
Тут вопрос спорный ИМХО многие начинают писать на php со всяких вордпрессов и прочих ужасов -и постепенно дорастают до HL и учатся делать норм вещи. А в питоне непонятно с чего начинать - с джаного или flask или еще с чего - по факту распростанненности все это крайне "не очень".

Хотя статистику распространнености языков давно не видел.

/dev
10.03.2017
09:24:36
> php, scrum, вкусности из ангулярного дерьма пожалуй, дневную порцию мерзотности за день получил, теперь можно перестать писать говнокод

Admin
ERROR: S client not available

Dan
10.03.2017
09:29:31
а в чём измеряется по вашему мнению критерий грамотности?

Google
Sergey
10.03.2017
09:36:17
а в чём измеряется по вашему мнению критерий грамотности?
В умении решить проблему клиента, в установленный срок и с высоким качеством реализации (возможностями дальнейшей поддержки/разработки/нагрузки и тп).

Dan
10.03.2017
09:39:28
В умении решить проблему клиента, в установленный срок и с высоким качеством реализации (возможностями дальнейшей поддержки/разработки/нагрузки и тп).
для этого даже программистом быть не нужно :-/ достаточно быть очень хорошим ПМ, и тогда можно решать любые проблемы любых клиентов, привлекая исключительно высококлассных, да хоть звёздных кодеров. а критерий грамотности всё-таки это нечто другое, скорее из области отличного знания семантики и синтаксиса + роскошного уровня владения инструментом разработки.

так вот, большинство кодеров сейчас это гуглокодеры или стэковерфлоу кодеры. и нет, это не плохо, потому что если кодер точно не знает реализации чего-то, это всегда можно подсмотреть и скопипастить откуда-нибудь.

но, есть предложение завершить бессмысленный спор о языках программирования ?

Arslan
10.03.2017
13:01:19
Доброго времени суток всем! Друзья, как вы думаете какую область(имееться ввиду изображения, текст, мед данные) или задачу лучше было бы осветить на конференции? Какая, на ваш взляд, самая актуальная тема в ИИ?

Andrey
10.03.2017
13:05:04
Тема зарабатывания денег, вестимо!

Ilya
10.03.2017
13:11:10
Дык конференция то платная?

Arslan
10.03.2017
13:11:42
Ilya
10.03.2017
13:12:06
Тогда он прав, отличная тема=)

Alexander
10.03.2017
15:13:58
Вот канал в телеграме куда мы собираем интересные вещи на такую тематику (Data Science, Machine Learning, данные, аналитика, философия) - https://goo.gl/Ubw4fB И обновляемая провалидированная таблица с лучшими источниками и статьями по ML и DS - https://goo.gl/5VGU5A . Дополняйте, если есть полезные примеры / статьи / источники...

Naeim
10.03.2017
17:56:46
http://cooldatasets.com/

Geronimo
11.03.2017
01:40:03
найс ник

Boris
11.03.2017
06:01:12
пните в правильную сторону есть какая-нибудь метрика из NLP чтобы сравнить допустим "красная рубашка" и "рубашка красная" и сказать что это примерно одно и тоже
я делал так: фразу на слова, вычисляем количество совпадающих. дальше делил кол-во совпадений на длину меньшей/большей строки (не помню какой, могу поискать) в моем случае еще отбрасывал стоп-слова, шум типа ООО ОАО. подобрал treshhold: >71% совпадающих почти всегда были ок >50% небольшая ошибка, вцелом хорошие совпадения

Viktor
11.03.2017
06:09:03
ну да как-то так и сделали в итоге

+ расстояние еще добавили от опечаток

Google
Леонид
11.03.2017
15:20:06
пните в правильную сторону есть какая-нибудь метрика из NLP чтобы сравнить допустим "красная рубашка" и "рубашка красная" и сказать что это примерно одно и тоже
Tf-idf скажет, что красная рубашка и розовая рубашка - сильно разные вещи. word2vec лучше подойдет для таких случаев. Извините, если уже не актуально :)

Boris
11.03.2017
20:34:39
решаю задачу прогнозирования победителя в спортивном матче. начал с модели TrueSkill, идея с помощью разных выборок построить много рейтингов и затем смешать, подав как фичи для логистической регрессии. вопросы такие: как прикинуть, в какой момент стоит прекратить улучшать конкретный рейтинг (по сути фичу для классификатора) и переходить к построению следующего признака? корректно ли мерить log-loss по каждому рейтингу отдельно, или лучше сразу смотреть на различные их объединения в логистической регрессии? может ли возникнуть синергия между рейтингами, кажущимися не очень сильными по отдельности?

Вячеслав
12.03.2017
02:03:04
https://www.instagram.com/p/kR_HpnHkvR9J_p3ifvZgBo5wCsv0PD2MAFY8Y0/?taken-by=rustohero

Страница 52 из 327