@bigdata_ru

« Назад

Страница 52 из 327

Далее »

Paul

09.03.2017
12:59:07

просто числа разные получаются

Нет же, два вектора могут быть близки друг другу по косиносному расстоянию, но далеки по эвклидову

манхэттеновское расстояние тоже мера?

да, но ещё и метрика, ведь соблюдаются все три аксиомы

Constantine

09.03.2017
12:59:48

т.е. точки лежат на одном векторе

но находятся на разном расстоянии от центра

Google

Paul

09.03.2017
13:00:03

Угу

Constantine

09.03.2017
13:00:18

для многомерного случая когда у нас нет tf-idf

а просто многомерная единичная сфера

отличий значительных не может же получиться

Paul

09.03.2017
13:01:29

В частных случаях может не получится

но если аксиома тождества не выполняется, то уже выбирать надо

Зависит от задачи, очевидно.

Constantine

09.03.2017
13:01:56

кинь ссылкой на почитать про аксиомы

Андрюшка :D

09.03.2017
13:02:05

я вот слушаю Вас диалог тут и ни слова не понимаю, метрики, меры, tf-idf... но кажется всё это очень интересным :) в связи с этим очевидный вопрос - подскажите пожалуйста самую-самую начальную литературу с дальнейшим вектором развития?

Paul

09.03.2017
13:02:37

кинь ссылкой на почитать про аксиомы

да даже на википедии

ну же, аксиома тождества, треугольника и симметрия

Constantine

09.03.2017
13:03:06

спасибо

Oleksandr

09.03.2017
13:19:01

пните в правильную сторону есть какая-нибудь метрика из NLP чтобы сравнить допустим "красная рубашка" и "рубашка красная" и сказать что это примерно одно и тоже

да, смотреть в сторогу деревьев разбора (parse trees)

Google

Oleksandr

09.03.2017
13:19:18

tf/idf -- ненадежный костыль :)

Paul

09.03.2017
13:21:29

tf/idf -- ненадежный костыль :)

Смотря для чего. Ну и да, наверное скорее bm25 нежели tfidf, но не суть

Constantine

09.03.2017
13:23:11

просто в scikit есть http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

который всё за тебя сделает

ну и из него можно выдрать кучу инфы

и метрики посчитать

Larleyt

09.03.2017
13:23:37

Посоветуйте библиотеки для Python для классификации звуков, пожалуйста. Знаю пока только librosa

Oleksandr

09.03.2017
13:23:43

Смотря для чего. Ну и да, наверное скорее bm25 нежели tfidf, но не суть

сформулирую иначе -- это неплохая эвристика, которую саму по себе, тем не менее, юзать не стоит

который всё за тебя сделает

вот не надо так думать, магия -- плохо

Constantine

09.03.2017
13:24:09

причем это самый tfidf отключается в параметрах

там нет магии

он объединяет два этапа

countvectorizer

и tfidf

Larleyt

09.03.2017
13:25:16

Посоветуйте библиотеки для Python для классификации звуков, пожалуйста. Знаю пока только librosa

Какие-нибудь гайды-доки-книги тоже подойдут.

Constantine

09.03.2017
13:25:48

Цитата "Equivalent to CountVectorizer followed by TfidfTransformer"

Oleksandr

09.03.2017
13:31:49

насчет деревьев разбора -- у меня положительный опыт с http://nlp.stanford.edu/software/stanford-dependencies.shtml , рекомендую

Ayrana

09.03.2017
15:47:35

https://arxiv.org/abs/1702.07825 Baidu’s artificial intelligence lab has revealed its work on speech synthesis.

Ivan

09.03.2017
16:04:44

https://www.meetup.com/Coding-with-AppsFlyer/events/238293054/

Nick

10.03.2017
07:40:16

Здравствуйте, кто-нибудь пробовал классифицировать time series с помощью k-nn и Dynamic Time Warping?

Google

Denis

10.03.2017
08:08:26

Всем привет! Если есть кто, моогу предложить след вакансию: Мы используем следующий стек технологий: ClickHouse — храним все метаданные, основная база с ценной информацией для BigData вычислений Percona Server (MySQL) — для справочников, прокинутых в ClickHouse, где пароли пользователей, другие перс. Данные и настройки системы PHP 7 — основной язык программирования всей бизнесс логики Фреймворки на PHP: Symfony 3, Silex, AnagularJS с LazyLoad, m3u8 и другими вкусностями (webpack, gulp, bulk.... Система контроля версий: Git Вся работа в системе контроля версий ведется по Git Flow Для деплоя используем Deployer как для php так и для разворачивания новых нод на физических серверах На текущий момент около 20-ти серверов обеспечивают облако обработки и хранения данных, за 2 месяца планируется нарастить до 120-ти. Все серверы обьеденены в PrivateCloud В основе бекенда используется микросервисная архитектура с полным REST-API между сервисами и он же (REST-API) используется для выдачи данных в морду. Методология разработки: SCRUM С какими блоками работать придется: Backend: Развитие бизнесс-логики для хранения и распределения данных в Private Cloud, работа на стыке низкого уровня работы ОС Linux с отдельным ПО. Разработка сервисов логики обработки и аналитики данных для распределения по API и базе данных. Передача и организация данных внутри архитектуры. Все пишется на Silex Backend: Бизнесс-логика работы системы вцелом основного API, которое коммуницирует с API сервисов и распределяет задачи. Работа с выдачей данных в морду. Логика сбора данных с разных источников и их анализ. Все пишется на Symfony 3. Frontend: Разработка основного интерфейса системы. Все работа ведется на Anagular JS.

Ivan

10.03.2017
08:19:36

php ?

Denis

10.03.2017
08:22:08

Пхп няшный язык)

Artem

10.03.2017
08:22:24

Особенно для бигдаты

Viktor

10.03.2017
08:22:58

да уж

Sergey

10.03.2017
08:24:35

возможно проблема только в параллелизации - но не такая уж и проблема. я готовлю данные на php сотни миллионов строк - выходит оч быстро и если что легко спеца найти в помощь, а потом отправляю на модели на питоне.

Constantine

10.03.2017
09:12:56

А почему не готовить сразу в петоне?

Зачем нужна промежуточная сущность

@ssergy1234

Sergey

10.03.2017
09:14:08

питон разрабов грамотных в сотни раз меньше чем php

Denis

10.03.2017
09:15:12

питон разрабов грамотных в сотни раз меньше чем php

дайте грамотного плиз php

Sergey

10.03.2017
09:15:25

С одной стороны питон - язык оч простой, но как туда-сюда тыкнешься и опачки - ни кого нет)

Sergey

10.03.2017
09:15:51

Вот даж уже и с php-никами проблемы(

Kirill

10.03.2017
09:16:06

питон разрабов грамотных в сотни раз меньше чем php

Мне кажется, примерно одинаково. Как минимум, не в сотни раз

Sergey

10.03.2017
09:20:16

Мне кажется, примерно одинаково. Как минимум, не в сотни раз

Тут вопрос спорный ИМХО многие начинают писать на php со всяких вордпрессов и прочих ужасов -и постепенно дорастают до HL и учатся делать норм вещи. А в питоне непонятно с чего начинать - с джаного или flask или еще с чего - по факту распростанненности все это крайне "не очень".

Хотя статистику распространнености языков давно не видел.

/dev

10.03.2017
09:24:36

> php, scrum, вкусности из ангулярного дерьма пожалуй, дневную порцию мерзотности за день получил, теперь можно перестать писать говнокод

Admin

ERROR: S client not available

Kirill

10.03.2017
09:28:23

Тут вопрос спорный ИМХО многие начинают писать на php со всяких вордпрессов и прочих ужасов -и постепенно дорастают до HL и учатся делать норм вещи. А в питоне непонятно с чего начинать - с джаного или flask или еще с чего - по факту распростанненности все это крайне "не очень".

Как ни странно, по индексу tiobe питон выше пыхи. Просто мне кажется, что каким бы ни было общее количество разработчиков, грамотных среди них будет примерно поровну

Dan

10.03.2017
09:29:31

а в чём измеряется по вашему мнению критерий грамотности?

Google

Sergey

10.03.2017
09:36:17

а в чём измеряется по вашему мнению критерий грамотности?

В умении решить проблему клиента, в установленный срок и с высоким качеством реализации (возможностями дальнейшей поддержки/разработки/нагрузки и тп).

Dan

10.03.2017
09:39:28

В умении решить проблему клиента, в установленный срок и с высоким качеством реализации (возможностями дальнейшей поддержки/разработки/нагрузки и тп).

для этого даже программистом быть не нужно :-/ достаточно быть очень хорошим ПМ, и тогда можно решать любые проблемы любых клиентов, привлекая исключительно высококлассных, да хоть звёздных кодеров. а критерий грамотности всё-таки это нечто другое, скорее из области отличного знания семантики и синтаксиса + роскошного уровня владения инструментом разработки.

так вот, большинство кодеров сейчас это гуглокодеры или стэковерфлоу кодеры. и нет, это не плохо, потому что если кодер точно не знает реализации чего-то, это всегда можно подсмотреть и скопипастить откуда-нибудь.

но, есть предложение завершить бессмысленный спор о языках программирования ?

Sergey

10.03.2017
09:41:57

для этого даже программистом быть не нужно :-/ достаточно быть очень хорошим ПМ, и тогда можно решать любые проблемы любых клиентов, привлекая исключительно высококлассных, да хоть звёздных кодеров. а критерий грамотности всё-таки это нечто другое, скорее из области отличного знания семантики и синтаксиса + роскошного уровня владения инструментом разработки.

Согласен - стоит прекратить- по-сути язык чисто инструмент. Сегодня пишешь на php/ завтра питон/послезавтра go - главное чтоб платили)))))

/dev

10.03.2017
12:03:52

Согласен - стоит прекратить- по-сути язык чисто инструмент. Сегодня пишешь на php/ завтра питон/послезавтра go - главное чтоб платили)))))

или пишешь на перле и становишься незаменимым сотрудником компании

Arslan

10.03.2017
13:01:19

Доброго времени суток всем! Друзья, как вы думаете какую область(имееться ввиду изображения, текст, мед данные) или задачу лучше было бы осветить на конференции? Какая, на ваш взляд, самая актуальная тема в ИИ?

Andrey

10.03.2017
13:05:04

Тема зарабатывания денег, вестимо!

/dev

10.03.2017
13:09:15

Доброго времени суток всем! Друзья, как вы думаете какую область(имееться ввиду изображения, текст, мед данные) или задачу лучше было бы осветить на конференции? Какая, на ваш взляд, самая актуальная тема в ИИ?

тема: тагретированная рассылка приглашений на платную конференцию с целью влёгкую срубить бабла

Arslan

10.03.2017
13:10:20

тема: тагретированная рассылка приглашений на платную конференцию с целью влёгкую срубить бабла

Силы светлые не деньги любят)

Ilya

10.03.2017
13:11:10

Дык конференция то платная?

Arslan

10.03.2017
13:11:42

Дык конференция то платная?

Это да)

Ilya

10.03.2017
13:12:06

Тогда он прав, отличная тема=)

Alexander

10.03.2017
15:13:58

Вот канал в телеграме куда мы собираем интересные вещи на такую тематику (Data Science, Machine Learning, данные, аналитика, философия) - https://goo.gl/Ubw4fB И обновляемая провалидированная таблица с лучшими источниками и статьями по ML и DS - https://goo.gl/5VGU5A . Дополняйте, если есть полезные примеры / статьи / источники...

Naeim

10.03.2017
17:56:46

http://cooldatasets.com/

Geronimo

11.03.2017
01:40:03

найс ник

Boris

11.03.2017
06:01:12

пните в правильную сторону есть какая-нибудь метрика из NLP чтобы сравнить допустим "красная рубашка" и "рубашка красная" и сказать что это примерно одно и тоже

я делал так: фразу на слова, вычисляем количество совпадающих. дальше делил кол-во совпадений на длину меньшей/большей строки (не помню какой, могу поискать) в моем случае еще отбрасывал стоп-слова, шум типа ООО ОАО. подобрал treshhold: >71% совпадающих почти всегда были ок >50% небольшая ошибка, вцелом хорошие совпадения

пните в правильную сторону есть какая-нибудь метрика из NLP чтобы сравнить допустим "красная рубашка" и "рубашка красная" и сказать что это примерно одно и тоже

длина строки в смысле количества слов

Viktor

11.03.2017
06:09:03

ну да как-то так и сделали в итоге

+ расстояние еще добавили от опечаток

Google

Леонид

11.03.2017
15:20:06

пните в правильную сторону есть какая-нибудь метрика из NLP чтобы сравнить допустим "красная рубашка" и "рубашка красная" и сказать что это примерно одно и тоже

Tf-idf скажет, что красная рубашка и розовая рубашка - сильно разные вещи. word2vec лучше подойдет для таких случаев. Извините, если уже не актуально :)

Boris

11.03.2017
20:34:39

решаю задачу прогнозирования победителя в спортивном матче. начал с модели TrueSkill, идея с помощью разных выборок построить много рейтингов и затем смешать, подав как фичи для логистической регрессии. вопросы такие: как прикинуть, в какой момент стоит прекратить улучшать конкретный рейтинг (по сути фичу для классификатора) и переходить к построению следующего признака? корректно ли мерить log-loss по каждому рейтингу отдельно, или лучше сразу смотреть на различные их объединения в логистической регрессии? может ли возникнуть синергия между рейтингами, кажущимися не очень сильными по отдельности?

/dev

12.03.2017
00:08:51

решаю задачу прогнозирования победителя в спортивном матче. начал с модели TrueSkill, идея с помощью разных выборок построить много рейтингов и затем смешать, подав как фичи для логистической регрессии. вопросы такие: как прикинуть, в какой момент стоит прекратить улучшать конкретный рейтинг (по сути фичу для классификатора) и переходить к построению следующего признака? корректно ли мерить log-loss по каждому рейтингу отдельно, или лучше сразу смотреть на различные их объединения в логистической регрессии? может ли возникнуть синергия между рейтингами, кажущимися не очень сильными по отдельности?

Беггинг что ли логрегрессией взвешиваешь? А что тогда мешает независимо обучать подмодели?

Вячеслав

12.03.2017
02:03:04

https://www.instagram.com/p/kR_HpnHkvR9J_p3ifvZgBo5wCsv0PD2MAFY8Y0/?taken-by=rustohero

« Назад

Страница 52 из 327

Далее »

Открыть в Telegram