@bigdata_ru

Страница 92 из 327
/dev
23.06.2017
18:00:07
Там написано, что надо разбить на два интеграла
По-хорошему, там бы следовало бы иметь запись dF(x,y) вместо некорректного Pr(dx,dy)

Ferr
24.06.2017
01:18:37
@FolderArchive - канал, где сливают платный полезный - образовательный контент и курсы, например можно скачать курсы "Нетологии" или все курсы "Бизнес Молодости".

Google
Gabriel
24.06.2017
18:13:52
Hi, This but in english or spanish?

Timur
24.06.2017
18:23:57
this butts are russian

Boris
24.06.2017
18:25:26
Dan
24.06.2017
18:30:36
Gabriel
24.06.2017
18:44:59
dont you like Russians?
I dont understand Russian, i like Russia

Dan
24.06.2017
18:45:51
I dont understand Russian, i like Russia
More important to like bigdata & machine learning ?

Gabriel
24.06.2017
18:46:28
I love Big Data and Machine learning

https://github.com/Gabvaztor/tfboost

This is my actual project, but i want to understand you ?

Alexandr
24.06.2017
18:47:39
sorry, but mostly these Telegram chats are only in russian

probably english-speaking have some another channels to communicate

Gabriel
24.06.2017
18:48:28
sorry, but mostly these Telegram chats are only in russian
Ok, no problem. Why doesnt exist a unique language? xd

Alexandr
24.06.2017
18:48:50
you always can learn Russian, lol)

Google
Gabriel
24.06.2017
18:49:04
? yes, but i am learning english now xd

Dan
24.06.2017
18:51:25
Gabriel
24.06.2017
18:52:35
Nice

Проксимов
24.06.2017
22:53:07
Guess most of us speaks english well
Most of us - громко сказано

Dan
24.06.2017
22:53:48
Most of us - громко сказано
кто не speaks english well, тому принудительно синий мерфи рекомендуется :-P

Evgeniy
25.06.2017
12:55:29
CAN: Creative Adversarial Networks, Generating "Art" by Learning About Styles and Deviating from Style Norms https://arxiv.org/abs/1706.07068

bebebe
25.06.2017
15:44:36
здравствуйте, есть вопрос: каким наиболее дешевым спосбом можно решить следующюю пробелму из исходной фразы: "у меня есть красная машина и самоход", я хотел бы получить список из двух элементом "красная машина" и "самоход" при помощи mystem у меня получается разбирать слова на существительные, прилагательные и глаголы, и другие части речи Каким образом я могу привязать прилагательное к существительному, "красная машина"?. Нужно взять слова типа от проекта opencorpora и при помощи простенького алгоритма гонять по нему мои данные? при этом писать особо ничего не хочется, думаю эта задача была решена была не раз В какую сторону смотреть? а то я в предметной области мало что понимаю, и ключевые слова гуглятся плохо

второй пример: "в небе летит самолет, по полю ползет трактор" какой алгоритм мне позволит разбить эту фразу на следующий список: "небо" "летит самолет" "поле" "ползет трактор"

мне будет достаточно, если некий алгоритм или АПИ будет декомпозировать фразу с упехом типа в 60-70%

смотрю сюда, https://nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0 но вижу фигу

Oleksandr
25.06.2017
15:51:06
общий метод для гугления -- деревья разбора, parse tree (dependency-based, полагаю) я решал аналогичную задачу через standord typed dependencies из stanfordnlp

Oleksandr
25.06.2017
15:54:28
если во втором примере можно захардкодить характеристики (например, паттерн позиции в предложении + тип речи "узловых" слов (небо, поле)), то проблем не должно было

bebebe
25.06.2017
15:56:08
к сожалению исходные данные полностью произвольные, и на входе никак не фильруются https://nlpub.ru/TreeTagger кажется похоже на то что мне нужно, сейчас попробую

http://nlp.stanford.edu:8080/parser/index.jsp вот такое в идеале, да, для русского языка

Oleksandr
25.06.2017
16:21:08
вот про русский не подскажу, я работаю с англ впрочем, у того же стенфорднлп есть нужный корпус, и можно его попробовать

bebebe
25.06.2017
16:36:10
странно, я до сих пор не нахожу ничего подобного для русского да, я думал уже часть задач решена

Oleksandr
25.06.2017
16:59:38
кстати, somehow related

а если данные (чаты) на русско-английском суржике и/или просто с большим количеством опечаток (твиттер, чаты и тд) - чем такое едят? только character-based models?

Google
Oleksandr
25.06.2017
17:00:53
предварительно фиксить опечатки

или обучать модель так, чтобы она с ними жила

Oleksandr
25.06.2017
17:01:28
Oleksandr
25.06.2017
17:02:42
это малореально
ну на 100% -- да, но, если опечатки не входят в "лексикон", то что-то можно

зависит от задачи, в общем условный чат с суржиком действительно вряд ли выйдет подкорректировать просто так

а для англочатов (типа реддита и твиттера), думаю, реально вполне хотя на каком-то этапе может быть неясно, то ли это опечатка, то ли уже новая словоформа :)

bebebe
25.06.2017
17:15:08
как то все печаьлно в русским и построения дерева зависмостей

не думал, не годал, либо я совсем не то гуглю

имеется в виду opensource конечно же

http://aot.ru/demo/synt.html вот очень похоже на то что нужно

Сергей
25.06.2017
17:30:36
С русским языком все печально. Из dependency parser я только treetagger могу посоветовать. Его можно обучить его на открытом корпусе (см universal dependency)

АОТ давно уже не развивается

Admin
ERROR: S client not available

Сергей
25.06.2017
17:31:58
Можно попробовать spacy обучить на русский, если получится то будет самым перспективным вариантом

bebebe
25.06.2017
17:40:25
/ # echo на машине лежит котенок | link-parser 2>/dev/null Found 2 linkages (2 had no P.P. violations) Linkage 1, cost vector = (UNUSED=0 DIS= 1.00 LEN=16) +--------------Wd--------------+ | +----------EIw---------+ | +----Jp---+ +-----SIm3----+ | | | | | LEFT-WALL на.jp машине.ndfsp лежит.vnndn3s котенок.nlmsi Bye.

ведь похоже на правду?

Можно попробовать spacy обучить на русский, если получится то будет самым перспективным вариантом
Сергей, спасибо за советы, но я пока не готов настолько глубоко в machine learning углубляться у меня задача выглядит так: найти для русского языка синтаксический парсер (dependency-tree) при этом выполнить два условия: быстро и что бы это решение работало в 60% случаев :) R&D такое вот

Сергей
25.06.2017
17:43:56
Для treetagger можно найти уже обученные модели, и та модель около 85% точности имеет, если я правильно помню. Если устраивает НКРЯ разметка, то можно взять их)

Обучить на самом деле просто: запустить парсер с нужными ключами и на вход корпус подать

Alex
25.06.2017
20:08:18
Подскажите, какой из двух семплов будет более правильным для обучения детектора Хаара

Google
tonko
25.06.2017
20:15:31
У UniversalDependencies есть теггер для питона?

bebebe
25.06.2017
21:50:19
Только сейчас заметил ошибку. Имел введу maltparser, а не treetagger
что-то мальтпарсер у меня отработал за нескромные 40 секунд

Сергей
25.06.2017
21:52:13
Да, он не самый быстрый. А на каком объеме? Я думал попробовать потренировать spacy, он быстрее должен оказаться, но пока так еще руки не дошли

bebebe
25.06.2017
21:59:17
может что не так делал, но на любой запрос минимум 20-30 секунд

даже на "красное летнее платье"

Дмитрий
26.06.2017
05:35:10
привет

Сергей
26.06.2017
07:06:03
даже на "красное летнее платье"
Это странно, возможно на каждый запрос грузили модель в память? При загруженной модели 40 секунд у меня уходило разве что на парсинг всего корпуса

Nataliya
26.06.2017
10:16:43
Всем привет! ClickHouse meetup наконец-то едет в Минск! Встреча 29 июня. Участие в мероприятии бесплатное, но необходимо заранее зарегистрироваться: количество мест в зале ограничено. Посмотреть программу и подать заявку на участие можно на странице встречи: https://events.yandex.ru/events/meetings/29-june-2017/

Kirill Zonov
26.06.2017
12:18:24
Привет, коллеги

tonko
26.06.2017
19:11:27
Сергей
26.06.2017
19:28:24
А в чем проблема была?

tonko
26.06.2017
20:08:33
Что-то про ядро и setup.py, возможно последствия переноса проекта вручную

Страница 92 из 327