
Крис
13.12.2017
00:09:00
Спасибо, успокоили мой гуманитарный разум ?

Andrey
13.12.2017
06:16:37

Павел
13.12.2017
07:54:06
это ж диплом, можно взять самые простые правила для примера

Google

Павел
13.12.2017
07:54:29
а потом наращивать сложность и идти уже на кандидатскую

Andrey
13.12.2017
08:15:29
Самые простые правила хардкодятся просто, и в этом нет новизны и актуальности даже для диплома

Kek
13.12.2017
08:17:14
Если обработка текста такая легкая, то почему гугл переводит так плохо?)

Крис
13.12.2017
08:26:31
Ну у меня есть вариант если что использовать готовое АПИ, которое можно совершенствовать)
И в которое добавлять правила к 250 существующим

Andrey
13.12.2017
08:28:06
Машинное обучение тут где?

Mike
13.12.2017
08:28:21

Крис
13.12.2017
09:30:33

Daniil
13.12.2017
10:14:03
Жопа.
Тут интересно то, кто твой научный руководитель и чем он занимается. В том смысле, что задача непростая, а науч рук должен хорошо оценивать твою способность подобный проект осуществить. На мой взгляд, без бэкграунда будет сложновато

Крис
13.12.2017
10:15:34
А вообще на сетевого инженера учусь ?

Evgeniy
13.12.2017
10:16:32

Google

Daniil
13.12.2017
10:16:37

Evgeniy
13.12.2017
10:17:00
лучше делай то в чем научник разбирается а на магу найди чела который в теме
а пока сам въезжай

Крис
13.12.2017
10:17:21
Да уже поздно тему менять, ахаха

Daniil
13.12.2017
10:17:39

Крис
13.12.2017
10:17:48
Просто ее можно по разному обыграть
Эту тему

Daniil
13.12.2017
10:18:02

Крис
13.12.2017
10:18:12

Daniil
13.12.2017
10:18:19
Типа задание на работу итд?
Понял

Крис
13.12.2017
10:18:40
Пока никаких подробностей, что должно быть внутри, нет

Daniil
13.12.2017
10:19:46
Ну тогда остаётся только коптиться в задачу и пробовать сделать по своим возможностям и умениям.

Крис
13.12.2017
10:20:16
Просто в чем проблема: я очень много работаю с текстом и очень часто не замечаю свои опечатки, поэтому хочу систему, которая будет делать это за меня. Есть один проект, который платный, и всё. Остальные работают не так хорошо. С русским языком очень мало хороших систем. А я хочу бесплатный и открытый проект делать


Daniil
13.12.2017
10:21:55
Я бы так сказал
На мой взгляд, тут очень все сильно зависит от тебя, раз тебе не смогут особо помочь. Если у тебя, например, была хорошая математика и программирование, где тебя реально выдрессировали, то тогда теоретически можно равняться на то, что говорили ребята выше: типа, в тех штуках разобралась, разберёшься и в этом. Но если все не совсем так, тогда стоит готовиться к тому, что надо будет приложить усилий чуть более, чем дохера)
Не подумай, что я как-то запугиваю, просто это личный опыт, который оказался негативным)
Да даже не то что хорошая математика, а ты просто можешь дела до конца доводить и работать усердно, скорее так.

Крис
13.12.2017
10:27:39
Да, я понимаю, спасибо)

Daniil
13.12.2017
10:34:19
Да, я понимаю, спасибо)
Плюс ко всему, я вот какое-то время уже мл занимаюсь, но я слабо представляю, где данные для обучения такой модели брать. На русском для таких специфических задач часто бывают проблемы с тем, чтобы что-то найти.
В общем, ладно, это все общие слова. По существу: 1) попробуй сформулировать на английском запрос, найти основные ключевые слова по данной теме, потом нарыть какие-нибудь статьи. 2) поищи работы по частеречной разметке (pos-tagging) и походи по ссылкам, которые в них даются. Скорее всего, в таких системах это применяется (не знаю, не уверен, если что- не бейте). Возможно, что там найдешь что-то полезное. 3) в репке Кати Демидовой на гитхабе, которую тебе кинули почти сразу после твоего вопроса найди ссылку на чат по nlp в телеге, и задай свой вопрос там.
Как-то так)

Google

Крис
13.12.2017
10:35:12
ооой, спасибо большое за помощь

Daniil
13.12.2017
10:36:17
Не за что)


Drino
13.12.2017
10:59:19
всем привет) а что можно почитать по интеллектуальному анализу текста? С чего начать изучение темы? Выбрала тему диплома: создание веб-сервиса для проверки текста на соответствие правил русского языка (тему выбрала сама, легких путей не ищу). Нашла, конечно, открытое АПИ одного сервиса, но хочется попробовать написать систему анализа самой. А опыта — ноль. С чего начать вообще не знаю, потому что всю жизнь занимаюсь тем, что пишу про стартапы и бизнес.
Если хочется похайпить на нейросеточках, то я бы предложил:
1. Намайнить заведомо-грамотные тексты.
2. Сделать искусственную выборку, в которой текст портится какими-нибудь легкопрограммируемыми методами (опечатки, лишняя/убранная пунктуация).
3. Обучить, например, transformer, который будет по испорченному тексту "восстанавливать" неиспорченный.
4. Обучить классификатор, который будет для каждой конкретной ошибки предсказывать её тип (тут можно синтетически сгенерировать выборку с различными типами ошибок).
Но это всё долго и нетривиально.


Крис
13.12.2017
11:00:04
кстати, с текстами вообще проблем нет) у меня своих много :D

Drino
13.12.2017
11:01:39

Крис
13.12.2017
11:01:51
Войну и Мир, например, ахаха

Drino
13.12.2017
11:02:32
Там 31к
Из них значительная доля на французском

Крис
13.12.2017
11:04:05
Зачем я полезла в этой дерьмо. Могла же как и все сделать интернет-магазин...

Drino
13.12.2017
11:04:40

Крис
13.12.2017
11:05:58
Ничему меня жизнь не учит. Вечно ищу себе проблемы))

Dan
13.12.2017
11:16:56
?
Слушай своё сердце. К чему тебя больше тянет тем и надо заниматься

Geronimo
13.12.2017
11:23:58

Maksym
13.12.2017
12:31:33
Не стоит

Alexey
13.12.2017
12:31:52
ок

Admin
ERROR: S client not available

Павел
13.12.2017
12:34:56
стопе
а че платят в этой области?

Google

Dan
13.12.2017
12:49:10
Вакансии у нас под запретом, за крайне редким исключением

Павел
13.12.2017
12:51:19
200+ я и формошлепать под айфон могу
а тут технологии
инновации
бигдата

Alexey
13.12.2017
12:55:10
ну, +, возможно плюс большой, так сложно обсуждать что-то)

Анатолий
13.12.2017
12:57:34
Ребята, а есть группа, где GameDev обсуждается с применением ML?

Dan
13.12.2017
13:18:49

Анатолий
13.12.2017
13:46:15

Vadim
13.12.2017
15:17:05

Крис
13.12.2017
15:17:27

Vadim
13.12.2017
15:18:31
У тебя уже выбора нет) Либо менять тему.

Крис
13.12.2017
15:21:50
да я поняла уже всю безысходность своего положения)

Павел
13.12.2017
15:33:02

Andrey
13.12.2017
15:34:44
Андрей:
Всем привет! Здесь кто-то имел дело с генерацией сетью чего-то подобного выборке? Не очень понятно как это делается если не использовать автоэнкодер. Что подаётся на y?

Крис
13.12.2017
15:38:04

Evgeniy
13.12.2017
15:38:55

Serhii
13.12.2017
15:42:39

Andrey
13.12.2017
15:46:08
https://machinelearningmastery.com/text-generation-lstm-recurrent-neural-networks-python-keras/
Нашел вот такую вещь, но не пойму по какой логике они y формируют

Google

Dan
13.12.2017
15:52:21
@chr0non я бы на твоём месте не стал повторять такое

Артем
13.12.2017
15:52:32
ok

Antonio
13.12.2017
17:11:49
подскажите пожалуйста как правильно прочитать текстовый файл в питоне? Если пробовать вот так:
def read_file(filename):
file = unidecode.unidecode(open(filename, encoding='utf-8').read())
return file, len(file)
то вываливается со ошибкой "Недопустимая инструкция (сделан дамп памяти)"
сам файл прикрепляю (может с ним что не так?)
просто читал что если декларация кодировки файла не соответствует фактической кодировке файла то будут проблемы, но как узнать нормальная у меня декларация?

Michael
13.12.2017
18:01:13