@bigdata_ru

Страница 194 из 327
Крис
13.12.2017
00:09:00
Спасибо, успокоили мой гуманитарный разум ?

Andrey
13.12.2017
06:16:37
а вообще за полгода реально написать что-то стоящее, если я полный нуб в этом деле?
Командой из пары десятков специалистов, подогретых охуллиардом денег - реально

Павел
13.12.2017
07:54:06
это ж диплом, можно взять самые простые правила для примера

Google
Павел
13.12.2017
07:54:29
а потом наращивать сложность и идти уже на кандидатскую

Andrey
13.12.2017
08:15:29
Самые простые правила хардкодятся просто, и в этом нет новизны и актуальности даже для диплома

Kek
13.12.2017
08:17:14
Если обработка текста такая легкая, то почему гугл переводит так плохо?)

Крис
13.12.2017
08:26:31
Ну у меня есть вариант если что использовать готовое АПИ, которое можно совершенствовать)

И в которое добавлять правила к 250 существующим

Andrey
13.12.2017
08:28:06
Машинное обучение тут где?

Mike
13.12.2017
08:28:21
Машинное обучение тут где?
В использовании АПИ)

Крис
13.12.2017
09:30:33
Машинное обучение тут где?
В совершенствовании системы, у которое есть апи) потому что она открыта для обучения вроде как

Daniil
13.12.2017
10:14:03
Жопа.
Тут интересно то, кто твой научный руководитель и чем он занимается. В том смысле, что задача непростая, а науч рук должен хорошо оценивать твою способность подобный проект осуществить. На мой взгляд, без бэкграунда будет сложновато

Крис
13.12.2017
10:15:34
Тут интересно то, кто твой научный руководитель и чем он занимается. В том смысле, что задача непростая, а науч рук должен хорошо оценивать твою способность подобный проект осуществить. На мой взгляд, без бэкграунда будет сложновато
Научник вообще мобильными сетями занимается :( У меня кафедра совсем не об этом, просто для поступления в магистратуру решила делать этот проект, чтобы потом продолжить над ним работать.

А вообще на сетевого инженера учусь ?

Google
Evgeniy
13.12.2017
10:17:00
лучше делай то в чем научник разбирается а на магу найди чела который в теме

а пока сам въезжай

Крис
13.12.2017
10:17:21
Да уже поздно тему менять, ахаха

Daniil
13.12.2017
10:17:39
лучше делай то в чем научник разбирается а на магу найди чела который в теме
Люто плюсую. Скорее всего, человек если и разбирается в твоей теме, то со временем ты поймёшь, что он больше у тебя под ногами мешается, чем тебе помогает

Крис
13.12.2017
10:17:48
Просто ее можно по разному обыграть

Эту тему

Daniil
13.12.2017
10:18:02
Да уже поздно тему менять, ахаха
Уже какие-то документы оформлены?

Крис
13.12.2017
10:18:12
Daniil
13.12.2017
10:18:19
Типа задание на работу итд?

Понял

Крис
13.12.2017
10:18:40
Пока никаких подробностей, что должно быть внутри, нет

Daniil
13.12.2017
10:19:46
Ну тогда остаётся только коптиться в задачу и пробовать сделать по своим возможностям и умениям.

Крис
13.12.2017
10:20:16
Просто в чем проблема: я очень много работаю с текстом и очень часто не замечаю свои опечатки, поэтому хочу систему, которая будет делать это за меня. Есть один проект, который платный, и всё. Остальные работают не так хорошо. С русским языком очень мало хороших систем. А я хочу бесплатный и открытый проект делать

Daniil
13.12.2017
10:21:55
Я бы так сказал

На мой взгляд, тут очень все сильно зависит от тебя, раз тебе не смогут особо помочь. Если у тебя, например, была хорошая математика и программирование, где тебя реально выдрессировали, то тогда теоретически можно равняться на то, что говорили ребята выше: типа, в тех штуках разобралась, разберёшься и в этом. Но если все не совсем так, тогда стоит готовиться к тому, что надо будет приложить усилий чуть более, чем дохера) Не подумай, что я как-то запугиваю, просто это личный опыт, который оказался негативным)

Да даже не то что хорошая математика, а ты просто можешь дела до конца доводить и работать усердно, скорее так.

Крис
13.12.2017
10:27:39
Да, я понимаю, спасибо)

Daniil
13.12.2017
10:34:19
Да, я понимаю, спасибо)
Плюс ко всему, я вот какое-то время уже мл занимаюсь, но я слабо представляю, где данные для обучения такой модели брать. На русском для таких специфических задач часто бывают проблемы с тем, чтобы что-то найти. В общем, ладно, это все общие слова. По существу: 1) попробуй сформулировать на английском запрос, найти основные ключевые слова по данной теме, потом нарыть какие-нибудь статьи. 2) поищи работы по частеречной разметке (pos-tagging) и походи по ссылкам, которые в них даются. Скорее всего, в таких системах это применяется (не знаю, не уверен, если что- не бейте). Возможно, что там найдешь что-то полезное. 3) в репке Кати Демидовой на гитхабе, которую тебе кинули почти сразу после твоего вопроса найди ссылку на чат по nlp в телеге, и задай свой вопрос там.

Как-то так)

Google
Крис
13.12.2017
10:35:12
ооой, спасибо большое за помощь

Daniil
13.12.2017
10:36:17
Не за что)

Drino
13.12.2017
10:59:19
всем привет) а что можно почитать по интеллектуальному анализу текста? С чего начать изучение темы? Выбрала тему диплома: создание веб-сервиса для проверки текста на соответствие правил русского языка (тему выбрала сама, легких путей не ищу). Нашла, конечно, открытое АПИ одного сервиса, но хочется попробовать написать систему анализа самой. А опыта — ноль. С чего начать вообще не знаю, потому что всю жизнь занимаюсь тем, что пишу про стартапы и бизнес.
Если хочется похайпить на нейросеточках, то я бы предложил: 1. Намайнить заведомо-грамотные тексты. 2. Сделать искусственную выборку, в которой текст портится какими-нибудь легкопрограммируемыми методами (опечатки, лишняя/убранная пунктуация). 3. Обучить, например, transformer, который будет по испорченному тексту "восстанавливать" неиспорченный. 4. Обучить классификатор, который будет для каждой конкретной ошибки предсказывать её тип (тут можно синтетически сгенерировать выборку с различными типами ошибок). Но это всё долго и нетривиально.

Крис
13.12.2017
11:00:04
кстати, с текстами вообще проблем нет) у меня своих много :D

Drino
13.12.2017
11:01:39
кстати, с текстами вообще проблем нет) у меня своих много :D
Я бы добил классикой из открытых источников хотя бы до 100M предложений

Крис
13.12.2017
11:01:51
Войну и Мир, например, ахаха

Drino
13.12.2017
11:02:32
Там 31к

Из них значительная доля на французском

Крис
13.12.2017
11:04:05
Зачем я полезла в этой дерьмо. Могла же как и все сделать интернет-магазин...

Drino
13.12.2017
11:04:40
Зачем я полезла в этой дерьмо. Могла же как и все сделать интернет-магазин...
Подумай ещё о том, что интернет-магазины прибыльнее, чем это дерьмо!

Крис
13.12.2017
11:05:58
Ничему меня жизнь не учит. Вечно ищу себе проблемы))

Dan
13.12.2017
11:16:56
?

Слушай своё сердце. К чему тебя больше тянет тем и надо заниматься

Maksym
13.12.2017
12:31:33
Не стоит

Alexey
13.12.2017
12:31:52
ок

Admin
ERROR: S client not available

Павел
13.12.2017
12:34:56
стопе

а че платят в этой области?

Google
Dan
13.12.2017
12:49:10
Вакансии у нас под запретом, за крайне редким исключением

Павел
13.12.2017
12:51:19
200+ я и формошлепать под айфон могу

а тут технологии

инновации

бигдата

Alexey
13.12.2017
12:55:10
ну, +, возможно плюс большой, так сложно обсуждать что-то)

Анатолий
13.12.2017
12:57:34
Ребята, а есть группа, где GameDev обсуждается с применением ML?

Dan
13.12.2017
13:18:49
Ребята, а есть группа, где GameDev обсуждается с применением ML?
https://github.com/goq/telegram-list там были группы по геймдеву точно

Крис
13.12.2017
15:17:27
Vadim
13.12.2017
15:18:31
У тебя уже выбора нет) Либо менять тему.

Крис
13.12.2017
15:21:50
да я поняла уже всю безысходность своего положения)

Andrey
13.12.2017
15:34:44
Андрей: Всем привет! Здесь кто-то имел дело с генерацией сетью чего-то подобного выборке? Не очень понятно как это делается если не использовать автоэнкодер. Что подаётся на y?

Крис
13.12.2017
15:38:04
так смени тему
да у меня всё получится

Andrey
13.12.2017
15:46:08
https://machinelearningmastery.com/text-generation-lstm-recurrent-neural-networks-python-keras/ Нашел вот такую вещь, но не пойму по какой логике они y формируют



Google
Dan
13.12.2017
15:52:21
@chr0non я бы на твоём месте не стал повторять такое

Артем
13.12.2017
15:52:32
ok

Antonio
13.12.2017
17:11:49
подскажите пожалуйста как правильно прочитать текстовый файл в питоне? Если пробовать вот так: def read_file(filename): file = unidecode.unidecode(open(filename, encoding='utf-8').read()) return file, len(file) то вываливается со ошибкой "Недопустимая инструкция (сделан дамп памяти)" сам файл прикрепляю (может с ним что не так?)

просто читал что если декларация кодировки файла не соответствует фактической кодировке файла то будут проблемы, но как узнать нормальная у меня декларация?

Страница 194 из 327