Anonymous
На луа
Super
я последнее время думаю о генерации текста
Super
вот думаю как это красиво реализовать и вообще нужна ли тут нейросеть
Super
я же могу взять обычную бд и сделать связи что идет первым словом, потом что обычно идет за первым. потом, что обычно идет за первыми двумя и т.д. а потом рэндом.
Anonymous
Для текста особые модели используются
Anonymous
Это гуглится
Super
а мой алгоритм сработает? или ты не пробовал такое?
Super
это первое, что пришло в голову
Anonymous
Алгоритмичеакие методы генерации тоже есть
Anonymous
Просто щас не модно
Anonymous
Твой алгоритм хз не пробовал
Super
а какая разница, модно или нет, главное сделать что-то, что другие не могут
Super
т.е. что-то новое
Super
если оно будет работать, то можно собрать базу на 1тб наример из связей
Super
это ооочень много вариаций будет
Super
и работать это будет очень быстро при этом
Anonymous
То что ты описываешь по моему просто байесова сеть
Super
ага, понял, спасибо, почитаю
Super
ну это базовая идея. так-то можно усложнить
Anonymous
Это не нейронка это из курса тер вер
Super
ну да, я поэтому и не знаю, нужна ли она тут
Maxim
у меня пришел файл такой большой, я ему могу сделать echo, но не могу разбейзить
libvips с библиотекой lua-vips отлично справляются с подобными задачами в обе стороны, пробовали подключить к решению эти инструменты?
Super
не, эту библиотеку не пробовал, я пробовал одну из силных и чистый нгинкс
Super
я уже решил задачу ту, но библиотеку гляну
Super
кстати, с тарантулом тоже разобрался, отличная бд оказалась
Super
мы кажется о нем ранее говорили
Serezha
ты сам удивишься какой мусор будет на выходе
Max
"мусор" — довольно обидное слово для n-gram генераторов :) Вот, например, такие тексты получаются: https://brenocon.com/rsg/ Они бессмысленные, но довольно похожи на настоящие по грамматическому построению. Чем-то напоминают стихи условного Хармса.
Anonymous
Можно согласоватор прикрутить)
Anonymous
Боже мой, почитайте гражданский кодекс
Anonymous
Его не отличить от такой генерации
Serezha
меня удивляет как гугл транслейт красиво переводить начал
Serezha
и это на сложный русский
Anonymous
Нейроночки видимо
Max
это на чужом английском только так кажется. попробовать если на родном русском - и несогласование падежей сразу вылезет и вся глупость текстов
падежи тоже хорошо согласуются, потому что согласованные слова гораздо чаще встречаются в текстах, чем несогласованные
Нейроночки видимо
Да, там внутре неонку завезли пару лет назад, перевод заметно улучшился.
Snusmumriken
Угу, я им всякий англоязычный худлит перевожу по частям, очень согласованно, похоже на "черновой неофициальный перевод".
Serezha
На заре Рунета генерили дорвеи на словарях синонимов
Serezha
Сейчас кажется мусорный текст поисковики научились выкидывать из индекса
Max
Сейчас кажется мусорный текст поисковики научились выкидывать из индекса
а как они понимают, что текст мусорный? по тем же n-gramam
Max
вот и польза
Max
или тот же предиктор ввода в клавиатуре на смартфоне
Serezha
а как они понимают, что текст мусорный? по тем же n-gramam
Не пойму как энграммы могут помочь задетектить мусор сгенеренный на основе тех же самых энграмм 🙂
Serezha
я тогда не понимаю где их польза и как связаны энграммы для слов с генератором текстов
Serezha
ngram индексы полезны
Max
а зачем нужна какая-то польза? может человек решил погенерировать тексты ради фана
Max
в чём вообще может быть польза генерации текстов?
Serezha
я не против экспериментов 🙂 я прост написал что на выходе будет мусор
Max
мусор по какому критерию? относительно чего?
Serezha
этот мусор раньше постоянно попадался в выдаче поисковиков а потом исчез
Serezha
мусор по какому критерию? относительно чего?
белый лошадь прилетел вчера сказал это да
Max
белый лошадь прилетел вчера сказал это да
н граммная модель сгенерит гораздо более связный текст
Anonymous
Мне один раз попалось сдовосочетание подтирочное сознание
Anonymous
Я долго приходил в себя
Max
ну так какой критерий? мусором можно назвать и наш с тобой разговор
Lucky
Вы не понимаете что такое СЕО, хе-хе.
Serezha
ну допустим критерием может быть колво денег в которое можно сконвертировать выхлоп генератора
Serezha
гугле транслейт продайт свой сервис
Serezha
если кто то подпишется на АПИ энграм генератора - значит я не права
Lucky
Ради поднятия в топы выдачи некоторое время назад такие говны сочиняли, что Джойс вращался во гробе аки пропеллер.
Max
гугле транслейт продайт свой сервис
подозреваю, что если вычесть расходы на разработку и поддержку сервиса, то н граммная модель победила ещё не будучи написанной
Serezha
подозреваю, что если вычесть расходы на разработку и поддержку сервиса, то н граммная модель победила ещё не будучи написанной
выдача нейронок все ближе и ближе к работе человека-переводчика среднего уровня а в теории превзойдет его
Serezha
вот если в энграм генерации есть такой прогресс то стоит заниматься конечно
Serezha
но мне кажется что это просто тупик и качество и осмысленность выдачи современного генератора ничем не отличается от генератора из 60х
Serezha
нейронки - был мусор -> стал топчик
Serezha
энграм - был мусор - остался мусор
Max
нейронки и сейчас сгенерят мусор
Max
и ещё долго будут генерить мусор
Serezha
ты мне рассказываешь? я сам фшоке но гугл иногда целые абзацы переводить неотличимо от человека
Pavel
нейронки и сейчас сгенерят мусор
https://tjournal.ru/tech/88152-openai-ilona-maska-sozdala-algoritm-generiruyushchiy-ubeditelnye-feykovye-novosti-na-osnove-neskolkih-slov
Serezha
можем корректнее сказать - ТРАНСФОРМАЦИЯ нейронок полезна, ТРАНСФОРМАЦИЯ энграмов - нет
Serezha
тк конечно ничего из ниоткуда они не генерят самостоятельно пока
Serezha
https://tjournal.ru/tech/88152-openai-ilona-maska-sozdala-algoritm-generiruyushchiy-ubeditelnye-feykovye-novosti-na-osnove-neskolkih-slov
ну вот это примерно то самое о чем я выше писал про выдергивание целых фраз
Serezha
берем корпус текста дерагем из него осмысленные кусочки по контексту - склеиваем и оппа