
Влад
20.04.2018
15:23:01
Плохая реализация:)

Alexandr
20.04.2018
15:23:59

Влад
20.04.2018
15:24:26
Спасибо:-)

Артем
20.04.2018
15:27:25

Google

Gleb
20.04.2018
15:31:10
Поясни. Интересно
Просто литературы нефига нет на русском, может кто внедрялся, и если есть то оценка документа идёт по wikipedia, а в россии(яндекс) по yarn, вот если кто работал с словарями типа yarn и писал различные классификаторы мог-бы проконсультировать

Артем
20.04.2018
15:35:19
Ну у учебное задание на эту тему было.

Gleb
20.04.2018
15:36:16

Vitaliy Nameless
20.04.2018
15:36:30

Артем
20.04.2018
15:36:39
Завтра посмотрю что как делатьтподелюсь опытом. В целом текст в вектор.

Gleb
20.04.2018
15:37:21

Артем
20.04.2018
15:37:52
Но там классификация, не ранжирование.

Gleb
20.04.2018
15:37:58

Артем
20.04.2018
15:40:08
Не помню как называется. Но суть текст делаем в вектор. Вырезаем стоп слова + морфология. Дальше классифицирум.
А блин, питон же

Google

Gleb
20.04.2018
15:40:31

Артем
20.04.2018
15:40:36
Это же не на пхп надо будет?

Gleb
20.04.2018
15:40:53

Артем
20.04.2018
15:41:17
Хорошо пришлю

Gleb
20.04.2018
15:41:49

Artem
20.04.2018
16:08:05
мне главное практически как ты всё реализовывал
в чем суть задачи то? вообще простейший способ для работы с текстами -это небольшая билиотечка https://tech.yandex.ru/mystem/doc/grammemes-values-docpage/ и пакет nltk, но nlp сильно широкая тема там подходов в каждой задаче немеренно

Gleb
20.04.2018
16:10:42


Artem
20.04.2018
16:11:37
ну так тебе нужно описать различные реализации скорее, а не изобретать что -то, поскольку писать такой алгоритм -на научную работу тянет, не меньше.
в общем то, что вы обсуждали примерно -это частотный анализ слов, как варраинты векторная модель тот же tfidf (это все гуглится), графы о которой ты говоришь это скорее всего PageRank считать, еще считает mean average precision (хз как оно переводится, усредненная средняя точность, наверно), но это разные подходы и они работают. Тут как бы нужно реализации смотреть и выбирать где лучше результат / подгонять. Прям с ходу простого решения нет, дже библиотеки умеющей все сразу сделать тоже нет вроде, но я совсем поверхностно с nlp знаком, потому хз.


Gleb
20.04.2018
16:18:32
в общем то, что вы обсуждали примерно -это частотный анализ слов, как варраинты векторная модель тот же tfidf (это все гуглится), графы о которой ты говоришь это скорее всего PageRank считать, еще считает mean average precision (хз как оно переводится, усредненная средняя точность, наверно), но это разные подходы и они работают. Тут как бы нужно реализации смотреть и выбирать где лучше результат / подгонять. Прям с ходу простого решения нет, дже библиотеки умеющей все сразу сделать тоже нет вроде, но я совсем поверхностно с nlp знаком, потому хз.
Есть еще комбинированный метод

Artem
20.04.2018
16:19:01
да их много, но прям подхода единого верного нет, тут даже хз, вот например книжка хорошая http://www.williamspublishing.com/Books/978-5-8459-1623-5.html

Gleb
20.04.2018
16:19:10
в общем то, что вы обсуждали примерно -это частотный анализ слов, как варраинты векторная модель тот же tfidf (это все гуглится), графы о которой ты говоришь это скорее всего PageRank считать, еще считает mean average precision (хз как оно переводится, усредненная средняя точность, наверно), но это разные подходы и они работают. Тут как бы нужно реализации смотреть и выбирать где лучше результат / подгонять. Прям с ходу простого решения нет, дже библиотеки умеющей все сразу сделать тоже нет вроде, но я совсем поверхностно с nlp знаком, потому хз.
И вот его я тоже рассматриваю, но это только в математике


Artem
20.04.2018
16:24:04
ты в любом случае будешь на разных этапах обработки и подготовки текста разные методы использовать, но прям большая тема. там теории очень мног. посмотри mystem(ее просто использовать можно, там все довольно просто, но она в виде одного файла распространяется без проблем обычно все работает), там много полезного на умеет для подготовки текста, nltk питоновский и word2vec
просто не заморачиваясь можно посчитать колличество вхождений слов и на основе этого строить индекс, например эта штука это делает просто https://github.com/RaRe-Technologies/bounter
но это довольно наивный способ, но примерно суть n грамм. без учета последовательности
ну и учти, что нейронные сети -это тяжело (в смысле вычислительных мощностей и сложности модели), но на задачах nlp качество лучше у простых линейных моделей. (это я к тому, что ты говорил о машинном обучении, а оно тут тебе только проблемы создаст, но если это важно - LSTM)
ну и да, еще стоит поискать готовые тулзы, к примеру если строить вектора слов, может быть полезным подобная коллекция эмбидингов https://github.com/bheinzerling/bpemb , но конечно русского там нет (по крайней мере небыло и не планировалось, как сейчас я хз, просто из закладок достал))


Gleb
20.04.2018
16:35:48

Artem
20.04.2018
16:36:36
посмотри еще на google scoolar пейперы, там все реализации описанны, например pagerank можно еще и тут найти https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4545754/

Gleb
20.04.2018
16:41:00

Google

Gleb
20.04.2018
16:41:36

Artem
20.04.2018
16:42:33
ну вообще есть, но довольно мало, ресурсов таких нет )

Gleb
20.04.2018
16:44:10

Artem
20.04.2018
16:44:44
вообще конечно зависит от сроков, но тебе стоит посмотреть летнии школы по теме, тот же http://deephack.me/ там масса лекций и хакатоно по nlp в том числе, с таких "школ" обычно самое ценное выходит) или http://romip.ru/russir2018/russir-2018-program/
но это из того, что мне попадались, где то в Германии и Китае еще были. если прям интересно, то нужно искать и записываться -это лучший способ въехать в тему и сейчас самое время по сезону, чтобы попасть на лето.

Gleb
20.04.2018
16:46:26

Artem
20.04.2018
16:46:36
но опять же я прям совсем по верхам плаваю в nlp, попробуй написать вот этому чуваку, думаю если не будет сильно занят найдет время ответить, он вполне адекватный http://www.kansas.ru/pb/
вот кстати у него в дисере 2 раздел "Классификация документов по стилям" может пригодится (ну и там есть список литературы) http://www.dissercat.com/content/metody-povysheniya-effektivnosti-poiska-nauchnoi-informatsii-na-materiale-internet

Gleb
20.04.2018
16:46:41
А дальше 2 года еще

Artem
20.04.2018
16:46:52
это если не лучший, то один из лучших специалистов в РФ по теме
просто опиши ситуацию, он сможет порекомендовать что -то. И у него курс есть бесплатный https://stepik.org/course/1233/syllabus . Но он прям к русскому привязан.

Adel
20.04.2018
17:03:29
долбанный ркн. наш гитлаб накрыл.

Artem
20.04.2018
17:04:36
я вообще не понимаю как вы еще им там стекла не побили))

Pavel
20.04.2018
17:05:09
Некому бить стелка, это роевая некомпетентность

Pavel
20.04.2018
17:05:25
ркн просто исполняет то что ему регуляторы запросили
А регуляторы просто исполняют закон
А закон просто приняли депутаты которые на самом деле были на отдыхе пока за них бегали нажимали кнопки

~Nyctophobe
20.04.2018
17:06:06
Всем привет

Artem
20.04.2018
17:06:17

~Nyctophobe
20.04.2018
17:06:23
Фанат ещё жив?

Adel
20.04.2018
17:06:54
и на реддите тусует

Google

~Nyctophobe
20.04.2018
17:08:21
Помню он меня банил году в 2004-2005

Adel
20.04.2018
17:08:54
:))

~Nyctophobe
20.04.2018
17:09:10
Вот было время...

Adel
20.04.2018
17:09:22
я еще в универе учился... счастливый. не знал про php ничего

~Nyctophobe
20.04.2018
17:09:47
Да, пых в те времена был ужасен
Хотя он и сейчас не фонтан

Artem
20.04.2018
17:11:24
чего это вас в праздник на некрофилию потянуло? )
смешно, пока одни блокируют, другие зарабатывают на vpn
> " ГУ МВД России по Ростовской области планирует потратить на аренду каналов для передачи данных 37 миллионов рублей."
https://lenta.ru/news/2018/04/20/vpn/

Admin
ERROR: S client not available

ILIYA
20.04.2018
17:53:53
плз подскажите любой пример) как через рекурсию посчитать, сколько уровней вложенности у масива, универсально, можно направление, но только не в гугл, на ересь всякую попадаю

Artem
20.04.2018
17:58:20

ILIYA
20.04.2018
17:59:41

Pavel
20.04.2018
18:06:38
Это считает не уровни вложенности а что то другое
Количество элементов

Dmitry
20.04.2018
18:06:49
угу число элементов

Adel
20.04.2018
18:12:00
максимальную вложенность искать код немного похитрее должен быть. максимумы искать и возвращать

Artem
20.04.2018
18:12:02
ну да не просил же никто точного примера, а этот легко адаптируется, если элементы посчитать задача то тогда count с рекурсивным флагом использовать нужно и все

Dmitry
20.04.2018
18:13:35
обычная рекурсия с передачей level и сравнением его с максимумом
а если у нас n-размерная матрица, то еще проще

Дмитрий
20.04.2018
18:16:25
да не надо передавать level то) просто обновляй максимум, когда надо и ок

Google

Adel
20.04.2018
18:16:50
Дмитрий прав, Дмитрий

Dmitry
20.04.2018
18:17:06
рекурсия...

Alexey
20.04.2018
18:19:16

Дмитрий
20.04.2018
18:19:17
возвращаем максимум в рамках себя, и там предыдущая итерация рекурсии посмотрит больше она или нет)
тудух))

Dmitry
20.04.2018
18:20:45
максимум чего?

Дмитрий
20.04.2018
18:21:30
максимум того, что вернут наши вызовы себя

Dmitry
20.04.2018
18:21:54
конкретнее

Adel
20.04.2018
18:24:10
И они ее вернут тебе

Dmitry
20.04.2018
18:24:43
эм... откуда?

Adel
20.04.2018
18:24:48
Ты посчитаешь максимум глуюин наследников прибавишь один и вернешь дальше
Глубина снизу, дима
Не сверху :)

Dmitry
20.04.2018
18:26:24
с какого низу

Pavel
20.04.2018
18:26:44
Ну нопешыте уже рабочий код!

Dmitry
20.04.2018
18:27:13
плин я с телефона на ходу... и может туплю, но не понимаю
как погружаясь во вложенный элемент... он узнает свою глубину
без передачи в аргументах

Adel
20.04.2018
18:28:17
Если это обычныц массив его глубина 1