@phpclubru

« Назад

Страница 562 из 956

Далее »

Влад

20.04.2018
15:23:01

Плохая реализация:)

Alexandr

20.04.2018
15:23:59

Зы,ребятки подскажите.Есть файлик куда поступает текст построчно,как мне реализовать чтение,чтобы не один и тот же текст выводился (много раз),а при обновлении файла

tail -f file)

Влад

20.04.2018
15:24:26

Спасибо:-)

Артем

20.04.2018
15:27:25

Кто-то писал алгоритмы ранжирования web-документов? Нужна помощь!

Поясни. Интересно

Google

Gleb

20.04.2018
15:31:10

Поясни. Интересно

Просто литературы нефига нет на русском, может кто внедрялся, и если есть то оценка документа идёт по wikipedia, а в россии(яндекс) по yarn, вот если кто работал с словарями типа yarn и писал различные классификаторы мог-бы проконсультировать

Поясни. Интересно

Кароче машинным обучением если кто занимался тот мб подскажет

Артем

20.04.2018
15:35:19

Ну у учебное задание на эту тему было.

Gleb

20.04.2018
15:36:16

Ну у учебное задание на эту тему было.

в приват напиши плз что у тебя там было плз

Vitaliy Nameless

20.04.2018
15:36:30

tail -f file)

надо было скриптик на похапе написать)

Артем

20.04.2018
15:36:39

Завтра посмотрю что как делатьтподелюсь опытом. В целом текст в вектор.

в приват напиши плз что у тебя там было плз

Да хорошо, но уже завтра

Gleb

20.04.2018
15:37:21

Да хорошо, но уже завтра

завтра отпишу

Артем

20.04.2018
15:37:52

Но там классификация, не ранжирование.

Gleb

20.04.2018
15:37:58

Да хорошо, но уже завтра

ВСМ алгоритм?

Но там классификация, не ранжирование.

я сейчас про граффы читаю, ток уже писать пора а не читать=)))

Артем

20.04.2018
15:40:08

Не помню как называется. Но суть текст делаем в вектор. Вырезаем стоп слова + морфология. Дальше классифицирум.

А блин, питон же

Google

Gleb

20.04.2018
15:40:31

Не помню как называется. Но суть текст делаем в вектор. Вырезаем стоп слова + морфология. Дальше классифицирум.

пофигу!

Артем

20.04.2018
15:40:36

Это же не на пхп надо будет?

Gleb

20.04.2018
15:40:53

А блин, питон же

нет, это учебная фигня т.ч. пофиг

Артем

20.04.2018
15:41:17

Хорошо пришлю

Gleb

20.04.2018
15:41:49

Это же не на пхп надо будет?

мне главное практически как ты всё реализовывал

Artem

20.04.2018
16:08:05

Не помню как называется. Но суть текст делаем в вектор. Вырезаем стоп слова + морфология. Дальше классифицирум.

морфология на сколько я понимаю -это лемматизация (стемминг еще может). Таким образом ты в итоге сможешь разве что похожие тексты найти, в ранжировании это вряд ли поможет, хотя для меня понятие ранжирования не очень понятно вообще, что вообще сделать то нужно в nlp как бы очень много всего

мне главное практически как ты всё реализовывал

в чем суть задачи то? вообще простейший способ для работы с текстами -это небольшая билиотечка https://tech.yandex.ru/mystem/doc/grammemes-values-docpage/ и пакет nltk, но nlp сильно широкая тема там подходов в каждой задаче немеренно

Gleb

20.04.2018
16:10:42

в чем суть задачи то? вообще простейший способ для работы с текстами -это небольшая билиотечка https://tech.yandex.ru/mystem/doc/grammemes-values-docpage/ и пакет nltk, но nlp сильно широкая тема там подходов в каждой задаче немеренно

Диплом Алгоритмы ранжирования web-страниц

Artem

20.04.2018
16:11:37

ну так тебе нужно описать различные реализации скорее, а не изобретать что -то, поскольку писать такой алгоритм -на научную работу тянет, не меньше.

в общем то, что вы обсуждали примерно -это частотный анализ слов, как варраинты векторная модель тот же tfidf (это все гуглится), графы о которой ты говоришь это скорее всего PageRank считать, еще считает mean average precision (хз как оно переводится, усредненная средняя точность, наверно), но это разные подходы и они работают. Тут как бы нужно реализации смотреть и выбирать где лучше результат / подгонять. Прям с ходу простого решения нет, дже библиотеки умеющей все сразу сделать тоже нет вроде, но я совсем поверхностно с nlp знаком, потому хз.

Gleb

20.04.2018
16:18:32

в общем то, что вы обсуждали примерно -это частотный анализ слов, как варраинты векторная модель тот же tfidf (это все гуглится), графы о которой ты говоришь это скорее всего PageRank считать, еще считает mean average precision (хз как оно переводится, усредненная средняя точность, наверно), но это разные подходы и они работают. Тут как бы нужно реализации смотреть и выбирать где лучше результат / подгонять. Прям с ходу простого решения нет, дже библиотеки умеющей все сразу сделать тоже нет вроде, но я совсем поверхностно с nlp знаком, потому хз.

Есть еще комбинированный метод

Artem

20.04.2018
16:19:01

да их много, но прям подхода единого верного нет, тут даже хз, вот например книжка хорошая http://www.williamspublishing.com/Books/978-5-8459-1623-5.html

Gleb

20.04.2018
16:19:10

в общем то, что вы обсуждали примерно -это частотный анализ слов, как варраинты векторная модель тот же tfidf (это все гуглится), графы о которой ты говоришь это скорее всего PageRank считать, еще считает mean average precision (хз как оно переводится, усредненная средняя точность, наверно), но это разные подходы и они работают. Тут как бы нужно реализации смотреть и выбирать где лучше результат / подгонять. Прям с ходу простого решения нет, дже библиотеки умеющей все сразу сделать тоже нет вроде, но я совсем поверхностно с nlp знаком, потому хз.

И вот его я тоже рассматриваю, но это только в математике

Artem

20.04.2018
16:24:04

ты в любом случае будешь на разных этапах обработки и подготовки текста разные методы использовать, но прям большая тема. там теории очень мног. посмотри mystem(ее просто использовать можно, там все довольно просто, но она в виде одного файла распространяется без проблем обычно все работает), там много полезного на умеет для подготовки текста, nltk питоновский и word2vec

просто не заморачиваясь можно посчитать колличество вхождений слов и на основе этого строить индекс, например эта штука это делает просто https://github.com/RaRe-Technologies/bounter но это довольно наивный способ, но примерно суть n грамм. без учета последовательности

ну и учти, что нейронные сети -это тяжело (в смысле вычислительных мощностей и сложности модели), но на задачах nlp качество лучше у простых линейных моделей. (это я к тому, что ты говорил о машинном обучении, а оно тут тебе только проблемы создаст, но если это важно - LSTM)

ну и да, еще стоит поискать готовые тулзы, к примеру если строить вектора слов, может быть полезным подобная коллекция эмбидингов https://github.com/bheinzerling/bpemb , но конечно русского там нет (по крайней мере небыло и не планировалось, как сейчас я хз, просто из закладок достал))

Gleb

20.04.2018
16:35:48

ну и да, еще стоит поискать готовые тулзы, к примеру если строить вектора слов, может быть полезным подобная коллекция эмбидингов https://github.com/bheinzerling/bpemb , но конечно русского там нет (по крайней мере небыло и не планировалось, как сейчас я хз, просто из закладок достал))

Спасибо. Оценим

Artem

20.04.2018
16:36:36

посмотри еще на google scoolar пейперы, там все реализации описанны, например pagerank можно еще и тут найти https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4545754/

Gleb

20.04.2018
16:41:00

ну и учти, что нейронные сети -это тяжело (в смысле вычислительных мощностей и сложности модели), но на задачах nlp качество лучше у простых линейных моделей. (это я к тому, что ты говорил о машинном обучении, а оно тут тебе только проблемы создаст, но если это важно - LSTM)

Теории много, притом в России и СНГ разработок 0!

Google

Gleb

20.04.2018
16:41:36

ну и да, еще стоит поискать готовые тулзы, к примеру если строить вектора слов, может быть полезным подобная коллекция эмбидингов https://github.com/bheinzerling/bpemb , но конечно русского там нет (по крайней мере небыло и не планировалось, как сейчас я хз, просто из закладок достал))

Одни китайцы индусы и америкосы

Artem

20.04.2018
16:42:33

ну вообще есть, но довольно мало, ресурсов таких нет )

Gleb

20.04.2018
16:44:10

ну вообще есть, но довольно мало, ресурсов таких нет )

Просто начал я с хабры и там такой детсад пишут или детсад переводят

Artem

20.04.2018
16:44:44

вообще конечно зависит от сроков, но тебе стоит посмотреть летнии школы по теме, тот же http://deephack.me/ там масса лекций и хакатоно по nlp в том числе, с таких "школ" обычно самое ценное выходит) или http://romip.ru/russir2018/russir-2018-program/ но это из того, что мне попадались, где то в Германии и Китае еще были. если прям интересно, то нужно искать и записываться -это лучший способ въехать в тему и сейчас самое время по сезону, чтобы попасть на лето.

Gleb

20.04.2018
16:46:26

вообще конечно зависит от сроков, но тебе стоит посмотреть летнии школы по теме, тот же http://deephack.me/ там масса лекций и хакатоно по nlp в том числе, с таких "школ" обычно самое ценное выходит) или http://romip.ru/russir2018/russir-2018-program/ но это из того, что мне попадались, где то в Германии и Китае еще были. если прям интересно, то нужно искать и записываться -это лучший способ въехать в тему и сейчас самое время по сезону, чтобы попасть на лето.

Со сроками пока все норм. К лету 15.07 диплом на эту делу (

Artem

20.04.2018
16:46:36

но опять же я прям совсем по верхам плаваю в nlp, попробуй написать вот этому чуваку, думаю если не будет сильно занят найдет время ответить, он вполне адекватный http://www.kansas.ru/pb/ вот кстати у него в дисере 2 раздел "Классификация документов по стилям" может пригодится (ну и там есть список литературы) http://www.dissercat.com/content/metody-povysheniya-effektivnosti-poiska-nauchnoi-informatsii-na-materiale-internet

Gleb

20.04.2018
16:46:41

А дальше 2 года еще

Artem

20.04.2018
16:46:52

это если не лучший, то один из лучших специалистов в РФ по теме

просто опиши ситуацию, он сможет порекомендовать что -то. И у него курс есть бесплатный https://stepik.org/course/1233/syllabus . Но он прям к русскому привязан.

Adel

20.04.2018
17:03:29

долбанный ркн. наш гитлаб накрыл.

Artem

20.04.2018
17:04:36

я вообще не понимаю как вы еще им там стекла не побили))

Pavel

20.04.2018
17:05:09

Некому бить стелка, это роевая некомпетентность

Pavel

20.04.2018
17:05:25

ркн просто исполняет то что ему регуляторы запросили

А регуляторы просто исполняют закон

А закон просто приняли депутаты которые на самом деле были на отдыхе пока за них бегали нажимали кнопки

~Nyctophobe

20.04.2018
17:06:06

Всем привет

Artem

20.04.2018
17:06:17

Некому бить стелка, это роевая некомпетентность

есть, вот исполнители http://e-soft.ru/

~Nyctophobe

20.04.2018
17:06:23

Фанат ещё жив?

Adel

20.04.2018
17:06:54

Фанат ещё жив?

появляется на форуме.

и на реддите тусует

Google

~Nyctophobe

20.04.2018
17:08:21

Помню он меня банил году в 2004-2005

Adel

20.04.2018
17:08:54

:))

~Nyctophobe

20.04.2018
17:09:10

Вот было время...

Adel

20.04.2018
17:09:22

я еще в универе учился... счастливый. не знал про php ничего

~Nyctophobe

20.04.2018
17:09:47

Да, пых в те времена был ужасен

Хотя он и сейчас не фонтан

Artem

20.04.2018
17:11:24

чего это вас в праздник на некрофилию потянуло? )

смешно, пока одни блокируют, другие зарабатывают на vpn > " ГУ МВД России по Ростовской области планирует потратить на аренду каналов для передачи данных 37 миллионов рублей." https://lenta.ru/news/2018/04/20/vpn/

Admin

ERROR: S client not available

ILIYA

20.04.2018
17:53:53

плз подскажите любой пример) как через рекурсию посчитать, сколько уровней вложенности у масива, универсально, можно направление, но только не в гугл, на ересь всякую попадаю

Artem

20.04.2018
17:58:20

плз подскажите любой пример) как через рекурсию посчитать, сколько уровней вложенности у масива, универсально, можно направление, но только не в гугл, на ересь всякую попадаю

function count_r($array, $i = 0){ foreach($array as $k){ $i++; if(is_array($k)){ $i += count_r($k); } } return $i; }

ILIYA

20.04.2018
17:59:41

function count_r($array, $i = 0){ foreach($array as $k){ $i++; if(is_array($k)){ $i += count_r($k); } } return $i; }

спасибо...махать я тупанул...

Pavel

20.04.2018
18:06:38

Это считает не уровни вложенности а что то другое

Количество элементов

Dmitry

20.04.2018
18:06:49

угу число элементов

Adel

20.04.2018
18:12:00

максимальную вложенность искать код немного похитрее должен быть. максимумы искать и возвращать

Artem

20.04.2018
18:12:02

ну да не просил же никто точного примера, а этот легко адаптируется, если элементы посчитать задача то тогда count с рекурсивным флагом использовать нужно и все

Dmitry

20.04.2018
18:13:35

обычная рекурсия с передачей level и сравнением его с максимумом

а если у нас n-размерная матрица, то еще проще

Дмитрий

20.04.2018
18:16:25

да не надо передавать level то) просто обновляй максимум, когда надо и ок

Google

Adel

20.04.2018
18:16:50

Дмитрий прав, Дмитрий

Dmitry

20.04.2018
18:17:06

рекурсия...

да не надо передавать level то) просто обновляй максимум, когда надо и ок

глубину то как считать будешь?

Alexey

20.04.2018
18:19:16

https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D0%BD%D0%BA%D0%B8%D0%BD,_%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B9_%D0%9C%D0%B8%D1%85%D0%B0%D0%B9%D0%BB%D0%BE%D0%B2%D0%B8%D1%87

что у вас тут за жесть?!

Дмитрий

20.04.2018
18:19:17

возвращаем максимум в рамках себя, и там предыдущая итерация рекурсии посмотрит больше она или нет)

тудух))

Dmitry

20.04.2018
18:20:45

максимум чего?

Дмитрий

20.04.2018
18:21:30

максимум того, что вернут наши вызовы себя

Dmitry

20.04.2018
18:21:54

конкретнее

Adel

20.04.2018
18:24:10

конкретнее

Наследники сами знают свою глубину

И они ее вернут тебе

Dmitry

20.04.2018
18:24:43

эм... откуда?

Adel

20.04.2018
18:24:48

Ты посчитаешь максимум глуюин наследников прибавишь один и вернешь дальше

Глубина снизу, дима

Не сверху :)

Dmitry

20.04.2018
18:26:24

с какого низу

Pavel

20.04.2018
18:26:44

Ну нопешыте уже рабочий код!

Dmitry

20.04.2018
18:27:13

плин я с телефона на ходу... и может туплю, но не понимаю

как погружаясь во вложенный элемент... он узнает свою глубину

без передачи в аргументах

Adel

20.04.2018
18:28:17

Если это обычныц массив его глубина 1

« Назад

Страница 562 из 956

Далее »

Открыть в Telegram