@botoid

Страница 3195 из 4042
S
19.06.2018
08:19:57
В общем, если я хочу выпарсить полторы подстроки и готова понести издержки в случае изменения формата, уж лучше взять компилируемые регулярки, чем ходить по тяжелому дому

S
19.06.2018
08:20:38
Тем более от изменения формата не спасешься и в случае с хождением по DOM

Google
S
19.06.2018
08:20:49
И при использовании API

Andrey ?
19.06.2018
08:20:59
Тем более от изменения формата не спасешься и в случае с хождением по DOM
Хождение по домам спасёт от мелких изменений (вроде дописывания одного класса к диву)

Johnny
19.06.2018
08:21:42
и так, передо мной как-то встала задача, подобрать для ботов короткие звучные имена. на том момент я в клиент апи ничего не понимал (да и сейчас не понимаю) принято было решение отпарсить страницы t.me\имябота. для ХХbot и ХХХbot перебором. для XXXXbot со словарем.

Денис
19.06.2018
08:22:10
Вы че, второй день за регулярки холиварите?)

Suren
19.06.2018
08:22:19
только начали же

S
19.06.2018
08:22:34
только начали же
Второй день

Andrey ?
19.06.2018
08:22:36
А в том, что даже с учетом t.me нахуй не нужно ничего парсить

Suren
19.06.2018
08:22:51
Второй день
ладно, я вчера тут не присутствовал почти

S
19.06.2018
08:22:54
А в том, что даже с учетом t.me нахуй не нужно ничего парсить
Там, наверное, статус код будет не 200, если свободен)

Johnny
19.06.2018
08:22:59
Мне кажется, тут дело не в DOM/регулярки
я парсил регулярками и DOM. вот код теста https://hastebin.com/upojexuyog.js

Google
S
19.06.2018
08:23:14
Можно HEAD делать

Johnny
19.06.2018
08:23:25
А в том, что даже с учетом t.me нахуй не нужно ничего парсить
здрасьте, страница выдается в любом случае

S
19.06.2018
08:23:48
здрасьте, страница выдается в любом случае
И какая будет страница в случае с sjakjfjsixkansdjbot?

S
19.06.2018
08:24:36
проверь :)
Вот гады

Johnny
19.06.2018
08:24:44


Andrey ?
19.06.2018
08:24:56
Да я уже посмотрел

Но тут и простым indexOf можно

Даже без регулярок

Денис
19.06.2018
08:25:15
проверь :)
Че, не рест комплайнт?)

Andrey ?
19.06.2018
08:26:05
Я двухбуквенного бота ручным перебором минут за 5 прибрал ¯\_(ツ)_/¯

Денис
19.06.2018
08:26:08
Да не ты же не ресткомплайнт)

Johnny
19.06.2018
08:26:09
Даже без регулярок
вопрос стоял пол другому, можно регулярками или нет

Johnny
19.06.2018
08:26:29
Нельзя
пример видишь? результат видишь?

Andrey ?
19.06.2018
08:26:49
А теперь перепиши на indexOf

И посмотри на результат еще раз

Google
Andrey ?
19.06.2018
08:27:02
Тут в принципе не нужно парсить html

Ни регулярками, ни домами

Денис
19.06.2018
08:27:29
Чуваки, регулярки ВСЕГДА быстрее, это факт) ДОМ удобнее, надёжнее и возможно безопаснее, но никогда не быстрее

Andrey ?
19.06.2018
08:27:41
Телеграм отдает чуть разные страницы для занятых и свободных

Johnny
19.06.2018
08:27:45
И посмотри на результат еще раз
зачем? я показал пример, где регулярка быстрее DOM. Мне не важно есть ли методы еще быстрей.

Andrey ?
19.06.2018
08:28:00
Dika
19.06.2018
08:28:06
ты зачем юзаешь jsdom? Это браузер, а не просто парсер хтмл. Теперь сравни регулярки с cheerio.

Johnny
19.06.2018
08:28:39
ты зачем юзаешь jsdom? Это браузер, а не просто парсер хтмл. Теперь сравни регулярки с cheerio.
я юзал первое что попало, не разбирал. проведи с cheerio, посмотрим, любопытно

Andrey ?
19.06.2018
08:28:42
Проверять вхождение строки можно и более производительными методами

Все равно тут самый оверхед на http-запросы

Johnny
19.06.2018
08:29:13
Проверять вхождение строки можно и более производительными методами
это вне утверждения "регулярками парсить html нельзя"

Andrey ?
19.06.2018
08:29:14
И что дом, что регулярки будут показывать результаты в рамках погрешности

Мне лень брать в руки nokogiri и показывать, насколько ты не прав)

Johnny
19.06.2018
08:29:41
Все равно тут самый оверхед на http-запросы
тут да. но если в базе формы в html лежат. то нет

Andrey ?
19.06.2018
08:30:14
В фантазиях разве что

https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags Вот развернутый ответ, почему ты не прав

Денис
19.06.2018
08:31:34
HTML can't be parsed by regex ???

Andrey ?
19.06.2018
08:31:51
HTML can't be parsed by regex ???
Читай дальше

Johnny
19.06.2018
08:32:04
В фантазиях разве что
какие фантазии? я привел пример, результаты теста, и полученное короткое имя бота. Мне не важно мнение авторитетов, важно что есть результат

Google
Денис
19.06.2018
08:32:05
Дальше еще смешнее?

Andrey ?
19.06.2018
08:32:32
какие фантазии? я привел пример, результаты теста, и полученное короткое имя бота. Мне не важно мнение авторитетов, важно что есть результат
Ну, если ты не умеешь выбирать инструменты, это же не значит, что нормальный парсер не покажет схожие результаты по скорости? (:

Johnny
19.06.2018
08:33:34
Ну, если ты не умеешь выбирать инструменты, это же не значит, что нормальный парсер не покажет схожие результаты по скорости? (:
если ты утверждаешь - проведи альтернативный тест, код подправить ведь не долго. Ставлю 10$ что ты не найдешь такой нормальный парсер конкретно к моему примеру, который победит мою регулярку

KriPtoN
19.06.2018
08:34:22
горичо :)

Денис
19.06.2018
08:36:31
Мне кажется, nodejs разработчики просто не понимают и боятся регулярок и отсюда это "фиии, регулярные выражение, как так можна таааа..."

Andrey ?
19.06.2018
08:38:11
Просто когда нужно проверить вхождение строки - для этого не нужно использовать ни парсер, ни регулярки

Покажи как надо
Как надо что?

Johnny
19.06.2018
08:38:55
Как надо что?
как через indexOf вытащишь имя бота

Andrey ?
19.06.2018
08:39:07
как через indexOf вытащишь имя бота
А зачем вытаскивать имя бота?

Нужно проверить, занято ли оно

Andrey ?
19.06.2018
08:39:31
Посмотри ответы для занятого и для свободного

Буквально первые 10 строк

Google
Johnny
19.06.2018
08:40:00
Посмотри ответы для занятого и для свободного
я в теме. как конкретно ты хотел с помощью indexOf это сделать

Andrey ?
19.06.2018
08:40:20
Посмотри ответы для занятого и для свободного

Буквально первые 10 строк

Alex
19.06.2018
08:40:22
Посмотри ответы для занятого и для свободного
Так напиши свой пример, который сделает по скорости работы регулярку Ты уже больше времени на спор потратил, чем писал бы свой индекс оф

Andrey ?
19.06.2018
08:40:24
Буквально первые 10 строк

<meta name="robots" content="noindex, nofollow">

В занятом нет, в свободном есть

Alex
19.06.2018
08:41:18
Мне лень впн запускать, t.me же заблокирован
Но есть вероятность, что ты таки написал, убедился, что нифига не быстрее

Andrey ?
19.06.2018
08:41:22
Если есть такая строка => имя свободно

Johnny
19.06.2018
08:41:58
Делать мне нехуй, лол
тогда ты конечно прав. нельзя парсить html регулярками :)

Alex
19.06.2018
08:42:02
Делать мне нехуй, лол
Ну если на беспредметный спор в чате есть время, то верю

Andrey ?
19.06.2018
08:42:09
Код писать тоже весело, но не так весело как спорить

Andry
19.06.2018
08:42:26
Здравствуйте. Уважаемые ботоделы, подкажите, плз на чем написан юзербот @clippy? Какой api использован, если это псевдобот?

S
19.06.2018
08:43:11
других вариантов нет

или речь о том, какая там выше абстракция вроде языка/библиотеки? это только автору известно

Страница 3195 из 4042