
Andrey ?
19.06.2018
08:19:14

S
19.06.2018
08:19:57
В общем, если я хочу выпарсить полторы подстроки и готова понести издержки в случае изменения формата, уж лучше взять компилируемые регулярки, чем ходить по тяжелому дому

Suren
19.06.2018
08:20:21

S
19.06.2018
08:20:38
Тем более от изменения формата не спасешься и в случае с хождением по DOM

Google

S
19.06.2018
08:20:49
И при использовании API

Andrey ?
19.06.2018
08:20:59

Johnny
19.06.2018
08:21:42
и так, передо мной как-то встала задача, подобрать для ботов короткие звучные имена. на том момент я в клиент апи ничего не понимал (да и сейчас не понимаю)
принято было решение отпарсить страницы t.me\имябота. для ХХbot и ХХХbot перебором. для XXXXbot со словарем.

S
19.06.2018
08:22:09

Денис
19.06.2018
08:22:10
Вы че, второй день за регулярки холиварите?)

Suren
19.06.2018
08:22:19
только начали же

Andrey ?
19.06.2018
08:22:27

Johnny
19.06.2018
08:22:31

S
19.06.2018
08:22:34

Andrey ?
19.06.2018
08:22:36
А в том, что даже с учетом t.me нахуй не нужно ничего парсить

Suren
19.06.2018
08:22:51

S
19.06.2018
08:22:54

Johnny
19.06.2018
08:22:59

Google

Andrey ?
19.06.2018
08:23:02

S
19.06.2018
08:23:14
Можно HEAD делать

Johnny
19.06.2018
08:23:25

S
19.06.2018
08:23:48

Johnny
19.06.2018
08:24:16

S
19.06.2018
08:24:36

Johnny
19.06.2018
08:24:44

S
19.06.2018
08:24:45

Andrey ?
19.06.2018
08:24:56
Да я уже посмотрел
Но тут и простым indexOf можно
Даже без регулярок

S
19.06.2018
08:25:13

Денис
19.06.2018
08:25:15

Andrey ?
19.06.2018
08:26:05
Я двухбуквенного бота ручным перебором минут за 5 прибрал ¯\_(ツ)_/¯

Денис
19.06.2018
08:26:08
Да не ты же не ресткомплайнт)

Johnny
19.06.2018
08:26:09

Andrey ?
19.06.2018
08:26:16

Johnny
19.06.2018
08:26:29
Нельзя
пример видишь? результат видишь?

Andrey ?
19.06.2018
08:26:49
А теперь перепиши на indexOf
И посмотри на результат еще раз

Google

Andrey ?
19.06.2018
08:27:02
Тут в принципе не нужно парсить html
Ни регулярками, ни домами

Денис
19.06.2018
08:27:29
Чуваки, регулярки ВСЕГДА быстрее, это факт) ДОМ удобнее, надёжнее и возможно безопаснее, но никогда не быстрее

Andrey ?
19.06.2018
08:27:41
Телеграм отдает чуть разные страницы для занятых и свободных

Johnny
19.06.2018
08:27:45

Andrey ?
19.06.2018
08:28:00

Dika
19.06.2018
08:28:06
ты зачем юзаешь jsdom?
Это браузер, а не просто парсер хтмл. Теперь сравни регулярки с cheerio.

Johnny
19.06.2018
08:28:39

Andrey ?
19.06.2018
08:28:42
Проверять вхождение строки можно и более производительными методами
Все равно тут самый оверхед на http-запросы

Johnny
19.06.2018
08:29:13

Andrey ?
19.06.2018
08:29:14
И что дом, что регулярки будут показывать результаты в рамках погрешности
Мне лень брать в руки nokogiri и показывать, насколько ты не прав)

Johnny
19.06.2018
08:29:41

Andrey ?
19.06.2018
08:30:14
В фантазиях разве что
https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags
Вот развернутый ответ, почему ты не прав

Денис
19.06.2018
08:31:34
HTML can't be parsed by regex ???

Andrey ?
19.06.2018
08:31:51

Johnny
19.06.2018
08:32:04
В фантазиях разве что
какие фантазии? я привел пример, результаты теста, и полученное короткое имя бота. Мне не важно мнение авторитетов, важно что есть результат

Google

Денис
19.06.2018
08:32:05
Дальше еще смешнее?

Andrey ?
19.06.2018
08:32:32

Johnny
19.06.2018
08:33:34

Денис
19.06.2018
08:33:36

KriPtoN
19.06.2018
08:34:22
горичо :)

Dika
19.06.2018
08:36:18

Денис
19.06.2018
08:36:31
Мне кажется, nodejs разработчики просто не понимают и боятся регулярок и отсюда это "фиии, регулярные выражение, как так можна таааа..."

Johnny
19.06.2018
08:36:32

Andrey ?
19.06.2018
08:36:53

Alex
19.06.2018
08:38:08

Andrey ?
19.06.2018
08:38:11
Просто когда нужно проверить вхождение строки - для этого не нужно использовать ни парсер, ни регулярки

Johnny
19.06.2018
08:38:55

Andrey ?
19.06.2018
08:39:07
Нужно проверить, занято ли оно

Johnny
19.06.2018
08:39:21

Alex
19.06.2018
08:39:22

Andrey ?
19.06.2018
08:39:31
Посмотри ответы для занятого и для свободного
Буквально первые 10 строк

Google

Johnny
19.06.2018
08:40:00

Andrey ?
19.06.2018
08:40:20
Посмотри ответы для занятого и для свободного
Буквально первые 10 строк

Alex
19.06.2018
08:40:22

Andrey ?
19.06.2018
08:40:24
Буквально первые 10 строк
<meta name="robots" content="noindex, nofollow">
В занятом нет, в свободном есть

Alex
19.06.2018
08:41:18

Andrey ?
19.06.2018
08:41:22
Если есть такая строка => имя свободно

Johnny
19.06.2018
08:41:58

Alex
19.06.2018
08:42:02

Andrey ?
19.06.2018
08:42:09
Код писать тоже весело, но не так весело как спорить

Andry
19.06.2018
08:42:26
Здравствуйте.
Уважаемые ботоделы, подкажите, плз на чем написан юзербот @clippy?
Какой api использован, если это псевдобот?

S
19.06.2018
08:43:11
других вариантов нет
или речь о том, какая там выше абстракция вроде языка/библиотеки? это только автору известно