Ilya
т.е. в TCP ты должен дождаться подтверждения доставки
Ilya
Возможно там есть ещё "нюансы", но пока видится только так.
Alexander
Alexander
уверенность 100%, это инсайдерская информация? без негатива, просто мало ли
Айдар
У них на сайте написано, что могут рассмотреть и другие варианты
Alexander
понял, спасибо ❤️
Liqiudationmarket.ru
Привет, кто подскажет, какой нибудь приближенный модуль для для парсинга интернет аптеки? Понятно, что это всё кастомное. Допилим
Ilya
Anonymous
Игорь
Мужики, что за EXTRA string у меня отобразилась?
Игорь
Emil
Во втором фпринтф наверное, второй аргумент должен быть строкой для форматирования,а там перенос
Игорь
Бомба, работает. Моё уважение)
Liqiudationmarket.ru
goquery?
Шустрее чем на pyhton?
Liqiudationmarket.ru
+
Liqiudationmarket.ru
Меня волнует эффективность
Emil
А мне казалось упереться в скорость языка может только профи
Emil
Звучит справедливо)
Liqiudationmarket.ru
10 000 интернет магазинов это много или мало? Вот интересует такие объёмы
Liqiudationmarket.ru
https://stolichki.ru/
https://avicennapharma.ru/catalog/1/
https://aptstore.ru/
https://aptekaforte.ru
Liqiudationmarket.ru
Архитектура аптек?
Liqiudationmarket.ru
Ок
Ilya
Liqiudationmarket.ru
Ilya
Если у тебя есть сервер выделенный компьютер на базе современного десктопного железа - то бери любой ЯП, на котором быстрее напишешь парсер.
если тебе нужно сделать это в ограниченных условиях, бери go
Ilya
Но страдает скорость разработки (отчасти).
Ilya
То что на пайтоне ты наберёшь из готовых либ, тут будешь писать сам или допиливать либы.
Ilya
Думаю бери лучше пайтон, и складывай всё в бд.
Alexander
вообще есть типа готовые краулеры, которые как-то кастомизируются
Alexander
но не могу представить чем это на пайтоне разработка будет быстрее
Alexander
не знаю, мне хочется лицеруку сделать. я не понимаю что может быть такое для парсинга сайтов чего на го нет
Alexander
вот что там такое есть? раз уж начали, то давайте
Herman
𝕌ℕ𝔼𝕏ℙ𝔼ℂ𝕋𝔼𝔻
Ilya
Alexander
не понял вопрос
Alexander
имел в виду библиотеки наверное
🅞leksiy
Удивительно, что в поисках либ, люди вбивают запрос сюда, а не в гугл или на гитхабе
Alexander
я ничего конкретно не ищу. мне сказали на питоне парсер быстрее написать - пусть доказывают
🅞leksiy
Та не
🅞leksiy
Я про тот вопрос, где goquery советуют
🅞leksiy
Несколько раз на чей-то вопрос в чатике, сам просто из любопытства забивал в гугле и сразу выдавало подходящую либу
Ilya
я ничего конкретно не ищу. мне сказали на питоне парсер быстрее написать - пусть доказывают
Давайте вместе рассуждать.
Парсер сайта условно можно разделить на
Краулер (спайдер)
Парсер
БД
Самих краулеров на питоне десятки. На любой вкус и цвет
Парсер - всё равно писать, в зависимости от задачи
БД - тут и так всё понятно.
Теперь берём программиста на питоне (которых больше) и на Го (которых пока меньше).
Если нет ничего готового, то скорее всего быстрее получится найти пайтон дева, и запилить.
Где я тут не прав (разбираем задачу с точки зрения бизнеса).
Alexander
да чушь же
Ilya
Если мы говорим про скорость, то обычной покупкой дополнительных ресурсов мы исключаем то, что на Го, парсер будет работать в 10 раз быстрее.
Я уверен проблемы будут с самим парсингом (динамическая верстка) и блок по IP, юзер агенту, CF или авторизации.
𝕌ℕ𝔼𝕏ℙ𝔼ℂ𝕋𝔼𝔻
Alexander
1. Готовые краулеры никто брать не будет если задача достаточно серьезная. Да и на го есть.
2. Весь парсинг хтмля через goquery решается и там под каждую аптеку будет свое.
3. Работа с базой там не сильно жирная, можно и потерпеть все вместе с sqlx
Ilya
Alexander
А по факту не понимаю причем тут краулеры, тут нужно специфичные урлы формировать под каждый сайт
Ilya
И в общем бюджете и времени.
Alexander
можно обосраться если ты будешь целиком весь сайт аптеки какой-нибудь обходить
Ilya
Ilya
Alexander
непонятно, каких мусорных урлов оно может нагенерить
Alexander
𝕌ℕ𝔼𝕏ℙ𝔼ℂ𝕋𝔼𝔻
Alexander
Ilya
Ок, итак мы сошлись на вопросе, кого проще найти на питон или на го?
Ilya
Alexander
1. Он может закрывать самое нужное.
2. Его может тупо не быть.
3. Он может не перекрывать проблемы бесконечных урлов
Alexander
да 1М страниц это не меньше месяца может быть
Ilya
https://apteka.ru/product/glyukometr-one-touch-verio-reflectvariant-4-611ccaeaa96f958fe6dfcce9/
Вот например
Alexander
Ilya
Ilya
лягушка7
Сорри
https://www.screamingfrog.co.uk/seo-spider/
Ilya
Alexander
да не соберет оно за сутки. либо там овердохрена проксей. но это уже совсем не этично будет лям запросов за сутки
Ilya
Alexander
Alexander
и фактически в один поток в среднем скорость в 1 rps получается
Alexander
ну где-то
Ilya