Что нового

Спарсить много данных (1 Viewer)

zbkm

zbkm

Участник
Регистрация
9 Янв 2021
Сообщения
99
Реакции
176
парсящий скрипт на питоне.
взял облачный сервер самый дешевый, посчитал, потребуется чуть больше года. Если я правильно всё замерил, на основную логику парсера уходит ~3% от общего времени (с обращением к локальной бд), остальное на запросы к сайту. Поэтому переписывать на си, или что-то подобное, смысла, наверное, нет.
попробовал взять с выделенным cpu, стало быстрее в два раза, но в шесть раз дороже
так идея в чем, возьму 100 серверов самых дешевых и спаршу всё за четыре дня

--- ВОПРОСЫ ---
1) Но как распределить нагрузку между серверами?
План такой. Взять мощный сервер под БД. Все ссылки, которые нужно спарсить поделить на равные части. Сделать снапшот с нужным окружением и загруженным скриптом. Дальше написать небольшую тулзу, которая через api создает сервера, подключается к ним через ssh и запускает скрипт с нужными параметрами.
Как вам вариант? Или есть способы всё это сделать проще и лучше?
2) Но мой вариант очень дорогой, выйдет в 5к, как можно дешевле? То есть у hetzner
  • CPU (shared): 1
  • RAM: 2ГБ.
  • HDD: 20ГБ.
стоит 44 копейки в час, и интернет у них вроде-бы нормальный. Может есть сервера с оплатой за час с таким-же интернетом ещё дешевле? Или я что-то упускаю? Может, взять очень мощный сервер, и в нём запустить в 10к потоков :/
 
Для начала попробуй найти сервер в том же ДЦ что и сам сайт. Можно сократить до 80% время запросов
 

Пользователи, просматривающие данную тему

Верх