zbkm
Участник
- Регистрация
- 9 Янв 2021
- Сообщения
- 99
- Реакции
- 176
парсящий скрипт на питоне.
взял облачный сервер самый дешевый, посчитал, потребуется чуть больше года. Если я правильно всё замерил, на основную логику парсера уходит ~3% от общего времени (с обращением к локальной бд), остальное на запросы к сайту. Поэтому переписывать на си, или что-то подобное, смысла, наверное, нет.
попробовал взять с выделенным cpu, стало быстрее в два раза, но в шесть раз дороже
так идея в чем, возьму 100 серверов самых дешевых и спаршу всё за четыре дня
--- ВОПРОСЫ ---
1) Но как распределить нагрузку между серверами?
План такой. Взять мощный сервер под БД. Все ссылки, которые нужно спарсить поделить на равные части. Сделать снапшот с нужным окружением и загруженным скриптом. Дальше написать небольшую тулзу, которая через api создает сервера, подключается к ним через ssh и запускает скрипт с нужными параметрами.
Как вам вариант? Или есть способы всё это сделать проще и лучше?
2) Но мой вариант очень дорогой, выйдет в 5к, как можно дешевле? То есть у hetzner
взял облачный сервер самый дешевый, посчитал, потребуется чуть больше года. Если я правильно всё замерил, на основную логику парсера уходит ~3% от общего времени (с обращением к локальной бд), остальное на запросы к сайту. Поэтому переписывать на си, или что-то подобное, смысла, наверное, нет.
попробовал взять с выделенным cpu, стало быстрее в два раза, но в шесть раз дороже
так идея в чем, возьму 100 серверов самых дешевых и спаршу всё за четыре дня
--- ВОПРОСЫ ---
1) Но как распределить нагрузку между серверами?
План такой. Взять мощный сервер под БД. Все ссылки, которые нужно спарсить поделить на равные части. Сделать снапшот с нужным окружением и загруженным скриптом. Дальше написать небольшую тулзу, которая через api создает сервера, подключается к ним через ssh и запускает скрипт с нужными параметрами.
Как вам вариант? Или есть способы всё это сделать проще и лучше?
2) Но мой вариант очень дорогой, выйдет в 5к, как можно дешевле? То есть у hetzner
- CPU (shared): 1
- RAM: 2ГБ.
- HDD: 20ГБ.