seleniumпогроммированиесекьюрноепроектноеscraping
1. получается 3 часа и 2 гига контента на субъект федерации, из которых мне надо 2 мб. всего же их 85+. самый пик — Москва — 162 минуты. раз в неделю — не вариант пускать. ищу альтернативы.
2. удалось выяснить опытным путем, что телефон без рута не может принимать интернет, раздаваемый с вайфая на Bluetooth порт по, соответственно, Bluetooth.
3. удалось прослушать траффик с телефона на компе, в том числе и HTTPS. побочный эффект: да, телеметрии слив есть, по HTTP.
4. удалось вытащить токены авторизации и заодно все заголовки запросов и ответов, зареверсил API.
5. запиливаю клиента под это дело. может, починю сайт раньше, подкрутив клиента под API. а пока продолжу опрос в оффлайне через селениум.
дыбрпогроммированиеscraping
анализ и написание сценариев для web scraping в связке с REPL — одно удовольствие!
— продумываю уменьшение нагрузки на целевой ресурс, чтобы не засылать туда 400K запросов.
— нужен ещё один сценарий для сбора метаданных.
— нужно понять, что не так со скроллингом, он, как бы это сказать, проскальзывает. возможно, и существующие сценарии для фантома с заглушками есть шанс реанимировать. проблема с ним воспроизвелась и локально. имея на руках REPL+браузер + любимый хаскелль, в которых можно производить отладку сценариев наглядно, без JS, видеть живую страницу в любой момент времени.