← All posts tagged scraping

agr
selenium погроммирование секьюрное проектное scraping 1. получается 3 часа и 2 гига контента на субъект федерации, из которых мне надо 2 мб. всего же их 85+. самый пик — Москва — 162 минуты. раз в неделю — не вариант пускать. ищу альтернативы.

2. удалось выяснить опытным путем, что телефон без рута не может принимать интернет, раздаваемый с вайфая на Bluetooth порт по, соответственно, Bluetooth.

3. удалось прослушать траффик с телефона на компе, в том числе и HTTPS. побочный эффект: да, телеметрии слив есть, по HTTP.

4. удалось вытащить токены авторизации и заодно все заголовки запросов и ответов, зареверсил API.

5. запиливаю клиента под это дело. может, починю сайт раньше, подкрутив клиента под API. а пока продолжу опрос в оффлайне через селениум.
agr
дыбр погроммирование scraping анализ и написание сценариев для web scraping в связке с REPL — одно удовольствие!
— продумываю уменьшение нагрузки на целевой ресурс, чтобы не засылать туда 400K запросов.
— нужен ещё один сценарий для сбора метаданных.
— нужно понять, что не так со скроллингом, он, как бы это сказать, проскальзывает. возможно, и существующие сценарии для фантома с заглушками есть шанс реанимировать. проблема с ним воспроизвелась и локально. имея на руках REPL+браузер + любимый хаскелль, в которых можно производить отладку сценариев наглядно, без JS, видеть живую страницу в любой момент времени.