← All posts tagged парсинг

OCTAGRAM
парсинг cdn видео PlayWire оказался каким–то замороченным по сравнению с другими хостингами. URL у них неочевидные. Для тех, кто тоже парсит сайты с видео, вдруг пригодится. Mне сейчас известны 3 вида JSON URL'ов:
zeus.json, online
player.json, online
config.json, online

Причём, первые два — на config.playwire.com, а третий — на cdn.playwire.com, а я, читая не выполняющуюся часть кода JavaScript, пытался налепить на первый домен.
В своей работе я нашёл наиболее полезным zeus.json, в нём наибольшее количество желаемой информации: и длина, и постер, и ссылка на manifest.f4m. Я поначалу этот f4m проигнорировал, мол, а зачем мне HDS, если я знаю, как делать ссылки вида cdn.phoenix.intergi.com . Напрасно. Во–первых, узнал, что manifest.f4m — не обязательно HDS, а может быть и сборник прямых ссылок на mp4. Большинство последних видео сейчас всё же залиты по моему шаблону, так что заказчик был доволен, заплатил, но процентов 15% видео криво спарсились из–за того, что я не смотрел в f4m. Некоторые видео залиты под другим адресом, пример выше как раз такой. Если посмотреть в config.playwire.com можно сконструировать URL вида cdn.playwire.com , и этот URL работает. У большинства видео, впрочем, f4m такой: config.playwire.com , здесь есть 2 формата видео, для мобилок и обычный, и адрес у обоих по шаблону.
Некоторый интерес может представлять config.json, там дан rtmp адрес, вдруг кому–то это именно то, что нужно.
Нулевой или отсутствующий duration — видимо, бывает, как раз у видео старого образца. Видео может быть нормальным, но вот длина неизвестна, если, конечно, сайт с видео не предоставил её каким–то другим образом.
Постеров, на самом, деле, похоже, может быть 10. Если URL постера выглядит так: cdn.phoenix.intergi.com , то последнюю цифру можно менять от 0 до 9 или ставить по рандому. Про другие URL постеров не скажу, но ситуация может быть похожая. Очень может быть, что всё отличается от клиента к клиенту.