• Python lxml Простейшая задачка — распарсить страничку в хлам — спотыкается на странной ошибке:
    pastebin.com
    Пример выдран фактически каноничный, заменён только адрес, который не откликается, на более привычный. Как это, пардон, понимать?

Replies (4)

  • @rakoth, >> print lxml.html.tostring(html) lxml.de
  • @matrixdaniil, тоесть поидеи print topic.tostring(html) должно проканать
  • @matrixdaniil, Ага, точно. Так работает.
    Всё же пугает пустой __dict__
    И выходит, что в документе нет '#gs_htif0', т.к.
    for topic in doc.cssselect('input'):
    print(topic)
    <InputElement 7ff049f6f410 name='ie' type='hidden'>
    <InputElement 7ff049f925f0 name='hl' type='hidden'>
    <InputElement 7ff049f92650 name='source' type='hidden'>
    <InputElement 7ff049f926b0 name='q' type='text'>
    <InputElement 7ff049f92710 name='btnG' type='submit'>
    <InputElement 7ff049f92770 name='btnI' type='submit'>
    <InputElement 7ff049f927d0 name='gbv' type='hidden'>

    И да, кстати, покопавшись в документации нашёл "более кошерный метод" — создавать объект CSSSelector.
  • @rakoth,
    Кстати, я тоже "ронял" lxml на элементарнейших задачах. Пример сейчас уже, конечно, не вспомню, но факт остаётся фактом. Даже переспросил у знающих людей, те подтвердили, что это не я дурак. Выходит, то ли либа слишком мощная для моего мозга, то ли и разработчики замахнулись на эпические масштабы, забыв про мелкие пакости.