• Jueves 9 de Mayo de 2024, 23:48

Autor Tema:  HTML parser  (Leído 1103 veces)

dayler

  • Miembro activo
  • **
  • Mensajes: 45
    • Ver Perfil
HTML parser
« en: Viernes 26 de Septiembre de 2008, 03:38 »
0
Hola . . .

Alguno de ustedes que habria usado el HTMLparser.h del libxml2 (libxml2/HTMLparser.h), que me podria ayudar a parsear las url's de una web que se obtuvo mediante libcurl http://curl.haxx.se/libcurl/. algo parecido a este ejemplo http://curl.haxx.se/lxr/source/docs/examples/htmltitle.cc solo que yo quiero obtener las url's, buscando en la documentacion http://xmlsoft.org/html/libxml-HTMLparser.html no encontre nada que me podria ayudar.

(Mi problema es poder obtener las direcciones apuntadas por todos los href = " . .", alguna web)

Saludos . . .

sharek

  • Nuevo Miembro
  • *
  • Mensajes: 15
    • Ver Perfil
    • http://binarycell.org
Re: HTML parser
« Respuesta #1 en: Sábado 1 de Noviembre de 2008, 08:15 »
0
Tu necesitas a XPath ;-) lo tienes dentro de libxml, te permitirá extraer las urls (href de las etiquetas anchor) con una especie de expresión regular (por llamarlo de alguna forma)
jmp 7C000h