SoloCodigo

Programación General => C/C++ => Mensaje iniciado por: dayler en Viernes 26 de Septiembre de 2008, 03:38

Título: HTML parser
Publicado por: dayler en Viernes 26 de Septiembre de 2008, 03:38
Hola . . .

Alguno de ustedes que habria usado el HTMLparser.h del libxml2 (libxml2/HTMLparser.h), que me podria ayudar a parsear las url's de una web que se obtuvo mediante libcurl http://curl.haxx.se/libcurl/. algo parecido a este ejemplo http://curl.haxx.se/lxr/source/docs/examples/htmltitle.cc solo que yo quiero obtener las url's, buscando en la documentacion http://xmlsoft.org/html/libxml-HTMLparser.html no encontre nada que me podria ayudar.

(Mi problema es poder obtener las direcciones apuntadas por todos los href = " . .", alguna web)

Saludos . . .
Título: Re: HTML parser
Publicado por: sharek en Sábado 1 de Noviembre de 2008, 08:15
Tu necesitas a XPath ;-) lo tienes dentro de libxml, te permitirá extraer las urls (href de las etiquetas anchor) con una especie de expresión regular (por llamarlo de alguna forma)