SoloCodigo
Programación General => C/C++ => Mensaje iniciado por: dayler en Viernes 26 de Septiembre de 2008, 03:38
-
Hola . . .
Alguno de ustedes que habria usado el HTMLparser.h del libxml2 (libxml2/HTMLparser.h), que me podria ayudar a parsear las url's de una web que se obtuvo mediante libcurl http://curl.haxx.se/libcurl/. algo parecido a este ejemplo http://curl.haxx.se/lxr/source/docs/examples/htmltitle.cc solo que yo quiero obtener las url's, buscando en la documentacion http://xmlsoft.org/html/libxml-HTMLparser.html no encontre nada que me podria ayudar.
(Mi problema es poder obtener las direcciones apuntadas por todos los href = " . .", alguna web)
Saludos . . .
-
Tu necesitas a XPath ;-) lo tienes dentro de libxml, te permitirá extraer las urls (href de las etiquetas anchor) con una especie de expresión regular (por llamarlo de alguna forma)