Autor Tema: HTML parser (Leído 1577 veces)

dayler · « **en:** Viernes 26 de Septiembre de 2008, 03:38 »

Hola . . .

Alguno de ustedes que habria usado el HTMLparser.h del libxml2 (libxml2/HTMLparser.h), que me podria ayudar a parsear las url's de una web que se obtuvo mediante libcurl http://curl.haxx.se/libcurl/. algo parecido a este ejemplo http://curl.haxx.se/lxr/source/docs/examples/htmltitle.cc solo que yo quiero obtener las url's, buscando en la documentacion http://xmlsoft.org/html/libxml-HTMLparser.html no encontre nada que me podria ayudar.

(Mi problema es poder obtener las direcciones apuntadas por todos los href = " . .", alguna web)

Saludos . . .

sharek

Tu necesitas a XPath ;-) lo tienes dentro de libxml, te permitirá extraer las urls (href de las etiquetas anchor) con una especie de expresión regular (por llamarlo de alguna forma)

SoloCodigo

Autor Tema: HTML parser (Leído 1577 veces)

dayler

HTML parser

sharek

Re: HTML parser