SoloCodigo

CLR: .Net / Mono / Boo / Otros CLR => C# => Mensaje iniciado por: madsiro en Viernes 28 de Marzo de 2008, 16:37

Título: Parsear Un Html
Publicado por: madsiro en Viernes 28 de Marzo de 2008, 16:37
hola, tengo que parsear un documento html en c#, pero solo quiero sacar su texto, ya que estoy haciendo un programa que calcule la similitud entre paginas web, y solo quiero comparar sus contextos
Que librerias debo usar para hacer este parser? gracias
Título: Re: Parsear Un Html
Publicado por: E.Baley en Viernes 28 de Marzo de 2008, 16:49
Tratalo con las librerias estandar de C# para archivos de texto (StreamWriter y StreamReader. Son subclases de TextWriter y TextReader, por si necesitas otras funcionalidades).

Código: Text
  1. string elPath = @"D:\Temp\archivo.html";
  2. bool existe = File.Exists(elPath);
  3. if(existe){
  4.     StreamReader SR = new StreamReader(elPath)
  5. }
  6.  

Métodos que puedes emplear:
Read()
ReadLine()   -->   Secuencia de caracteres que termina en \r, \n, o \r\n. La cadena de caracteres devuelta no contiene a estos.

etc ...

saludos