• Domingo 22 de Diciembre de 2024, 09:38

Autor Tema:  Parsear Un Html  (Leído 1086 veces)

madsiro

  • Nuevo Miembro
  • *
  • Mensajes: 9
    • Ver Perfil
Parsear Un Html
« en: Viernes 28 de Marzo de 2008, 16:37 »
0
hola, tengo que parsear un documento html en c#, pero solo quiero sacar su texto, ya que estoy haciendo un programa que calcule la similitud entre paginas web, y solo quiero comparar sus contextos
Que librerias debo usar para hacer este parser? gracias

E.Baley

  • Miembro activo
  • **
  • Mensajes: 44
    • Ver Perfil
Re: Parsear Un Html
« Respuesta #1 en: Viernes 28 de Marzo de 2008, 16:49 »
0
Tratalo con las librerias estandar de C# para archivos de texto (StreamWriter y StreamReader. Son subclases de TextWriter y TextReader, por si necesitas otras funcionalidades).

Código: Text
  1. string elPath = @"D:\Temp\archivo.html";
  2. bool existe = File.Exists(elPath);
  3. if(existe){
  4.     StreamReader SR = new StreamReader(elPath)
  5. }
  6.  

Métodos que puedes emplear:
Read()
ReadLine()   -->   Secuencia de caracteres que termina en \r, \n, o \r\n. La cadena de caracteres devuelta no contiene a estos.

etc ...

saludos