• Jueves 28 de Marzo de 2024, 13:43

Autor Tema:  clasificacion de texto usando machine learning  (Leído 3118 veces)

Thanatos-chan

  • Miembro MUY activo
  • ***
  • Mensajes: 136
  • Nacionalidad: do
    • Ver Perfil
clasificacion de texto usando machine learning
« en: Lunes 30 de Abril de 2012, 17:57 »
0
ondas colegas,

la presente es para saber su opinion.

tengo un set de datos de mas de 50 documentos en word los cuales son programas de clase(estilo tabla de contenido, sin el desarrollo solo los temas). los cuales quiero llevar a un formato relacional.

ejemplo:

el documento se llama materia1.doc y dentro tiene el siguiente formato.

unidad
tema
sub tema
quisiera clasificarlo en base a su relacion, una materia tiene x unidades y x unidades x temas y x temas x sub-temas.

hasta ahora lo mejor a lo que he llegado es un convertidor de doc a xml, aprovechando el schema de xml de office con el cual quedo con una columna de datos a la cual le remuevo los duplicaos y quedo con algo como:

unidad 1(epacios)
tema 1(espacios)
sub tema 1(sentencia separada en 2 celdas)
tema 2
tema 3

he intentando apoyarme en el spec del schema de xml para buscar patrones que me sirvan de token como tamano de la letra, propiedades, tipo de formato, etc ,etc. pero hasta ahora parece mas rapido hacerlo a mano.

me queda la duda si algun programa de text classification puede hacer el siguiente tipo de lectura:
desde un token hasta el proximo token tome un string de texto y lo pueda clasificar. si es posible me recomiendan un ambiente de trabajo para caerle a esta idea.

gracias.







Que es un genio???? yo superare a un genio con trabajo duro, y eso es todo.