• Viernes 8 de Noviembre de 2024, 21:03

Autor Tema:  Extraer texto de un pdf  (Leído 4218 veces)

ripr

  • Nuevo Miembro
  • *
  • Mensajes: 8
    • Ver Perfil
Extraer texto de un pdf
« en: Sábado 2 de Julio de 2011, 02:15 »
0
Buen dia, recurro a ustedes para que me puedan guiar un poco acerca de lo que pretendo hacer,
necesito sacar de una factura electronica el texto para analizarlo y de terminar un conjunto de datos que requiero. y guardarlos en una base de datos.
he probado con dos librerias: pdfbox 0.7.3 y jpdfTex.

Cuado hice la prueba con pdfbox, cree un archivo en el notepad y genere el pdf con cute pdf writer. escribi una cuantas linesa y me funciono de maravilla, pero a la hora de hacer la prueba con mi factura en pdf me arrojaba el sig. error

Parsing text from PDF file factura.pdf....
An exception occured in parsing the PDF Document.
java.lang.NullPointerException
PDF to Text Conversion failed.
        at org.pdfbox.pdmodel.PDPageNode.getAllKids(PDPageNode.java:194)
        at org.pdfbox.pdmodel.PDPageNode.getAllKids(PDPageNode.java:182)
        at org.pdfbox.pdmodel.PDDocumentCatalog.getAllPages(PDDocumentCatalog.java:226)
        at org.pdfbox.util.PDFTextStripper.writeText(PDFTextStripper.java:216)
        at org.pdfbox.util.PDFTextStripper.getText(PDFTextStripper.java:149)
        at PDFtoTEXT.PDFTextParser.pdftoText(PDFTextParser.java:53)
        at PDFtoTEXT.PDFTextParser.main(PDFTextParser.java:93)

debido a esto opte generar el el pdf con el cut pdf writer, ya no me marco error pero me arrojo un resultado no esperado, le pogo una parte de lo q arrojo:

a0 a1 a2 a2 a3 a4 a1 a5 a6 a7 a8 a9 a10 a11 a12 a13 a6 a14 a15 a16 a17 a18 a19 a10 a20 a10 a11 a10 a6 a21 a3 a2 a11 a3 a2 a22 a0 a6 a2 a14 a23 a9 a1 a24 a1 a19 a1 a25 a26 a27 a2 a10 a1 a11 a10 a28 a24 a22
a0 a14 a29 a14 a30 a30 a17 a15 a31 a32 a3 a2 a3 a5 a1 a11 a10 a28 a24 a33 a10 a5 a8 a3 a2 a34 a10 a19 a1 a2 a5 a6 a22 a33 a35 a36 a10 a11 a6 a32 a14 a37 a14....aN

asi que preferi buscar otra opcion. La cual fue jpdfText en si version demo, y esta me funciono de maravilla, pero resulta que es de paga. Y simplemente no he encontrado la libreria completa, en la pagina no he encontrado algo q

ripr

  • Nuevo Miembro
  • *
  • Mensajes: 8
    • Ver Perfil
Re: Extraer texto de un pdf
« Respuesta #1 en: Sábado 2 de Julio de 2011, 02:19 »
0
disculpen tuve un problema, sigo comentado...

re curro a ustedes para ver so alguien conoce otra liberiar  o metodo para extraer el texto,si es una libreria gratuita mejor. tambien he probado con un poco de codigo que me encontre en la web pero sin resultados. saludos y espero me puedan ayudar

de antemano las gracias