Zdravím,
potřebuji zpracovat PDF faktury programově (java). Problém je, že ty faktury nemají jednotný formát a že z PDFka se ty informace dostávají těžko... Potřebuji dostat číslo faktury, dodavatel, zákazník, cena, var. symbol, datum atd...
A chtěl bych vás poprosit o radu, jak toho dosáhnout - získání těchto informací z těch faktur. Napadají mě nějaká řešení
1.) PDFko předělám na text a pak z toho nějak vycucnout data. Což bude ale komplikované, protože ta data tam můžou být různě, úplně nevím, jak by se to přesně dělalo... (může být dodavatel: v jedné faktuře můžou být informace vedle na 2-3 řádích, v jiné na pěti řádcích pod sebou atp...)
2.) Použít nějakou neuronovou sít, která ta data vybere z těch PDFek. (Nebo je to příliš komplikovaný na tento problém? Případně jaký typ té sítě by mohl být použit?)
Nějaké další možnosti? Jaký by byl nejideálnější způsob extrakce dat z PDF faktur? Má někdo s tím prosím zkušenosti a poradil by mi, jak toho dosáhnout?
Díky