Extrakce informací z PDF faktur

Extrakce informací z PDF faktur
« kdy: 12. 01. 2021, 01:29:39 »
Zdravím,
potřebuji zpracovat PDF faktury programově (java). Problém je, že ty faktury nemají jednotný formát a že z PDFka se ty informace dostávají těžko... Potřebuji dostat číslo faktury, dodavatel, zákazník, cena, var. symbol, datum atd...
A chtěl bych vás poprosit o radu, jak toho dosáhnout - získání těchto informací z těch faktur. Napadají mě nějaká řešení

1.) PDFko předělám na text a pak z toho nějak vycucnout data. Což bude ale komplikované, protože ta data tam můžou být různě, úplně nevím, jak by se to přesně dělalo... (může být dodavatel: v jedné faktuře můžou být informace vedle na 2-3 řádích, v jiné na pěti řádcích pod sebou atp...)
2.) Použít nějakou neuronovou sít, která ta data vybere z těch PDFek. (Nebo je to příliš komplikovaný na tento problém? Případně jaký typ té sítě by mohl být použit?)

Nějaké další možnosti? Jaký by byl nejideálnější způsob extrakce dat z PDF faktur? Má někdo s tím prosím zkušenosti a poradil by mi, jak toho dosáhnout?
Díky 
« Poslední změna: 12. 01. 2021, 01:35:18 od Sirdhemond »


_Jenda

  • *****
  • 1 550
    • Zobrazit profil
    • https://jenda.hrach.eu/
    • E-mail
Re:Extrakce informací z PDF faktur
« Odpověď #1 kdy: 12. 01. 2021, 02:27:08 »
Je to příšerné, že v roce 2021 lidstvo nedokáže strojově generované věci posílat tak, aby šly zpracovat. Existuje na to už pět let startup, který pálí stovky mega na rozpoznávání: https://rossum.ai/. Pokud ti nevadí použít je, tak bych do toho asi šel…

Re:Extrakce informací z PDF faktur
« Odpověď #2 kdy: 12. 01. 2021, 06:01:13 »
Jediná udržitelná cesta je EDI.

JmJ

  • ****
  • 315
    • Zobrazit profil
Re:Extrakce informací z PDF faktur
« Odpověď #3 kdy: 12. 01. 2021, 07:27:56 »
Je to příšerné, že v roce 2021 lidstvo nedokáže strojově generované věci posílat tak, aby šly zpracovat. Existuje na to už pět let startup, který pálí stovky mega na rozpoznávání: https://rossum.ai/. Pokud ti nevadí použít je, tak bych do toho asi šel…

Myslim, ze nas pan ucetni to pouziva a celkem na to pel kladne ody. Nevim, v ktere fazi adopcni krivky je ted, ale minimalne za zkousku to zrejme stoji.

RDa

  • *****
  • 2 465
    • Zobrazit profil
    • E-mail
Re:Extrakce informací z PDF faktur
« Odpověď #4 kdy: 12. 01. 2021, 07:54:09 »
Tech rozpoznavacu je vicero, ale vsechno je online, takze samozrejme doluji i data pro sebe.. coz neni moc pekne.
(samozrejme je v tom urcite know-how a sebezlepsovani.. kvuli objemu co tim tece.. ale presto - obchodni informace neni neco, co by melo opoustet podnik).

A ze to pouziva ucetni? Ten by potreboval naliskat. On je placenej od faktury celkem mastne.. nema co porusovat obchodni tajemstvi nahravanim faktur do cizich sluzeb.


Re:Extrakce informací z PDF faktur
« Odpověď #5 kdy: 12. 01. 2021, 08:40:48 »
takze samozrejme doluji i data pro sebe.. coz neni moc pekne.
Spíš není moc pěkné, když někoho obviňujete jen tak, bez jakéhokoli důkazu.

obchodni informace neni neco, co by melo opoustet podnik
Naštěstí již byly vynalezeny jak smlouvy tak zákony. A naštěstí o těchhle věcech nerozhodují ajťáci, kteří netuší, o co jde, ale obchodníci a právníci.

A ze to pouziva ucetni? Ten by potreboval naliskat. On je placenej od faktury celkem mastne.. nema co porusovat obchodni tajemstvi nahravanim faktur do cizich sluzeb.
Další obvinění bez důkazu.

Já bych se také přikláněl k rossum.ai. Je to česká firma, lidem, co za tím stojí, můžu věřit. Když jsem se s nimi o rossum.ai bavil, dávalo mi smysl, co a proč chtějí dělat.

Re:Extrakce informací z PDF faktur
« Odpověď #6 kdy: 12. 01. 2021, 09:17:25 »
Jediná udržitelná cesta je EDI.

No neviem ci je to najstastnejsia volba. Mal som tu cest s EDI a bola to hroza. Ak tak, tak len samostny format a nie cely system s dorucovanim. Ziaden zazrak ako vsetci dodavatelia trvdili.
Zbytocne komplikovane a drahe riesenie. Z toho dovodu pre male firmy nepouzitelne riesenie. EDI by sa dal prirovnat k SAPu.


Re:Extrakce informací z PDF faktur
« Odpověď #7 kdy: 12. 01. 2021, 12:12:17 »
Známý se snaží přesvědčit dodavatele účetnictví, aby generovali faktury v PDF se standardizovanými metadaty obsahujícími účetní údaje. Je to samozřejmě boj, ale IMO to dává velký smysl pro všechny strany.

Re:Extrakce informací z PDF faktur
« Odpověď #8 kdy: 12. 01. 2021, 12:41:52 »
Doporučuji mrknou na stránky výrobců dokumentových skenerů - třeba Canon.
Mají tam uvedeno spoustu programů určených právě na vytěžování dat ze skenovaných dokumentů.
Není to zas tak triviální úloha, takže platí tolik funkcí dostanete, kolik zaplatíte....
Nemyslím, že nějaký univerzální nástroj někdo zbastlí doma na koleně.

Re:Extrakce informací z PDF faktur
« Odpověď #9 kdy: 13. 01. 2021, 07:55:15 »
já bych do toho vůbec nešel !!! nedělal bych to, buď jsou ta data k dispozici někde v nějakém rozumném formátu json, xml apod. nebo bych to nedělal. to co chceš je zoufalství. každý programátor by se měl naučit určitý druh práce prostě odmítnout a říct NE. Je to důležité.
no a co se týká neuronové stítě , tak ta ti moc nepomuže, implementace zabere roky a stejně tam budou chyby.
navíc pokud každá faktura je jiná tak ... to prostě nepujde ...

_Jenda

  • *****
  • 1 550
    • Zobrazit profil
    • https://jenda.hrach.eu/
    • E-mail
Re:Extrakce informací z PDF faktur
« Odpověď #10 kdy: 13. 01. 2021, 08:14:39 »
no a co se týká neuronové stítě , tak ta ti moc nepomuže, implementace zabere roky a stejně tam budou chyby.
navíc pokud každá faktura je jiná tak ... to prostě nepujde ...
inb4 rossum.ai přesně tohle dělá

to co chceš je zoufalství. každý programátor by se měl naučit určitý druh práce prostě odmítnout a říct NE. Je to důležité.
S tímhle naprosto souhlasím, a byl to hlavní důvod, proč když jsem před pár lety hledal práci, tak Rossum nebyl na seznamu (byť jsme s jejich CTO dlouhodobí kamarádi a chtěl mě).
« Poslední změna: 13. 01. 2021, 08:19:03 od _Jenda »

Re:Extrakce informací z PDF faktur
« Odpověď #11 kdy: 13. 01. 2021, 08:59:01 »
takze samozrejme doluji i data pro sebe.. coz neni moc pekne.
[/font]
Spíš není moc pěkné, když někoho obviňujete jen tak, bez jakéhokoli důkazu.
Tak určitě.. A když začneme pracovat s fakty místo doměnek, příjdeme na https://rossum.ai/terms/ :
 The uploaded invoice will be retained and used for further research, development and training of the artificial intelligence and will be deleted no later than 10 years from the upload. This processing is based, in the context of GDPR regulations, on legitimate interests of Rossum. (read more about how we process uploaded data)


Neříkám, že je to překvapivé, spíš jde o to, že zaslané faktury budou trčet v cizí firmě až 10 let. A jak známo, k úniku dat nebo nabourání do sítě dříve nebo později dojde, jakmile bude server zajímavý pro hackery. Paradox je, že čím více faktur tato firma zpracuje, tím lépe bude pracovat s dalšími fakturami a tím více faktur se v ní bude hromadit.
Také chápu, že dnes je "všechno" online. Ale kromě plakání nad rozlitým mlékem (zákony a pod) je ještě něco, čemu se říká prevence.


Re:Extrakce informací z PDF faktur
« Odpověď #12 kdy: 13. 01. 2021, 09:04:33 »
Je opravdu smutné, že účetní softy neukládají klíčové údaje faktury do metadat v PDF. I kdyby si každý výrobce použil vlastní formát, pořád by bylo snazší parsovat texty pro klíčové dodavatele, než když se to musí vše OCRkovat.

Re:Extrakce informací z PDF faktur
« Odpověď #13 kdy: 13. 01. 2021, 09:54:50 »
takze samozrejme doluji i data pro sebe.. coz neni moc pekne.
Spíš není moc pěkné, když někoho obviňujete jen tak, bez jakéhokoli důkazu.
Tak určitě.. A když začneme pracovat s fakty místo doměnek, příjdeme na https://rossum.ai/terms/ :
 The uploaded invoice will be retained and used for further research, development and training of the artificial intelligence and will be deleted no later than 10 years from the upload. This processing is based, in the context of GDPR regulations, on legitimate interests of Rossum. (read more about how we process uploaded data)


Neříkám, že je to překvapivé, spíš jde o to, že zaslané faktury budou trčet v cizí firmě až 10 let. A jak známo, k úniku dat nebo nabourání do sítě dříve nebo později dojde, jakmile bude server zajímavý pro hackery. Paradox je, že čím více faktur tato firma zpracuje, tím lépe bude pracovat s dalšími fakturami a tím více faktur se v ní bude hromadit.
Také chápu, že dnes je "všechno" online. Ale kromě plakání nad rozlitým mlékem (zákony a pod) je ještě něco, čemu se říká prevence.
RDa psal o dolování dat a dále o obchodním tajemství, tedy měl evidentně na mysli to, že z faktur vytěžují pro sebe údaje „kdo, s kým, co a za kolik“.

A k tomu „jak známo“ – ne, nic takového známo není. Známo je, že data unikají ze systémů, kde byla bezpečnost značně podceněna. V systému specializované firmy jsou ty faktury uloženy podstatně bezpečněji, než u běžné firmy, která bude ty služby využívat a jejímž oborem není IT ani nic vyžadujícího zvýšenou bezpečnost. V běžné firmě budou ty faktury uložené někde v souborech na disku, přístupné ransomwaru a další podobné havěti.

Mimochodem, je hezké, jak tu někdo vyšiluje nad předáním faktury třetí straně – víte, jak se ta faktura do vaší firmy dostala? Nešifrovaným e-mailem. A jak se dostala externímu účetnímu? Tak, že ji někdo z vaší firmy přeposlal nešifrovaným e-mailem na e-mail toho účetního někde na Seznamu.

AM

Re:Extrakce informací z PDF faktur
« Odpověď #14 kdy: 13. 01. 2021, 10:20:47 »
Je opravdu smutné, že účetní softy neukládají klíčové údaje faktury do metadat v PDF. I kdyby si každý výrobce použil vlastní formát, pořád by bylo snazší parsovat texty pro klíčové dodavatele, než když se to musí vše OCRkovat.
Souhlasím. A když už to posílají v papírové podobě, tak by tam měli přidat i QR kód. Jak to udělat se ví, skoro nikdo to ale nedělá. Chtělo by to studii, co se vlastně děje. Mohou posílat elektronické faktury, ale místo nich posílají papírové. Na papírových mohou mít QR kód, který stačí naskenovat třeba mobilem, a údaje v bankovní aplikaci se automaticky vyplní. Ale ne, místo toho člověk musí opisovat dlouhé řetězce čísel. Fakt padlé na hlavu.