Extrakce informací z PDF faktur

mhi

  • *****
  • 500
    • Zobrazit profil
Re:Extrakce informací z PDF faktur
« Odpověď #15 kdy: 13. 01. 2021, 12:11:00 »
O neco takoveho jsem se pokousel v mini verzi pro interni pouziti, tak par rad od amatera.

0) EDI neni jen EDIFACT ( https://www.edi-plus.com/resources/message-formats/edifact/ ), byt tyto messages se snad jako jedine pro EDI skutecne v realnem svete pouzivaji. Mame tu UBL a z nej odvozeny cesky ISDOC. Neznam nikoho kdo by to poradne pouzival (protoze to bylo jednoduche, prikladame ISDOC do nasich PDF primo jako attachment v tom PDFku, takze se da rozkliknout).  Od dodavatelu jsem videl ISDOC snad jen u subreg.cz ...

1) z obecnych faktur spolehlive vytahnout nic nejde a ucetnictvi bych na tom nezakladal; takovou informaci lze myslim pouzit jen pro overeni zadanych udaju, nebo jejich predvyplneni.

2) PDF se prevede na text, aby to odpovidalo rozlozeni na strance, tzn. resi se radkovani (sesortuji se vsechny texty pres obe osy). Algoritmus ktery jsem zkousel je primitivni - v PDF lze identifikovat obvykle ceske IC, jakekoliv DIC/VAT#, ruzna data (vyst, duzp,...  ) a ruzne castky. Z castek lze u jednoduchych faktur urcit ktera je total, kde je danovy zaklad a dan.

3) Existuje jeste QR faktura a QR platba, malokdo to pouziva, obcas se objevi - jenze v PDF je implementovana obcas jako skalovany obrazek, obcas jako sada postscript prikazu, to se myslim ani nevyplati resit.

4) data z bodu 2) jde ale efektivne pouzit k vyznaceni rucne zadanych hodnot, ktere program najde v PDF, to je primitivni vec a urychli to kontrolu zadanych udaju.


PS: Muj znamy dela http://www.qinve.com/en/


RDa

  • *****
  • 2 465
    • Zobrazit profil
    • E-mail
Re:Extrakce informací z PDF faktur
« Odpověď #16 kdy: 13. 01. 2021, 12:59:01 »
RDa psal o dolování dat a dále o obchodním tajemství, tedy měl evidentně na mysli to, že z faktur vytěžují pro sebe údaje „kdo, s kým, co a za kolik“.

Viz to, ze nemaj "list prices", ale "udelaj" ti cenu na miru, podle toho z jake oblasti pochazis.

Tj. je tam nejaka interni dolovaci smycka, kdyz vedi, ze v jakem prostredi se toci jake prachy, takze adaptivne upravuji ceny, aby co nejvice oloupili sveho zakaznika. Protoze - si to muzou dovolit, a klient to holt zaplati, kdyz se mu to vyplati.

Ale podstata veskereho konani je, ze ANO, dolovana data pouzivaji k vlastnimu prospechu.

Mozna vam to prijde normalni, ale ja neziju ve svete, kde by upravenej starej kravatak byl donucenej platit vice za stejnou sluzbu/zbozi, nez potetovana drza mlada slecna.

Re:Extrakce informací z PDF faktur
« Odpověď #17 kdy: 13. 01. 2021, 15:37:08 »
Viz to, ze nemaj "list prices", ale "udelaj" ti cenu na miru, podle toho z jake oblasti pochazis.
To je normální.

Tj. je tam nejaka interni dolovaci smycka, kdyz vedi, ze v jakem prostredi se toci jake prachy, takze adaptivne upravuji ceny, aby co nejvice oloupili sveho zakaznika. Protoze - si to muzou dovolit, a klient to holt zaplati, kdyz se mu to vyplati.
To je jen váš ničím nepodložený blábol. To, že se ceny přizpůsobují zákazníkovi, je běžné ve spoustě oborů, které nemají žádný interní přístup k datům, které by mohli pro takovéhle určování cen použít. Přesto mají různé ceny. Navíc kdyby takhle rossum.ai data zneužívali, bylo by to porušení nejen podmínek, které jste citoval, ale i porušení zákona.

Ale podstata veskereho konani je, ze ANO, dolovana data pouzivaji k vlastnimu prospechu.
Když IT administrátor řeší nějaký problém, naučí se něco nového – má z toho prospěch. Když vás veze taxikář, prohlubuje svou zkušenost s řízením – má z toho prospěch. Každý, kdo vám poskytuje nějakou službu, se v tom zároveň zdokonaluje – má z toho prospěch. rossum.ai dělá to samé, akorát se to neučí jen lidé, ale umělá inteligence.

Mozna vam to prijde normalni, ale ja neziju ve svete, kde by upravenej starej kravatak byl donucenej platit vice za stejnou sluzbu/zbozi, nez potetovana drza mlada slecna.
Aha, takže žijete na Marsu? Tady na Zemi máte různé neveřejné nabídky telekomunikačních operátorů; ve veřejné dopravě platí nižší jízdné děti, studenti a důchodci; v různých kulturních zařízeních (zámky, muzea, výstavy) platí méně děti, nebo důchodci, nebo rodiny atd. Již zmínění telekomunikační operátoři také mívají speciální tarify pro studenty nebo pro důchodce. Spousta softwaru nebo služeb má jinou cenu pro komerční použití a jinou pro domácí použití, osobní použití, pro vzdělávání. Spousta softwaru je dokonce pro nekomerční použití zdarma.

RDa

  • *****
  • 2 465
    • Zobrazit profil
    • E-mail
Re:Extrakce informací z PDF faktur
« Odpověď #18 kdy: 13. 01. 2021, 15:55:52 »
Mozna vam to prijde normalni, ale ja neziju ve svete, kde by upravenej starej kravatak byl donucenej platit vice za stejnou sluzbu/zbozi, nez potetovana drza mlada slecna.
Aha, takže žijete na Marsu? Tady na Zemi máte různé neveřejné nabídky telekomunikačních operátorů; ve veřejné dopravě platí nižší jízdné děti, studenti a důchodci; v různých kulturních zařízeních (zámky, muzea, výstavy) platí méně děti, nebo důchodci, nebo rodiny atd. Již zmínění telekomunikační operátoři také mívají speciální tarify pro studenty nebo pro důchodce. Spousta softwaru nebo služeb má jinou cenu pro komerční použití a jinou pro domácí použití, osobní použití, pro vzdělávání. Spousta softwaru je dokonce pro nekomerční použití zdarma.

Ukazte mi dopravny podnik, ktery nezverejnuje cenu jizdneho a pripadnych slev a jejich podminek, nebo verejnou instituci, ktera neuvede cenu sluzeb/produktu, a udelaji to jen kdyz o sobe prozradite dalsi informace. Kdo je fer, ma cenik, coz rekneme podporuje duveru v onen subjekt (napr. lekari, a pod).

A ted to srovname s rossum.ai, ktera taji svuj cenik. Proc? Neni k tomu duvod. Pochybuji tedy, ze maji zcela ciste umysly - jinak by neco tak bezneho ve svete, jako je zverejneni ceny svych sluzeb a kompletnich podminek slev, nebyl problem uvest. Takze za me je to neduveryhodna spolecnost - a nejenom touto prezentaci, ale treba i tim, ze maj sidlo v UK, pritom ho zda se tvori sami cesi. Chapu, ze ne kazdy ma duveru v ceske pravo, ale ja nemam duveru v takove vykuky.

BoneFlute

  • *****
  • 1 981
    • Zobrazit profil
Re:Extrakce informací z PDF faktur
« Odpověď #19 kdy: 13. 01. 2021, 16:14:15 »
A ted to srovname s rossum.ai, ktera taji svuj cenik. Proc? Neni k tomu duvod.

Závěr si samozřejmě můžete udělat jakýkoliv. Faktem každopádně je, že rossum.ai svůj ceník tají proto, protože mají v zasedačce fíkus.


Re:Extrakce informací z PDF faktur
« Odpověď #20 kdy: 13. 01. 2021, 16:26:05 »

Ukazte mi dopravny podnik, ktery nezverejnuje cenu jizdneho a pripadnych slev a jejich podminek, nebo verejnou instituci, ktera neuvede cenu sluzeb/produktu, a udelaji to jen kdyz o sobe prozradite dalsi informace. Kdo je fer, ma cenik, coz rekneme podporuje duveru v onen subjekt (napr. lekari, a pod).


Je hezke si vybrat ten dopravni podnik a ne ty operatory......takze mobil taky nemas, internet doma uz vubec ne.....nedejboze kabelovku!

Re:Extrakce informací z PDF faktur
« Odpověď #21 kdy: 13. 01. 2021, 16:32:18 »
Ukazte mi dopravny podnik, ktery nezverejnuje cenu jizdneho a pripadnych slev a jejich podminek, nebo verejnou instituci, ktera neuvede cenu sluzeb/produktu, a udelaji to jen kdyz o sobe prozradite dalsi informace. Kdo je fer, ma cenik, coz rekneme podporuje duveru v onen subjekt (napr. lekari, a pod).
Proč zrovna dopravní podnik a jiné veřejné instituce? Ty mají veřejné ceníky proto, aby se omezila korupce. Navíc jejich účelem není zisk. Účelem soukromé firmy je dosažení zisku. A to, že trh funguje na principu nabídky a poptávky, tedy že za stejnou věc jsou různí lidé ochotni zaplatit různou cenu, se učí na první přednášce z ekonomie.


A ted to srovname s rossum.ai, ktera taji svuj cenik. Proc? Neni k tomu duvod. Pochybuji tedy, ze maji zcela ciste umysly - jinak by neco tak bezneho ve svete, jako je zverejneni ceny svych sluzeb a kompletnich podminek slev, nebyl problem uvest.
Ve světě jsou běžné oba principy – jak ceníkové ceny, tak ceny „na dotaz“. A je běžná i třetí varianta, že máte oficiální ceníkové ceny, ale dá se z nich získat i výrazná sleva.

Spíš bych řekl, že jste se nikdy s žádným trochu větším obchodem nesetkal.

Takze za me je to neduveryhodna spolecnost - a nejenom touto prezentaci, ale treba i tim, ze maj sidlo v UK, pritom ho zda se tvori sami cesi. Chapu, ze ne kazdy ma duveru v ceske pravo, ale ja nemam duveru v takove vykuky.
Když mám porovnat známá jména stojící za rossum.ai a anonyma z diskusního fóra, který ani nenapíše svoje jméno, komu asi budu důvěřovat?

Re:Extrakce informací z PDF faktur
« Odpověď #22 kdy: 13. 01. 2021, 16:43:55 »
A ted to srovname s rossum.ai, ktera taji svuj cenik. Proc? Neni k tomu duvod.
Proč si myslíte, že nějaký ceník mají? Když tvrdíte, že ho tají. Ono totiž dává smysl rozlišovat ceny podle množství zpracovávaných faktur. Podle množství vytěžovaných údajů. Podle složitosti faktur. Podle jejich variability. Podle typu firmy (student přivydělávající si při studiu asi bude mít jiné možnosti koupit si takovou službu, než nadnárodní firma). Podle oboru – možná neziskovce nabídnou nižší cenu než komerční firmě. A teď z toho udělejte ceník, který vystavíte na webu.

Zmiňoval jste dopravní podniky. Objednával jste někdy autobus na zájezd? Objednával jste ho podle ceníku?

RDa

  • *****
  • 2 465
    • Zobrazit profil
    • E-mail
Re:Extrakce informací z PDF faktur
« Odpověď #23 kdy: 13. 01. 2021, 16:57:43 »
Je hezke si vybrat ten dopravni podnik a ne ty operatory......takze mobil taky nemas, internet doma uz vubec ne.....nedejboze kabelovku!

Samozrejme ze mam internet, a v kontextu tohoto vlakna - posila faktury nejem v PDF ale taky v ISDOCX :-)

A taky ze tento poskytovatel byl vybran na zaklade jeho verejnych cen a parametru sluzby, plus transparentnost o umisteni pristupovych bodu tomu vyberu pomohla. Neni nic horsiho, nez "napiste adresu a telefon" a technik vam za mesic overi zda tam muzete mit pripojeni a jak by vam to asi chodilo.. ktere vedou ostatni ISP. A po letech to doplnilo vyhoveni zadosti o pevnou verejnou ip bez filtrovani portu 25, ktera byla vyresena obratem a bez priplatku. Pro tak kritickeho cloveka jako jsem ja - je tento pristup uplny raj, a za tu cenu co mam - dvojnasob.

_Jenda

  • *****
  • 1 550
    • Zobrazit profil
    • https://jenda.hrach.eu/
    • E-mail
Re:Extrakce informací z PDF faktur
« Odpověď #24 kdy: 13. 01. 2021, 17:28:53 »
Je hezke si vybrat ten dopravni podnik a ne ty operatory......takze mobil taky nemas, internet doma uz vubec ne.....nedejboze kabelovku!
Můj poskytovatel internetu (UPC/Vodafone) i mobilu (Kaktus) má ceník normálně na webu. Možná se dá vyjednat sleva v řádu desítek procent, ale minimálně řádově to sedí.

Nicméně mě překvapuje, že to RDa překvapuje. Podle svého webu dělá custom hardware - kamery a zpracování obrazu. Já taky dělám custom hardware a tohle je naprosto běžné. U kamer ne?

RDa

  • *****
  • 2 465
    • Zobrazit profil
    • E-mail
Re:Extrakce informací z PDF faktur
« Odpověď #25 kdy: 13. 01. 2021, 18:06:21 »
Je hezke si vybrat ten dopravni podnik a ne ty operatory......takze mobil taky nemas, internet doma uz vubec ne.....nedejboze kabelovku!
Můj poskytovatel internetu (UPC/Vodafone) i mobilu (Kaktus) má ceník normálně na webu. Možná se dá vyjednat sleva v řádu desítek procent, ale minimálně řádově to sedí.

Nicméně mě překvapuje, že to RDa překvapuje. Podle svého webu dělá custom hardware - kamery a zpracování obrazu. Já taky dělám custom hardware a tohle je naprosto běžné. U kamer ne?

Me prekvapuje jen to, kdyz se to tajnustkarstvi a podpultovky stavaji obecne prijatelnym standardem v dnesni dobe, pro zbozi/sluzby ktere se daji dobre kvantifikovat a definovat (at uz je to telecom ci AI rozbor faktur).

Ale pak u nas ve vyvoji se to "mysleni" prilis kvantifikovat neda (vyjma casu) - presto jedu temer vyhradne fixni projektovy ceny, ktere se domluvi predem - po poznani o co vlastne jde. Zatimco vetsina "konkurence" jede na hodinovku podobnou praci, jenze to se pak dela blbe, kdyz opravdu neco vymyslite, nebo je cela prace otazkou copy paste a poslepovani starsiho projektu.

_Jenda

  • *****
  • 1 550
    • Zobrazit profil
    • https://jenda.hrach.eu/
    • E-mail
Re:Extrakce informací z PDF faktur
« Odpověď #26 kdy: 13. 01. 2021, 18:21:45 »
Ale pak u nas ve vyvoji se to "mysleni" prilis kvantifikovat neda (vyjma casu) - presto jedu temer vyhradne fixni projektovy ceny, ktere se domluvi predem - po poznani o co vlastne jde.
Já nemyslel tvoji cenovou politiku, ale politiku komponent co k tomu kupuješ. Tak třeba já: potřebuju cirkulátor, ohebný vlnovod, anténu, radom… „ceny nemáme, napište si, budeme dva měsíce jednat“. Tj. ne vývoj a projekty, ale normálně věci co mají v katalogu, některé dokonce in stock. Pak se dva měsíce jedná, spálí se na tom hodiny, a zjistí se, že jsou o řád mimo. Jestli tvoje CCD čipy, optika a já nevím co ještě používáš mají ceníky, tak to máš dobrý.

Re:Extrakce informací z PDF faktur
« Odpověď #27 kdy: 13. 01. 2021, 18:27:08 »
Me prekvapuje jen to, kdyz se to tajnustkarstvi a podpultovky stavaji obecne prijatelnym standardem v dnesni dobe, pro zbozi/sluzby ktere se daji dobre kvantifikovat a definovat (at uz je to telecom ci AI rozbor faktur).
Gratuluji, právě jste objevil existenci trhu. Zas taková novinka trh není, spíš se má za to, že trh funguje vlastně odjakživa.

RDa

  • *****
  • 2 465
    • Zobrazit profil
    • E-mail
Re:Extrakce informací z PDF faktur
« Odpověď #28 kdy: 13. 01. 2021, 18:40:39 »
Ale pak u nas ve vyvoji se to "mysleni" prilis kvantifikovat neda (vyjma casu) - presto jedu temer vyhradne fixni projektovy ceny, ktere se domluvi predem - po poznani o co vlastne jde.
Já nemyslel tvoji cenovou politiku, ale politiku komponent co k tomu kupuješ. Tak třeba já: potřebuju cirkulátor, ohebný vlnovod, anténu, radom… „ceny nemáme, napište si, budeme dva měsíce jednat“. Tj. ne vývoj a projekty, ale normálně věci co mají v katalogu, některé dokonce in stock. Pak se dva měsíce jedná, spálí se na tom hodiny, a zjistí se, že jsou o řád mimo. Jestli tvoje CCD čipy, optika a já nevím co ještě používáš mají ceníky, tak to máš dobrý.

Ceny u snimacu (hlavne na prototypy) se lisi.. no drasticky (ale mam jen jedno srovnani, protoze se celkem brani tomu, aby si konkurovali): cena 1 pri MOQ 10ks u jednoho dodavatele, nebo cena 2.5 pri 2ks bez MOQ u jineho dodavatele - takze zaplat 2x vice a mas 5x vetsi mnozstvi (pokud na to mas budget), nebo zaplat pulku a dostanes petinu.

Taky je tam blby, ze ten prvni dodavatel je zaroven distributorem i vyrobcem kamer a delaji i veci na zakazku.. takze defakto by dodavatelem byla konkurence z oboru, a sbira projektova a objemova data jeste nez by rekli cenu - coz je fakt na hrane veci, a radeji tedy vyuzivam sluzeb druheho - mensiho/drazsiho distributora. Maj podstatne lidstejsi pristup a lze s nima kde co dojednat - treba ze vadne modely ted stahovali, tak jsem je poprosil at zaplati kuryra na obe cesty a nauctuji to vyrobci.. protoze ti tam neco zpackali - nebyl problem. U toho prvniho co je korporat jsou lidi blbejsi, neprijemnejsi a celkove.. maj smulu u me, svym pristupem a politikou 10 MOQ.

"Distributori" jsou posledni dobou zbytecnym prvkem - beru klasickou roli - kdyz maj cenik/skladove zasoby, ale cim dal tim vice jich je prvkem v retezci, co si nadsazuje ceny a nemaj ani sklad.. no rad je nemam, ale nekdy holt neni jina moznost, nejsem v pozici jakou ma Apple :-)

Re:Extrakce informací z PDF faktur
« Odpověď #29 kdy: 13. 01. 2021, 20:25:45 »
Vetsinou jde o dodavatelske faktury, takze tam na ne mate paku at to posilaji standardizovane, u vetsich dodavatelu se vyplati EDI u mensich WebEDI (natukaji vam data do web formulare sami :-) a interne si to prekladate do inhouse formatu. Pak jsou moznosti pres OCR s pripravenou sablonou pro jednotlive typy faktur, ale to je uz zoufalost a navic dosti nakladna na vasi strane. (reseni vam naceni napr. brnenska KM) Mam ale zkusenosti pouze z pozice vetsich firem s SAP a vlastnim EDI konvertorem. Kdyz jsem s nami integroval nejake male zoufalce, tak bylo dobre cokoliv - ISDoc, XML, CSV nebo flatfile. I ty male ERP systemy uz maji vetsinou alespon nejaky exportni format zabudovany a funkcni bez dalsich licencnich poplatku (Helios apod..)