AI pro analýzu obsahu mnoha dokumentů

ktk

AI pro analýzu obsahu mnoha dokumentů
« kdy: 08. 11. 2024, 15:03:24 »
Mam fotky velkeho mnozstvi jednoduchych dokumentu (tisice), nejsou ve stejnem formatu, a potrebuju je vsechy precist, a pokud se tam vyskytuje specifikcy druh informace, tak ji z toho dostat v nejakem rozumnem formatu - predstavte si treba mobilem focene faktury nejruznejsich dodavatelu, nektery jsou nakrivo, nektery trochu pomackany atd. A ze potrebuju vsechny IC, co se tam vyskytuji. A nemusi to byt 100% presne, drobny chyby toleruju. (neni to presne tohle, ale je to velmi podobna uloha)

Jeden by rekl, ze je to idealni uloha pro umeligenci.

Free verze chatgpt to umi celkem pekne s jednim obrazkem. Zaplatil jsem si za par stovek chatgpt pro, zkousel jsem to nacpat do ni, ale neuspesne - vice souboru neumi, na zip mi rika, ze je to unsupported file type, dilci uspech se dostavil, kdyz jsem udelal pdfko, kde kazda stranka byla jeden ten dokument a nacpal to do sekce "Upload & ask PDF" Bohuzel, fungovalo to kdyz tam byly ty dokumenty 3. Kdyz jsem udelal PDFko s 80 dokumentama, uz na me jen jeci, ze jsem prekrocil message limit a ze si mam otevrit novy chat. Coz kdyz udelam, jeci porad to same.

Tak si rikam, ze budto neumim s chatgpt, (chatgpt je jedina ai co jsem kdy pouzival a jeste spis jako sranda uzivatel, nic komplikovanyho) nebo jsem zvolil spatnou AI.

Nema nekdo tip, jak na to?


Zopper

  • *****
  • 812
    • Zobrazit profil
Re:AI pro analýzu obsahu mnoha dokumentů
« Odpověď #1 kdy: 08. 11. 2024, 16:11:07 »
První možnost, nedělat to celé najednou, ale nejdřív samostatně vyřešit OCR pomocí jiných nástrojů, a teprv v druhém kroku použít AI na analýzu textu.

Druhá možnost, pokud se to musí dělat v jednom kroku, a z jednoho dokumentu to ChatGPT vytáhnout dokáže (problém je jen v tom, jak ji nakrmit hromadně) -> nacpat to tam přes API skrz nějaký tool třeba v Pythonu, co si napíšeš sám. Ta AI tě sama navede, jak to udělat. :D

Re:AI pro analýzu obsahu mnoha dokumentů
« Odpověď #2 kdy: 08. 11. 2024, 16:21:11 »
Pokud umíš aspoň trochu kódit, tak
https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/prebuilt/invoice?view=doc-intel-4.0.0

Pokud neumíš, tak nějaké hotové řešení
https://www.algodocs.com/

Bude jich určitě daleko víc.

Né že bys neuměl s ChatGPT, jen si spíš neprostudoval jeho použití. Samozřejmě oni ti tam nechtějí dávat takovéto funkce.
OpenAI má další služby, kde jde nahrávat soubory pomocí API. Ale opět musíš umět aspoň trochu např. Python.
« Poslední změna: 08. 11. 2024, 16:23:11 od XXX_Sam_XXX »

Re:AI pro analýzu obsahu mnoha dokumentů
« Odpověď #3 kdy: 08. 11. 2024, 17:27:35 »
Ano, AI obecně je správný nástroj na podobnou práci.
Ne, současný GPTChat není vhodný nástroj na podobnou práci.
I naše firma vyvíjí online nástroj pro těžení faktur a účtenek, je je IČO samozřejmě jednou ze získávaných položek.
Krmí se to přes API, přes mail nebo z nějakého připojeného online úložiště.
Ale není to zadarmo a demoverze má samozřejmě striktní omezení na počet dokumentů (ani nevím, zda to nakonec kolegové nezprovoznili jen na pozvánky, žádné veřejné demo pro každého).
O ekonomické návratnosti vývoje té aplikace si sice myslím své, ale technicky to funguje.

ktk

Re:AI pro analýzu obsahu mnoha dokumentů
« Odpověď #4 kdy: 11. 11. 2024, 08:38:24 »
Delam 20let php, python jsem videl, kdyz jsem potreboval blikat ledkama a tocit kvetinacem na maline, tak to teda asi zkusim nekudy tudy, dik.


Re:AI pro analýzu obsahu mnoha dokumentů
« Odpověď #5 kdy: 11. 11. 2024, 09:50:48 »
Pro takovéhle použití si lidé pochvalují Claude. Placený ChatGPT by to asi také mohl umět. Ty dokumenty bych spíš sloučil do jednoho nebo několika PDF.

Pokud to chcete řešit sám, OpenAI má těch nástrojů víc, případně jsou integrované do Azure. Případně bych se zkusil podívat, zda nějaký nástroj nebude zmíněn třeba zde: https://www.lifehacky.cz/tag/ai/


ktk

Re:AI pro analýzu obsahu mnoha dokumentů
« Odpověď #7 kdy: 11. 11. 2024, 15:57:30 »
Tak jsem nakonec nasel byvaleho kolegu, ktery mi s tim pichnul, a nakonec je to uplne jednoduchy curl volani na gpt-4o-mini a funguje to dobre.

Zitra jeste doladim presny zadani, naleju tam ty kvanta dat vsichni budou zda se happy.

Dekuji tedy vsem za nakopnuti.

Re:AI pro analýzu obsahu mnoha dokumentů
« Odpověď #8 kdy: 12. 11. 2024, 12:59:36 »
Pozri Datamolino.