Stažení záznamů z obchodního rejstříku

Stažení záznamů z obchodního rejstříku
« kdy: 10. 07. 2024, 09:17:37 »
Dobrý den.
Na základě IČO potřebuji provést kontrolu interních záznamů subjektů proti záznamům uvedených v obchodního rejstříku v sekci VÝPIS PLATNÝCH
Těch kontrol mám přes 80 a nerad bych to dělal ručně a v budoucnu se mi to může hodit.

Primárně potřebuji vyřešit to získání záznamů, porovnání bych měl zvládnou nebo ručně dořeším v LibreOffice.
Vstupem pro stažení bude soubor s IČO na každém řádku, výstupem ideálně tabulka s požadovanými záznamy.

S mými znalostmi bych asi začal páchat smyčku v bashi, kde bych asi pomoci lynxu stahoval jednotlive stránky a pak z nich pomoci awk vytahal potřebné.

Např.:
Pro IČO 45274649 (ČEZ) bych vytvořil tento odkaz https://or.justice.cz/ias/ui/rejstrik-$firma?ico=45274649&jenPlatne=PLATNE&polozek=50&typHledani=STARTS_WITH
Z této stránky bych pomocí awk/grep našel odkaz https://or.justice.cz/ias/ui/rejstrik-firma.vysledky?subjektId=59933&typ=PLATNY , který vrátí VÝPIS PLATNÝCH.
A pak by přišlo na řadu nějak z toho vytahat potřebné, na což si moc nevěřím (údaje jako Název, Sídlo, atd.).

Neřešil jste to prosím někdo nebo jak byste to řešili?
Děkuji.


Re:stažení záznamů z obchodního rejstříku
« Odpověď #1 kdy: 10. 07. 2024, 09:30:14 »
or.justice.cz nemá žádné API, takže jediná možnost je parsovat ty jednotlivé stránky, čemuž bych se vyvaroval, protože to tam může být namačkaný v hodně divných a divokých formátech podle toho kdy a kdo to zadával. A také tam mají rate limiting na počet dotazů z IP, ale to u 80 kousků nehraje roli.

Bude lepší použít API od ARES, je tam i přístup k datech ve VR. https://ares.gov.cz/swagger-ui/#/ekonomicke-subjekty-vr/vratEkonomickySubjektVr

A také je možné VR stáhnout jako opendata v XML/CSV: https://dataor.justice.cz/

peete

Re:Stažení záznamů z obchodního rejstříku
« Odpověď #2 kdy: 10. 07. 2024, 09:36:27 »
Dneska je móda dělat tyhlety věci v Pythonu. A pravdaže, dělá se to v tom velice pohodlně.

SR

Re:Stažení záznamů z obchodního rejstříku
« Odpověď #3 kdy: 10. 07. 2024, 09:46:17 »
Ta stranka je na strojove zpracovani hell v bashi se utrapis (v jave pres jSoup by to sice slo ale porad to bude fragilni)
Jak uz tu padlo pro male objemy ARES api pokud toho je vic tak stahnout cely dataset a rpacovat lokalne: https://opendata.mfcr.cz/catalog/#/datasets/https:%2F%2Fopendata.mfcr.cz%2Flod%2Fkatalog%2Fares-vystup-pro-vsechna-ico

RDa

  • *****
  • 2 734
    • Zobrazit profil
    • E-mail
Re:Stažení záznamů z obchodního rejstříku
« Odpověď #4 kdy: 10. 07. 2024, 10:08:55 »
Ta stranka je na strojove zpracovani hell v bashi se utrapis (v jave pres jSoup by to sice slo ale porad to bude fragilni)
Jak uz tu padlo pro male objemy ARES api pokud toho je vic tak stahnout cely dataset a rpacovat lokalne: https://opendata.mfcr.cz/catalog/#/datasets/https:%2F%2Fopendata.mfcr.cz%2Flod%2Fkatalog%2Fares-vystup-pro-vsechna-ico

Krasny format!
gzip/tar s 1.2M xml soubory v jednom adresari - 7.46 GB po rozbaleni, 9.88 GB na disku :D


Re:Stažení záznamů z obchodního rejstříku
« Odpověď #5 kdy: 10. 07. 2024, 10:10:16 »
děkuji za odpovědi, to XML pro mě bude asi nejschůdnější