Fórum Root.cz

Ostatní => Odkladiště => Téma založeno: Petkal 10. 07. 2024, 09:17:37

Název: Stažení záznamů z obchodního rejstříku
Přispěvatel: Petkal 10. 07. 2024, 09:17:37
Dobrý den.
Na základě IČO potřebuji provést kontrolu interních záznamů subjektů proti záznamům uvedených v obchodního rejstříku v sekci VÝPIS PLATNÝCH
Těch kontrol mám přes 80 a nerad bych to dělal ručně a v budoucnu se mi to může hodit.

Primárně potřebuji vyřešit to získání záznamů, porovnání bych měl zvládnou nebo ručně dořeším v LibreOffice.
Vstupem pro stažení bude soubor s IČO na každém řádku, výstupem ideálně tabulka s požadovanými záznamy.

S mými znalostmi bych asi začal páchat smyčku v bashi, kde bych asi pomoci lynxu stahoval jednotlive stránky a pak z nich pomoci awk vytahal potřebné.

Např.:
Pro IČO 45274649 (ČEZ) bych vytvořil tento odkaz https://or.justice.cz/ias/ui/rejstrik-$firma?ico=45274649&jenPlatne=PLATNE&polozek=50&typHledani=STARTS_WITH (https://or.justice.cz/ias/ui/rejstrik-$firma?ico=45274649&jenPlatne=PLATNE&polozek=50&typHledani=STARTS_WITH)
Z této stránky bych pomocí awk/grep našel odkaz https://or.justice.cz/ias/ui/rejstrik-firma.vysledky?subjektId=59933&typ=PLATNY (https://or.justice.cz/ias/ui/rejstrik-firma.vysledky?subjektId=59933&typ=PLATNY) , který vrátí VÝPIS PLATNÝCH.
A pak by přišlo na řadu nějak z toho vytahat potřebné, na což si moc nevěřím (údaje jako Název, Sídlo, atd.).

Neřešil jste to prosím někdo nebo jak byste to řešili?
Děkuji.
Název: Re:stažení záznamů z obchodního rejstříku
Přispěvatel: Vantomas 10. 07. 2024, 09:30:14
or.justice.cz nemá žádné API, takže jediná možnost je parsovat ty jednotlivé stránky, čemuž bych se vyvaroval, protože to tam může být namačkaný v hodně divných a divokých formátech podle toho kdy a kdo to zadával. A také tam mají rate limiting na počet dotazů z IP, ale to u 80 kousků nehraje roli.

Bude lepší použít API od ARES, je tam i přístup k datech ve VR. https://ares.gov.cz/swagger-ui/#/ekonomicke-subjekty-vr/vratEkonomickySubjektVr

A také je možné VR stáhnout jako opendata v XML/CSV: https://dataor.justice.cz/
Název: Re:Stažení záznamů z obchodního rejstříku
Přispěvatel: peete 10. 07. 2024, 09:36:27
Dneska je móda dělat tyhlety věci v Pythonu. A pravdaže, dělá se to v tom velice pohodlně.
Název: Re:Stažení záznamů z obchodního rejstříku
Přispěvatel: SR 10. 07. 2024, 09:46:17
Ta stranka je na strojove zpracovani hell v bashi se utrapis (v jave pres jSoup by to sice slo ale porad to bude fragilni)
Jak uz tu padlo pro male objemy ARES api pokud toho je vic tak stahnout cely dataset a rpacovat lokalne: https://opendata.mfcr.cz/catalog/#/datasets/https:%2F%2Fopendata.mfcr.cz%2Flod%2Fkatalog%2Fares-vystup-pro-vsechna-ico
Název: Re:Stažení záznamů z obchodního rejstříku
Přispěvatel: RDa 10. 07. 2024, 10:08:55
Ta stranka je na strojove zpracovani hell v bashi se utrapis (v jave pres jSoup by to sice slo ale porad to bude fragilni)
Jak uz tu padlo pro male objemy ARES api pokud toho je vic tak stahnout cely dataset a rpacovat lokalne: https://opendata.mfcr.cz/catalog/#/datasets/https:%2F%2Fopendata.mfcr.cz%2Flod%2Fkatalog%2Fares-vystup-pro-vsechna-ico

Krasny format!
gzip/tar s 1.2M xml soubory v jednom adresari - 7.46 GB po rozbaleni, 9.88 GB na disku :D
Název: Re:Stažení záznamů z obchodního rejstříku
Přispěvatel: Petkal 10. 07. 2024, 10:10:16
děkuji za odpovědi, to XML pro mě bude asi nejschůdnější