Fórum Root.cz
Hlavní témata => Server => Téma založeno: GloGlo 04. 07. 2022, 16:36:24
-
Mám velké množství dat (cca 10 GB) ve formátu JSON, asi 2 miliony souborů. Je tam hodně různých parametrů/keys, asi 100, a hlavně vícestupňová soustava (některý parametr obsahuje dict a ten zase dict a ten zase dict atd).
V ideálním případě bych to chtěl nějak narvat do jedné databáze, kde by každý ten dict byl samostatná tabulka a bylo to navzájem propojené přes foreign_keys. Ale už i jen samotné vytvoření struktury databáze bude piplačka metodou pokus omyl a nehledě pak na ten import.
Asi jsem hodně naivní/línej, ale je nějaký nástroj, který by mi tu strukturu databáze vytvořil automaticky a byl schopný i provést import? :-) Samozřejmě by mi to extrémně moc usnadnilo práci :D
Databáze ideálně SQL, resp. aby s ní šlo pracovat přes SQLAlchemy.
-
Bez bližších podrobností těžko radit, ale zvážil bych použití JSONB v Postgresu.
-
Jj, nějaké řešení které umí pracovat s JSON přímo (indexovat, prohledávat, validovat, ...). Nemusí to být nutně jen JSON rozšíření do SQL databáze, můžete použít NoSQL - JSON dokumentové databáze s přístupem zpravidla pomocí nějakého map-reduce API.
-
Také mě napadlo, že zkusit to nacpat do Apache CouchDB, ten přímo žere JSON dokumenty. Naimportovat to tam "bez přemýšlení", pak se zamyslet a udělat si nad tím pár view, tím to naindexovat a přes ně v tom hledat? Dle popisu se slovníky, linkováním dokumentů a spol, tak by to mělo být průchozí. Buď člověk zjisít, že to stačí a nebo si tím utřídí myšlenky pro to, jak to narvat do SQL stroje.
Samozřejmě je CouchDB NoSQL map/reduce udělátko, přes SQL Alchemy to nenapojím.
-
Myslím, že na tohle by bylo lepší MongoDB. Má lepší query language. CouchDB je dobré, když člověk těží z jeho HTTP API a z replikace.