Ministerstvo spravedlnosti nabízí otevřená data, konkrétně veřejný rejstřík. Místní skripty mají za cíl tato data zpracovat do relační formy.
- Stačí pustit skript
main.py
, který data stáhne a pomocí schématu (definované vxml_schema.json
) konvertuje na CSV data. - Pokud chce člověk data nahrát do PostgreSQL, slouží tomu
schema.py
pro inicializaci tabulek v rámci schématujustice
. Celé je to ale orchestrované přes rootovémain.py
, tady je automatizován jen export do CSV
Implementační detaily:
- Na portálu MSp není seznam souborů ke stažení, používáme neveřejné API, které seznam souborů obsahuje. Časem by mělo dojít k nápravě.
- Data na webu jsou i v CSV, ale tato CSV jsou prakticky nepoužitelná.
V úplném výpisu jsou jen živé subjekty a pak entity smazané v daný kalendářní rok, takže teď (únor 2024) je v datasetech o mnoho méně dat než bylo v prosinci. Pokud tedy potřebujete historické subjekty, je třeba stáhnout staré exporty.
Tyto exporty jsou nabízené, ale protože tohle je křehká (kvůli kvalitě linky MSp) a pomalá věc, není to default. Defaultně
se berou jen nejnovější exporty, je možné to ovlivnit přes enviromentální proměnnou CURRENT_YEAR_ONLY=0
. Doporučuju
použít taky CACHE_ENABLED=1
, abyste nebyli na pospas linkám MSp, ale aby se vám lokálně ukládala data, než vám to celé
doběhne (a tedy retry bude stahovat jen nikdy nestažená data). Cache je nutné vypnout, pokud chcete aktualizovat data.