Statistická data z oblasti důchodového pojištění

Popis dat a číselníku druhů důchodů pro cvičebnici SPARQL

Úvod

Pro seznámení se s jazykem SPARQL a pro jeho procvičování byla zvolena data o počtu důchodců podle území, pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu, která poskytuje ve formátu RDF Česká správa sociálního zabezpečení (ČSSZ). ČSSZ je jedním z prvních orgánů veřejné správy v České republice, který poskytuje svá data formou otevřených dat ve formátu RDF a zvolený dataset je jedním z datasetů, které ČSSZ zveřejňuje na svém portálu pro publikaci a vizualizaci otevřených dat. Výše uvedený dataset byl zvolena nejen proto, že obsahuje data dostatečně bohatá, aby na nich bylo možné ukázat a procvičovat různé konstrukty jazyka SPARQL, ale také proto, že se jedná o data, která poskytuje k dalšímu využití orgán veřejné správy v ČR, a nejedná se tak o data připravená pouze pro účely cvičebnice SPARQL. Volba těchto dat by tedy měla sloužit také jako příklad toho, že znalost jazyka SPARQL lze uplatnit při zpracování dat, se kterými se lze dnes již setkat na v celé řadě případů, což ilustruje např. známý Linking Open Data cloud diagram. Z věcného hlediska mohou data pomoci studentům pochopit situaci mezi různými kategoriemi poživatelů důchodů – senioři či lidé pobírající invalidní nebo pozůstalostní důchod.

Formát RDF i jazyk SPARQL jsou standardizovány konsorciem W3C. Pokud se s formátem RDF nebo s jazykem SPARQL setkáváte poprvé, nebo si je potřebujete připomenout, můžete se podívat na Learning SPARQL, případně na RDF 1.1 Primer a SPARQL 1.1 Overview, kde najdete vysvětlení základních pojmů a odkazy na jednotlivé specifikace. Tato cvičebnice jazyka SPARQL je zaměřena na zvládnutí jazyka SPARQL pro dotazování nad daty v RDF, tj. SPARQL 1.1 Query Language.

Data o počtu důchodců podle území, pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu jsou reprezentována pomocí slovníku Data Cube Vocabulary, číselníky dimenzí (bude vysvětleno dále) jsou pak reprezentovány pomocí slovníku SKOS. Dále je stručně vysvětlen způsob, jakým jsou reprezentována data využitá v cvičebnici SPARQL. Pokud se ale seznámíte s těmito slovníky, usnadní Vám to pochopení využitých dat a následně i zvládnutí úloh v rámci cvičebnice SPARQL.

Způsob reprezentace statistických dat z oblasti důchodového pojištění

Obecně o statistických datech z oblasti důchodového pojištění

Přehled o počtu důchodců podle území, pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu je jedním z datasetů ČSSZ, který obsahuje statistická data z oblasti důchodového pojištění v České republice. Níže popsaný způsob reprezentace dat platí jak pro dataset použitý ve cvičebnici SPARQL, tak jej lze obdobně aplikovat i na ostatní datasety z oblasti důchodového pojištění poskytované ČSSZ. Tyto datasety lze nalézt v katalogu otevřených dat ČSSZ, kde jsou označeny klíčovým slovem “důchodová ročenka”.

Příklad měřené veličiny a přiřazených dimenzí

Obrázek 1: Příklad měřené veličiny a přiřazených dimenzí

Přehled o počtu důchodců podle území, pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu obsahuje statistická data, tj. data o určitých sledovaných (měřených) veličinách, v tomto případě data o počtech důchodců, o průměrné výši důchodu a o průměrném věku důchodců. Statistická data zpravidla představují tzv. vícerozměrná (multidimenzionální) data. To znamená, že sledované veličiny jsou měřeny v určitých vymezených kategoriích (dimenzích), jako je např. pohlaví důchodce, druh důchodu nebo období / datum platnosti, kdy bylo měření provedeno, resp. k jakému datu jsou naměřené údaje platné, či místo / území, kde bylo měření provedeno, resp. k jakému území se měření vztahuje. Statistická data vypovídají o skupinách subjektů či jevů, u kterých jsou sledované veličiny měřeny, a které vznikají kombinací zvolených dimenzí. Neobsahují tedy individuální data o jednotlivých subjektech (jednotlivcích) či jevech.

Vícerozměrnost statistických dat můžeme ilustrovat na následujícím příkladu, který je také zachycen na obrázku 1. Jednou z měřených veličin v použitém datasetu je počet důchodců. Počet důchodců je sledován za určité území, za jednotlivá pohlaví, za jednotlivé druhy důchodů a zjištěný počet je vždy platný k určitému datu. Údaje uvedené na obrázku lze slovy vyjádřit tak, že na území Prahy 3 bylo k 31. 12. 2013 evidováno 3 889 mužů pobírajících starobní důchod typu S. Pro úplnost je možné uvést, že starobní důchod S představuje starobní důchod dle § 29 odst. 1 a 3 z. č. 155/1995 Sb. nebo příslušných ustanovení předcházejících předpisů, a v důchodové statistice je pod tento druh důchodu zahrnut i důchod SIN dle § 29 odst. 4 téhož zákona. Druhy důchodu v důchodové statistice vysvětluje Návod ke statistikám důchodů a důchodců připravený ČSSZ.

The RDF Data Cube Vocabulary a jeho využití

Schéma slovníku Data Cube Vocabulary

Obrázek 2: Schéma slovníku Data Cube Vocabulary, zdroj: převzato ze specifikace slovníku

Pro publikaci vícerozměrných dat na webu ve formátu RDF byl navržen slovník Data Cube Vocabulary (DCV). Tento slovník zavádí třídy a vlastnosti, pomocí kterých lze reprezentovat datové kostky sestávající se z pozorování obsahujících měřené veličiny (fakty), jim přiřazené dimenze a případně také atributy měřených veličin jako např. jednotku, ve kterých jsou hodnoty měřených veličin vyjádřeny. Schéma slovníku DCV je znázorněno na obrázku 2.

Jaké měřené veličiny a dimenze jsou obsaženy v přehledu o počtu důchodců podle území, pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu uvádí dokumentace tohoto datasetu. Není zde účelem tuto dokumentaci duplikovat, nicméně pro snazší pochopení používaného datasetu jsou zde uvedeny alespoň použité jmenné prostory a měřené veličiny a dimenze, které tvoří příslušnou datovou kostku. Měřené veličiny a dimenze jsou definovány v rámci následujících jmenných prostorů:

PREFIX cssz-dimension: <https://data.cssz.cz/ontology/dimension/>
PREFIX cssz-measure:   <https://data.cssz.cz/ontology/measure/>
PREFIX day:            <https://data.cssz.cz/resource/reference.data.gov.uk/id/gregorian-day/>
PREFIX pen-onto:       <http://data.cssz.cz/ontology/pension-kinds/>
PREFIX pension-kind:   <https://data.cssz.cz/resource/pension-kind/>
PREFIX qb:             <http://purl.org/linked-data/cube#>
PREFIX rdfs:           <http://www.w3.org/2000/01/rdf-schema#>
PREFIX ruian:          <https://data.cssz.cz/ontology/ruian/>
PREFIX sdmx-code:      <http://purl.org/linked-data/sdmx/2009/code#>
PREFIX skos:           <http://www.w3.org/2004/02/skos/core#>
PREFIX sparqlab:       <http://mynarz.net/sparqlab/vocabulary>
PREFIX spin:           <http://spinrdf.org/spin#>
PREFIX xsd:            <http://www.w3.org/2001/XMLSchema#>

    

Dataset Přehled o počtu důchodců podle území, pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu obsahuje měřené veličiny a dimenze uvedené v následující tabulce.

Tabulka 1: Měřené veličiny a dimenze v datasetu Přehled o počtu důchodců podle území, pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu
Typ Název Popis IRI
Dimenze Druh důchodu Druh důchodu, pro který je počet důchodců, průměrný věk důchodce či průměrná výše důchodu uvedena cssz-dimension:druh-duchodu
Dimenze Pohlaví Pohlaví, pro které je počet důchodců, průměrný věk důchodce či průměrná výše důchodu uvedena cssz-dimension:pohlavi
Dimenze Referenční období Období, za které je počet důchodců, průměrný věk důchodce či průměrná výše důchodu uvedena cssz-dimension:refPeriod
Dimenze Referenční oblast Oblast (stát, kraj nebo okres), za kterou je počet důchodců, průměrný věk důchodce či průměrná výše důchodu uvedena cssz-dimension:refArea
Dimenze Typ měření Pomocná dimenze udávající, jaké měření obsahuje aktuální pozorování v případě dat ve formátu RDF qb:measureType
Měřená veličina Počet důchodců Počet důchodců cssz-measure:pocet-duchodcu
Měřená veličina Průměrná výše důchodu Průměrná výše důchodu cssz-measure:prumerna-vyse-duchodu-v-kc
Měřená veličina Průměrný věk Průměrný věk cssz-measure:prumerny-vek

Tabulka ukazuje, že dataset použitý ve cvičebnici SPARQL obsahuje tři měřené veličiny a pět dimenzí. Měřenými veličinami jsou vedle počtu důchodců, který byl již uveden v příkladu na obrázku 1, průměrná výše důchodu a průměrný věk poživatele důchodu. Pomocí dimenze referenční období je vyjádřeno, k jakému datu jsou hodnoty měřených veličin platné, a pomocí dimenze referenční oblast je vyjádřeno, k jakému území se měřené veličiny vztahují.

Dataset obsahuje také pomocnou dimenzi typ měření. Slovník DCV umožňuje dva způsoby reprezentace dat v situaci, kdy má dataset obsahovat více než jednu měřenou veličinu. Měření (instance třídy qb:Observation) mohou buď obsahovat hodnoty všech měřených veličin, nebo pouze hodnotu jedné z nich přičemž pomocí pomocné dimenze typ měření je vyjádřeno, o kterou měřenou veličinu se jedná. V datasetu Přehled o počtu důchodců podle území, pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu je použit druhý jmenovaný způsob.

S výjimkou pomocné dimenze typ měření jsou pro hodnoty dimenzí voleny hodnoty z definovaných číselníků (dimenze typ měření může nabývat hodnot, které odpovídají jednotlivým měřeným veličinám, nicméně pro ně není zaveden samostatný číselník). Dimenze a odpovídající číselníky uvádí tabulka 2. V rámci definice komponent datové kostky je vazba dimenze na číselník vyjádřena pomocí predikátu rdfs:range. Slovník DCV umožňuje pro tento účel volitelně použít také predikát qb:codeList, který ale v rámci definice komponent datové kostky použit není.

Tabulka 2: Číselníky dimenzí datasetu Přehled o počtu důchodců podle území, pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu
Dimenze Číselník
Druh důchodu Číselník druhů důchodů a jejich kombinací
Pohlaví Číselník pohlaví dle SDMX
Referenční období Číselník použitých dní
Referenční oblast Územní celky dle RÚIAN

Výše uvedené číselníky jsou součástí samostatného datasetu poskytované ČSSZ s názvem Pomocné číselníky. Číselník druhů důchodů a jejich kombinací je samostatně představen níže. Číselník pohlaví je vytvořen dle standardu SDMX pro statistická data a kromě položek pro označení mužů a žen obsahuje také položky pro vyznačení situací, kdy pohlaví není známo, rozlišení dle pohlaví není pro daný případ možné a součet za všechny typy pohlaví. Standardní reprezentace číselníku pohlaví dle SDMX v RDF je k dispozici pod IRI <http://purl.org/linked-data/sdmx/2009/code#>. V datech publikovaných ČSSZ je vytvořen alias tohoto číselníku ve jmenném prostoru <https://data.cssz.cz/ontology/sdmx/code/>. Pro účely cvičebnice SPARQLu je tento alias přepsán zpět na standardní reprezentaci číselníku pohlaví.

Číselník použitých dní obsahuje jednotlivé kalendářní dny. Územní celky dle RÚIAN obsahuje jednotlivé územní celky v České republice dle Registru územní identifikace adres a nemovitostí. Zde je třeba upozornit na skutečnost, že Hlavní město Praha je jak krajem, tak i okresem a proto jsou data za Hlavní město Prahu v datasetu obsažena dvakrát.

Číselník druhů důchodů

Číselník druhů důchodů odráží věcnou problematiku důchodového pojištění v České republice. Je vhodné si prostudovat Návod ke statistikám důchodů a důchodců připravený ČSSZ. Následující text je zaměřen pouze na základní vysvětlení druhů důchodů a soustředí se zejména na to, jakým způsobem je číselník druhů důchodů reprezentován ve formátu RDF.

Druhy důchodů

Druhy důchodů jsou dány platnou legislativou a jsou uvedeny v následující tabulce.

Tabulka 3: Druhy důchodů v České republice, zdroj: Návod ke statistikám důchodů a důchodců
Kategorie druhu důchodu Označení druhu důchodu Vymezení druhu důchodu
Přímý S Starobní důchod dle § 29 odst. 1 a 3 z. č. 155/1995 Sb. nebo příslušných ustanovení předcházejících předpisů, zahrnut i důchod SIN dle § 29 odst. 4 téhož zákona
Přímý SD Starobní důchod dle § 30 z. č. 155/1995 Sb. ve znění do 31. 12. 2009
Přímý ST Starobní důchod dle § 31 z. č. 155/1995 Sb.
Přímý SRN Starobní důchod dle § 29 odst. 2 z. č. 155/1995 Sb. nebo příslušných ustanovení předcházejících předpisů
Přímý SR Poměrný starobní důchod dle § 26 z. č. 100/1988 Sb. ve znění do 31. 12. 1995
Přímý SI Starobní důchod vzniklý transformací invalidního důchodu v 65 letech věku dle § 61a z. č. 155/1995 Sb. (příp. dle čl. II bodu 5 z. č. 306/2008 Sb.)
Přímý IT Invalidní důchod třetího stupně dle § 38 a § 39 odst. 2 písm. c) z. č. 155/1995 Sb. a čl. II bod 8 z. č. 306/2008 Sb., zahrnut i důchod IM (tzv. invalidita z mládí) dle § 42 z. č. 155/1995 Sb. nebo příslušných ustanovení předcházejících předpisů
Přímý ID Invalidní důchod druhého stupně dle § 38 a § 39 odst. 2 písm. b) z. č. 155/1995 Sb. a čl. II bod 8 z. č. 306/2008 Sb.
Přímý IP Invalidní důchod prvního stupně dle § 38 a § 39 odst. 2 písm. a) z. č. 155/1995 Sb. a čl. II bod 8 z. č. 306/2008 Sb.
Odvozený, pozůstalostní V Vdovský důchod dle § 49 odst. 1 z. č. 155/1995 Sb. nebo příslušných ustanovení předcházejících předpisů
Odvozený, pozůstalostní VM Vdovecký důchod dle § 49 odst. 2 z. č. 155/1995 Sb. nebo příslušných ustanovení předcházejících předpisů
Odvozený, pozůstalostní D, D-DĚTI Sirotčí důchod dle § 52 z. č. 155/1995 Sb. nebo příslušných ustanovení předcházejících předpisů

Důchody mohou být vypláceny buď samostatně (sólo), nebo v případě vdovských (V), resp. vdoveckých (VM) důchodů může docházet k jejich výplatě v souběhu s přímým důchodem. Kombinace důchodů vyplácených v souběhu jsou označovány kombinací písmen označujících jednotlivé druhy důchodů.

Kombinace přímého důchodu s vdovským důchodem (V) jsou značeny: SV, SIV, SRNV, STV, SDV, SRV, ITV, IDV a IPV. Jejich součet je značen V-KOMB.

Kombinace přímého důchodu s vdoveckým důchodem (VM) jsou značeny: SVM, SIVM, SRNVM, STVM, SDVM, SRVM, ITVM, IDVM a IPVM. Jejich součet je značen VM-KOMB.

Je třeba uvést, že výše uvedená skladba druhů důchodů je využívána od roku 2010. Před rokem 2010 nebyly invalidní důchody členěny na invalidní důchod prvního, druhého a třetí stupně, ale byl rozlišován úplný invalidní důchod (značený “I”) a částečný invalidní důchod (značený “IČ”). V datech platných pro období před rokem 2010 také nebyl obsažen starobní důchod Starobní důchod vzniklý transformací invalidního důchodu v 65 letech věku dle § 61a z. č. 155/1995 Sb. (starobní důchod SI). Adekvátně k tomu se také lišila skladba kombinací přímého důchodu s vdovským či vdoveckým důchodem.

Reprezentace číselníku druhů důchodů ve formátu RDF

Číselník druhů důchodů je reprezentován pomocí slovníku SKOS a ve skutečnosti je tvořen třemi instancemi třídy skos:ConceptScheme:

  • cssz-pension-kinds:PensionKindScheme,
  • cssz-pension-kinds:PensionKindScheme_2008 a
  • cssz-pension-kinds:PensionKindScheme_2010.

Jmenný prostor cssz-pension-kinds je vymezen jako <https://data.cssz.cz/ontology/pension-kinds/>.

V datasetu, který je použit v rámci cvičebnice SPARQL jsou zahrnuta data pro období od roku 2008. Číselník cssz-pension-kinds:PensionKindScheme_2008 tak obsahuje druhy důchodů, které vyskytují v datech za roky 2008 a 2009. Výše jsou zmíněny rozdíly v druzích důchodů od roku 2010. Číselník cssz-pension-kinds:PensionKindScheme_2010 obsahuje druhy důchodů používané v datech od roku 2010.

Některé druhy důchodů se objevují jak v datech za období let 2008-2009, tak i v datech od roku 2010. Číselník cssz-pension-kinds:PensionKindScheme obsahuje druhy důchodů vymezené bez vazby na výše uvedená období. Koncepty představující jednotlivé druhy důchodů v číselnících cssz-pension-kinds:PensionKindScheme_2008 a cssz-pension-kinds:PensionKindScheme_2010 jsou propojeny na koncept představující jejich na období nezávislou reprezentaci v číselníku cssz-pension-kinds:PensionKindScheme pomocí vlastnosti skos:exactMatch.

Některé druhy důchodů jsou sumou jiných druhů důchodů, např. výše zmíněné druhy důchodů s označením V-KOMB a VM-KOMB. V číselnících cssz-pension-kinds:PensionKindScheme_2008 a cssz-pension-kinds:PensionKindScheme_2010 je využito vlastnosti skos:narrower pro vyjádření, že určitý druh důchodů je sumou druhů důchodů, které jsou uvedeny jako objekty tvrzení, kde je predikátem skos:narrower.

Použitá hierarchie důchodů

Protože je číselník druhů důchodů použit i v jiných datasetech důchodové statistiky ČSSZ, obsahuje i druhy důchodů a jejich součty, které nejsou obsaženy v datasetu Přehled o počtu důchodců podle území, pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu, která je použita v rámci cvičebnice SPARQL. Druhy důchodů obsažené v tomto datasetu a jejich hierarchie, která vyjadřuje, jak jsou jednotlivé druhy důchodů agregovány, jsou uvedeny v tabulce 4 (pro zkrácení jsou vynechány prefixy jmenného prostoru).

Dataset využitý ve cvičebnici SPARQL obsahuje také druh důchodů označený jako D-KMENY. Ve skutečnosti se nejedná o samostatný druh důchodu, ale o označení příjemců sirotčího důchodu. Jeden příjemce může jedním důchodovým listem dostávat sirotčí důchod pro více osiřelých dětí. Počet příjemců sirotčího důchodu tak může být menší než počet vyplácených sirotčích důchodů. Tato specifická kategorie stojí mimo hierarchii druhů důchodů.

Tabulka 4: Hierarchie druhů důchodů v datasetu Přehled o počtu důchodců podle území, pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu
Hierarchie pro data za roky 2008 a 2009 Hierarchie pro data od roku 2010
PK_total_without_special_pensions_2008
  • PK_old_age_total_S_SRN_ST_SD_2008
    • PK_S_2008
    • PK_SRN_2008
    • PK_ST_2008
    • PK_SD_2008
  • PK_SR_2008
  • PK_I_2008
  • PK_IC_2008
  • PK_V_total_2008
    • PK_V_2008
    • PK_V-KOMB_2008
      • PK_SV_2008
      • PK_SRNV_2008
      • PK_STV_2008
      • PK_SDV_2008
      • PK_SRV_2008
      • PK_IV_2008
      • PK_ICV_2008
  • PK_VM_total_2008
    • PK_VM_2008
    • PK_VM-KOMB_2008
      • PK_SVM_2008
      • PK_SRNVM_2008
      • PK_STVM_2008
      • PK_SDVM_2008
      • PK_SRVM_2008
      • PK_IVM_2008
      • PK_ICVM_2008
  • PK_D_2008
PK_total_without_special_pensions_2010
  • PK_old_age_total_S_SI_SRN_ST_SD_2010
    • PK_S_2010
    • PK_SI_2010
    • PK_SRN_2010
    • PK_ST_2010
    • PK_SD_2010
  • PK_SR_2010
  • PK_IP_2010
  • PK_ID_2010
  • PK_IT_2010
  • PK_V_total_2010
    • PK_V_2010
    • PK_V-KOMB_2010
      • PK_SVM_2010
      • PK_SIVM_2010
      • PK_SRNVM_2010
      • PK_STVM_2010
      • PK_SDVM_2010
      • PK_SRVM_2010
      • PK_ITVM_2010
      • PK_IDVM_2010
      • PK_IPVM_2010
  • PK_VM_total_2010
    • PK_VM_2010
    • PK_VM-KOMB_2010
      • PK_SV_2010
      • PK_SIV_2010
      • PK_SRNV_2010
      • PK_STV_2010
      • PK_SDV_2010
      • PK_SRV_2010
      • PK_ITV_2010
      • PK_IDV_2010
      • PK_IPV_2010
  • PK_D_2010

Licence dat

Tato verze cvičebnice SPARQLab používá data o důchodových ročenkách od České správy sociálního zabezpečení. Užití těchto otevřených dat se řídí těmito podmínkami.