Vysoká škola báňská – Technická univerzita Ostrava
Hornicko-geologická fakulta
NEURČITOST V GEOINFORMATICE
(E-learningová podpora)
Doc. Dr. Ing. Jiří Horák
(2.vydání)
Ostrava, 2018
Vysoká škola báňská – Technická univerzita Ostrava
Hornicko-geologická fakulta
NEURČITOST V GEOINFORMATICE
(E-learningová podpora)
Doc. Dr. Ing. Jiří Horák
(2.vydání)
Ostrava, 2018
i
Obsah Seznam obrázků ..................................................................................................................................................... iv
1 Úvod ............................................................................................................................................................... 1
2 Neurčitost – základní vymezení a rozdělení ................................................................................................... 6
2.1 Základní rozdělení ..................................................................................................................................... 10
2.1.1 Nepřesnost a přesnost ................................................................................................................. 15
2.1.2 Vágnost ....................................................................................................................................... 17
2.1.3 Nejednoznačnost ......................................................................................................................... 20
3 Chyba ........................................................................................................................................................... 26
3.1 Spolehlivost ................................................................................................................................................ 30
3.2 Ocenění chyb .............................................................................................................................................. 32
3.2.1 Velikost potřebného vzorku ........................................................................................................ 32
3.2.2 Výsledné hodnocení chyb u kvantitativních údajů ..................................................................... 33
3.2.3 Výsledné ocenění chyb pro kvalitativní údaje ............................................................................ 35
3.3 Šíření chyb .................................................................................................................................................. 36
3.3.1 Monte Carlo simulace ................................................................................................................. 37
4 Kvalita dat a jejich popis .............................................................................................................................. 40
4.1 Prvky kvality dat ........................................................................................................................................ 42
4.1.1 Polohová přesnost ....................................................................................................................... 43
4.1.2 Rozlišení ..................................................................................................................................... 46
4.1.3 Přesnost atributů ......................................................................................................................... 48
4.1.4 Logická konzistence.................................................................................................................... 50
4.1.5 Sémantická konzistence .............................................................................................................. 52
4.1.6 Úplnost dat .................................................................................................................................. 53
4.1.7 Aktuálnost dat ............................................................................................................................. 56
4.1.8 Rodokmen dat ............................................................................................................................. 58
4.1.9 Jednoduchost dat ......................................................................................................................... 59
4.1.10 Dostupnost dat ............................................................................................................................ 59
4.1.11 Cena dat ...................................................................................................................................... 59
4.1.12 Metakvalita ................................................................................................................................. 59
4.2 Standardizace kvality dat ............................................................................................................................ 61
4.3 Ukládání popisu kvality dat ........................................................................................................................ 62
5 Organizace sběru dat .................................................................................................................................... 65
5.1 Implementace ............................................................................................................................................. 69
6 Zdroje neurčitosti a způsob popisu ............................................................................................................... 70
7 Analýza citlivosti a problém agregace dílčích jednotek ............................................................................... 76
7.1 Analýza citlivosti ........................................................................................................................................ 76
7.2 Problém agregace dat do polygonů ............................................................................................................ 77
8 Měření mlhavosti a hrubé množiny .............................................................................................................. 80
8.1 Fuzzy množiny ........................................................................................................................................... 84
8.1.1 Fuzzy číslo .................................................................................................................................. 90
8.1.2 Operace s fuzzy množinami ........................................................................................................ 96
8.1.3 Fuzzy region ............................................................................................................................. 105
8.1.4 Prostorově neurčité objekty ...................................................................................................... 105
8.1.5 Topologické operace ................................................................................................................. 107
8.1.6 Jiné prostorové operace ............................................................................................................. 109
8.1.7 Kritika fuzzy množin ................................................................................................................ 109
8.2 Hrubé množiny ......................................................................................................................................... 110
9 Kvalitativní hodnocení neurčitosti.............................................................................................................. 113
9.1.1 Revize důvěry ........................................................................................................................... 116
9.1.2 Revize a aktualizace .................................................................................................................. 117
ii
9.1.3 Tříhodnotová a vícehodnotová logika ....................................................................................... 118
9.1.4 Schvalovací teorie ..................................................................................................................... 121
10 Kvantitativní přístupy k neurčitosti ............................................................................................................ 125
10.1 Podmíněná pravděpodobnost .................................................................................................................. 126
10.2 Bayesova teorie pravděpodobnosti ......................................................................................................... 126
10.3 Dempster-Shaferova teorie ..................................................................................................................... 128
10.3.1 Dempster-Shaferovy agregační operátory ................................................................................. 132
10.3.2 Implementace v IDRISI ............................................................................................................ 133
11 Validita a objektivnost ................................................................................................................................ 137
11.1 Objektivita měření .................................................................................................................................. 140
12 Vizualizace neurčitosti ............................................................................................................................... 142
12.1 Obecné kartografické metody vizualizace nejistoty ............................................................................... 143
12.2 Kartografické vyjadřovací prostředky a grafické proměnné pro vizualizaci nejistoty ........................... 145
12.2.1 Přístupy založené na vnitřních grafických proměnných ........................................................... 146
12.2.2 Přístupy založené na vnějších grafických proměnných ............................................................ 150
12.3 Aplikační využití základních metod vizualizace nejistoty...................................................................... 154
12.4 Návrh taxonomie vizualizace nejistoty ................................................................................................... 156
12.4.1 Vizualizace nejistoty v přírodních hazardech ........................................................................... 162
12.5 Analýza a hodnocení vizualizace ........................................................................................................... 163
12.5.1 Kognitivní aspekty vizualizace nejistoty a vizualizace reprezentace nejistoty ......................... 163
12.5.2 Obecný rámec pro podporu vizualizace nejistoty ..................................................................... 165
12.6 Empirické studie vizualizace nejistoty ................................................................................................... 166
12.6.1 testování polohové nejistoty ..................................................................................................... 166
12.6.2 Empirické testování tematické nejistoty ................................................................................... 172
12.6.3 Interaktivní prostředí pro vizualizaci nejistoty.......................................................................... 175
12.6.4 Principy testování vizualizace nejistoty .................................................................................... 180
Seznam literatury ................................................................................................................................................ 182
Příloha 1 Kvalita dat a její míry podle norem ISO .............................................................................................. 185
2. Termíny použité v normách řady ISO 191xx ............................................................................................. 185
3. Prvky kvality podle ISO 19113 .................................................................................................................. 186
4. Struktura měr kvality dat podle ISO 19113 ................................................................................................ 187
5. Základní míry kvality dat související s neurčitostí podle ISO 19113 ......................................................... 188
Jednorozměrná náhodná proměnná Z(one-dimensional random variable) ..................................................... 188
Dvojrozměrná náhodná proměnná X a Y (two-dimensional random variable) ............................................... 190
Trojrozměrná náhodná proměnná X, Y, Z(three-dimensional random variable) ............................................. 191
6. Přehled jednotlivých měr kvality dat dle ISO 19138 .................................................................................. 192
6.1 úplnost (completeness) ............................................................................................................................. 192
6.1.1 Přidání (Commission) ....................................................................................................................... 192
6.1.2 Vynechání (Omission) ...................................................................................................................... 192
6.2 Logická konzistence (Logical consistency) .............................................................................................. 193
6.2.1 Konceptuální konzistence (Conceptual consistency) ........................................................................ 193
6.2.2 Doménová konzistence (Domain consistency) ................................................................................. 194
6.2.3 Formátová konzistence (Format consistency) .................................................................................. 195
6.2.4 Topologická konzistence (Topological consistency) ........................................................................ 196
6.3 Polohová přesnost (Positional accuracy) .................................................................................................. 199
6.3.1 Absolutní nebo vnější přesnost (Absolute or external accuracy) ...................................................... 199
6.3.2 Výškové polohové chyby (Vertical positional uncertainties) ........................................................... 202
6.3.2 Dvourozměrné (horizontální) polohové chyby (Horizontal positional uncertainties) ...................... 206
6.3.3 Relativní nebo vnitřní přesnost (Relative or internal accuracy) ........................................................ 211
6.4 Časová přesnost (Temporal accuracy) ...................................................................................................... 212
6.4.1 Přesnost měření času (Accuracy of a time measurement) ................................................................ 212
6.4.2 Časová konzistence (Temporal consistency) .................................................................................... 214
6.4.3 Časová platnost (Temporal validity) ................................................................................................. 214
iii
6.5 Tematická přesnost (Thematic accuracy) ................................................................................................. 214
6.5.1 Správnost klasifikace (Classification correctness) ............................................................................ 214
6.5.2 Správnost nekvantitativních atributů (Non-quantitative attribute correctness) ................................. 215
6.5.3 Přesnost kvantitativních atributů (Quantitative attribute accuracy) .................................................. 216
iv
Seznam obrázků Obrázek 1 Rozdělení typů neurčitosti a způsobů řešení dle Murgante et al. (2009) ............................................. 12
Obrázek 2 Rozdělení typů neurčitosti a způsobů řešení dle Fisher et al. (2006). .................................................. 14
Obrázek 3 Srovnání přesnostip a přesnostia (precision and accuracy) (Fisher et al., 2006) ................................... 16
Obrázek 4 Taxonomie objektů typu „fiat“ a „bona fide“ (bf=bona fide, f=fiat, o=objekt, p=proces, sb=spatial
boundary, tb=temporal boundary, Earth’surface = zemský povrch, Equator = rovník, your life = tvůj život,
century = století, summer solstice = letní slunovrat). Kubíček (2013), podle Smith (1995) ................................. 18
Obrázek 5 Minimální fyzické požadavky pro definování lesa v jednotlivých zemích (Comber et al., 2004, in
Fisher et al., 2006) (tree height – výška stromů, canopy cover – pokrytí klenbou korun) .................................... 19
Obrázek 6 Tatáž oblast mapovaná rozdílně jednotlivými zkušenými interpretátory jako problém umístění hranice
Fisher et al. (2006, s.53) ........................................................................................................................................ 22
Obrázek 7 Tloušťka koncové měrky v řezu (Schovánek, Havránek, 2012) .......................................................... 35
Obrázek 8 Geometrický nárůst nákladů při rostoucích požadavcích na kvalitu .................................................... 42
Obrázek 9 Srovnání nákladů na 3 stupně kvality polohové přesnosti a aktuálnosti (Bernhardsen, 1993) ............ 42
Obrázek 10 Polohová přesnost vyjádřená pomocí velikosti chyby (vlevo) nebo pomocí pravděpodobnosti shody
poloh obou křížků (vpravo) ................................................................................................................................... 44
Obrázek 11 příklad polohové nepřesnosti (positional inaccuracy) (Servigne et al., 2006) ................................... 45
Obrázek 12 Prostorové rozlišení pro rastrový datový model ................................................................................ 47
Obrázek 13 elementární mapovací jednotka (minimum mapping unit) jako velikost nejmenšího
reprezentovatelného objektu ................................................................................................................................. 47
Obrázek 14 příklad sémantické nepřesnosti (semantic inaccuracy) (Servigne et al., 2006) .................................. 48
Obrázek 15 Ukázky chyb v atributech – v názvu objektů a jeho klasifikaci. ........................................................ 48
Obrázek 16 Mapovaný (vlevo) a skutečný (vpravo) pokryv území ...................................................................... 49
Obrázek 17 Ověřování logické konzistence (uzavření polygonu, topologické spojení linií) (Servigne et al., 2006)
.............................................................................................................................................................................. 51
Obrázek 18 Příklad sémantické nekonzistence (Servigne et al., 2006) ................................................................. 53
Obrázek 19 Příklady vynechání pravých a přidání klamných objektů (B omissions, C commissions) (Servigne et
al., 2006) ............................................................................................................................................................... 54
Obrázek 20 Neúplné pokrytí listu mapy................................................................................................................ 55
Obrázek 21 Neúplnost atributů (druhý sloupec obsahuje řadu prázdných hodnot) ............................................... 56
Obrázek 22 Situace pro klasifikaci případů chyb (Servigne et al., 2006) (dům a ruiny u řeky) ........................... 61
Obrázek 23 Ukázka metadat uložených v systému MIDAS (Horáková et al., 2003) ........................................... 63
Obrázek 24 Příklad latinského čtverce pro testování 4 různých druhů (Swoboda, 1977) ..................................... 68
Obrázek 25 Pravděpodobnost zaplavení území (Eastmann, 2001) ....................................................................... 74
Obrázek 26 Zaplavené území s 5% rizikem chyby (vlevo) a s 25% rizikem chyby (vpravo) (Eastmann, 2001).. 74
Obrázek 27 Srovnání vlivu agregační jednotky na výsledný vzor distribuce hodnot lokalizačního koeficientu pro
počet uchazečů s nanejvýš základním vzděláním v Ostravě (stav k 31. 3. 2010) (upraveno z Inspektor, 2011) .. 78
Obrázek 28 Fuzzy funkce příslušnosti versus ostré funkce pro určení adjektiva „příkrý“ svah (Eastmann, 2001)
.............................................................................................................................................................................. 85
Obrázek 29 Proměnlivé (vágní) hranice řek Tejo a Zêzere v závislosti na výšce vodní hladiny a stupeň
příslušnosti místa k řekám (Fonte, Lodwick, 2005) .............................................................................................. 85
Obrázek 30 Hodnoty členství pixelu ve vymezeném polygonu (Worboys, Duckham, 2004) .............................. 85
Obrázek 31 Stupně příslušnosti pro jednotlivé půdní kategorie a-c v území a výsledná kombinace .................... 86
Obrázek 32 Časová interpolace založená na změně fuzzy množiny (Dragievič 2005) ......................................... 86
Obrázek 33 Fuzzy funkce příslušnosti pro vágní prostorové operátory „blízký“ a „daleký“ ve vztahu místa
k lyžařskému horskému středisku (Morris, Jankowski, 2005) .............................................................................. 87
Obrázek 34 Fuzzy funkce typu „s“ (Eastmann, 2001) .......................................................................................... 87
Obrázek 35 Fuzzy funkce typu „j“ (Eastmann, 2001) ........................................................................................... 88
Obrázek 36 Lineární fuzzy funkce (Eastmann, 2001) ........................................................................................... 88
Obrázek 37 Uživatelem definovaná fuzzy funkce (Eastmann, 2001) ................................................................... 89
Obrázek 38. Funkce příslušnosti pro jádro, nosič, alfa-řez a výška (Škrabánek, 2014) ........................................ 89
v
Obrázek 39 Fuzzy čísla ( a)trojúhelníkové, b)trapezoidální, c) po částech lineární, d) po částech lineární
aproximující gaussovské) (Caha, 2018) ................................................................................................................ 91
Obrázek 40 Ukázky řešení základních aritmetických operací pro 2 fuzzy čísla A a B (Caha, 2018) ................... 92
Obrázek 41 Problém nerozlišitelnosti 2 „překrývajících se“ fuzzy čísel (Caha, 2018) ......................................... 92
Obrázek 42 Reprezentace fuzzy povrchu. (Caha, 2018) ....................................................................................... 93
Obrázek 43 Fuzzy semivariogram (Caha et al., 2015). ......................................................................................... 93
Obrázek 44 Hodnocení fuzzy povrchu koncentrace PM10 pomocí 4 dílčích charakteristik v každém místě (min,
max, min-střed, max- střed) (Caha et al., 2015). ................................................................................................... 94
Obrázek 45 Uměle vygenerovaný DMR a minimální a maximální hodnota v každém místě (Caha, 2014) ......... 95
Obrázek 46 Fuzzy sklon povrchu a minimální a maximální hodnota sklonu v každém místě (Caha, 2014) ........ 95
Obrázek 47 Výsledek klasického výpočtu viditelnosti a pravděpodobná varianta řešení fuzzy viditelnosti
(upraveno z Caha, 2014) ....................................................................................................................................... 96
Obrázek 48 Demonstrace průniku, sjednocení, součinu a doplňku (Novák, 1989) ............................................... 97
Obrázek 49 Znázornění nejběžnějších t-norem pomocí stupně příslušnosti obou prvků na horizontální ploše a
výsledku operace ve formě grafu (Ďuračiová et al., 2013) ................................................................................... 99
Obrázek 50 Vizualizace 6 t-norem (Caha, 2011) ................................................................................................ 100
Obrázek 51 Vizualizace 6 t-konorem (Caha, 2011) ............................................................................................ 101
Obrázek 52 Fuzzy vrstvy použité pro hodnocení výskytu archeologických lokalit na Slovensku – vážená
vzdálenost k hranici říčních sedimentů (vlevo) a vhodný typ půdy (vpravo) (Ďuračiová et al., 2013) ............... 102
Obrázek 53 Výsledek volby 4 běžných t-norem při agregaci vrstev do výsledné predikce arccheologické lokality
(Ďuračiová et al., 2013) ....................................................................................................................................... 102
Obrázek 54 Průběh funkce členství pro vybraná adjektiva (Adamčík, 2009) ..................................................... 103
Obrázek 55 Porovnání výpočtu oslunění klasickým způsobem a fuzzy (Paclíková, 2012) ................................ 104
Obrázek 56 Vektorová reprezentace geografického regionu: vlevo - ostrého regionu, vpravo - koncept širšího
okolí (Verstraete et al., 2006, in Caha, 2011) ...................................................................................................... 105
Obrázek 57 Reprezentace geografického regionu jako fuzzy objektu (Verstraete et al., 2006, in Caha, 2011) .. 106
Obrázek 58 Fuzzy region definovaný pomocí jádra a nosiče a jeho jednotlivé části (Tang, 2004, in Caha, 2011)
............................................................................................................................................................................ 106
Obrázek 59 Reprezentace fuzzy bodu (A), fuzzy linie (B), fuzzy polygon (C) a fuzzy polygony v mapě (D)
(převzato z Dragicevič, 2005, in Caha, 2011) ..................................................................................................... 107
Obrázek 60 Výpočet hustoty stromů a podle toho přiřazení příslušnosti „zalesnění“ (Worboys, Duckham, 2004)
............................................................................................................................................................................ 107
Obrázek 61 Ukázka několika základních topologických vztahů dvou fuzzy regionů a jejich reprezentací
vztahovými maticemi 3*3 a 4*4 (Tang, 2004, in Caha, 2011). .......................................................................... 109
Obrázek 43 Příklad ohraničení polygonu a vymezení hrubé množiny v rastrovém modelu. Výsledek v části d
ukazuje černé buňky jako dolní hranici a sadu černých a bílých buněk jako horní hranici (Worboys, Duckham,
2004). .................................................................................................................................................................. 111
Obrázek 63 Rozdíl mezi revizí a aktualizací (Worboys, Duckham, 2004) ......................................................... 118
Obrázek 64 Poloha jednotlivých budov (Worboys, Duckham, 2004) ................................................................. 119
Obrázek 65 Výsledné hodnocení blízkosti objektů pro knihovnu (Worboys, Duckham, 2004) ......................... 120
Obrázek 66 Dva regiony, ve kterých se hodnotí pravděpodobnost výskyt sesuvu (Worboys, Duckham, 2004) 126
Obrázek 67 Hierarchická struktura podmnožin v celé množině [A,B,C] ............................................................ 130
Obrázek 68 Pravděpodobnostní obrazy: hypotéza [lokalita] založená na vzdálenosti od známého místa, hypotéza
[lokalita] založená na četnosti povrchových artefaktů, hypotéza [nelokalita] založená na vzdálenosti od stálé
vody a hypotéza [nelokalita] založená na sklonu svahu. (Eastmann, 2001)........................................................ 135
Obrázek 69 Důvěra (vlevo), uvěřitelnost (uprostřed) a interval důvěry (vpravo) pro přítomnost archeologických
lokalit z D-S kombinace důkazů. (Eastmann, 2001) ........................................................................................... 135
Obrázek 70 Odhad obsahu Zn pomocí krigování a doprovodná mapa neurčitosti způsobené interpolací (krigovací
rozptyl) ................................................................................................................................................................ 144
Obrázek 71 Kombinovaná mapy hloubky půdy a nejistoty vizualizovaná pomocí metody vybělení – whitening
(vlevo) a odpovídající legenda (vpravo) (Kubíček, 2012, upravil podle Hengel et al.,2004). ............................ 144
Obrázek 72 Interaktivní vizualizační nástroj pro posouzení nejistoty pomocí střídající se sekvence indexu rizika
a jeho nejistoty (Kubíček, 2012, upravil podle MacEachren 1992). ................................................................... 145
vi
Obrázek 73 Přehled základních grafických proměnných podle Bertiny doplněných o návrhy MacEachrena
(1994) a Wilkinsona (1999). (Kubíček, 2012, upravil podle Kunz, 2011). ......................................................... 147
Obrázek 74 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty (Kubíček, 2012, podle
MacEachrena 1992). ........................................................................................................................................... 148
Obrázek 75 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty - rozlišení (Kubíček, 2012, podle
MacEachrena 1992). ........................................................................................................................................... 148
Obrázek 76 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty - průhlednost (Kubíček, 2012,
podle MacEachrena 1992). .................................................................................................................................. 148
Obrázek 77 Bodové znaky znázorňující nejistotu pomocí (a) sytost barvy, (b) ostrost hranic, (c) průhlednost
(Kubíček, 2012, upravil podle Drecki, 2002). ..................................................................................................... 151
Obrázek 78 Diagram spolehlivosti ukazující zdrojová data a datum jejich vzniku (stáří). (Kubíček, 2012, upravil
podle Drecki,2009). ............................................................................................................................................. 152
Obrázek 79 Vizualizace nejistých geologických hranic a zlomových linií. (Kubíček, 2012, upravil podle Drecki,
2009). .................................................................................................................................................................. 152
Obrázek 80 Dnešní rozšíření a hlavní sedimentační prostory žacléřského souvrství (Tásler et al.) .................... 153
Obrázek 81 Vizualizace nejistoty lavinového nebezpečí, která využívá pro intenzitu tlaku na podloží odstíny
modře a pro vyjádření nejistoty velikost znaku (a), hustotu bodů (b) a izolinie (c) (Kubíček, 2012, upravil podle
Kunz, 2011). ........................................................................................................................................................ 155
Obrázek 82 Bertinův systém vizuálních proměnných modifikovaný podle Buttenfield (2000) (Kubíček, 2012)
............................................................................................................................................................................ 157
Obrázek 83 Příklady experimentálních vizualizací a jejich zařazení do klasifikační matice (Kubíček, 2012,
upravil podle Aipperspach, 2006). ...................................................................................................................... 159
Obrázek 84 Ukázka využití vizualizačního prostoru - původní vizualizace využívající umístění znaku a jeho
rozostření (pro nejistotu) lze modifikovat pomocí proměnných umístění (a), odstín (b), směr (c), velikost (c)
(Kubíček, 2012, upravil podle Aipperspach, 2006). ........................................................................................... 160
Obrázek 85 Ukázka kvalitativní škály pro vyjádření jednotlivých prvků kvality datových sad (Kubíček, 2012)
............................................................................................................................................................................ 161
Obrázek 86 Ukázka vizualizace nejistoty metadat pro jednotlivé ukazatele kvality na úrovni mapových listů
(Kubíček, 2012, upravil podle Drecki a Maciejewska, 2005). ............................................................................ 161
Obrázek 87 Příklady vizualizace celkové nejistoty pomocí globální vizuální indikátor nejistoty (G-VisUl). Vlevo
konzervativní přístup, vpravo liberální přístup (Kubíček, 2012, upravil podle Drecki a Maciejewska, 2005). .. 162
Obrázek 88 Ukázka vizualizace Limity a Měřítko (Kubíček, 2012, upravil podle Hope a Hunter, 2007) ......... 167
Obrázek 89 Ukázka vizualizace Pravděpodobnost a Postupná vizualizace (Kubíček, 2012, upravil podle Hope a
Hunter, 2007) ...................................................................................................................................................... 167
Obrázek 90 Ukázka postupné vizualizace s očekávanou odpovědí c)Stejná možnost výskytu v obou zónách
(Kubíček, 2012, upravil podle Hope a Hunter, 2007). ........................................................................................ 169
Obrázek 91 Dvě metody vizualizace nejistoty (vlevo hranicí s měřítkem, vpravo kořenovou zeleninu (Kubíček,
2012) ................................................................................................................................................................... 170
Obrázek 92 Dva typy vizualizace hranic parcel při 2. pokusu (Kubíček, 2012) ................................................. 171
Obrázek 93 Aplikovaná vizualizace nejistoty: a) srovnávací mapy, b) kombinované mapy za využití vnějších
grafických proměnných (hustota bodů), c) kombinované mapy za využití vnitřních grafických proměnných
(barevný odstín) (Kubíček, 2012, upravil podle Kunz, 2011). ............................................................................ 177
1 Úvod
Cílem kapitoly je vysvětlit nezbytnost přítomnosti neurčitosti v reprezentaci
reálného světa a při rozhodování a motivovat čtenáře pro studium výskytu, forem
a chování neurčitosti, zejména v geoinformatice.
Stručný obsah kapitoly:
Vysvětlení nepostižitelnosti reálného světa a významu modelování
Nutnost zjednodušování a tím i růst neurčitosti
Význam neurčitosti
Získáte znalosti o:
východiscích modelování
základním principu rozhodování
významu neurčitosti
Budete umět:
vnímat existenci a všudypřítomnost neurčitosti.
Chápat omezenost reprezentace světa, modelování a rozhodování
Budete schopni:
Vyhnout se chybným závěrům při rozhodování
Času potřebný na nastudování kapitoly – 30 minut.
Imagination is more important than knowledge: for knowledge is limited to what we know and
understand while imagination embraces the entire world and all that ever will be known and
understood. Albert Einstein (Caers, 2011).
Předmětem zájmu geoinformatiky je reálný svět, prostředí, ve kterém žijeme, které se snažíme
pochopit a ovlivňovat ke svému prospěchu.
Reálný svět je pro nás jako celek komplexní, ovlivňovaný a formovaný řadou procesů, které
dosud chápeme jen částečně nebo o jejich existenci dosud vůbec nevíme. Je ovlivňovaný
existencí a činností organismů-jedinců, které působí nejen na prostředí, ale i na sebe navzájem
a tím komplikují pochopitelnost jejich vlivu. Navíc je svět dynamický, současný stav je
výsledkem minulých jevů, takže je svým způsobem jedinečný a neopakovatelný.
Dynamičnost světa také způsobuje, že ve chvíli, kdy zjistíme nějakou informaci o něm, se tato
informace stává zastaralou, protože ve světě dochází k neustálým změnám.
Dudek (1999) to charakterizuje následovně: „Dosavadní vědecký výzkum, který si kladl za cíl
podat přesný obraz okolního světa, ukázal, že takový cíl je nedosažitelný a absolutní poznání
neexistuje. Všechny informace jsou neúplné a hranice poznání před námi jakoby ustupuje
a vyzývá k dalšímu hledání a zkoumání, poznávání nových zákonitostí. Protože svět není
možno chápat jako neměnný a naše poznání určité reality či zákonitosti ztrácí svou absolutní
platnost v tom okamžiku, kdy k tomuto poznání dochází. Tato poznaná realita či zákonitost
tedy nemůže být popsána s naprostou jistotou, tedy s nulovou tolerancí. Princip tolerance
neurčitosti, původně definovaný v oblasti kvantové fyziky, kde vymezil oblast neurčitosti
kvantem, přinesl poznání, že veškeré vědění má své meze a že se naše poznání pohybuje
v mezích určité tolerance.“
Je možné shrnout, že reálný svět je pro nás poznatelný a pochopitelný jen zčásti a
informace, které jsme schopni o něm získat, nejsou dokonalé.
Informace o prostředí člověk získává prostřednictvím svých senzorů (smyslů) a ty se
pochopitelně vytvářely podle jeho potřeb a s důrazem na ty jevy reálného světa, které jsou pro
člověka důležité.
Jako příklad nám může posloužit zrakový orgán. Z celého spektra elektromagnetického záření
vnímáme prostřednictvím zraku úzkou část o vlnových délkách 0.38-0.72 μm, která se
v důsledku toho označuje jako viditelné záření. Proč tomu tak je? Právě v této části spektra
Slunce vysílá nejvíce energie a současně dochází k minimální absorpci v atmosféře, takže je
tato část záření na zemském povrchu nejlépe organismy využitelná, proto se světlocitlivé
skvrny a později zrakové orgány specializovaly na ni. Pokud v našem světě organismy běžně
neohrožuje mikrovlnné nebo radioaktivní záření (protože se vyskytuje zpravidla jen v malém
množství), nebyl důvod k tomu, aby se pro jejich registraci vyvinul potřebný senzorický
systém.
Každý senzor, pomocí kterého získáváme informace, má jistá omezení. Na základě teorie
signálů víme, že k základním charakteristikám patří kvantifikace a vzorkování signálu.
Kvantifikaci můžeme chápat jako schopnost rozlišit jednotlivé úrovně signálu („hodnoty“
signálu), zatímco vzorkování nám vyjadřuje jeho časové rozlišení, tedy frekvenci odečítání
hodnot. To je však jen pro případ jednorozměrného signálu (dimenzí je čas); v případě
prostorových signálů potřebujeme specifikovat vzorkování v prostoru, tj. prostorové rozlišení.
V případě lidského zraku kvantifikací můžeme rozumět např. počet odstínů, které jsme
schopni v obraze rozlišit, vzorkováním pak běžně udávaný interval 0.1 sekundy, po které
zůstává obraz v našem mozku zafixován (setrvačnost lidského zraku). Senzorické možnosti
člověka jsou v moderním světě výrazně rozšiřovány pomocí umělých prostředků (např. pro
registraci jiných vlnových délek, či podrobnější registraci viditelného záření). Přesto se
nemůžeme domnívat, že jsme schopni i v této jediné oblasti dokonale poznat prostředí.
Vlastnosti jednotlivých senzorů (obecněji informačních kanálů), pomocí kterých získáváme
informace, jsou proto důležité a při zpracovávání informací o světě s nimi musíme umět
pracovat. Informace, které získáváme, se snažíme vnímat, pochopit a často také ukládat (pro
pozdější chápání). I zde pochopitelně platí podpora přirozených nástrojů a procesů pomocí
umělých doplňků, které označujeme jako informační technologie. Všechny tyto procesy (ať
již přírodní či umělé) mají svá omezení a své význačné charakteristiky.
Z toho všeho vyplývá, že naše možnosti poznání jsou velmi omezené a ovlivňované řadou
faktorů. Svět je proto pro nás převážně neurčitý, pouze malé části jsou pro nás určité (resp. se
o nich domníváme, že jsou určité), tj. pochopitelné (ne nutně pochopené).
Jednou z možností, jak racionálně porozumět reálnému světu, je vytváření modelů (proces
modelování). Model může být odrazem reality, může zachytit vybrané rysy světa, resp. jevů,
které jsme dokázali zjistit a pochopit na takové úrovni, že informaci o nich dokážeme sdílet
a ukládat. Pokud model reprezentuje část reality, je nutně jeho zjednodušením. Model je také
nutně subjektivní, protože my sami rozhodujeme o jeho formě a poznatcích, které v něm jsou
využity. Navíc, každý člověk vnímá realitu jinak, proto je obtížně postihnout realitu jedním,
všeobecně akceptovatelným způsobem (Longley et al. 2005). Model také vzniká pro určitý
účel, podle něj se volí metody a sledované jevy, proto je účelový. Není možné vytvořit
univerzální model.
Každý model a každé modelování by proto nutně mělo být doprovázeno informací
o uplatněných formách zjednodušení, subjektivismu a účelovosti.
Je nemožné dosáhnout perfektní reprezentace světa, neurčitost ve vnímání a pochopení světa
je nevyhnutelná. Absolutně přesné mohou být pouze abstraktní matematické poznatky
odvozené z jednoznačných axionů a definic (Brus, 2013). Zpravidla je vnitřní komplexnost
a podrobnost světa taková, že je nemožné zachytit každý jednotlivý detail (každou plošku)
v každém možném měřítku ve formě digitální reprezentace (Longley et al. 2005).
K vysvětlení principu vnitřní komplexnosti světa a jeho nelineárního charakteru se používají
fraktály, resp. teorie dynamického chaosu (Lampart et al., 2013).
Informace o světě formalizujeme do podoby geodat. Nemůžeme si být jisti, zda jsou geodata
kompletní, aktuální, dostatečně přesná. Neurčitost je ve všech složkách popisu geoprvků, tj.
geometrické, atributové, časové, funkční, vztahové. Je nezbytné si uvědomit, že pracujeme
s neurčitými geodaty, dokázat tuto neurčitost měřit a hodnotit, naučit se vyjádřit, nakolik jsou
získané výsledky práce s geodaty správné a důvěryhodné.
Stejně tak se neurčitost projevuje i v procesu zpracování geodat, jejich prezentaci
a interpretaci.
Pokud je tedy cílem příslušného informačního systému podpora rozhodování, je nutné
zvažovat, jak neurčitost ovlivní výsledek, informační produkt, který bude použit pro
rozhodování, a jaký dopad může mít toto rozhodnutí (ekonomický, společenský, zdravotní,
environmentální atd.).
Tradiční modely rozhodování vycházejí z principů dokonalých znalostí (poznání) a jistoty
a předpokládají optimální množství informací, tedy ani nedostatek, ani nadbytek informací
(Dudek, 1999). Za těchto předpokladů má každé rozhodnutí pouze jeden důsledek a ten je
předem znám. Můžeme usuzovat, že kdybychom znali všechny podněty, vlivy, příčiny
působící na daný jev nebo proces a jejich sílu, směr působení a jejich vzájemné interakce,
dokázali bychom predikovat jistý výsledek jako následek jejich působení. Tento předpoklad je
však nesplnitelný. Ve skutečnosti většina rozhodnutí probíhá v podmínkách nejistoty
a nedokonalých znalostí, kdy má rozhodnutí více možných důsledků a není předem známo,
který z těchto důsledků nastane. Tato nejistota je důsledkem, jak již bylo řečeno, naší
částečnou nebo úplnou neznalostí procesů (vlivů), které podmiňují určité události a jejich
náhodný charakter (Dudek, 1999). K lepšímu poznání oblasti neurčitosti velkého množství
informací získaných cestou výběrového šetření a ocenění jejich spolehlivosti, slouží pak
statistická inference, umožňující transformovat výsledky výběrových šetření zpět do
základního souboru (Dudek, 1999). Není, a ani nemůže být, jediným nástrojem pro poznání
neurčitosti.
V geografických informačních systémech (GIS) se stále více prosazuje tzv. měkké (soft)
rozhodování na rozdíl od tradičního booleovského (hard) rozhodování. Např. na místo
rozhodnutí, zda oblast je či není ohrožena půdní erozí, poskytujeme pravděpodobnost, s jakou
je celá oblast (či její části) ohrožena. To umožňuje přijmout finální rozhodnutí na základě
úrovně rizika, kterou jsme ochotni akceptovat. Např. rozhodneme o vyslání týmu
zemědělských odborníků na návštěvu oblastí, kde je pravděpodobnost půdní eroze větší než
70%. Nebo se úroveň akceptovatelného rizika upraví podle finanční částky, kterou jsme na
řešení ochotni vynaložit.
Zavádění měkkých rozhodovacích pravidel vyžaduje rozvoj schopnosti řídit neurčitost v GIS.
Vyžaduje datové struktury vhodné k nesení informací o neurčitosti a revizi existujících
postupů pro ocenění a šíření chyb či jiných forem neurčitosti, a pro jejich vizualizaci.
Dalším novým fenoménem spojeným s neurčitostí, jsou podle Kubíčka (2012) nové zdroje
dat, vytvářené společně „veřejností“ (participativní mapování, volunteered geographic
information VGI). Goodchild (2008, in Kubíček 2012) parafrázoval termín Web 2.0 a zavedl
název „Spatial Accuracy 2.0“. Poukazuje na koncept vzniku „mash up“ a zapojení široké
veřejnosti nejenom do využití, ale také do samotné tvorby geografických dat a s tím
související potřebou popsat kvalitu a nejistotu takto vzniklých dat. Taková data často
umožňují opětovné změny dat založené na kolektivní inteligenci (crowdsourcing), která
vychází z principu, že informace získaná pomocí skupinového konsensu má vyšší kvalitu, než
informace poskytnutá jednotlivcem.
Význam neurčitosti spočívá především v:
1. Lepší pochopení reality, jejího skutečného významu, „pravdy“ ve vědeckém bádání
2. Umožňuje ochranu při sporech. Nejisté výsledky mají být prezentovány jako nejisté
s vyjádřením míry nejistoty. Tím se předejde špatnému použití a interpretaci, následně
i možným sporům.
3. Podpora rozhodování - rozhodování provedené nad výsledkem modelování nějakého
jevu. Kromě toho ale také rozhodování, zda nepotřebujeme další, či detailnější data
pro model, nebo přesnější popis modelu (v důsledku přesnější podklad pro
rozhodování). Rozhodování nad výsledkem modelování s popsanou nejistotou vede ke
zvýšení pravděpodobnosti správného rozhodnutí.
Závěrem je nutné zdůraznit, že problematika neurčitosti v geoinformatice se dotýká všech:
producentů dat, výrobců a prodejců programového i technického vybavení, a v neposlední
řadě uživatelů.
Shrnutí:
Reálný svět je pro nás jako celek komplexní, je pro nás poznatelný a pochopitelný
jen zčásti. Informace o něm nejsou dokonalé. Model je zjednodušenou, subjektivní
a účelovou reprezentací světa. Rozhodování vždy obsahuje neurčitost, proto je
výhodné „soft“ rozhodování. Význam neurčitosti je v lepším pochopení reality,
podpoře rozhodování a ochraně při sporech.
Kontrolní otázky: 1) Proč není možné vytvořit dokonalou reprezentaci světa, jeho digitální
kopii?
2) Co znamená „soft“ rozhodování?
3) V čem spočívá význam neurčitosti?
2 Neurčitost – základní vymezení a rozdělení
Cílem kapitoly je vysvětlit různé pohledy na neurčitosti, její příčiny a projevy
zejména v oblasti geoinformatiky, provést základní rozdělení neurčitosti a
podrobně popsat a vysvětlit její základní typy, zejména forem spojených s daty.
Stručný obsah kapitoly:
Definice a různé pojetí neurčitosti
Zdroje neurčitosti
Základní rozdělení neurčitosti na nepřesnost, nejednoznačnost a vágnost
Vysvětlení jiných přístupů a klasifikací neurčitosti
Vysvětlení precision, accuracy, vágnosti, nejednoznačnosti
Získáte znalosti o:
základních typech neurčitosti a jejich projevech
principiálních příčinách neurčitosti
různorodosti vědeckých přístupů k této problematice a odlišnostech pojetí
Budete umět:
rozlišovat formy neurčitosti
chápat příčiny neurčitosti
vztahy a podmíněnost mezi jednotlivými formami a třídami neurčitosti
Budete schopni:
rozpoznat přítomnost různých forem neurčitosti ve vámi řešeném
problému
navrhnout vhodná protiopatření
ocenit dopad neurčitosti na výsledek
Času potřebný na nastudování kapitoly – 2 hodiny
Je příznačné, že koncept neurčitosti, její definice a strukturování (rozklad) na složky je
přinejmenším tak neurčitý, jako neurčitost sama. Různí autoři používají odlišné přístupy i ve
vymezení základních pojmů, které se týkají neurčitosti či nejistoty.
Neurčitost je intuitivně vnímána jako širší koncept než nejistota. Pokud hovoříme o nějakém
tvrzení, že je neurčité/určité, poskytuje to širší prostor pro interpretaci, než prohlášení, že
tvrzení je nejisté/jisté. Podle Bruse (2013) je neurčitost převážně spojována s nepoznáním,
zatímco nejistota spíše s náhodností podmínek či výsledků určitých procesů a jevů. Přesto
v tomto textu budou používány oba pojmy jako synonyma.
Caers (2011) vysvětluje, že neurčitost (uncertainty) je způsobena neúplným
porozuměním toho, co chceme kvantifikovat. Upozorňuje, že kvantifikace neurčitosti není
triviální.
Neexistuje žádná „správná“ neurčitost, jinými slovy nikdy nebudeme vědět, zda námi
použitá kvantifikace neurčitosti je nejlepší možná, ba dokonce ani to, zda je korektní.
Existence správné neurčitosti by totiž znamenala perfektně poznat daný jev, což byla ale
automaticky zrušilo naši potřebu hodnocení (kvantifikace) neurčitosti, protože by byl jev
dokonale poznán bez neurčitosti.
Neurčitost nemůže být objektivně měřena. Důvodem je to, že ji zkoumáme prostřednictvím
modelu, o kterém jsme již prohlásili, že je subjektivní. Každé hodnocení neurčitosti je
založeno na určitém modelu a každý model vyžaduje implicitní nebo explicitní předpoklady,
výběry dat, kalibraci modelu apod., které jsou nutně subjektivní (Caers, 2011).
Za kvalitní informaci lze považovat pouze takovou, která užitečná a použitelná pro svého
„spotřebitele“, tj. je přesná, důvěryhodná a dostatečná pro rozhodování uživatele. Do procesu
tak vstupují tacitní a explicitní znalosti a zkušenosti původce a příjemce informace, proto je
zajímavé uvažovat také o efektivní kvalitě informací – skutečné užitečnosti, kdy důležitým
faktorem jsou samotné schopnosti uživatele. Pro uživatele, kteří nemají dostatečné schopnosti,
nebude informace kvalitní (užitečná), ale naopak může kvalita prezentované informace
dokonce poklesnout. Tuto skutečnost také odráží běžně používané definice kvality „vhodnost
pro použití“ (Beard et al., 1991, Hunter 1999, Chrisman, 1984, in Brus, 2013).
Nejistotu lze definovat podle Kubíčka (2012) jako skepticizmus, nedůvěra, podezření či
nedostatek jistoty o něčem. Může také vyjadřovat chybějící jistoty či chybějící ucelenou
znalost o výsledku (Abbaspour a kol. 2003) či nekompletní znalost, která neumožňuje exaktní
vyjádření (Foody a Atkinson, 2002, in Caha, 2013). To však ukazuje na význam nejistoty jen
při kritickém přístupu k hodnocení, navíc má vyjádření negativní charakter, přestože
neurčitost by měla mít neutrální vyjádření.
Nejistota ve vědeckém vyjádření se používá k vyjádření faktu, že jistá míra variability,
neurčitosti, nejasnosti či náhodnosti dat a procesů je zcela přirozená (Drosg, 2007, in Caha,
2013).
Jaké jsou zdroje neurčitosti? Podle Caers (2011):
Náhodnost procesů. Jednotlivé procesy mohou být vnitřně náhodné, mohou vykazovat
chaotické chování. Poměrně populární je obrazné vyjádření tzv. efektu motýlích
křídel, kdy mírné mávnutí křídel motýla nad pobřežím západní Afriky může způsobit
velký hurikán, který zasáhne USA. To ukazuje na možnou extrémní podobu
chaotického chování a zejména vlivu drobných faktorů na následující rozvoj
nelineárních systémů, které způsobuje jejich omezenou predikovatelnost. Týká se to
jak přírodních, tak i společenských jevů (např. při studiu lidského chování, sociální či
kulturních tendencí nebo technologických pokroků).
Omezení porozumění. Problém se týká jak tvůrce modelu, tak uživatele jeho výsledků.
„Přibližně víme“ (we roughly know). Typicky zde řadíme chyby měření. Každé
měření či zjištění je zatíženo určitou chybou (nejistotou). Principiálně je tu možné
vidět vazbu na problém kvantifikace signálu.
„Mohli bychom vědět“ (we could have known). Málokdy jsme schopni jev proměřit
v celém rozsahu – prostorovém i časovém. Používáme měření/zjištění na vybraných
místech a ve vybraném čase, což odpovídá vzorkování. Použité vzorkování vede
k neurčitosti tohoto druhu. Mohli bychom vědět více – pokud zvýšíme frekvenci
vzorkování (v případě náhodnosti procesů to ale nepomůže).
„Nevíme, co víme“ (we do not know what we know). Různé datové sady či
pozorování mohou být interpretovány odlišně jinými lidmi a to poskytuje široké
spektrum závěrů.
„Nevíme, co nevíme“ (we do not know what we do not know). Tato neurčitost se váže
ke skutečnosti, že o některých existujících či možných jevech a procesech nevíme, ani
si je neumíme představit. Logicky proto o nich nemůžeme nic zjišťovat. Tato
neurčitost se označuje jako epistémická neurčitost.
„Nemůžeme vědět“ (we cannot know). Neurčitost spojená s faktem, že některé jevy
nemůžeme měřit z důvodu jejich podstaty či vzdálenosti. Jako příklad se uvádí
vlastnosti vnitřního jádra Země.
K lepšímu pochopení je možné uvést příklady.
Při práci s geodaty je možno se setkat s následujícími informacemi (Růžičková, 2013):
1. Zobrazený objekt je budova, obsah dusíku v půdě je xxx g/m3, koncentrace NOx ve
vzduchu nad xxx způsobuje xxx.
2. Budova je vysoká, kontaminace půdy dusičnany není kritická, zvýšený obsah
dusičnanů v ovzduší při dlouhodobém působení na lidský organismus způsobuje
respirační problémy.
3. Budova má výšku asi 10 m, obsah dusíku v půdě se pohybuje okolo xxx g/m3,
koncentrace NOx ve vzduchu nad cca xxx je škodlivá.
4. Budova je asi vysoká, kontaminace půdy dusičnany nejspíš není vysoká, vyšší
kontaminace vzduchu NOx je pravděpodobně škodlivá.
První tvrzení žádnou neurčitost zdánlivě neobsahuje. Přesto se zde skrývá nejednoznačnost
v tom, co chápeme pod pojmem budova, půda, vzduch.
Druhé tvrzení používá vágní pojem „vysoká“. Není specifikováno, od jaké výšky jsou už
budovy „vysoké“ a jaké ještě jsou „nízké“. Podobně vágní jsou pojmy „zvýšený“,
„dlouhodobý“.
Ve třetím tvrzení se objevuje nejistota vyjádřená slovy „asi“, „okolo“. Neznáme přesnou
výšku budovy a odhadujeme, že je přibližně 10 m.
Ve čtvrtém tvrzení se pak objevuje kombinace všech výše uvedených neurčitostí.
Dodejme, že každá z neurčitostí je ovlivňována i subjektivním posouzením toho, kdo
příslušný výrok a jeho části posuzuje - tedy jaký je jeho názor na to, co je „vysoká“ budova,
jaký rozptyl mají mít hodnoty „okolo“ určité hodnoty, jak on chápe objekt „půda“.
Je zřejmé, že některá označení mají mnohem menší neurčitost než jiná. Výrok „nadmořská
výška Sněžky je 1603 m.n.m“ ponechává výrazně menší prostor pro různorodou interpretaci
(a je tedy mnohem méně neurčitý) než výrok „lidé v Horní Lhotě jsou šťastní“.
Další příklad zkoumá neurčitost vymezení hranice přírodní rezervace. Vyhláška, která hranici
definuje, stanovuje, že např. hranice rezervace sleduje silnici č. 222 až k železnici a dále
sleduje železnici až k mostu přes řeku Odru. Jenže kde přesně vede hranice na silnici či na
kolejovém tělese? Lze to vůbec určit správně? S jakou přesností, ±5 m? Tento typ hranice
není geometricky vymezen, ale je typem logického a topologického vymezení. Logického ve
smyslu navázání hranice na reálné objekty, které skutečně omezují (ve smyslu fyzické
bariéry) chráněné území, protože brání migraci a do určité míry chrání před některými
vnějšími vlivy a omezují v pohybu. Silniční těleso, železniční těleso či řeka budou jistým
způsobem omezovat migraci organismů, zejména některých nižších živočichů. Topologického
ve smyslu charakteru této hranice – pokud se změní průběh řeky (v důsledku vodní eroze či
regulace koryta), musí se změnit i hranice rezervace, nelze ji posunout na druhou stranu řeky,
i když se tím změní výměra, tvar a další geometrické atributy. Současně se tím mohou měnit
i vlastnické vztahy, protože parcely nejsou vymezovány topologicky vůči přírodním prvkům.
Podle Longley et al. (2005) se liší geoinformatika (GIscience) od ostatních oborů tím, že
zpravidla chybí přirozené jednotky analýzy.
Jaký je prostorový rozsah akumulace vysoké nezaměstnanosti? Nebo shluku případů
rakoviny? Vnímáme problém, jak vymezit hranice takové akumulace a rovněž, jak hodnotit
intenzitu uvnitř této akumulace.
Pokud máme více proměnných než jen jednu, je problém o to složitější.
Další typ problému se týká vztahů mezi jednotkami, resp. měřítka zkoumání tohoto vztahu.
V jakém měřítku zkoumat vztah mezi radiací pozadí a výskytem leukémie? Určitě je to
individuální charakteristika, proto by měla být zjišťována pro konkrétní osoby, aby se
zabránilo ekologické chybě. Následně ji ale musíme agregovat z důvodu ochrany údajů
a rovněž pro eliminaci nahodilostí v projevu vztahu a získání statisticky významných údajů.
Podobně se můžeme ptát, při jakém měřítku (resp. pro jaké územní jednotky) ocenit vztah
mezi kvalifikací pracovní síly a mírou nezaměstnanosti.
Longley et al. (2005) upozorňuje, že biologické organismy mají více zjevné přirozené
jednotky analýzy, protože přirozeně seskupují jedince do rodin, do smeček.
Typické otázky spojené s neurčitostí v GIS jsou podle Longley et al. (2005):
Jsou hranice zóny ostré a dobře definované?
Je zařazení příslušného území do zvolené třídy dostatečně robustní a zdůvodněné?
Tyto otázky mají své implikace (dopady):
statistické implikace - jaké konfidenční intervaly zvolit pro stanovené hranice resp.
pro přiřazenou hodnotu třídy?
kartografické implikace - jak vyjádřit neurčitost průběhu hranic nebo přidělených
označení pomocí vhodných symbolů na mapách či v elektronické reprezentaci?
kognitivní implikace - musíme skutečně vše třídit, abychom více zjednodušili a lépe
pochopili svět?
Jedním ze zásadních důvodů, proč je jednodušší zahrnout nejistotu dat do modelu, než se ji
snažit odstranit, je tzv. princip inkompatability (Zadeh 1975, in Caha, 2011). Ten říká, že
roste-li složitost systému, klesá schopnost formulovat přesné a významné soudy o jeho
chování, až do takového bodu, kdy jsou přesnost a relevantnost vzájemně se vylučující
charakteristiky. Na základě toho principu lze vyvodit tvrzení: Abychom mohli s relevantním
objemem dat vymezit prostorový objekt, musíme připustit jistou nepřesnost v jeho vymezení.
Míra této nepřesnosti bude záviset na množství dat, které o daném objektu máme a dále také
na tom, jak je daný objekt vágní ze svojí podstaty (Caha, 2011).
2.1 Základní rozdělení
Variant rozdělení neurčitosti je celá řada a výrazně to souvisí s definicí jednotlivých typů
neurčitosti. Pro základní rozdělení použijeme klasifikaci podle Shi (2010), kde se neurčitost
(uncertainty) dělí na nepřesnost (imprecision), nejednoznačnost (ambiguity) a vágnost
(vagueness):
nepřesnost (imprecision) – je nedostatek specifičnosti nebo nedostatek detailu při
pozorování (Worboys, Duckham 2004). Týká se úrovně variací, spojených se sadou
měření nebo s nedostatkem přesnosti kvality (quality precision) (Shi 2010). Pro její
hodnocení se užívá teorie pravděpodobnosti a statistika. Nepřesnost je měřitelná. Je to
něco, co vzdaluje naměřenou hodnotu od hodnoty správné. Je třeba odlišit vnitřní
(aleatorní) nepřesnost a nepřesnost poznání (epistémickou). Epistemická nepřesnost je
způsobena limitami měřícího zařízení nebo lidské schopnosti percepce, zpracování či
nedostatkem dat k posouzení (Kubíček 2012).
Většinou zde řadíme chyby (nepřesnosti) v datech, jako jsou např.:
Chyby v poloze objektu – chyby měření polohy.
Chyby v kvantitativních atributech – chyby změřené teploty, srážek, průtoku,
obsahu ozónu apod.
Chyby v kvalitativních atributech – chyby určení vlastníka parcely, určení typu
budovy, druhu pozorovaného zvířete apod.
Méně často můžeme vyjádřit i nepřesnosti ve vztazích. Např. přesnost vztahu
popisovaného regresní závislostí, který byl získán proložením regresní funkce body, závisí
na počtu bodů a míře korelace (či asociace); čím vyšší je počet bodů (promítá se do
významnosti vztahu) a čím vyšší je míra korelace, tím přesnější je uvedený vztah.
nejednoznačnost (ambiguity) – týká se buď 1 nebo více vztahů nebo nedostatku jasnosti,
který implikuje 1 nebo více významů. Např. problém, do které třídy zařadit objekt
(u družicových snímků). Podle Fisher et al. (2006) lze rozlišit 2 základní typy
nejednoznačnosti – konflikt a nespecifičnost (viz dále). Popisuje se pomocí např. měr
konfliktu (discordance measures), měr zmatení (confusion measures), měr nespecifičnosti
(nonspecifity measures). Můžeme rovněž rozlišit lingvistickou (sémantickou)
nejednoznačnost a ontologickou (konceptuální) nejednoznačnost.
vágnost (vagueness) – neurčitost ve vymezení objektů (jejich ohraničení i v klasifikaci)
podle Longley et al. (2005) nebo nedostatek jasnosti ve významu (Shi 2010). Běžně je
spojen s obtížemi udělat ostrou hranici (rozlišení) u objektu reálného světa. Pro řešení se
používá teorie fuzzy množin. Protikladem k vágně vymezeným množinám jsou ostré
množiny (crisp), které mají ostré hranice, resp. její prvek buď jasně patří do množiny nebo
nepatří (Worboys, Duckham 2004). Je možné rozlišit ontologickou vágnost, epistemickou
vágnost a sémantickou (lingvistickou) vágnost.
S trochou nadsázky lze tedy říci, že pravděpodobnost nám odpovídá na otázku, zda „něco
nastane“, „zda je něco správně“, či nakolik je správný vztah příčina-důsledek, zatímco teorie
fuzzy množin nám odpovídá na otázku „co vlastně nastalo“.
Podle Nováka (2000) má neurčitost (nejméně) dvě vzájemně komplementární stránky -
vágnost a nejistotu. Ne všichni ale vymezují neurčitost a zpravidla vágnost je řazena až jako
jeden z aspektů nejistoty. To ovšem souvisí s jejich definicemi.
Podle Murgante et al. (2009) a Fishera et al. (2006) je třeba rozlišit dobře definované (well-
defined) a slabě definované (poor-defined) geografické objekty a jejich data.
Podle Murgante et al. (2009) se prostorová data dobře definovaných objektů zpracovávají
s využitím teorie pravděpodobnosti a/nebo pomocí multikriteriální analýzy (MCE). U slabě
definovaných objektů rozlišuje:
nejednoznačnost (ambiguity), u nichž uvádí jako podtyp pouze konflikt (diskordanci,
discordance) (srovnej dělení Fishera),
nepřesnost (inaccuracy), jejímž podtypem je chyba (error), a
vágnost (vagueness), kterou je možné řešit pomocí 3 přístupů:
o funkce členství a s tím spojená teorie fuzzy množin
o teorie vaječného žloutku (egg-yolk theory)
o nerozlišitelnost (indiscernibility) řešenou pomocí teorie hrubých množin
(rough set theory)
Obrázek 1 Rozdělení typů neurčitosti a způsobů řešení dle Murgante et al. (2009)
Vysvětlivky: spatial information –prostorová informace, under uncertainty – za neurčitostí, well-defined data –
dobře definovaná data, probability – pravděpodobnost, M.C.E. – multikriteriální hodnocení, poorly defined data
– špatně definovaná data, ambiguity – nejednoznačnost, diskordance – nesoulad, innacuracy – nepřesnost, error
– chyba, vagueness – vágnost, membership function – funkce příslušnosti, fuziness – mlhavost, egg-yolk theory
– teorie vaječného žloutku, indiscernibility – nerozlišitelnost, rough set – hrubé množiny
Je třeba podotknout, že v obr. 1 vyznačené rozhodování za určitosti je spíše hypotetické,
protože jde zpravidla jen o projev zanedbání všech vlivů ve zjednodušeném modelu. Dokonce
lze říci, že konkrétní data vždy zpravidla „trpí“ všemi typy neurčitosti.
Další dělení popisují Fisher et al. (2006) (obr. 2). V případě dobře definovaných objektů (jak
třída objektů, tak i jednotlivý výskyt objektu) a současně v situaci, kdy pozorování jsou
považována za objektivní, jsou zdrojem neurčitosti chyby a povaha neurčitosti je
pravděpodobnostní.
Pokud je třída objektů nebo samotný objekt slabě definován (poorly defined), potom je možné
rozlišit následující typy neurčitosti (Fisher et al., 2006):
Pokud je neurčitost způsobena slabou definicí třídy objektů nebo instance objektu,
potom je definice třídy nebo množiny v univerzu diskurzu předmětem vágnosti
(vagueness). Tu je možné řešit s pomocí teorie množin nebo jiných formalismů jako je
např. super-hodnocení (super-valuation).
Neurčitost může být dále způsobena nejednoznačností (ambiguity), kterou se rozumí
zmatení (confusion) v definici množiny v univerzu diskurzu. Podle Klir, Yuan (1995,
in Fisher et al., 2006) má 2 formy:
o Konflikt (discord) v případě, kdy je sice objekt či jedinec jasně definován, ale
ukazuje se, že může být členem více než 1 třídy podle různých klasifikačních
schémat či interpretace důkazů. Mluvíme o konfliktu klasifikačního schématu
informace. S konfliktem se pracuje pomocí sémantiky a ontologií, řešení se
získává na základě porozumění sémantice klasifikačních schémat (expertní
řešení) a může být formalizováno pomocí metod umělé inteligence, včetně
Dempster-Shaferovy teorie.
o Nespecifičnost (non-specificity) v situaci, kdy je proces přiřazení objektu do
třídy závislý na interpretaci. I v tomto případě se pro řešení používá řada
metod umělé inteligence, včetně schvalovací teorie (endorsement theory), ale
lze použít i teorii fuzzy množin.
Obrázek 2 Rozdělení typů neurčitosti a způsobů řešení dle Fisher et al. (2006).
Vysvětlivky: uncertainty – neurčitost, well-defined object – dobře definovaný objekt, error – chyba, probability
– pravděpodobnost, poorly defined object – špatně definovaný objekt, vagueness – vágnost, fuzzy set theory –
teorie mlhavých množin, ambiguity – nejednoznačnost, discord – rozpor, expert opinion – expertní názor,
Dempster-Schafer - Dempster-Schaferova teorie, non-specifity – nespecifičnost, endorsement theory –
schvalovací teorie
V souvislosti s krizovými jevy člení Říha a kol. (2005, in Kubíček 2012) nejistotu do dvou
základních kategorií:
Inherentní nejistota (aleatorní) – termín inherence označuje vnitřní příslušnost,
sounáležitost vlastností a jejich nositele. Inherentní má pak významy jako „obsažený
v něčem, lpící v něčem“. Slovo aleatorní, které se často vyskytuje v zahraniční
anglicky psané literatuře, pak vyjadřuje spojitost s náhodou. Inherentní nejistotu
nejsme schopni do budoucna ovlivňovat, protože je plně spjata s nahodilostí okolního
reálného světa. Inherentní nejistoty se mohou vyskytovat v prostoru, v čase, případně
v obojím (Kubíček 2012).
Jde o vnitřní variabilitu, vnitřní nejistotu. Jejím důsledkem je, že ani zvýšení množství
pozorování (dodatečná měření) nevedou k přesnější reprezentaci.
Tato nejistota se nejvíce promítá do „nepřesnosti“. Nahodilost objektů a jevů se
projeví především v chybě při opakování měření (či při měření v těsné blízkosti, kde
se projevuje efekt zbytkového rozptylu, nugget effect, viz Horák, 2013b), tedy musí
dojít ke zvýšení nepřesnosti.
Tato nejistota často souvisí i s ontologickou vágností, tedy s problémy konceptuálně
vymezit objekty a jevy, kdy vzniká více různorodých tříd, s vyšší vnitřní
heterogenitou.
Nejistota poznání (epistémická) – pochází z nedostatku znalostí událostí nebo jevů,
nebo z nedostatku dat, ze kterých jsou vyvozovány závěry. Lze předpokládat, že tato
nejistota se bude v budoucnu snižovat na základě kvalitnějších podkladů nebo nových
poznatků (Kubíček 2012).
Lze ji chápat jako nejistotu reprezentace. Očekává se monotónní charakter poznání,
kdy dalším přidáním dat se snižuje nejistota.
Zdrojem nejistoty poznání může být nejistota modelu (numerická či věcná), případně
nejistota ve stanovení vstupních parametrů (Kubíček 2012).
2.1.1 Nepřesnost a přesnost
Přesnost má v angličtině dva významy, precision a accuracy, mezi kterými je nutné rozlišovat.
Precision má blízko k rozlišitelnosti, zatímco accuracy ke správnosti (viz podrobně další
výklad). Rovněž byla zvažována možnost pojmenování relativní přesnost pro precision
a absolutní přesnost pro accuracy. Avšak accuracy se v jistém kontextu dále dělí na absolutní
a relativní, což znemožňuje použití takového pojmenování. Protože autor nenašel vhodný
výraz, rozlišuje nadále oba typy přesnosti pomocí indexu p a a.
Jak už bylo uvedeno, nepřesnostp (imprecision) je chápána jako nedostatek specifičnosti nebo
nedostatek detailu při pozorování (Worboys, Duckham 2004).
Přesnostp (precision) je tedy chápána jako míra podrobnosti, detailu, schopnosti změřit
podrobnější údaje.
Přesnosta (accuracy) je podle Longley et al. (2005) vyjádřena rozdílem mezi realitou a
naší reprezentací reality. Tento rozdíl může vyjádřen různými matematickými vztahy, ale
slůvko „naši“ naznačuje rozdílnost pohledů, které vznikají jako odraz komplexního,
mnohaměřítkového a vnitřně neurčitého světa. Termín říká, jak odpovídající je popis reality.
Pro lepší pochopení lze uvést, že precision popisuje de facto potenciál přesnosti, to, jak
přesně můžeme měřit, jak přesná je naše metoda měření, jak přesný je přístroj. Oproti tomu
accuracy určuje, jak přesně jsme provedli konkrétní zjištění (vůči realitě), jak přesný je náš
„zásah“.
Přesnosta se dříve spojovala s pravděpodobností správného určení (polohy), v zásadě jako
míra korelace mezi realitou a reprezentací.
Worboys, Duckham (2004) vymezuje inaccuracy jako nedostatek korelace mezi pozorováním
a realitou. Upozorňuje, že nepřesnostp (imprecision) a nepřesnosta (inaccuracy) jsou na
sobě nezávislé (ortogonální vlastnosti). Např. „tato kapitola je psána v Evropě“ je akurátní
(bezchybné) prohlášení, ale málo detailní, tedy nepřesné.
Mezi přesnostmi ve smyslu precision a accuracy je zásadní rozdíl (Fisher et al., 2006).
Přesnostp indikuje rozlišení, se kterým můžeme měřit jev s určitým nástrojem nebo metodou.
Současně ale také znamená schopnost získat tutéž hodnotu při opakování daného měření.
Dobrá přesnostp (precision) se projeví nízkou variabilitou hodnot.
Přesnostp může být omezena schopností ukládat podrobnější údaje (data jsou ukládána
s datovým typem, který neumožňuje záznam dat vyšší přesnosti), z toho potom vyplývá chyba
v rozmezí daném hodnotovým rozlišením.
Dobrý příkladem vyjádření přesnostip je běžně používané empirické pravidlo, podle kterého je
přesnostp (precision) akceptovatelná, pokud způsobí chybu menší než 0,1 mm na výsledné
mapě.
Naopak přesnosta (accuracy) souvisí s pravdou (střed na obr. 3) a tím, jak přesně data
reprezentují sledovaný reálný jev (Fisher et al., 2006). Nepřesnosta (inaccuracy) vzniká mimo
jiné chybami měření, a může být spojena se systematickými metodickými problémy, těmi,
které jsou způsobeny nedokonalou povahou metody používané k získání dat, a použitím
nevhodných procedur zpracování digitálních dat (např. použitý číselný rozsah je příliš úzký
pro prováděnou řadu výpočtů, což vede k automatickému ořezávání dat v každém kroku).
Tyto systematické chyby by měly být popsány co nejúplněji v popisu rodokmenu (lineage)
dat, i když je jejich vliv také pozorován v doméně geometrické přesnosti (tj. v jiném prvku
kvality dat) (Fisher et al., 2006).
Přesnosta (accuracy) se dříve popisovala jako pravděpodobnost správného vyjádření (polohy),
odpovídá jí míra korelace mezi realitou a reprezentací.
Připojovací měření polygonem ze známého bodu může mít velkou přesnostp (precision), ale
malou přesnosta (accuracy) - pokud není výchozí bod správně určen, bude i výsledná poloha
bodů připojených polygonem určena vůči realitě nepřesně.
Rozdíl mezi oběma typy přesnosti lze dobře vysvětlit na příkladu střeleckého terče. Pokud
jsou zásahy málo rozptýlené, ale celý shluk posunut výrazně ze středu terče, je to doklad
situace, kdy mluvíme o nízké vnitřní variabilitě a malých náhodných chybách, ale současně
velké absolutní systematické chybě. Výsledné umístění rány získáme skládáním obou chyb
(určitá analogie skládání rozptylu).
Obrázek 3 Srovnání přesnostip a přesnostia (precision and accuracy) (Fisher et al., 2006)
Označení údaje za „přesný“ je třeba chápat jako relativní vyjádření spokojenosti s jeho
určením, v reálném světě zřejmě neexistuje nic absolutně přesného.
Přesnost je měřitelná vlastnost. Pro hodnocení přesnosti se užívá teorie pravděpodobnosti
a statistika.
Je třeba odlišit vnitřní (inherentní) nepřesnost a nepřesnost poznání (epistémickou).
S nepřesnostíp je spojen problém vzorkování (viz teorie signálů).
S nepřesnostíp je rovněž těsně spjata granularita (Worboys, Duckham 2004, s. 333).
Vztahuje se k existenci shluků (clumps) nebo zrn v pozorování nebo reprezentaci, uvnitř
kterých nemůžeme rozlišit individuální detaily. Granularita má vazbu na nerozlišitelnost
(indiscernibility). Nerozlištitelnost říká, že konečná množina prvků je nerozlišitelná, pokud
libovolný pár prvků nelze rozlišit od sebe pomocí pozorování. Je to vlastnost reflexivní,
symetrická a tranzitivní.
Granularitu lze uplatnit i pro tematický prostor nejenom pro fyzický prostor. Příkladem je
rozlišitelnost tříd klasifikace.
Zpravidla s nepřesností jako typem neurčitosti je spojen pojem chyby.
2.1.2 Vágnost
Podle (Worboys, Duckham 2004, s. 335) je epistemická (epistemic) vágnost vyjádřením
toho, že naše reprezentace objektu světa je vágní, nevnímáme ho úplně a dokonale.
Ontologická (ontic) vágnost popisuje, že sám objekt světa či svět je vágní (jeho koncept).
Pojem „hora“ je vágní v realitě, v důsledku toho je vágní i koncept a tudíž je ontologicky
vágní, a vágní je výraz „hora“ i z hlediska lingvistického. Problémem je především podstata
vymezení hory – pokud bych ji chtěl kvantifikovat, musel bych zřejmě udat minimální plochu
podstavy, minimální výšku či minimální objem.
Vágnost vymezení je dosti častá – stačí porovnat definice i relativně jednoduchých objektů
jako je třeba budova v jednotlivých zákonech.
Příkladem vágního označení je „jižní Evropa“? Malta jistě leží v jižní Evropě, ale když
budeme postupovat k severu, která oblast už nepatří do jižní Evropy? Tyrolsko?
Worboys, Duckham (2004) upozorňuje, že ne každá nepřesnost je vágní (např. tvrzení „osoba
je lokalizována v USA“ není vágní, ale je to nepřesnép). Ale každá vágnost musí být také
nepřesná (vést k nepřesnosti), protože hranice nejsou vymezené.
Lze změřit „přesně“ šířku silnice? Jak je definován okraj silnice, je to jednoznačné? V kterém
místě se má šířka měřit?
Jiným častým příkladem je vymezení okolí města, např. Olomoucko (Caha, 2011). Přesné
prostorové vymezení není možné, ale lidskému myšlení a chápání je takové určení blízké.
Ještě hůře se kvantifikují vlastnosti přírodních objektů. Zkuste změřit šířku údolí.
Klasické formy vágnosti hranic popisují paradox hromady (sorites paradox) nebo paradox
plešatosti:
Mějme hromadu kamení. Postupně z ní odebírejme kameny. Ve kterém okamžiku
přestane hromada existovat?
Mějme plešatého muže. Pokud mu vyroste na hlavě jeden vlas, jistě zůstává nadále
plešatý. Pokud budeme postupně přidávat vlasy, ve kterém okamžiku přestane být
plešatý?
Jedním z projevů vágnosti je neurčitost v určení hranic – hranic území, ale také hranic
tematických tříd či časových určení.
Smith (1995, in Kubíček 2012) navrhnul možnou klasifikaci hranic (On drawing Lines on
a Map). Prezentuje zde obecnou typologii prostorových hranic založenou především na
základním rozdílu mezi bona fide neboli fyzickými hranicemi na straně jedné a fiat neboli
lidmi podmíněnými hranicemi na straně druhé. S daným rozdílem jsou spojeny další
problémy v oblasti vymezování hranic například mezi ostrými a nejasnými hranicemi (crisp
and indeterminate), úplnými a neúplnými (complete and incomplete), symetrickými
a nesymetrickými (symmetrical and asymmetrical) (Kubíček 2012).
Příkladem přirozených (bona fide) hranic jsou např. hranice ostrova nebo hranice vymezené
řekou. Příkladem umělé (fiat) hranice bývá domluvená hranice státu.
Dobře definovanými fiat objekty jsou podle Fisher et al. (2006) např. sčítací obvody (přesně
vymezené hranice určené statistickým úřadem, postupně se seskupují a tvoří úplnou
a neměnnou hierarchii) nebo parcely v západních společnostech (které považují koncept
vlastnictví za důležitý, jejich hranice jsou často vyznačeny v terénu a ukazují ostrou a úplnou
změnu vlastnictví). Často tedy jde o politické, administrativní nebo vlastnické hranice
a jednotky).
Obrázek 4 Taxonomie objektů typu „fiat“ a „bona fide“ (bf=bona fide, f=fiat, o=objekt, p=proces, sb=spatial
boundary, tb=temporal boundary, Earth’surface = zemský povrch, Equator = rovník, your life = tvůj život, century =
století, summer solstice = letní slunovrat). Kubíček (2013), podle Smith (1995)
Klasifikace prostorových a časových hranic objektů a procesů je na obr. 4. Ke každému typu
jsou uvedeny příklady ohraničení: John je objekt přirozeně ohraničený (bfo). Stát Utah je
objekt uměle vymezený (fo). Hranice zemského tělesa je přirozená prostorová hranice (bfsb).
Rovník je uměle vymezenou prostorovou hranicí. Váš život je přirozeně ohraničeným
procesem. Dvacáté století je uměle ohraničeným procesem. Big Bang (velký třesk) je
přirozenou časovou hranicí. Letní slunovrat je uměle určenou časovou hranicí.
Podle Kubíčka (2012) má pobřeží Severního ledového oceánu bona fide hranice, ale přesto
vnímáme tento oceán jako fiat objekt, protože jeho spojení s Atlantským oceánem je tvořeno
hranicí, která neodpovídá typu bona fide a navíc není zcela zřejmé, kde přesně leží. Tento
případ je typický pro řadu dalších geografických hranic kvalitativního typu, jakými jsou
například hranice mezi geomorfologickými tvary reliéfu (svah a údolí). Z tohoto příkladu
vyplývá, že je třeba vymezit další rozdíl mezi ostrými (crisp) a nejasnými (indeterminate)
hranicemi, protože řada geografických objektů (pouště, údolí, duny,..) je vymezena hraniční
přechodnou zónou (oblastí=region), která je do určité míry nejasná.
Většina fiat objektů má ostré hranice, protože je člověk sám definuje. Přírodní objekty (bona
fide) jsou zpravidla slabě definované a mají spíše přechodné (interdeterminate) hranice.
Typickým příkladem je třeba mapování hranic jistého typu lesa. Pro jeho vymezení musíme
použít uměle domluvenou hranici třídy, odpovídající požadovanému výskytu typického
druhu. V realitě však existují různé mezistupně a jistě není pravda, že by při malém snížení
sledovaného výskytu pod daný limit musel být nutně porost přeřazen do jiné třídy. Kromě
vymezení tříd jsou problémy i s vymezením hranic lesa, která je typicky tvořena
přechodovými zónami, jak mezi jednotlivým kategoriemi lesa, tak i na jeho vnější hranici.
Bohužel se stále pravidelně mapuje les pomocí kvalitativních ostrých kategorií, namísto
používání mezistupňů (Fisher et al., 2006) (obr. 5).
Obojí typ neurčitých hranic směřuje k použití fuzzy objektů.
Obrázek 5 Minimální fyzické požadavky pro definování lesa v jednotlivých zemích (Comber et al., 2004, in Fisher et
al., 2006) (tree height – výška stromů, canopy cover – pokrytí klenbou korun)
2.1.3 Nejednoznačnost
Nejednoznačnost (ambiguity) (nejasnost, dvojznačnost) vyplývá zejména z různého označení
geografických objektů a jejich vztahů. Takový aspekt můžeme označit za sémantickou
nejednoznačnost.
Podle Fisher et al. (2006) se nejednoznačnost vyskytuje tam, kde jsou pochybnosti, jak má být
jev klasifikován z důvodu rozdílné percepce tohoto jevu.
Jednoduchým příkladem může být nejednoznačnost pojmenování obce, kdy stejný název
používá několik obcí (Mikulov na jižní Moravě a také v Krušných horách, Kladno ve
Středočeském kraji a také v Pardubickém kraji; podrobný seznam viz tab. 1), či dochází
k záměně názvu obce s částí obce (Vítkov ve Slezsku a Vítkov jako část Prahy) nebo s jiným
typem geografického objektu (Opava jako město nebo jako řeka).
Tabulka 1 Opakování názvů obcí v ČR (stav k 1. 1. 2014)
Nejednoznačné názvy obcí Počet opakování
každého názvu
v ČR
Nová Ves 14x
Němčice, Petrovice 9x
Slatina 8x
Dolany, Pavlov, Sedlec, Vrbice. 7x
Babice, Březina, Březová, Hrádek, Chlum, Lhotka, Osek, Ostrov,
Střítež, Újezd.
6x
Bohuslavice, Borek, Borovnice, Bukovany, Hradiště, Chrášťany,
Janov, Javorník, Kladruby, Ledce, Lipová, Olešná, Olešnice, Podolí,
Radkov, Staré Město, Újezdec, Žďár.
5x
Bělá, Bernartice, Bezděkov, Biskupice, Březí, Čejkovice, Černovice,
Dlouhá Lhota, Kamenná, Kněževes, Komárov, Kostelec, Kozojedy,
Krchleby, Lesná, Lhota, Lukavice, Lukov, Lužice, Markvartice,
Mikulovice, Morašice, Nové Dvory, Obora, Okrouhlá, Olšany,
Ořechov, Přestavlky, Račice, Sedliště, Studnice, Uhřice, Veselá,
Vilémov, Vinařice, Vlkov, Vojkovice, Vysoká, Záhoří, Zhoř, Ždírec.
4x
Adamov, Běleč, Březnice, Břežany, Bystřice, Čistá, Dobšice,
Doubravice, Drnovice, Dřínov, Hartmanice, Heřmanice, Hodonín,
Horní Újezd, Hradčany, Hranice, Hvozd, Hvozdec, Chlístov, Chodov,
Choteč, Chrást, Jankov, Jankovice, Jesenice, Jestřebí, Jindřichov,
Kadov, Kaliště, Kámen, Karlovice, Kluky, Kněžice, Kobylnice, Kouty,
Kozlov, Křenovice, Kyjov, Lány, Lažany, Líšná, Líšnice, Lom,
Lomnice, Loučka, Lubná, Lužany, Mirošov, Mnichov, Moravany,
Nasavrky, Němčičky, Opatov, Pěnčín, Petrov, Písečná, Písek,
Podhradí, Police, Popovice, Radošovice, Rataje, Rovná, Sázava, Seč,
Sedlice, Skalice, Skryje, Skuhrov, Slavětín, Smilovice, Staňkovice,
Střelice, Střížovice, Sudice, Sušice, Svojšice, Šanov, Trstěnice,
3x
Tučapy, Ústí, Vážany, Vestec, Višňová, Voděrady, Vranov, Vysoký
Újezd, Záblatí, Zbýšov, Zvole, Ždánice.
Albrechtice, Andělská Hora, ..., Žiželice, Županovice. - celkem 421
obcí
2x
Každá skupina lidí vnímá svět odlišně a proto i pojmenovává tytéž objekty různě. Rovněž
geografické předložky jako nad, v, před atd. nejsou chápány stejně a ještě více se různí jejich
význam v jiných jazycích. GIS nemůže reprezentovat neutrální pohled na svět, může pouze
poskytnout prostředí pro sjednocení různých pojetí světa. Dokonce můžeme zkoumat
geografický charakter této nejednoznačnosti a identifikovat různé regiony, které se liší
pohledem na svět.
Názvy objektů a jejich topologických vztahů jsou vnitřně nejednoznačné. Vnímání, chování,
jazyk nebo poznání lidí hrají významnou roli při konceptualizaci (tj. při tvorbě modelu).
Kromě výše uvedených příkladů spíše sémantické nejednoznačnosti uvedeme ještě příklady
ontologické, konceptuální nejednoznačnosti. Velmi blízko k tomu má i ontologická vágnost.
Ontologickou nejednoznačností rozumíme např. existenci variant postupu výpočtu různými
cestami s využitím různých konceptů; přitom není jasné, který z nich je správný.
Ontologickou vágností chápeme problém ve vymezení pojmů, pochopení indikátorů,
ohraničení.
Podle Fisher et al. (2006) jsou rozlišovány následující 2 typy nejednoznačnosti:
1. konflikt (discord)
Typickým příkladem geografického konfliktu je označení příslušnosti území z důvodu sporu
dvou národů o jeho vlastnictví.
Které zemi patří Krym? Ukrajině nebo Rusku?
Kašmír je území mezi Indií a Pakistánem, na které si obě země dělají nárok. Jak potom území
zobrazit na politických mapách? Jaký vážný dopad to může mít, poznal pozdě Microsoft,
když indická vláda zastavila prodej OS Windows 95 na svém území. Doposud asi nejdražší
chyba se přihodila Microsoftu při lokalizaci Windows 95 pro indický subkontinent, kdy při
výběru časového pásma nebyl Kašmír v severozápadní Indii označen jako část Indie. Indická
vláda považovala barevné odlišení této oblasti za neakceptovatelné a donutila Microsoft
software stáhnout (PCWorld, 2005).
Podobný problém se stal ve stejné době Microsoftu s příručkou Encarta 95, která ukazovala
mapu Turecka s oddělenou oblastí Kurdistánu. Po protestech turecké vlády odstranil
Microsoft Kurdistán ze všech map, což zase připadalo jako provokace Kurdům (PCWorld,
2005).
Spory ale nemusí být vždy tak zjevné jako v těchto politicky ožehavých případech.
Jak již bylo zdůrazněno, většina přírodních jevů je špatně definovatelná. Je zřejmé, že i při
jejich vymezení vznikají a přetrvávají spory. Příkladem může být definice půdy, která je
vnitřně komplexní a to vede k odlišnostem v definici v literatuře i mezi jednotlivými zeměmi.
Může se stát, že dvě národní klasifikace mají stejně pojmenovanou třídu půdy s různou
definicí, nebo naopak různě pojmenované třídy se stejnou definicí. To může vést k tomu, že
řada půdních profilů je přidělena do různých tříd v různých schématech (Fisher et al., 2006).
Avšak ani když jsou zajištěna stejná data, stejná metodika (definice) a stejný formální popis
tříd, mohou vznikat konflikty mezi jednotlivými lidmi při interpretaci. I zkušení interpretátoři
za stejných podmínek mohou území rozdělit odlišně (obr. 6).
Obrázek 6 Tatáž oblast mapovaná rozdílně jednotlivými zkušenými interpretátory jako problém umístění hranice
Fisher et al. (2006, s.53)
Obdobné (a možná ještě horší) problémy v nekompatibilitě definic a klasifikací existují
u socioekonomických jevů. Typickým příkladem je vymezení nezaměstnanosti nebo
dlouhodobé nemocnosti, které omezují použitelnost mezinárodních statistik.
Pro řešení konfliktů se používají expertní odhady, posuzující kompatibilitu mezi
klasifikacemi. Mohou to být expertní mapovací tabulky (look-up table), metadata, ale také
použití umělé inteligence, hrubých množin i fuzzy množin. Pro řešení se používá také
Dempster-Shaferova teorie.
2. Nespecifičnost (non-specificity)
Příkladem může být vztah „A je severně od B“. Koncept „severně od“ má přinejmenším
3 významy (Fisher et al., 2006):
A leží přesně na stejném poledníku jako B a od něho směrem k severnímu pólu
A leží někde na sever od linie, která prochází B od západu na východ
A leží někde v sektoru mezi SZ a SV, pravděpodobně mezi SSZ a SSV
Všimněme si, že první 2 významy jsou přesné a specifické, třetí je sám o sobě vágní.
Jiným příkladem nespecifičnosti, který uvádí (Fisher et al., 2006), je v případu, kdy není jasné
měřítko analýzy či může být různě interpretováno.
Nejednoznačnost zpravidla ve smyslu nespecifikačnosti také vzniká při konstrukci indikátorů.
Přímé indikátory nesou jasnou korespondenci se sledovaným fenoménem. Např. podrobné
hodnoty rodinných příjmů poskytují dobrý indikátor pro geografii „bohatosti“.
Jinak je tomu u nepřímých indikátorů, kdy nelze najít přímo vhodnou míru sledovaného
ukazatele. Např. odvozování „bohatosti“ z vlastnictví více aut je nepřímým indikátorem.
Selhává např. u sběratelů, majitelů opraven, bazaru, dále vadí fakt, že zpravidla na vesnici
mají lidé na dvoře více aut, jejichž oficiální znalecká cena bývá nízká.
Vztah mezi nepřímým indikátorem a zájmovým jevem je subjektivní, tedy nejednoznačný.
Pokud je jejich vztah nedokonalý, vytváří měření nepřímého indikátoru zpravidla
systematickou chybu.
Nejednoznačnost tedy vzniká i z důvodu použití nedokonalých indikátorů fenoménu namísto
měření samotného fenoménu.
V UK studovali klasifikační systémy pro mokřady a zjistili, že tentýž fenomén ve stejném
území mapuje přinejmenším 6 agentur a každá z nich používá svůj vlastní klasifikační systém
(Longley et al., 2005). Je zřejmé, že v takovém případě se těžko uplatní společná regulační
pravidla.
Podobně jen obtížně lze srovnávat klasifikaci půd UK s celoevropským systémem. Rovněž
v definici ekonomických či sociálních proměnných jsou zřejmé velké rozdíly.
Rozdíly v definicích (v sémantice) tedy představují hlavní problém harmonizace a integrace
dat.
Nejednoznačnost ve smyslu nespecifičnosti vzniká při spojování dat pomocí nejistého
přiřazení do společných kategorií.
Při řešení nespecifičnosti se používá schvalovací teorie (endorsement theory) nebo teorie
fuzzy množin (fuzzy set theory).
Shrnutí:
Jedno z vymezení říká, že neurčitost je způsobena neúplným porozuměním toho,
co chceme kvantifikovat. Neurčitost je subjektivní a je způsobena různými vlivy,
které se zpravidla kombinují. Geoinformatika má svá specifika. Nepřesnost
(imprecision) je nedostatek specifičnosti nebo nedostatek detailu při pozorování,
řadíme k nim i klasické chyby. Nejednoznačnosti zahrnuje konflikty (ve významu
či přiřazení) a nespecifičnost. Častá je především sémantická nejednoznačnost.
Vágnost (vagueness) je neurčitost ve vymezení objektů nebo nedostatek jasnosti
ve významu. Rozlišujeme také dobře definované a slabě definované geografické
objekty a data, dále inherentní (přibližně vnitřní) nejistotu, nejistotu poznání. Je
nutné rozlišit 2 významy přesnosti – accuracy reprezentuje rozdíl mezi realitou a
naší reprezentací reality, zatímco precision odpovídá míře podrobnosti či detailu.
Epistemická vágnost odráží skutečnost, že naše poznání světa je nedokonalé,
zatímco ontologická vágnost popisuje, že samotný sledovaný objekt světa je vágní.
Hranice geografických objektů mohou být fyzické (reálné) nebo umělé.
Kontrolní otázky: 1) Jak lze definovat neurčitost a nejistotu?
2) Je neurčitost objektivní? Proč?
3) Co je tzv. efekt motýlích křídel?
4) Má na výslednou neurčitost vliv vzorkování?
5) Co znamená prohlášení „Nevíme, co víme“?
6) Co znamená prohlášení „Nevíme, co nevíme“?
7) Co znamená prohlášení „Nemůžeme vědět“?
8) Uveďte příklad neurčitého popisu a vymezení geografického objektu a
vysvětlete příslušné typy neurčitosti.
9) V čem spočívají specifika neurčitosti geografických objektů a jevů?
10) Vysvětlete, co je nepřesnost (imprecision).
11) Vysvětlete, co je nejednoznačnost (ambiguity).
12) Vysvětlete, co je vágnost (vagueness).
13) Uveďte příklad dobře definovaného geografického objektu.
14) Uveďte příklad slabě definovaného geografického objektu.
15) K jakému typu neurčitosti přiřadíte polohovou chybu měření souřadnic?
16) Jaké metody používáme pro zpracování vágně vymezených objektů?
17) V čem spočívá neurčitost prostorových jevů, která se projeví existencí
efektu zbytkového rozptylu (nugget effect) při strukturální analýze
v geostatistice?
18) Vysvětlete rozdíl mezi precision a accuracy.
19) Jak lze odlišit vnitřní nepřesnost a nepřesnost poznání?
20) Co je granularita?
21) Vysvětlete rozdíl mezi epistemickou a ontologickou vágností.
22) Musí být každá nepřesnost současně vágní?
23) Uveďte příklady bona fide a fiat hranic u států.
24) Jakého typu jsou hranice běžných geomorfologických útvarů jako je
hřeben či údolí?
25) Jak označíte vlastnost, že podle pojmenování obce často nelze určit
konkrétní administrativní jednotku?
26) Uveďte příklad konfliktu v rámci nejednoznačnosti.
27) V čem spočívá problém interpretace výroku „geoprvek A je východně od
geoprvku B“?
28) Uveďte příklady nepřímých indikátorů určitých vlastností a vysvětlete u
nich problém nespecifičnosti.
3 Chyba
Cílem kapitoly je vysvětlit pojem chyby, rozlišit jednotlivé druhy chyb, vymezit
pojem spolehlivosti a seznámit se s testy, kterými se prověřuje, naučit se stanovit
minimální velikost potřebného vzorku dat, vyhodnocování systematických chyb,
kvalitativních chyb a hodnocení vlivu šíření chyb.
Stručný obsah kapitoly:
Vysvětlení pojmu chyba a jednotlivých druhů a forem chyb
Spolehlivost, konzistence a opakovatelnost
Relativní a absolutní reliabilita a jejich měření
Oceňování chyb, stanovování minimální velikosti potřebného vzorku
Hodnocení chyb u kvantitativních dat
Hodnocení chyb u kvalitativních dat
Šíření chyb
Monte Carlo simulace pro šíření chyb
Specifikace potřebných vstupních znalostí:
Pro praktické využití většiny uvedených nástrojů jsou nutné alespoň základní
znalosti statistiky a pravděpodobnosti.
Získáte znalosti o:
Druzích a příčinách chyb
Spolehlivosti, jejím měření a významu
Metodách oceňování a hodnocení chyb
Možnostech vyjádření šíření chyb
Vlivech systematických a hrubých chyb
Budete umět:
Vypočítat jednotlivé charakteristiky chyb.
Kvantifikovat spolehlivost vašich měření či pokusů.
Vyhodnotit dopady šíření chyb
Budete schopni:
Zvážit vliv chyb na vaše výsledky a rozhodování
Správně navrhnout měření či pozorování, aby se minimalizovaly vznikající
chyby, zejména hrubé a systematické
Posoudit vhodnost datových zdrojů a způsobů zpracování pro sledovaný
účel
Času potřebný na nastudování kapitoly – 2 hodiny.
Chyby vznikají v důsledku nejistoty, zejména nepřesnosti, ale důvodem může být i špatná
definice dat či objektů.
Chyba (error) je podle Longley et al. (2005) rozdíl mezi pozorováními nebo měřeními
prováděným pomocí nástrojů. Také může vzniknout v důsledku zanedbání nějakého faktoru
v rámci složeného indikátoru (např. vynechání dopravní dostupnosti z hodnocení pozemku).
Všimněme si, že není definován rozdíl mezi realitou a měřením. Ten v jiných definicích často
figuruje jako vysvětlení pojmu chyba. Jenže skutečnou (reálnou) hodnotu neznáme a nejsme
schopni ji poznat. Proto i definice chyby s pomocí reálné hodnoty nemá praktický význam.
Skutečná (pravá, reálná) hodnota veličiny je hodnota ideální, hodnota zjištěná
s nekonečnou přesností a proto ji nelze žádným reálným způsobem poznat
(http://cs.wikipedia.org/wiki/Chyba_m%C4%9B%C5%99en%C3%AD).
Správná hodnota je hodnota považovaná za skutečnou, je to nejlepší dosažené zjištění
skutečné hodnoty (nejpřesnější dostupné měření apod.).
Chyba měření je rozdíl mezi správnou hodnotou měřené veličiny a hodnotou zjištěnou
měřením.
Podle klasické teorie měření (Hendl, 2006, s. 263) se naměřená (pozorovaná) hodnota X
skládá ze skutečné (ve smyslu správné) hodnoty T a chyby E.
X=T+E
Do chybové komponenty započítáváme průměrnou intraindividuální variabilitu hodnoty T
u měřených jedinců a další vlivy.
Klasický model vychází z následujících předpokladů (Hendl, 2006):
1. chyba E nekoreluje s hodnotou T: ρET=0
2. chyba E neobsahuje systematické vychýlení: μE=0
3. při různých měřeních jsou chyby E nekorelované: ρE1E2=0
4. nekoreluje správná hodnota jednoho měření a stejného konstruktu s chybou druhého
měření stejného konstruktu: ρT1E2=0
Chyba je užší termín než nejistota. Nejistota je neutrální termín. Nejistota může být
způsobena omylem, ale také neúplnou informací. Chyba má tradičně pejorativní jazykové
zabarvení.
Chyby v měření prostorových dat mohou být kvantifikovány pomocí statistických odchylek,
střední chybou měření a jinými mírami. Projevuje se nestabilita pozorovatele, omezení
měřícího zařízení nebo nevhodné pozorovací podmínky. Hlavním zdrojem chyb je získávání
dat (data capturing).
Je nutné ještě připomenout mnoho různých jiných výkladů pojmu chyba. Např. chyba
v počítačovém systému znamená selhání příslušné služby (např. vracení chybového hlášení
programu či webového serveru). Chybovostí pak rozumíme počet chyb za časovou jednotku.
Rozlišujeme 3 typy chyb:
1. Náhodné chyby – Náhodné chyby vznikají náhodnými rušivými vlivy (během měření:
otřesy, změny teplot, tlaku vzduchu; při digitalizaci: otřesy, chvění, chyby odečtu atd.)
a nedokonalostí našich smyslů. Náhodná chyba mění náhodně směr a velikost (Hendl, 2006).
Náhodnou chybu nelze úplně odstranit, lze ji pouze minimalizovat. Náhodnou chybu lze
odhadnout na základě statistického zpracování sady opakovaných měření. Označujeme ji také
jako chyba typu A u měření.
Náhodné chyby zahrnují (Hendl, 2006):
chyby hodnotitele (např. špatně odečetl měřenou hodnotu na stupnici, špatně pochopil
či rozuměl odpovědi dotazované osoby),
intraindividuální variabilitu (opakované měření ukáže jinou hodnotu – projev
inherentní nejistoty, způsobující vnitřní variabilitu, případně časové nestálosti, změna
názoru jedince apod.)
přepisy (opisování údajů)
chyby přístroje (náhodné selhání, momentální špatné fyzikální podmínky).
2. Systematické chyby – velikost a typ chyb v měření ukazuje pravidelný vzor. Běžně je
jejich vliv na výsledky měření větší než náhodných chyb. Při opakovaném měření za stejných
podmínek nabývá systematická chyba vždy přibližně stejné hodnoty. Označujeme ji také jako
chyba typu B u měření.
Na systematickou chybu lze usuzovat pomocí průměrné chyby (viz polohová přesnost).
Zdrojem systematické chyby může být (upraveno podle
http://cs.wikipedia.org/wiki/Nejistota_m%C4%9B%C5%99en%C3%AD):
nedokonalá či neúplná definice měřené veličiny
nevhodný výběr přístroje
nedokonalost měřících přístrojů
nevhodný výběr vzorků měření
nevhodný postup při měření
nevhodná metoda měření
zaokrouhlování
linearizace, aproximace, interpolace a extrapolace
neznámé nebo nekompenzované vlivy prostředí
nedodržení shodných podmínek při opakovaných měřeních
subjektivní vlivy obsluhy, vliv operátora
nepřesnost etalonů a referenčních materiálů
V případě měřících přístrojů lze systematickou chybu opravit na základě rozboru známých
chyb nebo nestatistickými metodami (např. z dokumentace výrobce či odhadem). Pokud není
u měřicích přístrojů specifikována, odhaduje se jako jedna polovina nejmenšího dílku u
mechanických měřidel.
Běžné postupy na eliminaci systematické chyby:
kalibrace měřícího zařízení
přidání korekčního čísla k hodnotám měření při zpracování
použití jiné, vhodnější procedury
3. Hrubé chyby (gross error) – omyly, způsobené člověkem. Vznikají nepozorností nebo
přehlédnutím, poruchou měřicího přístroje, nevhodnou metodou měření, zaměřením
nesprávného cíle při geodetickém měření, lidskou chybou ve výpočtu. Zpravidla je větší než
náhodná chyba. V případě primárního měření není oprava takové chyby možná nebo je
neekonomická, pak je vždy třeba opakovat měření.
Tabulka 2 Běžné důvody chyb v databázi (Fisher et al, 2006)
Typ chyby Příčina chyby
Měření Měření vlastnosti je chybové
Přidělení (assignement) Objekt je klasifikován do špatné třídy kvůli chybě měření
provedené specialistou v terénu či laboratoři nebo provedené
měřičem (geodetem)
Generalizace třídy Po měření v terénu se kvůli zjednodušení provede seskupení
objektů do tříd, které mají podobné vlastnosti
Prostorová generalizace Generalizace kartografické reprezentace objektu před digitalizací,
včetně posunutí, zjednodušení apod.
Vstup Data jsou špatně kódována během vstupu (digitálního či ručního)
do GIS
Časová Objekt změnil charakter mezi časem sběru dat a časem využití
databáze
Zpracování Při transformaci dat vznikají chyby v důsledku zaokrouhlení či
chyb algoritmu.
Výsledné chyby je možné složit kombinovanou nejistotu podle vztahu:
22
BAC uuu
Při měření přístroji se někdy rozlišuje základní chyba měření a pracovní chyba měření
(http://cs.wikipedia.org/wiki/Chyba_m%C4%9B%C5%99en%C3%AD).
Základní chyby měření je přístrojem dosahováno za předpokladu, že měřicí přístroj je
provozován v předepsaných referenčních podmínkách. To znamená, že veškeré veličiny, které
mohou nepříznivě ovlivnit přesnost měření, musí mít předepsanou konstantní velikost, popř.
je povolen rozptyl jen ve velmi úzkých mezích. Mezi hlavní ovlivňující veličiny obvykle patří
okolní teplota, kolísání napájecího napětí přístroje atd. Zjednodušeně lze říci, že základní
chyby měření daným přístrojem je dosahováno v laboratorních, přesně definovaných
podmínkách.
Pracovní chyba měření platí pro měření prováděná v pracovních podmínkách, oproti
základní chybě se pracuje v širším rozsahu pracovních teplot, při větším kolísání napájecího
napětí apod. Proto pracovní chyba bývá vyšší než chyba základní. Podle ČSN 61557 může být
relativní pracovní chyba měření maximálně 30%.
Základní statistické charakteristiky náhodné chyby jsou nepřesnost, opakovatelnost
a reliabilita (spolehlivost) (Hendl, 2006). Nepřesnost již byla vysvětlena, opakovatelnost
a spolehlivost se částečně překrývají a jsou vysvětleny dále.
3.1 Spolehlivost
Spolehlivost je možné chápat jako výsledek 2 faktorů - z konzistence a opakovatelnosti.
Spolehlivost (reliabilita) (Hendl, 2006, s. 48) znamená stupeň shody výsledků měření jednoho
objektu provedeného za stejných podmínek (opakovatelnost). U testů složených z mnoha
položek odpovídá konzistenci hodnot různých podmnožin položek mezi sebou.
Nespolehlivost (nízká reliabilita) měření má různý původ. Jeden zdroj nespolehlivosti obvykle
nazýváme subjektivní chybou. Zapříčiňuje ji individuální variabilita měřeného subjektu
(únava, klesání zájmu apod.). Pozorovací chyba je jiným zdrojem chyb. Závisí na provedení
měření hodnotitelem. Také uvažujeme přístrojové chyby (např. selhání hardwaru).
Postupy k určení spolehlivosti:
opakovaná měření (test-retest reliabilita) – označujeme tak konzistenci neboli shodu
opakovaných měření, která jsou oddělena určitým časovým intervalem
měření paralelních testů – znamená shodu měření s jiným ekvivalentním měřením
stejného konstruktu (pokud existují dvě verze A a B téhož testu apod.)
půlení intervalu (split-half reliabilita) – vyjadřuje, do jaké míry jsou konzistentní
jednotlivé části instrumentu měření (nejčastěji se týká různých položek jednoho testu).
Jde o metodu internální konzistence, která nevyžaduje u jedince opakované použití
měřící procedury.
Spolehlivost (reliabilitu), zahrnující konzistenci a opakovatelnost měření, zachycujeme
obecně dvěma způsoby - relativně a absolutně.
Relativní reliabilita se odhaduje bezrozměrnými hodnotami, absolutní reliabilita se udává
v jednotkách měření.
Relativní reliabilita se posuzuje pomocí koeficientu reliability Rel(X).
Koeficient reliability Rel(X) pro měřící metodu je definován poměrem Var(T)/Var(X), tj.
(rozptyl pravdivého skóru)/(rozptyl pravdivého skóru + chybový rozptyl), kde Var() označuje
teoretický rozptyl náhodné proměnné. To lze zapsat následovně (Hendl, 2006):
2
)(
)()()(Re TX
XVar
EVarXVarXl
Koeficient reliability je tedy 2.mocninou koeficientu korelace mezi T a X. Varianty měření
Rel(X) jsou:
Test-retest reliabilita – odhadujeme Rel(X) Pearsonovým koeficientem korelace dvou
měření n-objektů danou metodou ve dvou časových okamžicích.
Reliabilita paralelních měření – provedeme měření n-objektů dvěma nezávislými
metodami, vyhodnotíme Rel(X) Pearsonovým koeficientem korelace.
Reliabilita zjištěná půlením testu – použijeme, pokud měření X získáváme jako
součet parciálních hodnot, které např. obdržíme jako odpovědi na různé položky
dotazníku, jež měří stejnou charakteristiku. Počítáme korelační koeficient r1/2 mezi
dvěma polovinami položek dotazníku zadaného n osobám. Rel(X) se pak spočítá
následovně:
)1(
2)(Re
2/1
2/1
r
rXl
Korelace položky s celkovým skórem – při korelování každé položky testu, resp.
navrhované škály s celkovým skórem (hodnotou testu) dostáváme další míru internální
konzistence ukazující, jak každá položka souhlasí se sumou odpovědí na ostatní
položky (tj. ze sumy vyloučíme hodnocenou položku).
Absolutní reliabilita (Hendl, 2006, s.265) je koncept, jímž se posuzují změny hodnot na
jejich škále. Jinak řečeno, tento typ konzistence vyjadřuje velikost variability, která se
očekává u naměřené hodnoty. Její určení vychází ze směrodatné odchylky měření s, kterou lze
odhadnout:
))(Re1( Xlss x
kde sx označuje rozptýlenost dat ve skupině. Hodnota 3s označuje kritickou diferenci. Její
význam je následující: jestliže máme dvě měření x1 a x2 u stejné osoby, pak pouze v 5 %
případů bude jejich rozdíl (x1 - x2) v absolutní hodnotě větší než 3s, pokud mezi měřeními
a při měření nedošlo k nějaké změně. Kritickou mez diference lze aplikovat i na měření
2 osob. Pokud je jejich rozdíl větší než kritická diference, můžeme tvrdit, že správné hodnoty
obou osob se skutečně liší.
Tabulka 3 Využití Pearsonova koeficientu korelace rxy při hodnocení metod měření (Hendl, 2006, s. 266)
korelační koeficient rxy Aplikace/intepretace
x y
měření v čase I měření v čase II odhad reliability
první polovina testu druhá polovina testu odhad reliability
paralelní forma testu I paralelní forma testu II odhad reliability
hodnocený test cílové kritérium souběžná validita
hodnocený test měření kritéria v budoucnu prediktivní validita
hodnotitel I hodnotitel II odhad objektivity
3.2 Ocenění chyb
Ocenění chyb měření běžně zahrnuje 3 kroky:
Výběr části dat (sady míst),
opakování měření - jejich přeměřením (znovu určení v daných místech) přesnějšími
nástroji či postupy,
srovnání nových měření s původními, ocenění odchylek, statistické vyhodnocení.
3.2.1 Velikost potřebného vzorku
Velikost potřebného vzorku (n) je určována vynásobením odhadu standardizované chyby
měření čtvercem standardizovaného skóre (z) vyžadovaného pro požadovanou úroveň
spolehlivosti (např. 1.96 pro 95 % interval) a dělením výsledku čtvercem požadovaného
intervalu spolehlivosti (e) (např. 0.01 pro 10 %). V případě odhadu n při znalosti střední
chyby (RMSE) se vzorec zjednoduší:
nz s
e
2 2
22
kde s je odhadnutá střední chyba.
Pro odhad proporcionální chyby u kategorizovaných dat se používá vztah:
nz pq
e
2
2
kde p je odhadovaná proporcionální chyba a platí, že:
q = (1-p)
Podrobnější hodnocení je k dispozici v (Eastman et al. 1993).
3.2.2 Výsledné hodnocení chyb u kvantitativních údajů
Výsledné ocenění pro kvantitativní údaje se udává pomocí střední chyby, která se vypočte:
1
)(2
n
txRMSE
ii
xi zjištěná hodnota v místě i
ti správná hodnota v místě i
Střední chyba nerozlišuje mezi systematickou a náhodnou chybou.
Použití střední chyby je vhodné pro data s normálním rozdělením. V případě distribuce dat
s výraznou asymetrií je vhodnější použití robustních technik založených např. na kvantilech.
3.2.2.1 Vyhodnocení náhodných chyb (nejistoty typu A)
Provádí se na základě statistické analýzy opakované série měření. Je způsobena mnoha
malými náhodnými vlivy. Výsledná hodnota měření je dána aritmetickým průměrem ze série
výsledků měření. Nejistota typu A se vypočte jako výběrová směrodatná odchylka série dat
u A.
V případě malého počtu měření (n < 10), je však tento výpočet málo spolehlivý, a musí se
provést korekce zjištěné nejistoty pomocí vynásobení rozšiřujícím koeficientem kA z tabulky
4. Se zmenšujícím se n totiž klesá věrohodnost nejistoty, což koeficient kompenzuje.
Tabulka 4 Rozšiřující koeficient (Schovánek, Havránek 2012)
n 10 9 8 7 6 5 4 3 2
kA 1 1.2 1.2 1.3 1.3 1.4 1.7 2.3 7.0
Vynásobením získáváme tzv. rozšířenou nejistotu uS. Pro kA = 2 do něj spadá 95 % hodnot z n
měření a pro kA = 3 celých 99.7 % (pro kA = 1 je to 68 %). Čili je to kolik směrodatných
odchylek má být použito místo 1.
3.2.2.2 Vyhodnocení systematických chyb (nejistoty typu B)
Nejistota B typu nemá náhodný charakter. Při opakovaných měřeních na sebe upozorní
trvalým výskytem. Vyhodnocení se provádí jinými než statistickými přístupy. Nejistota typu
B se odhaduje na základě všech dostupných informací. Například údaje výrobce měřící
techniky, vlivy techniky měření, metod, konstant, podmínek, za kterých měření probíhá,
zkušenosti z předchozích sérií měření, z poznatků o chování materiálů, údaje získané při
kalibraci a třeba nejistoty referenčních údajů v příručkách. Vychází se z dílčích nejistot
jednotlivých zdrojů. Je-li známá maximální odchylka j-tého zdroje, pak se nejistota j-tého
zdroje určí podle vztahu (Schovánek, Havránek 2012):
k
zu
j
Bzj
max
kde hodnota k je součinitel vycházející ze zákona rozdělení (viz tab. 4).
Při jejím určení tedy odhadujeme maximální rozsah odchylek od naměřené hodnoty tak, aby
v něm skutečná hodnota s velkou pravděpodobností ležela.
V případě, že máme stanoveno více nejistot v měřicím řetězci, výslednou nejistotu dostaneme
jejich geometrickým součtem. Korelace mezi jednotlivými zdroji nejistot typu B se nebere
v úvahu (Schovánek, Havránek 2012).
Výsledná nejistota se pro m zdrojů určí s využitím zákona o aditivitě rozptylů (UB2 je
rozptylem příslušné položky) a vážením jednotlivých vlivů pomocí součinitele citlivosti
(Schovánek, Havránek 2012):
m
j
BzjjBx uAu1
22
kde A je součinitel citlivosti jednotlivých zdrojů.
3.2.2.3 Příklad součtu nejistot
Měříme komparačně středovou tloušťku čočky, tj. porovnáváme její tloušťku s koncovými
(Johansonovými) měrkami pomocí číslicového úchylkoměru (Schovánek, Havránek 2012).
Jde o přesné (přesnější než posuvným měřítkem nebo mikrometrem) komparační měření
mechanických součástí mezi dvěma hroty, z nichž jeden je pevný a druhý, posuvný, náleží
k úchylkoměru. Dvě měrky jsou položeny na sebe a mají každá nepřesnost ub1 = ±0.5 μm.
Úchylkoměr má ub2 = ±1 μm a deformaci hrotů během měření odhadneme na ub3 = ±0.3 μm.
Výsledná nejistota měření ub je (Schovánek, Havránek, 2012):
3.1260952.13.015.022 2222
3
2
2
2
1 bbbb uuuu
Výsledná nejistota měření je ub = ±1.3 μm.
Obrázek 7 Tloušťka koncové měrky v řezu (Schovánek, Havránek, 2012)
Výpočet použijeme pro orientaci před vlastním měřením, případně pokud máme měření jen
jedno. Pokud je statistická chyba typu A (náhodná chyba) výrazně nižší než vypočtená chyba,
musíme zvážit, zda nejsou hodnoty zatíženy systematickou chybou a dle toho stanovit
nejistotu výsledku.
3.2.3 Výsledné ocenění chyb pro kvalitativní údaje
Pro celkové hodnocení se doporučuje použít chybovou matici. Chybová matice obsahuje
tabulku s počty vzorkových bodů nalezených v každé možné kombinaci správných
a mapovaných (klasifikovaných) kategorií.
Tabulka 5 Chybová matice (kontingenční tabulka pro hodnocení přesnosti klasifikace)
realita
map
ován
o
Jehličnatý Smíšený listnatý voda celkem Chyba I.druhu
Jehličnatý 24 0 0 3 27 0.11
Smíšený 3 36 16 0 55 0.35
listnatý 0 0 28 0 28 0
voda 2 0 0 14 16 0.12
celkem 29 36 44 17 126
Chyba
II.druhu
0.17 0 0.36 0.18 0.19
Chyby nadbytečného přijetí (commision) - mapované vzorky byly ve skutečnosti něco
jiného. Je to chyba I.druhu. Snižování chyby nadbytečného přijetí je prostředkem zvýšení
přesnost mapování.
Chyby vynechání (omission) - vzorky dané kategorie byly mapovány jako jiná kategorie. Je
to chyba II.druhu. Podle ní se hodnotí adekvátnost mapování.
Celková proporcionální chyba je 0.19 (v 19% případů bylo mapováno něco jiného, než je ve
skutečnosti).
Podrobnější popis hodnocení klasifikační přesnosti je uveden v kapitole Přesnost atributů.
Hodnocení klasifikace pomocí proporcionální chyby není zcela objektivní, proto se používá
kappa index (KIA, kappa index of agreement). KIA je podobný ukazateli proporcionální
přesnosti (doplněk proporcionální chyby).
Kappa index hodnotí provedenou klasifikaci s klasifikací čistě náhodnou. Vypočte se jako:
PO
POPP
1
kde PP je pozorovaná přesnost (z kontingenční tabulky, resp. chybové matice) a PO je
přesnost dosažitelná náhodným zařazením pixelů do jednotlivých tříd.
Výpočet v IDRISI provádí modul ERRMAT, který vyžaduje 2 vstupní soubory: původní
kategorizovaný obraz (vrstvu) a druhou vrstvu se správnými hodnotami. Tato „správná mapa“
je typicky ve formě vrstvy s převažující hodnotou 0 (pozadí) s izolovanými ostrůvky, kde byla
zjištěna správná hodnota. Výsledkem je chybová matice a sumární statistika. ERRMAT udává
pro každou kategorii rovněž kappa index shody KIA.
3.3 Šíření chyb
Pokud neurčitost existuje v datových vrstvách, chyby se šíří jakýmikoliv analýzami
a kombinují se s chybami z jiných zdrojů. Specifické vzorce pro očekávané šíření chyb
vznikly z typických GIS matematických operací. Jako příklad je možné uvést několik
aritmetických operací dle (Eastmann, 2001), kde S odpovídá směrodatné odchylce (resp.
střední chybě RMS):
Součet/rozdíl 2 překrývajících se vrstev (např. Z=X+Y nebo Z=X-Y):
22
yxz SSS
Násobení/dělení 2 překrývajících se vrstev (např. Z=X*Y nebo Z=X/Y):
)()( 2222 XSYSS yxz
Přidání či odečtení konstanty (např. Z=X+k nebo Z=X-k):
xz SS
Násobení konstantou (např. Z=X*k):
kSS xz
Dělení konstantou (např. Z=X/k):
kSS xz /
Umocnění konstantou (např. Z=Xk):
2))1(2(2
x
k
z SXkS
Obecně představuje výpočet šíření chyb pomocí vzorců problém, protože:
a) šíření je silně ovlivněno vzájemnou korelací mezi proměnnými a tato korelace není
vždy známá
b) je nyní k dispozici jen omezený počet vzorečků a řada GIS operací má neznámé
charakteristiky šíření chyb
K řešení se používá obecný přístup označovaný jako Monte Carlo simulace.
IDRISI obsahuje 2 moduly, které za určitých okolností šíří chybovou informaci automaticky
s těmito procedurami - modul MCE a SURFACE. Jestliže všechny vstupní faktory pro MCE
modul mají chybovou informaci (RMSE) zapsanou v poli „value error“ v jejich
dokumentačních souborech, MCE vypočte výslednou chybu a zapíše ji do dokumentačního
souboru výsledného souboru. Výpočet je možné akceptovat v případě splnění 2 základních
předpokladů: a) mezi faktory není žádná korelace, b) nesmí být neurčitost ve vahách. Nejsou-
li tyto předpoklady platné, je možné využít procedury Monte Carlo. V případě modulu
SURFACE se chybová informace šíří při odvozování sklonu z digitálního modelu terénu,
který má opět v poli „value error“ zapsánu střední chybu RMSE.
3.3.1 Monte Carlo simulace
Často se setkáváme se situací, kdy každá vstupní proměnná může být charakterizována
pomocí statistické distribuce hodnot. Současně můžeme jistým způsobem charakterizovat
prostorové vlastnosti proměnných, např. pomocí jádrového odhadu, topologického popisu
sousedství či pomocí prostorové autokorelace.
V těchto případech lze pro ocenění šíření chyb a neurčitosti spojené se zpracování využít
Monte Carlo simulace.
V analýze šíření chyb pomocí Monte Carlo simulace simulujeme efekt chyb v každé datové
vrstvě, abychom ocenili, jak se šíří chyby při analýze. Prakticky to znamená, že všechny
analýzy běží 2x - jednou normálně a podruhé s datovými vrstvami, které obsahují simulované
chyby. Srovnáním obou výsledků může být odhadnut efekt (vliv) chyb - jediným důvodem
k rozdílu jsou zde totiž ony simulované chyby. Odečtením obou vrstev (překryvná operace)
získáme rozdílový obraz, který ukazuje plošnou distribuci chyb. Pokud má výsledek normální
distribuci, můžeme vypočítat směrodatnou odchylku s rozdílového obrazu a použít ji jako
dobrý indikátor finální střední chyby RMSE.
Např. v IDRISI se k vytvoření simulované chyby používá procedura RANDOM, která vytváří
datový soubor s náhodnými hodnotami podle přímkového (rectlinear), normálního (N) nebo
lognormálního (LN) modelu. Pro N a LN distribuci může být střední chyba buď konstantní
pro celý obraz, nebo může být definována chyba pomocí obrazu (mapy), který má prostorově
variabilní hodnoty. Pro kategorizovaná data dává přímkový (rectlinear) model celočíselné
hodnoty, které mohou být použity jako kódy kategorií. Pro kvantitativní data generují všechny
modely reálná čísla. Např. chcete-li přidat simulovanou chybu k DEM se střední chybou RMS
= 3 m, RANDOM by měl být použit ke generování povrchu podle N modelu s průměrem 0
a směrodatnou odchylkou = 3. Tento obraz bude přidán k DEM. Výsledek nemá žádný
speciální význam vzhledem k realitě - prostě obsahuje chyby stejné povahy, jaké
předpokládáme, že existují v originále.
Maguire et al. (2005, s. 78) uvádí příklad využití Monte Carlo simulace pro ověření korelace
mezi 2 proměnnými (teplota půdy a vlhkost půdy). Obě veličiny byly krigovány, jenže
krigování jako nejlepší lokální odhad potlačí variabilitu a vyhladí výsledky.
Koeficient korelace mezi oběma rastrovými mapami vyšel r=-0,54.
Geostatistická simulace umožňuje realizovat 1000 možných realizací map obou proměnných
na základě statistické distribuce příslušných hodnot, prostorové autokorelace a vzájemné
korelace (cross-correlation). Pro každý pár map byl spočítán koeficient korelace. Výsledkem
je 1000 hodnot korelace r. Výsledné hodnoty r se pohybovaly od -0,58 do –0,28. 95% interval
spolehlivosti byl v rozsahu –0,53 až –0,36. Původní odhad –0,54 byl tedy díky vyhlazení
velmi optimistickým odhadem korelace.
Velkou výhodou Monte Carlo simulace je její flexibilita. Můžete simulovat různé distribuce,
za různých předpokladů, s rozdílným výběrem klíčových parametrů. Pro různá data mohou
být použity rozdílné modely variability.
Shrnutí:
Skutečná (pravá, reálná) hodnota veličiny je hodnota ideální, hodnota zjištěná
s nekonečnou přesností. Správná hodnota je hodnota považovaná za skutečnou, je
to nejlepší dosažené zjištění skutečné hodnoty. Chyba měření je rozdíl mezi
správnou hodnotou měřené veličiny a hodnotou zjištěnou měřením pomocí
nástrojů nebo pozorováním. Náhodné chyby vznikají náhodnými rušivými vlivy a
lze je pouze minimalizovat (chyba typu A). Systematické chyby se projevují
pravidelným vzorem ve výsledcích, měří se průměrnou chybou. Hrubé chyby jsou
omyly způsobené člověkem. Pracovní chyba měření zohledňuje vyšší toleranci
nezbytnou při měření v pracovních (neideálních) podmínkách. Spolehlivost
zahrnuje konzistenci a opakovatelnost. Konzistence hodnotí shodu hodnot různých
podmnožin položek mezi sebou či za různých podmínek, zatímco opakovatelnost
stupeň shody výsledků měření jednoho objektu provedeného za stejných
podmínek. Rozlišuje se absolutní a relativní spolehlivost (reliabilita); každá má
své postupy měření. Ocenění chyb měření běžně zahrnuje výběr části dat,
opakování měření a srovnání výsledků. Velikost potřebného vzorku se určuje ze
střední chyby u kvantitativních dat nebo z proporcionální chyby u kvalitativních
dat. V případě malého počtu dat je nutné chybu korigovat (navýšit) pomocí
rozšiřujícího koeficientu. V případě hodnocení kvalitativních chyb je nutné rozlišit
chyby nadbytečného přijetí (chyba I.druhu) a chyby vynechání (chyba II.druhu).
K popisu šíření chyb se používají známé vzorce nebo Monte Carlo simulační
metoda.
Kontrolní otázky: 1) Co je chyba?
2) Lze zjistit skutečnou hodnotu veličiny?
3) Jaké předpoklady mají být splněny u náhodných chyb?
4) Jak vznikají náhodné chyby?
5) Co jsou systematické chyby?
6) Lze měřit systematické chyby?
7) Co může být zdrojem systematické chyby?
8) Jak vznikají hrubé chyby?
9) Jaký je rozdíl mezi základní a pracovní chybou měření?
10) Co je spolehlivost?
11) Co je konzistence?
12) Co je opakovatelnost?
13) Jak se zjišťuje spolehlivost?
14) Jak se zjišťuje koeficient reliability?
15) Jak se měří relativní reliabilita?
16) Co je absolutní reliabilita?
17) Jak se běžně postupuje při oceňování chyb?
18) Jak se určí velikost potřebného vzorku u kvantitativních dat?
19) Jak se určí velikost potřebného vzorku u kvalitativních dat?
4 Kvalita dat a jejich popis
Cílem kapitoly je seznámit čtenáře s jednotlivými aspekty kvality dat, které jsou
vyjádřeny jako složky metadat, tj. jako položky, které je nutné u každého datového
díla či služby specifikovat.
Stručný obsah kapitoly:
Význam metadat
Základní rozdělení prvků kvality
Popis jednotlivých prvků kvality dat
Metakvalita
Standardizace popisu kvality dat
Získáte:
Důležitosti a přístupech k popisu metadat
Přehled a srovnání jednotlivých prvků kvality dat
Znalosti o vlivech jednotlivých prvků na výslednou kvalitu a použití dat
Vědomosti o popisu metakvality
Budete umět:
Navrhnout odpovídající strukturu metadat pro datovou sadu/službu
Správně popsat požadované prvky kvality dat.
Identifikovat zdroj chyb u datového souboru či služby
Budete schopni:
Správně využívat metadata
Vyhnout se chybnému zpracování a interpretaci prostorových dat
Času potřebný na nastudování kapitoly – 3 hodiny.
Popis neurčitosti dat musí být uveden v metadatech, které obecně popisují kvalitu dat.
Různé formy neurčitosti se promítají do různých složek popisu kvality dat, zpravidla ale nejen
do jedné.
Znalost kvality dat je velmi důležitá pro posouzení možného použití dat. Zvláštního významu
nabývá, jestliže se data předávají mezi organizacemi nebo se šíří veřejně.
S příchodem budování geoinformačních infrastruktur se stala problematika kvality dat
mimořádně aktuální a naléhavou.
Jakmile použití dat překračuje prvoplánový účel či dochází k jejich sdílení více uživateli,
musí být popisu a reprezentaci kvality dat (a tedy i interní nejistoty) věnována zvláštní
pozornost. Je třeba si uvědomit, že základní definice kvality hovoří „o míře uspokojení
uživatelských potřeb“. Je tedy logické, že ve chvíli ztráty přesného vymezení uživatele a jeho
potřeb, musí být tato otázka dobře řešena.
Otázky správného posouzení kvality dat jsou důležité i proto, že budovaný GIS může sloužit
různým účelům, které je někdy v počátcích jeho budování těžké správně odhadnout. Kvalita
geografických dat je však často zkoušena až poté, co nesprávné rozhodnutí vede k nějakým
ztrátám.
Srovnejte životnost dat a současnou požadovanou funkcionalitu GIS. Je zřejmé, že nároky na
data se s vývojem požadavků budou měnit.
Znalost kvality geografických dat je pro aplikaci těchto dat často rozhodující, neboť různí
uživatelé a různé aplikace mají mnohdy odlišné požadavky na kvalitu (ISO 19138).
Vhodnost použití se podle Fisher et al. (2006) označuje často jako „externí kvalita“. Data plní
specifické požadavky uživatele. Tím automaticky vyjadřujeme, že jde o obtížně hodnotitelné
kritérium. Nicméně je to zcela zásadní kritérium. Pro hodnocení se používá např. testování
odchylek nebo doplňkové anotace uživatelů (Fisher et al., 2006).
Náklady na ocenění kvality dat jsou přímo úměrné naší náročnosti a možným ztrátám. Čím
důkladněji chceme testovat kvalitu dat, tím vyšší je cena jak vlastních testů, tak i ztrát
způsobených zdržením prací při provádění testů a opravě nedostatků (přitom růst nákladů je
nelineární vůči rostoucí kvalitě (obr. 8). Proto by úroveň testování měla odpovídat
požadované úrovni přesnosti. Navíc rozdílné složky kvality dat se liší nákladností zvyšování
své kvality (obr. 9).
Obrázek 8 Geometrický nárůst nákladů při rostoucích požadavcích na kvalitu
Obrázek 9 Srovnání nákladů na 3 stupně kvality polohové přesnosti a aktuálnosti (Bernhardsen, 1993)
4.1 Prvky kvality dat
Kvalitu dat (a tedy i užitečnost dat) popisuje základní složky kvality dat.
Podle Aronoffa (1989) mohou být tyto složky sdruženy do 3 kategorií: mikrosložky,
makrosložky a uživatelské složky (usage components).
Mikrosložky jsou faktory kvality dat, které přísluší k jednotlivým prvkům dat. Zpravidla se
oceňují statistickým testováním datového produktu vůči nezávislému zdroji s vyšší kvalitou
informace („správné“ hodnoty). Patří sem polohová přesnost (positional accuracy), rozlišení,
přesnost atributů a logická konzistence.
Makrosložky kvality dat příslušejí k datům jako celku. Nepodrobují se testování, ale jsou
oceňovány posouzením (např. úplnost dat) nebo výpisem informací o datech (např. datum
pořízení). Mezi hlavní makrosložky patří úplnost dat, aktuálnost dat a rodokmen dat (lineage).
K makrosložkám kvality dat patří i metanejistota, kterou rozumíme nejistotu v určení všech
aspektů kvality dat. Viz metakvalita a její dokumentace.
Uživatelské složky kvality dat se vztahují k podmínkám organizace. Např. vliv ceny dat
závisí na finanční situaci organizace - pro některé organizace jsou určitá data příliš drahá
a musí se omezit na jiná, levnější data. Jiným faktorem je dostupnost dat.
Podrobnější seznam prvků kvality dat uvádí Worboys, Duckham (2004, s.336):
Accuracy – blízkost shody mezi daty a věcmi, které jsou jimi popisovány
Bias – systematická odchylka dat
Completness – úplnost dat
Consistency – úroveň logických kontradikcí uvnitř dat
Currency – aktuálnost dat
Format – struktura a syntaxe použitá ke kódování dat
Granularita – granularita, rozlišení
Lineage – historie, rodokmen
Precision – úroveň detailu nebo specifičnosti dat
Reliability – trustworthiness (důvěryhodnost, spolehlivost) stupně důvěry, který má
uživatel k datům
Timeliness – určuje, jak relevantní jsou data pro aktuální potřeby uživatele
Nekonzistence – porušení logických vazeb. Nekonzistenci zjistíme, např. pokud mohu
odvodit protiklad z dat či pravidel. V českých překladech ISO norem řady 191xx se
objevil termín „bezespornost“.
Příklad nekonzistentní sady výroků: Opava má 62500 obyvatel. Všechna města nad
100000 jsou velká. Opava je velké město.
Relevance a vhodnost použití (relevance and fitness for use)
Relevance – popisuje vztah mezi informací a jejím kontextem. V případě datové sady
relevance znamená (míru) propojení datové sady na určitou aplikaci.
4.1.1 Polohová přesnost
Polohovou přesností se rozumí geometrická přesnosta (positional accuracy or geometric
accuracy).
Poloha objektů je v databázi zaznamenána jako sada souřadnic. Jediným způsobem, jak měřit
polohou přesnost je srovnat datovou sadu s jinou datovou sadou lepší kvality (označovanou
jako kontrolní či referenční údaje), nebo s daty odvozenými z měření a vzorkování (např. GPS
senzory). Geometrická přesnost, neboli přesnost souřadnic, přímo závisí na metodě pořízení
dat a zpracování měření (Servigne et al., 2006).
Polohová přesnosta je očekávaná odchylka geografické lokalizace objektu v datovém
souboru od jeho správné polohy. V některých případech se může polohová přesnosta
charakterizovat pravděpodobností, že předpověď bude správná - tedy např. pravděpodobnost,
že pozice bodu určená z mapy bude na "správném" místě, tj. na místě zjištěném přesnějším
měřením např. geodeticky. Tj. pravděpodobnost, že lokalizace uvedená v datech odpovídá
skutečné pozici.
Obrázek 10 Polohová přesnost vyjádřená pomocí velikosti chyby (vlevo) nebo pomocí pravděpodobnosti shody poloh
obou křížků (vpravo)
Polohová přesnost (positional accuracy) může být definována jako stupeň, do kterého
digitální reprezentace entit reálného světa souhlasí se správnou polohou na zemském povrchu
(Harding, 2006).
Podle Ordenance Survey má polohová přesnost 2 komponenty - geometrickou věrnost
(geometric fidelity) a relativní přesnost (relative accuracy).
Relativní přesnost označuje polohovou konzistenci bodu ve vztahu k lokálním bodům. Pro
její měření se používá porovnání přepočítaných (scaled) vzdáleností dobře definovaných bodů
(např. rohy budov) se vzdálenostmi změřenými mezi těmito body v terénu. Výsledky jsou
vyjádřeny pomocí očekávaného směrodatného chybového vektoru (expected standard error
vector) pro danou mapovou oblast (Harding, 2006).
Geometrická věrnost je správnost geoprvků v datech vůči tvarům a spojení (alignment) bodů
entit reálného světa, které reprezentují. Připojení (propojení), která jsou přímková v reálném
světě, musí být reprezentována jako přímková i v datech. Hodnocení se provádělo vizuálním
posouzením v měřítku odpovídajícímu měřítku provedeného měření (Harding, 2006).
Podobný význam má dělení polohové přesnosti (positional accuracy) na absolutní (absolute)
přesnost a relativní (relative) přesnost (Servigne et al., 2006).
Rovněž je třeba rozlišit mezi horizontální (planimetric) přesností (accuracy) a výškovou
(altimetric) přesností (pro 3D data). Výšková přesnost se často chápe jako problém
sémantické přesnosti (semantic accuracy), protože výška bodů je zpravidla zaznamenána jako
alfanumerický atribut (Servigne et al., 2006).
Obrázek 11 příklad polohové nepřesnosti (positional inaccuracy) (Servigne et al., 2006)
Vysvětlivky: nominal ground – modelová realita, dataset to qualify – datová sada určená pro kvalifikaci
Již před výběrem zdroje dat (a i způsobu zpracování dat) by měl mít uživatel jasnou představu
o požadované polohové přesnosti.
Nejčastějším zdrojem dat byly analogové mapy. Polohová přesnost map většinou vyhovuje
při práci v určitém měřítku. Pochopitelně na analogové mapě se používají pro záznam objektů
symboly v jiném měřítku, než je měřítko mapy. Linie jsou vyznačovány určitou tloušťkou,
body jako symboly o určité velikosti. Snímání těchto objektů vede a priori k nepřesnostem.
Vedle polohové přesnosti ovlivňuje volba měřítka zdroje i úplnost dat (viz úplnost dat).
Přesnost se zpravidla testuje výběrem určitého vzorku bodů předepsaným způsobem
a porovnání jejich souřadnic s kontrolní sadou zdrojem informací. Je třeba sledovat, aby
vzorky pro ocenění přesnosti byly vybrány náhodně a aby reprezentovaly celou plochu
Podrobněji viz kapitola organizace sběru dat.
Polohová přesnost má 2 složky: průměrnou odchylku (bias) a rozptyl přesnosti.
Odchylka představuje systematickou chybu mezi reprezentovanou a správnou polohou.
Ideálně by měla být odchylka rovna 0, aby zde nebyla žádná systematická chyba. Průměrná
odchylka je měřena jako průměrná polohová chyba ze vzorků bodů.
Rozptyl přesnosti se obecně odhaduje výpočtem směrodatné odchylky vybraných testovaných
bodů. Nízká odchylka odpovídá nízkému rozptylu chyb v poloze a tedy pravděpodobně nízké
náhodné chybě.
Nejčastější způsobem vyjádření polohové přesnosti zvláště v geodézii a fotogrammetrii je
střední (souřadnicová) chyba (RMSE, root mean square error) (viz kapitola 3). Tento výpočet
však nerozlišuje mezi systematickou odchylkou (průměrnou odchylkou) a náhodnou
odchylkou (rozptyl přesnosti).
Vztah mezi střední chybou a měřítkem mapy ukazuje např. tab. 6.
Střední chyba udávaná u map 1:10000 (např. ZABAGED) je 3 až 10 m. Mapa 1:200000
(DMU200) má střední chybu 40 až 80 m.
ČSN 013411 „Mapy velkých měřítek. Kreslení a značky“ udávala požadované třídy přesnosti,
z nich první pět bylo definováno střední souřadnicovou chybou (viz tab. 7), další třídy
přesnosti pak měřítkem mapy. Tyto požadavky přesnosti se promítly následně do dalších
předpisů, např. předpis ČUZK „Struktura a výměnný formát digitální katastrální mapy
a souboru popisných informací katastru nemovitostí České republiky a dat BPEJ verze 1.3“
č.j. 5270/1999-22.
Tabulka 6 Absolutní přesnost vektorových dat Ordnance Survey (Harding, 2006)
Typ měření Střední chyba
(RMSE)
95% konfidenční
interval
99 % konfidenční
interval
1:1250 (urbánní
území)
± 0.42 m ± 0.73 m ± 0.90 m
1:2500 (přeměření) ± 1.10 m ± 1.90 m ± 2.40 m
1:2500 (důkladná
revize)
± 2.70 m ± 4.67 m ± 5.79 m
1:10000 (horské
území a planiny)
± 4.09 m ± 7.08 m ± 8.78 m
Tabulka 7 Třídy přesnosti dle ČSN 013411
Třída přesnosti Střední souřadnicová chyba
1 ± 0,04 m
2 ± 0,08 m
3 ± 0,14 m
4 ± 0,26 m
5 ± 0,50 m
Pro zlepšení polohové přesnosti jsou v jednotlivých zemích (Rakousko, Bavorsko, Irsko,
Severní Irsko) realizovány programy, které zajistí převod regionálních i národních mapových
dat do nových zobrazovacích mapových systémů, případně pro provádění lokální adjustace na
kontrolní body. Podobně i UK řeší problém zlepšení přesnosti vektorových dat velkého
měřítka v rurálních oblastech. Topografické mapování v rurálních oblastech bylo založeno na
transformacích v 50tých letech, kdy se transformovaly mapování z lokálních souřadnicových
systémů v každém okrese (county )do britského národního souřadnicového systému (British
National Grid system). Zatímco původní polohová přesnost byla dobrá (±1.2 m RMSE),
omezení při transformaci vedly k přesnostia na úrovni ±2.7 m RMSE. Nový program využívá
zpřesnění GPS měření (Harding, 2006).
4.1.2 Rozlišení
Rozlišení dat představuje velikost nejmenší rozlišitelné jednotky nebo nejmenší
reprezentovatelné jednotky. V případě snímků - leteckých, družicových - odpovídá rozlišení
nejmenšímu objektu, který lze rozlišit. Někdy se také používá termín prostorové rozlišení
(spatial resolution).
Pro kamerové systémy se obyčejně udává rozlišení v řádcích na mm (lines/mm). Typickou
hodnotou pro letecké mapovací kamery je 80 l/mm.
U digitálních skenovacích systémů jako jsou senzory družic, se prostorové rozlišení definuje
jako velikost území, které je zachyceno na 1 pixelu. Příklady prostorového rozlišení
u družicových skenerů - např. TM 30m a 120 m, ETM 15 m, Ikonos PAN 1 m, QuickBird
PAN 61-75 cm.
Obrázek 12 Prostorové rozlišení pro rastrový datový model
V případě tematických map jako jsou půdní mapy, mapy využití území (land use) či mapy
jiných kategorizovaných dat je potřebné nedefinovat rozlišení pomocí rozměru pixelu, ale
jako elementární mapovací jednotka (minimum mapping unit), která vyjadřuje velikost
nejmenšího reprezentovaného objektu. Proces rozhodování o velikosti elementární mapovací
jednotky (tedy nejmenším zahrnutém objektu) probíhá při tvorbě tematické mapy. Závisí na
účelu mapy, přesnosti dat apod.
Obrázek 13 elementární mapovací jednotka (minimum mapping unit) jako velikost nejmenšího reprezentovatelného
objektu
Ukládání dat a prezentace informací probíhá v GIS odděleně. Uložená geografická data
mohou být principiálně zobrazena v libovolném měřítku. Popisy a další části mapové
kompozice se připojují až při tvorbě výstupu a jejich velikost se přizpůsobuje měřítku
výstupu. Pokud bychom přijali tezi, že geografická data nejsou vázána na žádné měřítko, bylo
by možné zvolit velmi malou elementární mapovací jednotku a to i pro velké oblasti.
Uvedený přístup možného zobrazování geografických dat lze přijímat pouze teoreticky.
Reálně je nutné vycházet z měřítka, ve kterém byla data pořízena (např. měřítko mapy, která
byla digitalizována), protože nám udává úroveň přesnosti a rozlišení získaných dat. Za data
existující v GIS reálně v měřítku 1:1 lze považovat data získaná z měřických terénních
přístrojů (včetně GNSS).
Vykreslování map v měřítku větším než je měřítko, ve kterém byla data pořízena, nelze
doporučit. Výjimečně se provádí např. v případě, že chceme použít v tematické mapě jako
podklad hrubou generalizovanou topografickou skutečnost a využívá se faktu, že mapy
malých měřítek jsou více generalizované (Aronoff, 1989).
Řada programových systémů umožňuje definovat rozmezí zvětšení, ve kterém budou
příslušnou vrstvu zobrazovat, a tím respektovat měřítko pořízení dat.
4.1.3 Přesnost atributů
Atributová přesnost se také označuje jako sémantická přesnost.
Atributová přesnost (attribute accuracy) je přesnost záznamu informací reálného světa
pomocí atributů (Harding, 2006). Zahrnuje hodnocení přesnosti atributů jako klasifikace
geoprvků, jejich názvy, popis nebo popis změn v historii.
Hodnota atributu je výsledkem měření nebo interpretace, pocházející z různých přímých
lidských pozorování (Servigne et al., 2006).
Sémantická přesnost je definována jako rozdíl mezi měřením a jiným srovnatelným měřením
vyšší kvality (přesnosti) (obr. 14). Protože zpravidla neznáme pravé hodnoty, srovnáváme
s referenčními údaji („správné“ hodnoty) (Servigne et al., 2006).
Jak známo, v atributech se mohou objevit hodnoty výčtové (nominální), pořadové, intervalové
nebo poměrové. Viz měření u nich (Horák, 2013). Výčtové a pořadové odpovídají diskrétním
proměnným, zatímco intervalové a pořadové spojitým.
Obrázek 14 příklad sémantické nepřesnosti (semantic inaccuracy) (Servigne et al., 2006)
Vysvětlivky: nominal ground – modelová realita, dataset to qualify – datová sada určená pro kvalifikaci
Diskrétní proměnná nabývá konečného počtu hodnot, zatímco spojitá proměnná libovolných
hodnot (např. teplota, hustota populace, nadmořská výška) v rámci určitého intervalu. Pro
posouzení přesnosti spojitých atributů se používá stejných metod jako u polohové přesnosti.
Jinak je tomu o diskrétních proměnných, kde se aplikují metody posouzení klasifikační
přesnosti, tedy proporcionální přesnost.
Obrázek 15 Ukázky chyb v atributech – v názvu objektů a jeho klasifikaci.
Klasifikační přesnost je pravděpodobnost, že třída přidělená místu odpovídá třídě, která by
mohla být nalezena v reálném světě.
Posuzování klasifikační přesnosti je dobře známo z hodnocení dat DPZ, kdy je prováděná
interpretace ověřována terénní rekognoskací.
Chyby v klasifikaci mohou být prezentovány ve formě kontingenční tabulky.
Chybná klasifikace leží mimo hlavní diagonálu. Nutné je i expertní posouzení, které z chyb
jsou závažné pro další interpretaci (některé chyby v určení nejsou závažné, protože nevedou
v dané aplikaci k chybnému rozhodnutí).
Obrázek 16 Mapovaný (vlevo) a skutečný (vpravo) pokryv území
Tabulka 8 Kontingenční tabulka pro hodnocení přesnosti klasifikace DPZ
Skutečnost
Map
ován
o
V posledním sloupci jsou proporcionální chyby z nesprávného zařazení, kdy jsou jako chyby
označeny případy, kdy mapované objekty (pixely) byly ve skutečnosti (ve vzorku) něco
jiného. Např. u smíšeného lesa bylo celkem 19 chyb (3 pixely byly ve skutečnosti jehličnatým
lesem a 16 listnatým lesem).
V posledním řádku jsou proporcionální chyby z opomenutí - vzorky byly mapovány jako jiná
kategorie. Proti realitě bylo např. 5 pixelů jehličnatého lesa špatně klasifikováno.
Celková proporcionální chyba je 0.19 (19%).
Problematika klasifikační přesnosti je dosti komplexní a není zcela objektivní, což vyplývá
mimo jiné z ovlivnění přesnosti faktory jako je: počet tříd, tvar a velikost jednotlivých oblastí
(čím větší a čím kulatější oblast, tím je identifikace spolehlivější), způsob výběru testovacích
bodů. Např. pokud provedeme náhodný nebo pravidelný výběr bodů v celé oblasti a získáme
jen velmi málo vzorků pro třídu např. mokřiny (tvoří-li např. jen 1% plochy území), těžko
budeme posuzovat správnost klasifikace pro tuto třídu. U takových případů můžeme mít
problémy i s vlastním ověřením správnosti klasifikace v terénu, je-li sledované místo příliš
malé. Současně jsou problémy i se splněním předpokladu nezávislosti vzorků, protože
jednotlivé třídy spolu souvisí. Ideálně by měla být každá třída na mapě testována zvlášť.
Je třeba připomenout, že v přesnosti atributů se projevuje řada problémů. Nejednoznačnost
definice třídy může mít charakter konfliktu, kdy různé zdroje, různé autority udávají různou
definici tříd, nebo nespecifičnosti, kdy není jednoznačné zařazení prvků do tříd.
Máme-li k dispozici více variant interpretace, můžeme si nechat vykreslit
nejpravděpodobnější výslednou interpretaci (modus hodnoty např. operace LocalMajority)
a současně vykreslit mapy věrohodnosti identifikace (nejvyšší spolehlivost je v místě shody
klasifikace ze všech variant, nejnižší spolehlivost v místě nejvyšší variability identifikace).
Dalším problémem je vágnost ve vymezení tříd, v neexistenci ostrých hranic, tvorbě
přechodů. V přírodě např. neexistuje tak ostrá hranice jako na mapě, ale např. přechodná zóna
"okraj mokřiny" šířky 10m (navíc závislá na čase podle vývoje hladiny spodní vody).
Aronoff (1989) proto mluví vedle klasifikační přesnosti i o identifikační přesnosti (jak často
byl přidělen správný atribut) a diskriminační přesnosti (přesnost v oddělení sousedních typů).
4.1.4 Logická konzistence
Logická konzistence vypovídá o tom, jak dobře jsou udržovány logické vztahy mezi objekty.
Logická konzistence kontroluje míru rozporů vůči deklarovaným logickým pravidlům.
Trochu užší pojetí říká, že se vztahuje ke všem logickým pravidlům, které řídí struktury
a atributy geografických dat a popisuje kompatibilitu mezi datovými sadami (Servigne et al.,
2006).
Ještě užší vymezení používá Harding (2006), podle kterého je logická konzistence měřením
stupně, do jakého datová logika a syntaxe souhlasí (complies) s datovou strukturou
definovanou v datové specifikaci. Např. kontrola kvality pro logickou konzistenci používaná
v OS pro vektorová data velkého měřítka zahrnují kontrolu topologické konzistence (např.
kontrola volných konců linií, počáteční a koncový bod polygonu musí mít stejné souřadnice
atd.), validitu datové struktury a validitu hodnot.
Datová sada je považována za konzistentní na logické úrovni, pokud respektuje strukturní
charakteristiky vybraného datového modelu a pokud je kompatibilní s omezeními atributů
definovaných v datech. Devillers, Jeansoulin (2006) k tomu přidává i požadavek na dodržení
logických vztahů.
Existuje několik úrovní logické konzistence, od jednoduchého logického ověření rozsahu
hodnot atributů až po specifická pravidla konzistence, založená na geometrii (např. je obvod
polygonu správně uzavřen?) nebo na logickém prostorovém vztahu (omezení topologické
integrity – příklad: každá linie sítě musí být připojena přes vrchol k další linii) (Servigne et
al., 2006).
Konzistence nám umožňuje mimo jiným verifikovat (Servigne et al., 2006), zda:
Objekty popsané v geografické databázi přesně respektují realitu.
Topologie a prostorové vztahy jsou reprezentovány a respektovány.
Použité proměnné se blíží vhodným hodnotám (limitní hodnoty, typy atd.)
Datový soubor je konzistentní. Tento aspekt může být rozšířen na spolehlivost média,
na kterém je soubor uložen.
Obrázek 17 Ověřování logické konzistence (uzavření polygonu, topologické spojení linií) (Servigne et al., 2006)
Vysvětlivky: nominal terrain – realita, dataset to qualify – datová sada určená pro kvalifikaci
Nezajištění logické konzistence objektů vede k problémům při zpracování (např. nedokonalý
překryv). Porušení logické konzistence se může objevit v důsledku těchto faktorů:
různá měřítka originálních map
různé rozlišení
různé stáří jednotlivých datových vrstev
rozdílný klasifikační systém
různé metodické postupy při tvorbě mapy.
I malé odchylky v polohové přesnosti (zcela v mezích požadované přesnosti) se při překryvu
vrstev mohou jevit jako logická nekonzistence vznikem překryvů nebo naopak tenkých
"prázdných" štěrbin mezi 2 objekty (odštěpek = sliver). Některé programy pro GIS jsou
schopny tyto problémy řešit vytvořením pásu neurčitosti mezi objekty, který jejich okraje
překrývá (tzv. fuzzy boundary).
Logickou konzistenci je vhodné zajišťovat již před vlastním vstupem dat, kdy např. při
překreslení podkladů je možno stav kontrolovat a provádět úpravy (tento proces se někdy
označuje jako konflace).
4.1.5 Sémantická konzistence
Významově blízká logické konzistenci je také sémantická konzistence (semantic consistency).
Někteří autoři chápou sémantickou konzistenci jako nadřazený pojem (zahrnuje i logickou
konzistenci) – část z těchto sémantických problémů je možné označit za porušení logických
pravidel a tedy porušení logické konzistence.
Koncept sémantické konzistence vyjadřuje kvalitu, se kterou jsou popsány geografické
objekty ve srovnání s použitým modelem (Servigne et al., 2006). Tento aspekt kvality se více
vztahuje k relevanci významnosti geografických objektů než k jejich reprezentaci (Salgé,
1995, in Servigne et al., 2006). Sémantická konzistence má proto velký význam pro určení
vhodnosti použití.
Cílem ověřování sémantické konzistence se provádí pomocí měření „sémantické vzdálenosti“
mezi geografickými objekty a „nominal ground“ (modelová realita) (Servigne et al., 2006).
Musíme rozlišit mezi pohledem producenta a uživatele. Producent má poskytnout specifikaci
sémantického obsahu databáze (zejména specifikace, které definují modelovou realitu
(nominal ground), model, podmínky výběru apod.) a současně poskytnout informaci
o sémantické kompatibilitě (semantic performance), tj. o úrovni shody s výše definovanými
sémantickými omezeními). Pro uživatele je cílem definovat vhodnost těchto dat pro své
požadavky. Znalost specifikací je důležitá zejména ze sémantického pohledu (Servigne et al.,
2006) – shodují se uživatel a producent na vymezení jevu (např. obsahuje třída nemocnice
také kliniky)? Podle Puricelli (2000, in Servigne et al., 2006) mohou být rozlišeny 2 úrovně
specifikace:
Geometrická, která definuje tvar a polohu objektů (přitom platí jak pro rastrový tak
pro vektorový model)
Sémantická, která popisuje objekty.
Při tvorbě sémanticky konzistentních dat se uplatňují výběrová kritéria, která definují např.
vstupní podmínky (minimální velikost entity), agregační operace a jejich parametry (všechny
pole s plodinami budou uloženy a sloučeny do zemědělských zón) (Servigne et al., 2006).
Extrakce představuje transformaci entit reálného světa do objektů, atributů, polí v rámci
vybraného modelu a data (Servigne et al., 2006).
Při hodnocení sémantické konzistence narážíme na problémy vágnosti a nejednoznačnosti.
Sémantická konzistence zahrnuje oblast logické konzistence (datová omezení), časové
konzistence (nekonzistentní datumy), a sémantické přesnosti (sémantické nekonzistence ve
formě např. klasifikační chyby) (Servigne et al., 2006). Sémantická konzistence je složena
z několika parametrů, které nelze jednoduše rozlišit. Flagrantní chyba (např. dům v jezeře) je
sémantickou nekonzistencí, ale může být způsobena časovou chybou (změnily se břehy
jezera), logickou nekonzistencí (nebyly vztahy v úvahu domy na pilotech) nebo chyba
úplnosti (zapomnělo se na ostrov) (Servigne et al., 2006).
Obrázek 18 Příklad sémantické nekonzistence (Servigne et al., 2006)
Vysvětlivky: nominal ground – modelová realita, dataset to qualify – datová sada určená pro kvalifikaci
4.1.6 Úplnost dat
Z hlediska dodavatele dat je úplnost měřením stupně, do jakého obsah dat koresponduje
s reálným světem podle specifikace pořizování (capture) dat, pokrytí datové sady a úrovně
aktuálnosti požadované dle aktualizační politiky (Harding, 2006). Nesoulad může být měřen
kvantifikací počtu vynechání (omission, chyba II.druhu), kdy některé entity reálného světa
odpovídají specifikaci pro záznam do digitálního modelu, ale přitom v něm chybějí,
a nadbytečnosti (comission, chyba I.druhu), kdy naopak některé geoprvky existují v datech,
ale neodpovídají specifikaci pořizování dat (obr. 19).
Srovnání objektů v databázi se všemi objekty univerzu diskurzu (ideální stav transformace
a zápisu všech reálných objektů do modelu, tedy úplný model) vyžaduje formální popis obou
těchto datových sad (Servigne et al., 2006).
Je třeba zdůraznit, že úplnost databáze (či mapy) může být vyhovující pro jeden účel, ale ne
pro jiný, závisí tedy na vymezené doméně. Proto je tento prvek kvality ve vztahu k vhodnosti
použití. Navíc je tu ještě jeden rozpor. Zatímco informace o kvalitě dat (úplnosti dat) je
poskytována zpravidla producentem dat, informace o vhodnosti použití je běžně
charakterizována dobou nutnou k přípravě pro užití datové sady. Navíc během životního
cyklu datové sady je zpravidla informace o kvalitě (vč. úplnosti) poskytována pouze jednou,
na začátku producentem, zatímco hodnocení vhodnosti použití je prováděno pro každou
aplikaci (Servigne et al., 2006).
Obrázek 19 Příklady vynechání pravých a přidání klamných objektů (B omissions, C commissions) (Servigne et al.,
2006)
Vysvětlivky: nominal ground – modelová realita, dataset to qualify – datová sada určená pro kvalifikaci
Úplnost je možné zkoumat následujícími otázkami (Servigne et al., 2006):
Je pokrytí zóny úplné?
Je počet modelovaných objektů stejný jako počet objektů definovaných v modelu?
Mají modelované objekty správný počet atributů a jsou všechny hodnoty přítomny?
Jsou všechny entity v realitě reprezentované v modelu?
Je všechno, co je zahrnuté v konceptuálním modelu, také přítomno v databázi?
Můžeme rozlišit 2 typy úplnosti (Servigne et al., 2006):
úplnost dat (data completeness), která se určuje na základě hodnocení výskytu
vynechání správných a přidání klamných objektů vůči modelu (tj. srovnává se mezi
datovou sadou a ideálním modelem, tj. univerzem diskurzu) a která je měřitelná
a nezávislá na aplikaci.
úplnost modelu (model completeness) je hodnocení rozdílů mezi abstrakcí světa
odpovídající datové sadě a abstrakcí světa odpovídající cílové aplikaci, preferovaně
z hlediska vhodnosti použití (je model dostatečně bohatý, aby vyhověl požadavkům
aplikace?). Nedá se měřit, zpravidla se jen slovně vyhodnotí.
Aronoff (1989) ji označoval jako úplnost klasifikace s poněkud užším vymezením,
kdy určoval, jak dobře lze pomocí zvolené klasifikace reprezentovat data. Vymezení
tříd by mělo pokrývat celý možný rozsah. Např. pokud rozčleníme "dobytek" na třídy
"krávy", "býci", "ovce", nebudeme schopni nikde začlenit "koně". Pokud zde zařadíme
třídu "ostatní", je opět na našem posouzení, zda je vyhovující zařazení koní do
"ostatních". Jiný problém představuje vágnost hranic, např. situace, kdy vymezené
třídy tvoří spolu postupné přechody. Např. rozdělení lesního porostu na třídy
"jehličnatý", "listnatý" a "smíšený" vede k problémům definice rozhraní mezi třídami -
les, který je z 35% jehličnatý, bude řazen do třídy „listnatý“ nebo „smíšený“ ? Při
detailnějším vymezení (např. třídy po 10 % jehličnanů v lese) budou problémy
s nekonzistencí, protože např. tak detailně nejsme schopni les z letecké fotografie
klasifikovat.
Samozřejmě i zde se objevuje problém nejednoznačnosti. Definice tříd se může lišit
mezi jednotlivými mapovými listy v důsledku práce rozdílného interpretátora.
Výsledná mapa může mít výbornou polohovou přesnost a klasifikaci, ale hranice
sousedních listů budou poznamenány závažnými nesrovnalostmi. Pokud známe přesně
způsob provedení klasifikace, můžeme teoreticky provést reklasifikaci a sjednotit listy
map.
Datovou úplnost dále dělí na (Servigne et al., 2006):
formální úplnost (formal completeness) – týkající se datové struktury, tedy syntaxe,
kompatibility se standardy a používanými formáty, přítomnost povinných metadat)
objektová úplnost (object completeness), která zahrnuje úplnost atributů (attribute
completeness), geografickou úplnost (pokrytí) a úplnost vztahů (completeness of
relationships).
Někdy může být vhodné použít nejnovější data, která jsou ale dostupná jen v části území
(a použijí-li se zbytkem starého podkladu, pak jsou vůči němu nekonzistentní), a někdy
naopak lepší použít data starší, dobře vykrývající celou oblast, která jsou konzistentní.
Obrázek 20 Neúplné pokrytí listu mapy
Obrázek 21 Neúplnost atributů (druhý sloupec obsahuje řadu prázdných hodnot)
Úplnost geografického pokryvu úzce souvisí i s problémem generalizace map. Je jasné, že
použijeme-li jako zdroj mapu měřítka 1:50000, bude obsahovat jen některé objekty (díky
generalizaci) ve srovnání s mapou 1:5000. Např. shluk domů může být reprezentován
v malém měřítku jako 1 „dům“ (blok zástavby).
Aronoff (1989) ještě vyznačoval v rámci úplnosti stupeň verifikace, ale ten je třeba řadit do
metakvality (viz příslušná kapitola).
4.1.7 Aktuálnost dat
Aktuálnost dat (currency) popisuje, jak aktuální jsou data. Podle Harding (2006) je to
parametr udávající, jak dobře je objekt reálného světa aktuálně popsán v datech. Aktuálnost
pak může být vyjádřena pomocí sémantické přesnosti, atributové přesnosti, úplnosti či
konzistence (Harding, 2006).
Podle Servigne et al. (2006) reprezentuje aktuálnost (timeliness) časový posun (offset) mezi
vytvořenou datovou sadou a modelovou realitou (nominal ground) určenou k referenčnímu
datu T. Může být charakterizována intervalem validity pro datovou sadu.
Zpravidla se ale časový aspekt kvality dat se nejčastěji vyjadřuje uvedením datumu pořízení
dat (např. snímku).
Mezi časovým aspektem a jinými prvky kvality existuje celá řada vazeb (Servigne et al.,
2006):
Rodokmen – obsahuje řadu časových informací (společně s popisem změn)
Geometrická přesnosta – časová informace někdy vysvětlí chyby
Sémantická přesnosta – pro detekci nekonzistencí
Úplnost – je posuzována jen pro entity časově konzistentní
Logická konzistence - je posuzována jen pro entity časově konzistentní
Sémantická konzistence – měření sémantické konzistence časového aspektu v databázi
dovoluje hodnocení citlivosti (responsiveness) aktualizace databáze ve vztahu ke
změnám reálných jevů.
Aktuálnost dat je kritickým faktorem pro mnoho druhů geografické informace. Příkladem
mohou být demografická data nebo data o využití země, která se mohou výrazně v průběhu
roku změnit. Data mohou být také výrazně závislá na časovém intervalu (např. sezóna), ve
které byly sbírány.
Způsob řešení časových aspektů závisí na typu jevu. Některé třídy entit se znovu vkládají do
databáze ve víceméně pravidelném intervalu (např. letecké snímkování), jiné vyžadují
sledování celé historie (katastrální mapy) a některé mají smíšený charakter – např. fixní jev
(fixní poloha) s pravidelně se měnícími atributy (teplotní čidlo), nebo se jeho hranice mění
(politické hranice, linie pobřeží) (Servigne et al., 2006).
Perioda aktualizace závisí na oboru a na požadavcích. Např. v lesním hospodářství může být
dostačující perioda aktualizace 5-10 let. Zemědělské podmínky se mění rychleji, a proto
vyžadují podstatně častější aktualizaci. Jiná je situace v oborech, kde dochází k rychlým
změnám v čase a je nutná "průběžná" aktualizace (např. městské systémy 2-3 týdny). Pak je
výhodné použít systémů, které aktualizaci provádějí automaticky a rovněž i automaticky
provádí ukládání data aktualizace.
Podle Ordnance Survey jsou objekty rozděleny do 2 kategorií podle časové periody
aktualizace – významné geoprvky jsou aktualizovány do 6 měsíců od jejich vzniku v rámci
„kontinuální“ revize, zatímco málo významné geoprvky jsou aktualizovány v pětiletém
(v případě hor či planin desetiletém) cyklu (Harding, 2006).
Časový faktor se také může výrazně projevit v nekonzistenci dat.
Časová konzistence (temporal consistency) může být součástí sémantické konzistence.
Časová konzistence se týká datumu získání dat, datumu aktualizace dat a obdobími validity
(validity periods) (Servigne et al., 2006).
Různorodost zaznamenávaného času souvisí se 3 základními časy, které se v souvislosti
s informačními systémy vyskytují:
Logický čas (čas v realitě), kdy jev nastal v realitě (světový čas dle Rapant, 2002)
Čas pozorování tohoto jevu (indikační čas dle Rapant, 2002)
Transakční čas, kdy byl jev zaznamenán v databázi (systémový čas dle Rapant, 2002)
Určení správného časového intervalu pro potvrzení validity databáze (intervalu aktualizace)
závisí především na sledovaném jevu. Podobně i časová konzistence mezi objekty závisí na
typu jevu. Komplexní jevy nebo jevy, které mají vnitřní vztahy, vyžadují velmi dobrou
časovou konzistenci (zejména topologické struktury, např. silniční síť), zatímco nezávislé
entity ji nevyžadují (např. typicky individuální geoprvky jako jsou rozcestníky) (Servigne et
al., 2006).
Udržování požadované časové informace vyžaduje přidání jednoho či více atributů pro
objekty a vztahy. Udržování časové konzistence však vyžaduje více – zpravidla verzování dat.
Modifikace nemůže být omezena na přepsání novou částí dat, ale měl by se změnit pouze
příznak validity starých dat (na neplatný, předchozí segment uliční sítě) a nová data by měla
obsahovat odkaz na stará data (např. který silniční segment byl dříve platný) (Servigne et al.,
2006).
4.1.8 Rodokmen dat
Pod pojmem rodokmen dat (historie, původ dat) (lineage) rozumíme historii dat, tedy popis
zdroje dat a postupu při jejich sběru a základních úpravách před jejich uložením do databáze
GIS, až po reprezentaci digitálních dat.
Clarke, Clark (1995, in Servigne et al., 2006) identifikuje následující požadované informace
pro rodokmen:
Zdroj dat, původ, oblast (reference domain, např. geologie), charakteristiky
prostorových dat, souřadnicové a zobrazovací systémy, a odpovídající korekce
a kalibrace.
Pořizování, kompilace a odvozování: hlavní hypotézy použité pro pozorování,
kalibraci a korekce. Např. georeferencování nebo aplikace na určitou doménu, popis
metod použitých pro interpretaci, interpolaci nebo agregaci dat.
Konverze dat: definice konverzních procesů, např. kroky při vektorizaci rastrových
dat, při digitalizaci, při fotogrammetrickém vyhodnocení.
Zpracování dat: údaje o jednotlivých krocích zpracování dat.
Transformace nebo analýzy: transformace souřadnic, generalizace, posuny,
reklasifikace – a všechny definované, pokud možno, pomocí přesných matematických
výrazů. Všechny použité parametry by měly být jasně definované, protože tyto
transformace mají zásadní dopad na vytvářená data.
Parametr je často popisován formou volného textu, kde jsou postupně popsány potřebné
informace (Servigne et al., 2006). Jejich pořizování je pracné a často velmi obtížné, přesto
tento typ informací je nejužitečnější, ne-li nepostradatelný (Servigne et al., 2006). Např.
u topografické mapy může taková dokumentace zahrnovat datum použitých leteckých
snímků, fotogrammetrické metody pro vykreslování izolinií a zákres objektů, použití
kontrolních bodů, metodu tvorby finální mapy.
Každý zdroj dat a každý způsob jejich sběru zavádí do dat určitou úroveň chyb. V některých
případech může znalost rodokmenu dat významně ovlivnit rozhodování o použití dat.
Někdy jsou považovány zvláště údaje o postupu při zpracování dat za důvěrné a nesdělují se.
V ideálním případě by měla být určitá informace o rodokmenu dat včleněna přímo do
datového souboru a být zcela veřejná.
4.1.9 Jednoduchost dat
Jednoduchost a transparentnost dat ovlivňuje zejména dostupnost z pohledu snadnosti využití
dat a nepřímé náklady. Na rozdíl od dostupnosti, která je typicky uživatelskou složkou (závisí
na účelu uživatele) je jednoduchost objektivní vlastností datové sady bez ohledu na účel.
Jednoduché struktury dat a jednoduchý obsah dat posilují porozumění datům, urychlují jejich
využití a zmenšují rizika špatné interpretace. Transparentnost je spojena se snadností čtení dat
(např. textové formáty či jiné snadno čitelné formáty napomáhají využití). Transparentnost je
spojena i s interoperabilitou – data splňující požadavky interoperability jsou snadno
použitelná.
4.1.10 Dostupnost dat
Dostupnost (přístupnost) (accessibility) odpovídá snadnosti získání a využití dat. V některých
případech je vhodnější hovořit o přístupnosti dat, jako obecnějším faktoru.
Dostupnost dat je omezována z řady důvodů od majetkových vztahů, utajení skutečností,
ochrany osob a jejich majetku (individuálních svobod) až po politické embargo.
Dostupnost a přístupnost jsou typické uživatelské složky – závisí na konkrétní organizaci
a účelu použití.
Data mohou být veřejně přístupná a přesto pro danou organizaci nedostupná díky jejím
nedostatečným vnitřním lidským a technickým zdrojům (např. nemá smysl kupovat družicový
snímek, není-li člověk, který je schopen provést jeho interpretaci).
4.1.11 Cena dat
Přímé náklady odpovídají hodnotě nákupu dat u jiné organizace. Na ceně dat (přímých
nákladech) závisí možnosti použití dat v organizaci. Jestliže byla data pořizována uvnitř
organizace, jejich reálná cena může být zastíněna. Oceňování takto pořízených dat může být
velmi problematické (lidé i zařízení pracuje současně i na jiných úkolech apod.).
Nepřímé náklady zahrnují časové a materiálové náklady nutné k plnému využití dat. Po
nákupu dat se mohou zaměstnanci dlouho učit, jak s nimi zacházet a jak je využít, data mohou
být nekompatibilní s jinými používanými daty nebo se zakoupeným programovým
vybavením. Tyto dodatečné nepřímé náklady mohou být podstatně vyšší než přímé náklady
a mohou determinovat využitelnost dat.
4.1.12 Metakvalita
Vedle hodnocení kvality dat je přirozené, že se provede i hodnocení kvality informace,
s jakou jsou prvky kvality dat popsány (Servigne et al, 2006, s.185-186). Mluvíme
o metakvalitě (meta-quality).
Již Aronoff (1989) popisoval v rámci úplnosti dat tzv. stupeň verifikace, který odpovídá
věrohodnosti dat, ověřované množstvím a distribucí polních měření nebo jiných nezávislých
zdrojů informace. Geologové tento aspekt kvality vyjadřují na geologických mapách formou
zákresu např. u linií - ověřené linie (polními pracemi, důlní činností, tedy maximálně
věrohodné) vyznačují plnou čarou, méně ověřené (např. z vrtů nebo jiných bodových měření)
čárkovanou čarou a neověřené, tj. předpokládané linie se zakreslují tečkovaně. Podobné
vyjádření stupně spolehlivosti dat však není obecně zavedeno, proto se doporučuje doplňovat
alespoň jako atributovou hodnotu k jednotlivým geografickým prvkům.
Nejdůležitější z indikátorů metakvality jsou (Servigne et al, 2006):
Datum zpracování popisu kvality dat
Hodnocení použité metody (testovaná, vypočítaná, odhadovaná)
Velikost populace (vzorku), ze kterého byla charakteristika určena
Datum zpracování popisu kvality dat může být řešeno ad hoc (např. při provedení auditu)
nebo může být ověřování kvality dat kontinuální (např. u systémů, které mají zabudovaný
mechanismus ověřování integrity dat pomocí triggerů).
K běžným problémům při určování kvality dat patří problematická spolehlivost použit metody
z důvodů (Servigne et al, 2006) používání limitních hodnot, kvalita algoritmu, metoda
propagace apod.
Populace použitá v metodě hodnocení může záviset na metodě hodnocení. Někdy se hodnotí
celá populace (všechny prvky v datové sadě), jindy se aplikuje jistý typ vzorkování. Celá
populace může být dělena (partition) podle času (např. hodnocení kvality nových entit během
posledních dvou měsíců, hodnocení kvality entit, které jsou 3 až 5 let staré) nebo podle území
(např. zpracování určité administrativní jednotky).
CEN ISO identifikuje 3 hlavní prvky metakvality metadat:
jistota (confidence) – popisuje správnost (accuracy) informace o kvalitě (prvcích
kvality dat). Vztahuje se především k použitým metodám a jejich spolehlivosti,
v menší míře k velikosti a typu použité populace.
homogenita (homogeneity) – „textový nebo kvalitativní popis očekávané nebo
testované jednotnosti (uniformity) kvalitativních parametrů v sadě geografických dat“.
Datová sada může být výsledkem jednorázového procesu pořízení nebo výsledkem
kombinace různých technik (letecké snímky, digitalizace z map, GPS měření atd.).
Homogenita závisí hlavně na populaci, použité při hodnocení. Homogenita nemůže
být ověřena, pokud se hodnotí celá populace. Pro hodnocení homogenity je nutné
populaci rozdělit do několika částí a srovnat výsledky hodnocení kvality dat
v jednotlivých částech (při použití stejné metody) mezi sebou. Testy homogenity se
používají zejména v situaci, kdy jsou data pořizovány různými operátory, v závislosti
na zóně a datu pořízení.
spolehlivost (reliability) – „popisuje pravděpodobnost, s jakou vzorkování dat použité
pro hodnocení kvality je reprezentativní pro celou datovou sadu“. Statistická metoda,
založená na vzorkování, může být považována za spolehlivou globální metodu, pokud
jsou pokryty všechny geografické zóny a všechny dotčené časové období a populace
je dostatečně velká.
4.2 Standardizace kvality dat Parametry kvality se částečně překrývají, což stěžuje určení původu chyb. Např. na obr. 22
dvě datové sady reprezentují totéž území. Ve druhé chybí jeden geoprvek, k čemuž mohlo
dojít v důsledku 3 různých typů chyb (Servigne et al., 2006):
Chyba geometrické přesnostia (ruiny jsou příliš vlevo) spojená s chybou úplnosti (dům
chybí)
Klasifikační chyba, konkrétně sémantická přesnosta (dům byl klasifikován jako ruina)
společně s chybou úplnosti (ruina chybí)
Dvojitá chyba časové přesnostia – ruina zmizela a dům se změnil na ruinu.
Obrázek 22 Situace pro klasifikaci případů chyb (Servigne et al., 2006) (dům a ruiny u řeky)
Hodnocení kvalitativních parametrů je pro uživatele užitečné, ale mělo by být snadno
dosažitelné (Servigne et al., 2006). K tomu směřuje standardizace parametrů kvality a jejich
měření.
Standardizace kvality dat, vhodně definovaná, testovaná a certifikovaná může chránit jak
uživatele geografických informací, tak jejich producenty. Producenti geografických informací
se totiž potřebují bránit nesprávnému (v rozporu s předpokládaným účelem používání)
používání jejich produktů.
FGDC definuje 5 základních komponent kvality:
atributovou přesnost,
polohou přesnost,
logickou konzistenci,
úplnost a
rodokmen dat.
Otázkami standardizace kvality dat se zabývá rovněž Evropská komise standardizace (CEN)
a ISO. Technická komise CEN definovala následující aspekty kvality:
rodokmen dat (lineage) - popisuje historii dat včetně popisu zdroje, použitých
transformací a zodpovědné (autorské) organizace
přesnosta (accuracy) - pravděpodobnost správného přiřazení hodnoty
schopnost abstrakce (ability for abstraction) - měření, jak dobře může být reálný
objekt světa definován v abstraktním obraze světa
úplnost (completeness) - rozdíl mezi abstraktním obrazem světa a datovým souborem
v daný čas
spolehlivost (reliability) - kvalitativní měření kvality parametrů a pravděpodobnost
detekce hrubých chyb
aktuálnost (currency) - aktuálnost aspektů kvality pro celý datový soubor
Standardy kvality, vyžadované pro data v databázi GIS, a metody pro její měření musí být
definovány před začátkem pořizování dat. Standardy kvality dat musí sloužit potřebám
uživatelů, proto se uživatelé musí podílet na jejich konstituování tak, aby byly v korelaci
s praktickými omezeními, jako jsou náklady, technické možnosti, množství produkce apod.
Podrobnější popis standardizace metadat je uveden v příloze A.
4.3 Ukládání popisu kvality dat Informace o kvalitě dat by měly být připojeny ke každé datové sadě, každému souboru.
Z hlediska formy můžeme prvky kvality prostorových dat zapisovat ve formě metadat nebo
doprovodných datových sad.
Metadata mohou být uložena v databázi ve formě systémových atributů, v textových
souborech, v XML apod. Typický obsah metadat je uveden např. u popisu ZABAGED. Jiná
data vyžadují uložení podstatně většího množství informací. Např. u geochemických dat by
mělo být v metadatech detailně uvedeno datum sběru, kdo sbíral vzorky, popis vzorkovací
metody, příprava dat, popis analytických prací, název laboratoře, kde byly vzorky
zpracovány.
Obrázek 23 Ukázka metadat uložených v systému MIDAS (Horáková et al., 2003)
Shrnutí:
Kvalita dat se prakticky popisuje metadaty. Metadata je možné rozdělit na
mikrosložky, makrosložky a uživatelské složky. Polohová přesnosta je očekávaná
odchylka geografické lokalizace objektu v datovém souboru od jeho správné
polohy. Zpravidla se vyjadřuje pomocí střední souřadnicové chyby RMSE.
Rozlišení dat představuje velikost nejmenší rozlišitelné jednotky nebo nejmenší
reprezentovatelné jednotky, často se jednoduše udává rozměrem pixelu.
Atributová přesnost je přesnost záznamu informací reálného světa pomocí atributů
(někdy sémantická přesnost). Kvalitativní atributy se hodnotí pomocí
proporcionální chyby (resp. klasifikační přesnosti). Logická konzistence udává
míru shody s deklarovanými logickými vztahy mezi objekty. Sémantická
konzistence vyjadřuje kvalitu, se kterou jsou popsány geografické objekty ve
srovnání s použitým modelem, resp. modelové reality. Úplnost je měřením stupně,
do jakého obsah dat koresponduje s reálným světem podle dané specifikace, a je
úzce vázaná na účel. Hodnotí se počet případů nadbytečnosti (chyba I.druhu) a
vynechání (chyba II.druhu). Aktuálnost dat popisuje, jak aktuální jsou data.
Rodokmen dat představuje popis celé historie dat, od zdroje až do daného stavu
popisovaných dat. Jednoduchost a transparentnost dat ovlivňuje zejména
dostupnost z pohledu snadnosti využití dat a nepřímé náklady. Cena dat zahrnuje
přímé i nepřímé náklady. Metakvalita hodnotí kvalitu informace, s jakou jsou
prvky kvality dat popsány. Patří se zejména jistota, homogenita a spolehlivost
určení prvků kvality.
Kontrolní otázky: 1) Má být popis kvality dat co nejdokonalejší?
2) Co to jsou mikrosložky kvality dat?
3) Co jsou uživatelské složky kvality dat?
4) Co je geometrická přesnost?
5) Co je geometrická věrnost?
6) Co je relativní přesnost?
7) Jak rozlišuje střední chyba mezi systematickou a náhodnou chybou?
8) Jaká je povolená střední souřadnicová chyba pro 3.třídu přesnosti dle ČSN
013411?
9) Jak se udává rozlišení u leteckých kamer?
10) Uveďte typická prostorová rozlišení pro družicové systémy.
11) Co popisuje sémantická přesnost?
12) Co je proporcionální přesnost?
13) Jak vznikají chyby z nesprávného zařazení a jak z opomenutí?
14) Závisí klasifikační přesnost na počtu tříd?
15) Jak pojmenujete skutečnost, že datová sada respektuje určenou datovou
strukturu (datový model) a je kompatibilní s omezeními atributů
definovaných v datech?
16) Co sleduje sémantická konzistence?
17) Co znamená chyba I. a II. druhu z hlediska sledování úplnosti dat?
18) Jaký je rozdíl mezi úplností dat a úplností modelu?
19) Jaký je rozdíl mezi formální úplností a objektovou úplností?
20) Jak vyjadřujeme aktuálnost dat?
21) Proč dělíme geoprvky podle periody aktualizace?
22) Co musí obsahovat rodokmen dat?
23) Proč mají být data jednoduchá a transparentní?
24) Co zahrnují nepřímé náklady u dat?
25) Co je metakvalita a jak se popisuje?
26) Vysvětlete 3 hlavní složky popisu metakvality dat.
27) Jaké aspekty kvality dat vyžaduje popisovat CEN?
5 Organizace sběru dat
Cílem kapitoly je vysvětlit metody sběru dat a jejich dopady na kvalitu výběru dat.
Stručný obsah kapitoly:
Hlavní metody výběru dat při výběrovém šetření
Získáte znalosti o:
Způsobech organizace sběru dat a tvorby vzorku
Vlivu organizace sběru dat na kvalitu dat
Budete umět:
Posoudit vliv organizace sběru dat na kvalitu dat
Budete schopni:
Správně navrhnout organizaci sběru dat
Času potřebný na nastudování kapitoly – 30 minut.
Prvním a zásadním krokem při pořizování dat je zvážení organizace jejich sběru. V některých
případech je to jednoduché, protože je to dáno metodikou příslušného zdroje - např. snímání
družicových dat. Pokud sami organizujeme sběr dat, je zpravidla tento krok velmi důležitý pro
hodnotu získaných dat a systematické chyby, které vzniknou špatnou organizací sběru dat
prakticky nelze následně zpracováním odstranit.
K běžným technikám patří výběrové šetření.
Výběrové šetření (survey) znamená shromažďování dat od určitého počtu jednotek, obyčejně
v jednom časovém okamžiku, s cílem získat systematicky množinu kvantifikovatelných údajů
o určitém počtu proměnných, které se pak analyzují, aby se nalezly vztahy mezi nimi (Hendl,
2006).
Hlavní metody výběru dat:
1) Výběr na základě dobrovolnosti – používá se např. v průzkumech veřejného mínění.
Jedinci z populace se sami rozhodují, zda odpoví nebo ne. Pravděpodobně na výzvu
reagují jen vysoce motivovaní jedinci. Dobrovolníci mají často více extrémní názory
(Hendl, 2006).
2) Výběr na základě dostupnosti – jedinci jsou vybráni na základě dostupnosti
a výhodnosti. Např. provádíme průzkum o nákupních zvycích ve sportovní prodejně
a vybereme 100 jedinců na základě jejich dostupnosti v této prodejně v sobotu
dopoledne. Nebo výzkum pacientů, kteří leží v dané nemocnici. Je ale možné, že se
svými zvyklostmi a jinými charakteristikami liší od ostatní části populace (Hendl,
2006).
3) Kvótní výběr – při tomto výběru mají tazatelé za úkol provést rozhovor s určitým
počtem jedinců v několika různých kategoriích obyvatelstva. Za kategorie se volí např.
věk, pohlaví nebo ekonomický status. Vychází se zpravidla z demografických
informací o obyvatelstvu. Nedostatkem je subjektivní výběr jedince z dané kategorie
tazatelem – nevíme, zda nebyl něčím ovlivněn, zda některé typy nepreferuje (Hendl,
2006).
4) Náhodný výběr – nejlepší pro statistické šetření, protože řada technik ho přímo
vyžaduje. Představuje ideál, který je v praxi často neuskutečnitelný nebo obtížně
uskutečnitelný. Měly by při něm být splněny následující podmínky (Hendl, 2006):
a. každý prvek populace má známou pravděpodobnost, že bude do výběru
zařazen.
b. výběr je proveden pomocí metody, jež tuto pravděpodobnost výběru realizuje.
c. pravděpodobnosti výběru prvků se uvažují při zpracování získaných dat.
5) Stratifikovaný náhodný výběr - pokud víme, že populace obsahuje různorodé
subpopulace, je možné provést prostý náhodný výběr pro každou skupinu zvlášť.
Podskupiny se označují strata neboli vrstvy. Podskupiny jsou voleny tak, že jsou více
homogenní. Výsledky pro všechny skupiny pak tvoří výběr (Hendl, 2006).
V případě GIS může být stratifikovaný náhodný výběr realizován na základě
systematického rozdělení oblasti do pravoúhlých částí. V případě jiného
požadovaného dělení nebo pokud nemá vzorkovaná oblast obdélníkový tvar, se
používá následující procedura:
a. určení plochy jednotlivých nepravidelných oblastí, výpočet jejich relativní,
neboli proporcionální, plochy (daná oblast / celá plocha),
b. dělit požadovanou velikost vzorku proporcionální plochou. Dostaneme novou
(větší) velikost vzorku tak, abychom se ujistili, že požadovaný počet bodů
spadne do oblasti zájmu,
c. necháme náhodně vygenerovat body v celém území (pro novou velikost
vzorku) a použijeme jen ty body, které spadnou do oblasti zájmu.
d. Spojíme všechny dílčí výběry bodů
6) Vícestupňový shlukový výběr - používá se pro získání informací o veřejném mínění,
když např. chceme zjistit názory lidí z panelových sídlišť měst určité velikosti.
Postupuje se např. takto (Hendl, 2006):
a. vybere se náhodně vzorek okresů
b. z takto vybraných okresů se v každém okrese náhodně vybere určitý počet měst
o dané velikosti
c. pro takto vybraná města se vybere náhodně vzorek jejich sídlišť
d. z vybraných sídlišť se náhodně vyberou domácnosti, ve kterých se provede
dotazování.
V každé vrstvě shluků se provádí náhodný výběr. Je to velmi efektivní a méně
nákladné, než klasický prostý náhodný výběr domácností ze sídlišť. Pro zpracování dat
se někdy používají speciální techniky (Hendl, 2006).
7) Systematický výběr - začíná se soupisem a očíslováním prvků populace. Pak se
provede rozhodnutí, jak z tohoto seznamu systematicky vybírat prvky. Např. vždy
1 prvek z 50. Zvolí se náhodně prvek z první padesátky a další pro výběr se určí
připočtením 50. Musíme ovšem zajistit, aby primární přidělování čísel prvkům nebylo
závislé na těch charakteristikách, které se mají zkoumat (Hendl, 2006).
8) Randomizace, strukturní homogenita - randomizace znamená proces přiřazování
jedinců do experimentální a kontrolní skupiny či skupin. Tím se zajistí, že homogenní
rozložení matoucích (rušivých) proměnných je ve skupinách podobné a bude se tím
jejich vliv rušit (Hendl, 2006, s.62).
9) Latinské čtverce - latinské čtverce tvoří schéma pokusného zařízení, jehož se používá
zejména při zemědělských experimentech a které umožňuje zcela zřetelně vyřadit
náhodné výkyvy (Swoboda, 1977, s.334-335). Při pokusech s novými druhy rostlin,
s novými hnojivy apod. je vždy nebezpečí, že výsledky sklizní nedovolí spolehlivé
závěry, protože i nepatrné rozdíly v jakosti půdy ovlivnily výsledky více než jakost
nového druhu nebo nového hnojiva (obr. 24). Proto se používá takové uspořádání
pokusu, které podobné nahodilosti vyřadí tím, že při pokusech např. se třemi druhy se
veliké pole rozdělí na devět čtverců a dané tři druhy se vysadí tak, že v každé řadě
a v každém sloupci je každý ze tří druhů. Jestliže druhy označíme písmeny A, B a C,
vypadá schéma latinského čtverce takto (Swoboda, 1977):
A B C
B C A
C A B
Obrázek 24 Příklad latinského čtverce pro testování 4 různých druhů (Swoboda, 1977)
Pro čtyři druhy by muselo být k dispozici 42 = 16 čtverců, pro 6 druhů 36 čtverců atd.
Pak se porovnají rozdíly „mezi“ řádky, sloupci a druhy, a tím se může dalekosáhle
rozlišit vliv půdních podmínek od vlivu druhů. Mimoto dává rozdíl z celkového
rozptylu a „mezi“ ještě jako zbytek rozdíly „uvnitř“, které vyjadřují náhodné faktory,
k nimž se nepřihlíželo nebo které nebyly poznány (Swoboda, 1977).
Schéma latinského čtverce není ovšem omezeno jen na zemědělství. Podobným
způsobem lze mimo jiné provádět analýzu odchylek při výrobě, např. tak, že se nový
výrobní postup porovná s dosavadním na třech různých strojích, které jsou střídavě
obsluhovány třemi více nebo méně schopnými dělníky. Na základě tohoto pokusného
schématu probíhají často také lékařské, biologické a psychologické experimenty
a pomocí analýzy odchylek jako pak vyhodnoceny (Swoboda, 1977).
Rozřesení (jittering), částečné roztřesení (semi-jittering), nezávislé roztřesení (uncorrelated
jitter) a další metody vzorkování jsou uvedeny v Rapant (2006).
První 3 techniky nejsou ideální, protože získaná data mohou být zkreslena. Projevuje se
systematická chyba, pokud se data získají od jedinců, patřících do stejné subpopulace se
specifickými znaky. Viz u nich uvedená kritika (Hendl, 2006).
5.1 Implementace IDRISI nabízí moduly SAMPLE a ERRMAT. SAMPLE vybírá sadu bodů (ve vektorovém
formátu) podle libovolného náhodného, systematického nebo stratifikovaného náhodného
schématu. Poslední alternativa je nejvíce preferována, protože kombinuje výhody obou
předchozích - nevychýlený charakter náhodného vzorkovacího schématu s dobrým
geografickým pokrytím u systematického schématu.
Shrnutí:
Výběru na základě dobrovolnosti nebo na základě dostupnosti je vhodné se
vyhnout. Kvótní výběr patří ke standardním technikám u dotazníkového šetření,
ale je ovlivněn subjektivností výběr konkrétního jedince. Stratifikovaný náhodný
výběr zajišťuje rovnoměrné vzorkování ve všech třídách klasifikace.
Vícestupňový shlukový výběr vybírá postupně v jednotlivých hierarchických
vrstvách náhodně. Systematický výběr je další vhodnou technikou. Randomizace
či Latinské čtverce představují techniky zajišťující eliminaci nežádoucích
systematických vlivů.
Kontrolní otázky: 1) Proč se provádí výběrové šetření?
2) Jaké jsou nevýhody výběru na základě dobrovolnosti?
3) Jak se organizuje výběr na základě dostupnosti?
4) Vysvětlete realizaci kvótního výběru.
5) Popište postup pro stratifikovaný náhodný výběr.
6) Jak se provádí výběr v jednotlivých vrstvách (úrovních) u vícestupňového
shlukového výběru?
7) Popište možnou organizaci systematického výběru.
8) Vysvětlete metodu Latinských čtverců.
6 Zdroje neurčitosti a způsob popisu
Cílem kapitoly je vysvětlit komplexnost projevů neurčitosti při realizaci
prostorových úloh – ve zdrojích, ve způsobu zpracování i ve způsobu
rozhodování.
Stručný obsah kapitoly:
Rámec rozhodování a důkazy
Neurčitost ve vstupních datech
Neurčitost ve vztazích
Neurčitost přijímaného rizika rozhodování
Pro studium kapitoly jsou potřebné znalosti o základním rozdělení neurčitosti.
Získáte znalosti o:
Základním konceptu vymezení rámce rozhodování
Projevech a formách neurčitosti ve vstupních datech
Projevech a formách neurčitosti ve vztazích
Projevech a formách neurčitosti přijímaného rizika rozhodování
Budete umět:
vnímat projevy neurčitosti v jejich komplexním působení v celém procesu
zpracování a rozhodování
správně vymezit zdroje a příčiny chyb
Budete schopni:
Vyhnout se chybným závěrům při rozhodování
Času potřebný na nastudování kapitoly – 45 minut.
Z hlediska přístupu Eastmann et al. (2001) byl předchozí popis zaměřen především na chyby
ve zdroji a její příčiny. Přitom neurčitost zahrnuje všechny známé i neznámé chyby,
nejasnosti nebo variace jak v databázi, tak v rozhodovacích pravidlech.
Za hlavní zdroje neurčitosti jsou považovány:
neurčitost ve volbě koncepce modelu, způsobu popisu objektů a jevů (koncept)
neurčitosti ve vstupních datech
neurčitost ve vztazích
neurčitost přijímaného rizika rozhodování
Jde o praktické vyjádření zdrojů nejistoty s určením způsobu, jak ji měřit a jak ji metodicky
zahrnovat do problematiky zpracování dat.
Z hlediska porozumění původu a roli neurčitosti v rozhodovacím procesu je užitečné
považovat proces rozhodování za problém příslušnosti k množině cílových členů. Je možné
vymezit tzv. rámce rozhodování (decision frame), které obsahují všechny uvažované
alternativy (nebo hypotézy).
Chápeme ji jako množinu přípustných řešení (v podstatě obor funkce, ze kterého vybíráme
výsledek). Např. 4 varianty zalesnění, z nichž musím vybrat právě jednu.
Pro podporu rozhodování hledáme důkazy.
Důkaz (evidence) je informace, na jejímž základě můžeme ocenit příslušnost varianty (např.
lokality) do cílové množiny (decision set).
V klasické logice platí, že čím více máme důkazů, tím významnější závěry můžeme udělat.
Tuto vlastnost označujeme jako monotónní logiku. Toto nemusí vždy platit – existují sporné
případy (nejednoznačnost), chaotické jevy. Worboys, Duckham (2004) ještě uvádí 2 důležité
principy, které se běžně uplatňují při tvorbě báze znalostí na podporu rozhodování:
Báze znalostí je bezchybná (sound) pokud všechny deduktivní konsekvence jsou
pravdivé. Tedy nikdy nemůžeme odvodit nepravdu (falsehood). Mohou ale existovat
věci, které jsou pravdivé, ale nejsou z naší báze znalostí odvoditelné.
Báze znalostí je úplná, pokud všechny pravdivé výroky (propositions) které mohou
být konstruovány pomocí jazyka termínů a vztahů jsou prokazatelné (provable) ze
svých předpokladů.
1. Neurčitost ve vstupních datech
Tento druh neurčitosti odpovídá klasické nepřesnosti. Zjednodušeně se týká „chyb měření“
a je běžně reprezentován střední chybou (root mean square error RMSE) v případě
kvantitativních dat a proporcionální chybou v případě kvalitativních dat. Spadá pod klasickou
teorii pravděpodobnosti a statistické odvození jejich ocenění a šíření.
Svým způsobem jde o „statickou“ nejistotu (nemyšleno časově, ale jako zachycení určitého
stavu dat, na rozdíl od procesů, kterými se mění nejistota dat při zpracování).
Neurčitosti se objevují ve všech složkách geodat, zejména polohové (geometrické), tematické
(atributové) a časové, případně ve vztahové a funkční. Neurčitost v polohové složce je
spojena s problémem umístění (přesnosti lokalizace), vymezení objektů (ostrých hranic) apod.
Neurčitost v atributové složce dat zahrnuje chyby v atributech, nejasnost určení apod.
Neurčitosti v datech odpovídají zejména nepřesnosti (inaccuracy a imprecision).
Silně ji ovlivňuje nejednoznačnost (ambiguity) a vágnost.
Zjednodušená reprezentace reality nutně vede k neurčitosti v datech (např. zjednodušení
tvaru), ovlivňuje formu uložení (vektorový, rastrový datový model).
2. Neurčitost ve vztazích
Neurčitost ve vztazích je neurčitost ve vztahu mezi vstupními daty a cílovou, tj. vybranou
sadou objektů. Má vztah k charakteru důkazu, resp. vztahu mezi důkazem a cílovou sadou.
Svým způsobem jde o „dynamickou“ nejistotu (nemyšleno pouze časově - jde zachycení
vztahů, souslednosti, příčina-důsledek, časový vývoj apod.).
Neurčitost zde vzniká minimálně ze 3 zdrojů:
1) Neurčitost v definici rozhodovacího kritéria (vágnost rozhodovacího kritéria)
Některá kritéria mají nízkou míru neurčitosti. V případě podmínky zaplavení území mořem
do kóty 310 m.n.m. je zřejmé, že pokud neuvažujeme chyby měření (viz typ neurčitosti ve
vstupních datech), pak všechny propojené plochy, které jsou níže než uvedená výška
budou nepochybně zaplaveny.
Definice kritéria, která není tak jednoznačně (matematicky) interpretovatelná, je nutně
spojena s vyšší mírou neurčitosti. Jde tedy o problém vágnosti.
Např. je požadován výběr příkrých svahů. Co je to příkrý svah? Jak ho budeme definovat?
Budou to svahy se sklonem větším než 10%? Znamená to snad, že svah se sklonem
9.9999% není příkrý? Takové množiny označujeme jako fuzzy množiny a jsou typicky
definovány funkcí členství (příslušnosti).
2) Neurčitost v průkaznosti vztahu
Neurčitost v průkaznosti vztahu je dána různou mírou průkaznosti existence vztahu mezi
zjištěnou situací (vstupní data) a sledovanou charakteristikou. Hodnotíme tedy „přímost“
vztahu, zda je funkční (jednoznačná) nebo neurčitá. Existuje zde analogie s interpolací –
rozlišuje se přesná interpolace (numerické řešení s dodržením naměřených hodnot –
accuracy v daném místě) a aproximací, tedy přibližným, prokládajícím řešením.
V případě zaplavené půdy i příkrých svahů existuje přímý vztah mezi daty (výška, sklon)
a sledovanou charakteristikou (zatopení, příkrost svahu). Jindy však není důkaz vztahu tak
přímočarý a jistý. Skutečná podoba vztahu může být neznámá nebo může být postavena
jen na expertním odhadu.
Např. identifikace vodních ploch na základě nízké odrazivosti v infračervené oblasti
v datech DPZ. Zjištění, že dané místo má nízkou odrazivost, neznamená zcela jistě, že jde
o vodní hladinu, je to pouze domněnka, protože ostatní materiály také absorbují
infračervené záření.
Dobrým příkladem je také prostorová interpolace – máme celou řadu metod výpočtu, ale
expert rozhodne, která se hodí v konkrétní aplikaci.
Tento typ neurčitosti je podobný svým charakterem funkcím členství u fuzzy množin.
Avšak není to definice vlastní množiny, je to pouze jednoduché vyjádření stupně, do
kterého důkaz prokazuje přítomnost množiny. Nepoužívá se zde tedy logika fuzzy množin,
ale spíše Bayesova nebo Dempster-Shaferova teorie.
3) Chyba ve specifikaci modelu
Chybu ve specifikaci modelu (model specification error) popisuje již Alonso (1968, in
Eastmann, 2001). Někdy je rozhodování založeno na jednom kritériu. Běžnější je použití
několika kritérií k definování vybrané sady. Např. vhodná oblast je vybrána na základě
mírného svahu a blízkosti cesty. Vznikají 2 problémy:
a) jsou tato kritéria dostatečná k nalezení vhodné oblasti?
b) Agregujeme správně evidenci z těchto kritérií? Je-li pravděpodobnost označení tohoto
svahu za vhodný 0.6 a blízkost cest jako vhodného 0.7, jaká bude výsledná
pravděpodobnost příslušnosti místa ke skupině vhodných oblastí? Je to 0.42 podle
teorie pravděpodobnosti, 0.6 podle fuzzy množin, 0.78 podle Bayese, 0.88 podle
Dempster-Shaffera, nebo 0.65 podle lineární kombinace? Jak dobře tyto agregované
hodnoty vyjadřují stupeň členství ve vybrané sadě?
3. Neurčitost přijímaného rizika rozhodování
Při rozhodování musíme zpravidla zvolit jistou míru rizika či hladiny pravděpodobnosti,
s jakou chceme získat výsledek. To logicky znamená přijetí určitého rizika chybného
rozhodnutí - rozhodovací riziko (decision risk). Např. máme soustavu míst spolu
s pravděpodobností jejich zaplavení při určité úrovni hladiny. Finální rozhodnutí, která místa
budou zaplavena, je provedeno na základě zvoleného limitu pravděpodobnosti.
Obrázek 25 Pravděpodobnost zaplavení území (Eastmann, 2001)
Obrázek 26 Zaplavené území s 5% rizikem chyby (vlevo) a s 25% rizikem chyby (vpravo) (Eastmann, 2001)
Při hodnocení rozhodovacího rizika se ukazuje, že je jednoduššího ho interpretovat
u jednodušších forem neurčitosti, jako je třeba měření chyb. Pokud se posuneme k více
nepřímým vztahům Bayesovské pravděpodobnosti a D-S teorie důvěry až do dosti nezávisle
založeného konceptu fuzzy množin, vzdalujeme se dál a dál od schopnosti posoudit riziko
v absolutním smyslu (Eastman 1996). Rozhodování založené na fuzzy množinách umožňuje
posoudit, že přijetí jedné alternativy je méně riskantní než druhé, ale ne kolik je aktuální
riziko. Namísto výpočtu absolutního rizika musíme posuzovat relativní riziko.
Např. ocenění skupiny kandidátů na zaměstnání - můžeme zkoušet řadu kvantifikovatelných
kritérií (stupeň vzdělání, počet let praxe,...), které dovolí zařadit kandidáty do kategorií (tříd).
Pak máme snahu vzít nejlepší skupinu individuí na základě předpokladu, že nám budou
nejlépe vyhovovat. Přesto bude chybět nějaká absolutní stupnice odpovídající
pravděpodobnosti, s jakou splníme cíl.
V praxi se výsledek relativizuje např. dělením maximální hodnotou. Následně se může
aplikovat limitní hodnota pro získání určitého procenta nejlepších (tj. nejméně riskantních)
dostupných řešení. Výhodou tohoto postupu je jeho univerzálnost.
Shrnutí:
Pro dobré řešení rozhodování je vhodné vymezit rámec rozhodování, který
obsahují všechny uvažované alternativy. Pro ně hledáme důkazy. Neurčitost ve
vstupních datech zahrnuje typicky chyby měření, je jak v polohové tak i atributové
složce. Neurčitost ve vztazích vzniká z důvodu neurčitosti v definici
rozhodovacího kritéria, v průkaznosti vztahu nebo ve specifikaci modelu.
Neurčitost přijímaného rizika rozhodování je spojeno s volbou limitu
pravděpodobnosti přijímaného řešení.
Kontrolní otázky: 1) Co je rámec rozhodování?
2) Uveďte příklad neurčitosti ve vstupních datech
3) Jak souvisí neurčitost v definici rozhodovacího kritéria a vágnost kritéria?
4) Vysvětlete problémy vznikající v důsledku neurčitosti v průkaznosti
vztahu.
5) Jaké jsou možnosti kombinace pravděpodobností jednotlivých kritérií?
6) Jak se nastavuje rozhodovací riziko?
7 Analýza citlivosti a problém agregace dílčích jednotek
Cílem kapitoly je vysvětlit 2 běžné problémy a jejich řešení – nejasné vlivy
jednotlivých faktorů na výsledek a problém agregace dat.
Stručný obsah kapitoly:
Analýza citlivosti
Problém agregace dat do polygonů
Měřítkový efekt
Zónový efekt
Získáte znalosti o:
Problémech rozdílného vlivu jednotlivých faktorů
Základním principu analýzy citlivosti
Problémech agregace dat do polygonů
Budete umět:
Připravit analýzu citlivosti
Připravit zpracování geodat s eliminací vlivu MAUP
Budete schopni:
Optimalizovat svůj model vzhledem ke skutečně významným faktorům
Vyhnout se zkreslení výsledků v důsledku MAUP problému
Času potřebný na nastudování kapitoly – 30 minut.
7.1 Analýza citlivosti
Analýza citlivosti zkoumá, jak model (numerický či koncepční) reaguje na změny informací
poskytovaných na vstupu (Krivoruchko, Crawford 2005). Vstupní informace zahrnuje data
použitá ke kalibraci modelu, předpokládané parametry nebo odhadované parametry z dat
použité k řízení modelu a základní předpoklady pro vytvoření modelu. Hlavním cílem
analýzy citlivosti je identifikovat ty části modelu, které jsou kritické a které ne.
Proč provádět analýzu citlivosti? Malá změna klíčového parametru může způsobit podstatnou
změnu výsledku modelu a mít velký dopad na závěry, které odvozujeme z modelu.
Analýza citlivosti je proto důležitá pro stanovení spolehlivosti výstupů modelu.
Stejně tak může být důležitá i pro určení komponent, které nejsou tak důležité. Např. výstupy
modelu mohou být necitlivé na neurčitost ve vstupních informacích. Nebo tak mohou různé
vstupní informace vést ke zcela stejným závěrům.
Obecně analýza citlivosti může být významným analytickým nástrojem, který může vést
k efektivnější alokaci zdrojů. Může usměrnit úsilí při sběru dat, snížit výpočetní nároky,
osvětlit nutnost zlepšení modelu a poskytovat indikaci spolehlivosti výstupů modelu. Analýza
citlivosti může být užitečným nástrojem pro hodnocení modelu, plánování a rozhodování.
Vytvořený model lze testovat tak, že jednotlivé vstupy jsou měněny v určitých krocích
a sleduje se reakce na výstupu modelu.
Krivoruchko, Crawford (2005) uvádí příklad hledání optimálního prostředí pro jeden druh
kalifornského hmyzožravého ptáčka v blízkosti San Diego. Maximální povolený sklon svahu se
mění ze 40 až na 20%, změní se šířka obalové zóny kolem silnic atd. Změna povoleného
sklonu ze 40 na 25% vede k poklesu velikosti plochy optimálního prostředí o 24%, další
pokles na 20% sklonu vede ke snížení plochy až o 40%. Z toho vyplývá velká závislost
výsledků na přesnosti stanovení sklonu. Je tedy nutné zjistit podrobnější informace
o preferenci sklonů svahů ptactvem a zajistit lepší digitální model reliéfu.
7.2 Problém agregace dat do polygonů
Problematiku MAUP (Modifiable areal unit problem) podrobněji popsal Openshaw už v roce
1984. Stěžoval si, že volba reálných jednotek plošných objektů používaných v mnoha
geografických studiích je libovolná, je individuálně upravitelná a zcela podléhá rozmarům
uživatelů, kteří s geodaty pracují. Už v této době bylo zřejmé, že tato proměnlivost měřítek
prvků vede odchylkám ve výsledcích studií. Tento problém má zásadní vliv především
u agregovaných dat, která jsou použita pro shlukování (cluster analysis), pro prostorovou
epidemiologii, prostorovou statistiku, či při tvorbě kartogramů, kde může snadno dojít
k nesprávné interpretaci výsledků. Geodata jsou často agregována pro prezentaci výsledků
studií ve vhodném kontextu. Příkladem agregačních zón mohou být třeba sčítací okrsky nebo
obvodní oddělení policie. Jsou to libovolně stanovené zóny (areály) v prostoru a pro
zobrazení různých dat mohou být použity variantně pro různé účely. Sčítací okrsky mohou
být vymezeny tak, aby obsahovaly zhruba stejný počet domů, což je například pro prezentaci
počtu vloupání do domů vhodnější než vymezení policejních okrsků (daných v UK
historickým správním vývojem).
Mnoho zdrojových geodat vyžaduje pečlivou volbu agregačních zón pro prezentaci
prostorové variability geodat srozumitelným způsobem. Existují různé možnosti vymezení
vhodných areálů.
Např. volba areálů pro lokalizaci a agregaci kriminálních činů má téměř nekonečné množství
variant řešení. Mohou být využity existující administrativní hranice (městské obvody, obce,
okresy, …), sčítací obvody, hranice hygienických okrsků atd. V GIS lze jednoduchým
dotazem automatizovaně vygenerovat velké množství různých nepřekrývajících se buněk
např. pravidelné, často čtvercové (gridy). Počet různých kombinací vymezení zájmových
ploch je velký. Openshaw (1984) vypočítal, že jestliže je potřeba agregovat 1000 objektů do
20 skupin je možné vytvořit až 101260 různých kombinací jejich shluků. Ačkoliv je tolik
různých možností, často je vybírána ta nejsnáze dostupná místo té kontextově nejvhodnější.
Problém MAUP je úzce spjat s ekologickou chybou, resp. s ekologickou odchylkou (Bailey
and Gatrell, 1995). Ekologická odchylka způsobená proměnlivým měřítkem prvků byla
popsána 2 samostatnými efekty, které obvykle nastanou souběžně během analýz
agregovaných dat. Měřítkový efekt způsobuje, že pro různé úrovně agregace produkují
statistické výpočty odchylky ve výsledcích. Je to dáno tím, že vazba mezi proměnnými závisí
na velikosti prostorových jednotek, ke kterým jsou vztaženy. Tato závislost obecně vzrůstá se
zmenšujícím se měřítkem (tj. se zvětšením plochy jednotek). Například vzniká, pokud jsou
data ze sčítacích okrsků přepočítávána na vyšší administrativně-správní jednotky.
Zónový efekt popisuje proměnlivost ve statistické závislosti způsobené přeskupováním dat
do jiných sestav/uspořádání ve stejném měřítku. Tento agregační problém je méně známý a je
patrný až tehdy, když jsou data zobrazována variantně pro různě stanovené agregační
prostorové jednotky (stejného měřítka).
Měřítkový efekt lze doložit na změně lokalizačního koeficientu (v některých částech jsou
dobře patrné) (obr. 27) a nárůstu Gini koeficientu pro menší jednotky (tab. 9).
Obrázek 27 Srovnání vlivu agregační jednotky na výsledný vzor distribuce hodnot lokalizačního koeficientu pro počet
uchazečů s nanejvýš základním vzděláním v Ostravě (stav k 31. 3. 2010) (upraveno z Inspektor, 2011)
Tabulka 9 Gini koeficient pro počet uchazečů o zaměstnání (UC), s nejvýše základním vzděláním (UCVABC) a
dlouhodobě nezaměstnaných (UCE12) v závislosti na agregační úrovni (podle Inspektor, 2011)
městské obvody Základní sídelní jednotky sčítací obvody
UC 0,12 0,22 0,31
UCVABC 0,28 0,44 0,55
UCE12 0,19 0,33 0,46
Shrnutí:
Hlavním cílem analýzy citlivosti je identifikovat ty části modelu, které jsou
kritické a které ne. Je důležitá pro stanovení spolehlivosti výstupů modelu. Způsob
agregace geodat do výpočetních jednotek má významný vliv na výsledky.
Měřítkový efekt způsobuje, že pro různé úrovně agregace produkují statistické
výpočty odchylky ve výsledcích. Zónový efekt popisuje proměnlivost ve
statistické závislosti způsobené přeskupováním dat do jiných sestav/uspořádání ve
stejném měřítku.
Kontrolní otázky: 1) Co je cílem analýzy citlivosti?
2) Jak se provádí analýza citlivosti?
3) Co je problém MAUP?
4) Vysvětlete měřítkový efekt.
5) Vysvětlete zónový efekt.
8 Měření mlhavosti a hrubé množiny
Cílem kapitoly je vysvětlit teoretické přístupy k měření mlhavosti, zejména teorie
fuzzy množin. Důraz je klade i na vysvětlení relevantních prostorových konceptů,
zejména prostorově neurčitých objektů, topologických operací pro ně. V závěru je
vysvětlen odlišný přístup hrubých množin.
Stručný obsah kapitoly:
Koncept měření mlhavosti
De Morganovy zákony, trojúhelníkové normy a konormy
Teoretické základy fuzzy množin
Operace s fuzzy množinami
Fuzzy region
prostorově neurčité objekty
topologické operace
Jiné prostorové operace
Implementace měření mlhavosti
Hrubé množiny
Pro studium jsou nezbytné znalosti teorie pravděpodobnosti a teorie množin.
Získáte znalosti o:
Významu měření mlhavosti
Teoretických principech a východiscích
Teorii a operacích pro fuzzy množiny
Definici, vymezování a operacích s vágními prostorovými objekty
Teoretických principech topologických operací pro klasický a pro fuzzy
prostor
O implementaci v prostředí IDRISI
Koncept hrubých množin pro omezenou rozlišitelnost
Budete umět:
Aplikovat teorii fuzzy množin pro vaši aplikaci
Vymezit prostorově vágní objekty a pracovat s nimi
Využít koncepce hrubých množin
Budete schopni:
Využít teorie fuzzy množin pro korektní řešení problému vágnosti,
případně i dalších forem neurčitosti
Čas potřebný na nastudování kapitoly – 4 hodiny.
Jedním z významných zdrojů neurčitosti je neurčitost ve vztazích, tedy aspekt běžně
označovaný jako neurčitost rozhodovacích pravidel.
Používané nástroje se zabývají neurčitostí, zda entita patří k finální vybrané (cílové) sadě.
Tyto nástroje spadají do obecné kategorie neurčitých výrazů příslušnosti k množině, známé
jako měření mlhavosti FM (fuzzy measure). Termín FM (nezaměňovat s jiným možným
vyjádřením v podobě fuzzy množin) odpovídá jakékoliv množinové funkci, která je
monotónní vzhledem k množině příslušností (Dubois and Prade 1982, in Eastmann, 2001).
Významnými příklady fuzzy měření jsou Bayesovská pravděpodobnost, důvěra a věrohodnost
z Dempster-Shaferovy teorie, a funkce příslušnosti fuzzy množin.
Základním rysem fuzzy měření jsou charakteristiky, které sledují De Morganovy zákony při
konstrukci operátorů průniku a sjednocení a tedy základní pravidla šíření neurčitosti při
agregaci důkazů (evidence). De Morganovy zákony definují trojúhelníkové vztahy mezi
operátory průniku, sjednocení a negace (Eastmann, 2001):
T(a,b) = ~S (~a,~b) kde T = průnik (AND) = T-Norm
S = sjednocení (OR) = T-CoNorm
~ = negace (NOT)
Průnikové operátory v tomto kontextu jsou známy jako trojúhelníkové normy (zjednodušeně
T-normy, T-norms), zatímco sjednocovací operátory jsou známé jako trojúhelníkové konormy
(T-CoNorms).
T-norma je definována (upraveno z Yager 1988 in Eastmann, 2001):
mapování T: [0,1]*[0,1] [0,1] tak, že platí:
T(a,b) = T(b,a) komutativní zákon
T(a,b)>=T(c,d) jestliže (a>=c) a (b>=d) monotónní
T(a,(T(b,c)) = T (T(a,b),c) asociativní zákon
T(1,a) = a
Příklady využití průniku (tj. které funkce se chovají stejně):
min (a,b) průnikový operátor pro fuzzy množiny
a*b průnikový operátor pro pravděpodobnosti
1-min(1,((1-a)^p + (1-b)^p)^(1/p) pro p>=1
max(0,a+b-1)
T-konorma je definována (upraveno z Eastmann, 2001):
mapování S: [0,1]*[0,1] [0,1] tak, že platí:
S(a,b) = S(b,a) komutativní zákon
S(a,b)>=S(c,d) jestliže (a>=c) a (b>=d) monotónní
S(a,(S(b,c)) = S (S(a,b),c) asociativní zákon
T(0,a) = a
Příklady využití sjednocení (tj. které funkce se chovají stejně):
max (a,b) sjednocovací operátor pro fuzzy množiny
a + b - a*b průnikový operátor pro pravděpodobnosti
min(1,(a^p + b^p)^(1/p) pro p>=1
min(1,a+b)
Tyto příklady naznačují široké rozmezí operací, které jsou k dispozici pro agregaci pomocí
fuzzy měření, a tedy agregace kritérií v rozhodovacím procesu. Mezi různými operátory je
nejvíce extrémním (ve smyslu poskytování nejextrémnějších numerických výsledků po
agregaci) operátor minimum T-norma a maximum T-konorma. Tyto operátory mají zvláštní
význam, protože jsou nejčastěji používanými agregačními operátory pro fuzzy množiny.
Navíc, Yager (1988, in Eastmann, 2001) ukázal, že reprezentují extrémní konce kontinua
příbuzných agregačních funkcí vytvořených operacemi OWA (uspořádaného váhového
průměru). Problém není v posouzení, zda je jedna skupina operátorů lepší než druhá, ale
v tom, že rozdílné vyjádření rozhodovacích pravidel vyžaduje rozdílné agregační procedury.
Zpravidla se používají 3 základní logiky při vyjádření neurčitosti rozhodovacích pravidel
(Eastmann, 2001):
teorie fuzzy množin,
Bayesovská statistika,
Dempster-Shaferova teorie.
Každá má svou velmi rozdílnou sadu T-norem a T-konorem operátorů. Není však vždy jasné,
co použít. Tento výsledek vychází také ze skutečnosti, že rozhodovací pravidla zahrnují více
než jednu formu neurčitosti. Také to ale pramení z nedostatku výzkumu, zjišťujícího kdy by
měly být jednotlivé metody používány.
Obecnější pravidla:
rozhodovací problémy, které mohou být řešeny v rámci mapování vhodnosti, mohou
efektivně využívat logiku fuzzy množin (např. multikriteriální ocenění). Pokud např.
definujeme vhodnost jako soustavu kontinuálních faktorů (vzdálenost od cest, sklon,
atd.), je vyjádření vhodnosti kontinuální. Neexistuje jasné rozlišení mezi oblastmi,
které jsou vhodné a které ne. Mnoho (ne-li většina) problémů alokace zdrojů v GIS
spadá do této kategorie.
přítomnost mlhavosti ve smyslu pochybností neznamená vždy, že problém bude
vhodné řešit pomocí fuzzy množin. Např. měření neurčitosti spojené s ostře
ohraničeným souborem může vést k funkci příslušnosti, které jsou v podstatě identické
svým charakterem s těmi u fuzzy množin. Rozlišující charakteristikou je spíše to, že
soubor je sám vnitřně nejasný, nejednoznačný. Např. pokud uvažujeme o zaplavení
oblasti v důsledku postavení přehrady, určitá neurčitost existuje díky chybám v DMT.
Pokud předpokládáme náhodné rozložení chyb a prostorovou nezávislost chyb, potom
graf pravděpodobnosti zaplavení proti výšce uváděné v databázi bude mít velmi
pravděpodobně kumulativní N křivku tvaru S a ne nějakou jinou typickou členskou
funkci fuzzy množin. Množina sama není nejasná - je pouze ostře ohraničená.
Pochybnosti jsou jen u měření výšek. Vztah je totiž jasný (pokud zanedbáme
dynamiku hydrologického jevu).
přítomnost mlhavosti ve smyslu neprůkaznosti, nepřesvědčivosti (inconclusiveness)
běžně spadá k Bayesově pravděpodobnosti nebo k Dempster-Shaferově teorii.
Problém je u nepřímých důkazů - důkaz nedovoluje přímo ocenit členskou množinu,
ale spíše ovlivnit ji s určitou mírou neurčitosti. Primárně se obě logiky zabývají ostře
ohraničenými sadami – pochybnosti jsou tedy o průkaznosti vztahů, nikoliv v datech.
Klasickým případem je procedura řízené klasifikace při analýze dat DPZ. Pomocí
tréninkové množiny zakládá Bayesovský klasifikátor (tj. rozhodovací stroj) statistický
vztah mezi důkazem a vybranou sadou (ve formě podmíněné funkce hustoty
pravděpodobnosti). Tímto způsobem jsou založeny neurčité vztahy, které dovolují
ovlivnit stupeň členství pixelu ve vybrané sadě.
nehledě na jejich společné základy může agregace pravděpodobností pomocí Bayese a
Dempster-Shafera (D-S) podávat značně rozdílné výsledky. Primární rozdíl mezi nimi
se týká role absence důkazu. Bayes považuje nepřítomnost důkazu v podpoře určité
hypotézy za vznik důkazu na podporu alternativní hypotézy, zatímco Dempster-Shafer
teorie ne. Tedy, nehledě na fakt, že oba považují hypotézy v rozhodovacím rámci za
vyčerpávající, D-S umí pracovat s neznalostí, zatímco Bayes nikoliv.
Dalším rozdílem je, že Bayesovský přístup kombinuje důkazy, které jsou podmíněny
hypotézami ve vybrané sadě (je založena na trénovacích datech), zatímco D-S teorie
agreguje důkazy odvozené z nezávislých zdrojů.
Nehledě na tyto obecnější pravidla je úplná implementace uvedených principů složitá díky
dosavadnímu omezení teoretického rozvoje na určité prototypové kontexty. Např. teorie fuzzy
množin vyjadřuje pochybnosti v množině členství ve formě funkcí příslušnosti. Avšak to
nezachycuje zdroj neurčitosti přímo ve tvaru členské funkce. Např. můžeme agregovat
nepřímý důkaz a pochybnosti ve vybrané sadě? Zde se otevírá další pole pro výzkum.
Soft computing jsou metody, které umožňují nalézat řešení vágně a neúplně popsaných
problémů. I když toto řešení nemusí být zcela optimální, alespoň je reálně dosažitelné. Soft
computing zahrnuje metody umělé inteligence jako je fuzzy logika, neuronové algoritmy,
genetické algoritmy a dále pravděpodobnostní metody, či teorii chaosu. Tyto metody se
většinou používají kombinovaně např. jako neuro-fuzzy, fuzzy-genetické algoritmy
(Růžičková, 2012).
8.1 Fuzzy množiny Mocným nástrojem pro popis bohatosti reality (i když ne zcela přesně) je přirozený jazyk. A
to nejen kvůli bohatosti vyjadřování, ale i díky používání vágních pojmů. Ty mohou
označovat objekty, které jen těžce přesně definujeme nebo ohraničíme (židle, chytrý člověk,
velký strom, červená barva) (Novák, 1989).
Namísto jednoznačného rozhodnutí, zda je daný člověk chytrý nebo ne, můžeme raději určit
míru našeho souhlasu s výrokem, že tento člověk je chytrý.
Pozor, nejde o pravděpodobnost. Nezkoumáme, zda nastal či nenastal nějaký jev, tedy v tomto
případě zda nastal jev „chytrosti“, nebo v případě vymezení velkého stromu jev, zda strom,
který pozorujeme, má výšku 30 m. Zaměřujeme se na popis vágnosti, nikoliv na
pravděpodobnost výskytu.
Důvodem rostoucí obliby teorie fuzzy množin a fuzzy logiky mohou být zejména čtyři hlavní
myšlenky (Caha, 2011):
částečná příslušnost prvku do množiny (např. město, může být částečně malé i středně
velké současně)
popis kategorií bez jasných a ostrých hranic (např. sklony svahů, nelze stanovit
exaktní hranici, kdy se sklon stává velkým) (obr. 28-30)
modelování jevů a objektů, které prochází postupnou změnou z jednoho stavu do
jiného stavu (např. půdní typy, jsou charakterizovány vlastnostmi, které se mění
postupně) (viz obr. 31-32)
využití aproximačních výrazů (např. nedaleko vodního zdroje, blízko města atd.)
umožňuje modelovat vztahy a procesy podobným procesem, jako je lidské uvažování
(obr. 33).
Definice fuzzy množiny
Mějme X jako prostor všech prvků a obecný prvek x z toho prostoru. Pak fuzzy množina A na
X je charakterizována funkcí příslušnosti )(xf A(fuzzy membership grade or possibility), která
asociuje (mapuje) každé x z X s hodnotou z intervalu [0,1], kterou označujeme jako stupeň
příslušnosti. Čím jsou hodnoty stupně příslušnosti prvku x bližší hodnotě 1, tím více je prvek
x prvkem množiny A specifikován prostřednictvím funkce )(xf A(Caha, 2011). Klasická (ostrá)
množina je potom pouze speciálním případem fuzzy množiny, kde stupeň příslušnosti se
skokem mění z hodnoty 0 na 1. Např. na obr. 28 pro příkrý svah můžeme definovat fuzzy
funkci příslušnosti takovou, že svah 10% má členství = 0, svah 25% má členství 1. Mezi 10%
a 25% sklonu svahu funkce příslušnosti postupně narůstá od 0 do 1.
Obrázek 28 Fuzzy funkce příslušnosti versus ostré funkce pro určení adjektiva „příkrý“ svah (Eastmann, 2001)
Vysvětlivky: fuzzy set – mlhavá množina, crisp set – ostrá množina, possibility – možnost, slope gradient –
sklon svahu
Obrázek 29 Proměnlivé (vágní) hranice řek Tejo a Zêzere v závislosti na výšce vodní hladiny a stupeň příslušnosti místa
k řekám (Fonte, Lodwick, 2005)
Objekt nemusí mít pouze vektorovou reprezentaci. Na obr. 30 jsou pro příklad uvedeny
v matici hodnoty členství pixelu v regionu (Worboys, Duckham, 2004).
Obrázek 30 Hodnoty členství pixelu ve vymezeném polygonu (Worboys, Duckham, 2004)
Na dalším obrázku jsou uvedeny stupně příslušnosti pro jednotlivé základní půdní kategorie
v území a výsledná kombinace dominujících půdních typů.
Obrázek 31 Stupně příslušnosti pro jednotlivé půdní kategorie a-c v území a výsledná kombinace
Vysvětlivky: a mollic Bori-Udic Cambosoils, b typic Bori-Udic Cambosoils, c lithic Udi-Orthic Primosoils
Pomocí fuzzy množin lze řešit i postupnou časovou změnu příslušnosti objektu z 1. do 2.třídy
(viz následující obr), např. postupné zarůstání louky lesem.
Obrázek 32 Časová interpolace založená na změně fuzzy množiny (Dragievič 2005)
Ukázka modelování vágního prostorového operátoru blízký a daleký je na dalším obrázku.
Obrázek 33 Fuzzy funkce příslušnosti pro vágní prostorové operátory „blízký“ a „daleký“ ve vztahu místa k lyžařskému
horskému středisku (Morris, Jankowski, 2005)
Funkce příslušnosti
Typické tvary funkcí příslušnosti jsou vysvětleny na implementaci v IDRISI:
1) sigmoidální (tvaru „s“) je vytvářena na základě funkce kosinus. Modul FUZZY vyžaduje
pozici 4 bodů podél osy X, které ovlivňují tvar křivky. Je třeba dodržovat logiku umístění
kontrolních bodů (a, b, c, d) tak, jak je znázorněna v obrázcích.
Obrázek 34 Fuzzy funkce typu „s“ (Eastmann, 2001)
2) funkce tvaru J - jsou také běžné, i když sigmoidální jsou častější. Je nutné zdůraznit, že
funkce inklinuje k 0, ale dosáhne ji až v nekonečnu. Tedy inflexní body a a d indikují
body, kde funkce dosahuje spíše 0.5 než 0.
Obrázek 35 Fuzzy funkce typu „j“ (Eastmann, 2001)
3) lineární funkce - tento typ funkcí je široce využíván v elektronických zařízeních, které
využívají fuzzy logiku. Uplatňuje se dobře kvůli své jednoduchosti, ale také i díky potřebě
monitorovat výstup z lineárních senzorů, které se běžně používají.
Obrázek 36 Lineární fuzzy funkce (Eastmann, 2001)
4) uživatelem definovaná funkce - pokud vztahy mezi hodnotou a fuzzy příslušností
neodpovídají žádnému ze tří výše uvedených typů, aplikuje se uživatelem definovaná
funkce. Kontrolních bodů může být tolik, kolik je potřebné k definici křivky funkce
příslušnosti. Funkce příslušnosti mezi 2 sousedními kontrolními body je lineárně
interpolována.
Obrázek 37 Uživatelem definovaná fuzzy funkce (Eastmann, 2001)
Základní pojmy fuzzy množin
Několik důležitých pojmů týkajících se fuzzy množin (Caha, 2011):
jádro (core, kernel) je množina všech x, kde stupně příslušnosti 1)( xA
nosič (support) je množina všech x, kde 0)( xA
α-řez (α-cut) je množina všech x, kde )(xA pro 1,0
výška (height) je maximální hodnota )(xf Apro všechny x z X. Pokud neexistuje jádro,
není výška rovna 1.
Podstatnou myšlenkou je, že všechny α-řezy (jejichž speciálními případy je jak jádro, tak
i nosič) jsou klasickými (ostrými) množinami (Caha, 2011).
Obrázek 38. Funkce příslušnosti pro jádro, nosič, alfa-řez a výška (Škrabánek, 2014)
Fuzzy množiny mohou být spojité i diskrétní. U diskrétních se někdy používá jednoduchý
výpis jejích prvků ve formě sady zlomků, kde v čitateli je stupeň příslušnosti a ve jmenovateli
označení příslušné třídy.
Někdy se také vyjadřuje mohutnost fuzzy množiny (card), což odpovídá počtu prvků
množiny. U diskrétních se použije suma stupně příslušnosti přes celý nosič (což je suma všech
nenulových stupňů příslušnosti) či integrál. Mohutnost lze definovat i jako fuzzy číslo (fcard),
což má význam vágního vyjádření např. „asi 2“ (Novák, 1989).
Princip rozšíření
Jednou z nejdůležitějších vět fuzzy teorie množin je tzv. princip rozšíření. Mějme funkci f
představující mapování univerza X na Y a fuzzy množinu A na X definovanou následovně
(Caha, 2011):
}/)(.../)(/)({ 2211 nnAAA xxxxxxA
Pak obrazem A skrze mapování f(.) je fuzzy množina B na Y definovaná následovně (Caha,
2011):
}/)(.../)(/)({ 2211 nnAAA yxyxyxAfB
kde y = f(xi).
Tedy fuzzy množina v X indukuje fuzzy množinu ve Y, s funkcí příslušnosti s hodnotou 0,
pokud pro dané y neexistuje x, nebo supremum funkce příslušnosti odpovídajícího x.
Je zřejmé, že aplikací funkce f na prvky univerza X se jejich stupně příslušnosti přenášejí
beze změny na jejich obrazy.
Princip rozšíření umožňuje definovat všechny potřebné matematické operace nad fuzzy
množinami, stejně jako fuzzy čísla. Jeho prostřednictvím lze například definovat algebru
fuzzy čísel.
8.1.1 Fuzzy číslo
Zvláštním případem fuzzy množiny je fuzzy číslo. Fuzzy číslo je fuzzy množina v univerzu
reálných čísel reprezentující určitou hodnotu spolu s vyjádřením možné nepřesnosti v hodnotě
obsažené. Pomocí toho lze modelovat pojmy jako „asi 10“ nebo „kolem 4“.
Je vyžadováno, aby fuzzy čísla měly alespoň po částech spojitou funkci příslušnosti. Typicky
se používají jednoduché lineární tvary (obr. 39).
Obrázek 39 Fuzzy čísla ( a)trojúhelníkové, b)trapezoidální, c) po částech lineární, d) po částech lineární aproximující
gaussovské) (Caha, 2018)
S fuzzy čísly je možné provádět běžné aritmetické operace sčítání, odečítání, násobení a
dělení. Formálně to lze zobecnit jako (Caha, 2018):
˜Z = ˜X ◇ ˜ Y
kde ◇ značí některou z operací +,−, ・, /
Jejich jednoduché řešení využívá rozdělení na rostoucí, stagnující a klesající část funkcí
příslušností, ty se řeší zvlášť a výsledek se sjednotí.
V intervalové aritmetice se provede rozklad fuzzy čísel na jednotlivé alfa řezy a provedou se
výpočty samostatně pro každý alfa řez. Pro každý interval pak určíme (Caha, 2018):
[𝑧∝, 𝑧∝̅̅ ̅] = [𝑥∝, 𝑥∝̅̅ ̅]◇ [𝑦∝, 𝑦∝̅̅ ̅] = [min(𝐺) ,max(𝐺)]
kde 𝐺 = {𝑥∝◇𝑦∝, 𝑥∝◇𝑦∝̅̅ ̅̅ , 𝑥∝̅̅ ̅◇𝑦∝, 𝑥∝̅̅ ̅◇𝑦∝̅̅ ̅̅ , }
Pokud použijeme operátor dělení, musí být samozřejmě Y neprázdná množina, jinak operace
nemá smysl.
Obrázek 40 Ukázky řešení základních aritmetických operací pro 2 fuzzy čísla A a B (Caha, 2018)
Nad fuzzy čísly lze při použití principu rozšíření definovat všechny algebraické operace jako
u klasických čísel (Kaufmann, Gupta, 1985 in Caha, 2011). Provede se diskrétní reprezentace
(rozdělením po úsecích) a na nich se provede operace. Výsledek se interpoluje.
V případě funkcí je třeba rozlišovat, zda je monotónní nebo ne. Pokud ano, provede se
rozklad na 𝛼−řezy a propagují se pouze limitní body intervalů. Pokud funkce není monotónní,
je třeba použít jiné techniky např. tzv. vertexevou metodu nebo princip rozšíření s
pravidelným vzorkováním (získáme pak aproximaci výsledku, ne přesný výsledek) (Caha,
2018).
Vzájemné porovnávání fuzzy čísel není na rozdíl od klasických čísel triviální problém (obr.
41). Existuje řada postupů, jak lze fuzzy čísla porovnávat jak mezi s sebou, tak i společně s
klasickými čísly. Problematický případ s nerozlišitelností 2 fuzzy čísel je na následujícím
obrázku. Mohli bychom ho formulovat jako dotaz, zda je „asi 1.2“ vždy menší než „asi 1.8“,
když víme, že rozsah možných hodnot pro 1. fuzzy číslo je od 0.2 do 2.8 a pro 2.číslo je od 0
do 2.2.
Obrázek 41 Problém nerozlišitelnosti 2 „překrývajících se“ fuzzy čísel (Caha, 2018)
Možným řešením je simulace hodnot podle hodnot příslušnosti. Pro ~X např. série náhodně
vygenerovaných čísel 0.5, 1, 1.2, 1, … a pro ~Y série náhodných čísel 1.8, 2, 1, 1.7, 0.1,…
Nad nimi se pak již stačí ptát, kolik realizací X je menších než realizací Y.
Praktické využití nabízí R package FuzzyNumbers
(http://www.rexamine.com/resources/FuzzyNumbers/).
Jednou z možností využití fuzzy čísel je reprezentace povrchu reliéfu.
Jde o povrch, jehož z souřadnice jsou vyjádřeny fuzzy číslem ˜Z , zatímco souřadnice x,y se
zde považují za přesné (např. se prováděla interpolace v přesně definované síti). Reprezentuje
možný rozsah dat buď s ohledem na neurčitost v datech využitých pro tvorbu tohoto povrchu,
nebo na neurčitost ve vztazích, konkrétně použité interpolační metody a jejího nastavení (obr.
42).
Obrázek 42 Reprezentace fuzzy povrchu. (Caha, 2018)
Vysvětlivky: Trojúhelníky odpovídají vertikálnímu zobrazení fuzzy čísel, kde přepona reprezentuje maximální
rozsah hodnot výšky v daném bodě a poloha odlehlého vrcholu označuje nejpravděpodobnější hodnotu.
Existují vhodná fuzzy rozšíření pro všechny běžné interpolační metody pro tvorbu fuzzy
povrchů (např. IDW, spline, kriging). Vyžadují však velmi intenzivní výpočty (Caha et al.,
2015).
Obrázek 43 Fuzzy semivariogram (Caha et al., 2015).
Z jednoho výsledného fuzzy povrchu lze pak odvozovat řadu informací, např. minimální a
maximální hodnotu v daném místě, rozdíl mezi minimem a střední hodnotou, rozdíl mezi
maximem a střední hodnotou (obr. 44).
Obrázek 44 Hodnocení fuzzy povrchu koncentrace PM10 pomocí 4 dílčích charakteristik v každém místě (min, max, min-
střed, max- střed) (Caha et al., 2015).
Nad fuzzy povrchy pak lze provádět běžné topografické analýzy, jejímiž výsledky jsou opět
fuzzy čísla. Např. výpočty sklonu, orientace (obr. 46) a viditelnosti (obr. 47).
Obrázek 45 Uměle vygenerovaný DMR a minimální a maximální hodnota v každém místě (Caha, 2014)
Obrázek 46 Fuzzy sklon povrchu a minimální a maximální hodnota sklonu v každém místě (Caha, 2014)
Obrázek 47 Výsledek klasického výpočtu viditelnosti a pravděpodobná varianta řešení fuzzy viditelnosti (upraveno z Caha,
2014)
Pokud se pracuje při určování viditelné oblasti s neurčitostí, je třeba odlišit 2 jevy (Worboys,
Duckham, 2004):
Pravděpodobná oblast viditelnosti: u ní se předpokládá dokonalá viditelnost, jasně
ohraničený terén a žádný vliv vegetace. Neurčitost vzniká pouze v důsledku chyb
a nepřesností měření výšek. Pravděpodobná oblast viditelnosti je vypočtena na základě
určitého modelu neurčitosti. Hranice oblasti budou ostré, ale její poloha je neurčitá kvůli
chybám měření. V podstatě říkáme, že přesnostp (precision) bude vysoká, ale přesnosta
(accuracy) nízká.
Fuzzy oblast viditelnosti: předpokládá se naopak dokonalá měření výšek a neurčitost vzniká
díky atmosférickým podmínkám, odrazu světla, sezónním a vegetačním efektům. Hranice
nebude ostrá, ale široká a odstupňovaná. Vytváří se fuzzy region, při kterém se nepoužívá
klasická pravděpodobnost.
Je zřejmé, že komplexní hodnocení viditelnosti by mělo zahrnout obě složky.
8.1.2 Operace s fuzzy množinami
Většina operací s fuzzy množinami je pouhým rozšířením operací nad klasickými množinami.
Fuzzy množina je prázdná pouze pokud 0)( xf Apro všechna x z X. Doplněk fuzzy
množiny je definován AA ff 1' . Rovnost (shoda) fuzzy množin A = B nastává pouze když
)(xf A= )(xfB
pro všechna x v X.
Základní operace s množinami zahrnuje průnik, sjednocení, součin a doplněk (Novák, 1989)
(obr. X). Součin se používá místo průniku v situaci, kdy víme, že obě množiny spolu
vzájemně korelují (je mezi nimi vnitřní souvislost). Součin je totiž nižší než průnik.
Obrázek 48 Demonstrace průniku, sjednocení, součinu a doplňku (Novák, 1989)
K dalším operacím patří (Novák, 1989):
omezený rozdíl (om-) (A součin negace B),
rozdíl (A průnik negace B),
(silně) symetrický rozdíl (A om- B or B om- A),
slabě symetrický rozdíl (A - B or B - A)
Omezený rozdíl je množina, jejíž prvky patří více do A než do B. Naopak rozdíl je množina,
jejíž prvky více méně patří do A a ne do B (Novák, 1989).
Operace sjednocení a průniku fuzzy množin jsou definovány pomocí tzv. t-norm a t-konorm
(fuzzy konjukce, fuzzy disjunkce). Binární operace t-normy T:<0,1>2→<0,1> musí splňovat
vlastnosti komutativnost, asociativitu, monotónnost a ohraničenost. Stejné vlastnosti musí
splňovat i binární operace t-konormy S:<0,1>2→<0,1>. T-normy a T-konormy vytváří
obvykle vzájemně duální dvojice. Za duální dvojici operací lze označit t-normu a t-konormu,
pokud splňují pro všechna α,β <0,1> (Caha, 2011):
α S β = 1 - [(1 - α) T (1 - β)]
což je pouze upravená forma zápisu De Morganových zákonů, které mají následující podobu
a platí jak pro klasické tak i pro fuzzy množiny (Caha, 2011):
(A B)`=A` B`
(A B)`=A` B`
Využití různých t-norem a t-konorem poskytuje různé výsledky. Mezi nejdůležitější t-normy
patří (Caha, 2011):
minimum Tmin(a,b) = min(a,b)
součin - Tprod(a,b) = a × b
Lukasiewiczova t-norma TLuk(a,b) = max{0, a + b - 1}
Radikální (drastická) t-norma
o TD(a,b) = a pokud b=1
o TD(a,b) = b pokud a=1
o TD(a,b) = 0 v ostatních případech
Nilpotentovo minimum
o TNM(a,b) = min(a,b) pokud a+b>1
o TNM(a,b) = 0 v ostatních případech
Hamacherův součin
o TH(a,b) = 0 pokud a=b=0
o baba
babaTH
),( v ostatních případech
K těmto t-normám tvoří duální dvojici následující t-konormy:
maximum Smax(a,b) = max(a,b)
pravděpodobnostní součin Ssum(a,b) = a + b - a × b
ohraničený (omezený) součet SLuk(a,b) = min{ a+b,1}
radikální (drastická) t-konorma
o SD(a,b) = a pokud b=0
o SD(a,b) = b pokud a=0
o SD(a,b) = 1 v ostatních případech
Nilpotentovo maximum
o SNM(a,b) = max(a,b) pokud a+b<1
o SNM(a,b) = 1 v ostatních případech
Einsteinův součet
o ba
babaSH
1),(
Příklad: Mějme 1 prvek, který patří do fuzzy množiny A se stupněm příslušnosti 0,3 a do
fuzzy množiny B se stupněm příslušnosti 0,7. Jednotlivé varianty průniku a sjednocení dávají
následující hodnoty (Škrabánek, 2014):
t-norma t-konorma
Klasická t-norma (min) 0.3 Klasická t-konorma (max) 0.7
Hamacherovův součin 0.266 Hamacherovův součet 0.734
Algebraický součin 0.210 Algebraický součet 0.790
Einsteinova t-norma 0.176 Einsteinův součet 0.826
Omezený rozdíl 0 Omezený součet 1
Drastický součin 0 Drastický součet 1
Obrázek 49 Znázornění nejběžnějších t-norem pomocí stupně příslušnosti obou prvků na horizontální ploše a výsledku
operace ve formě grafu (Ďuračiová et al., 2013)
Obrázek 50 Vizualizace 6 t-norem (Caha, 2011)
Obrázek 51 Vizualizace 6 t-konorem (Caha, 2011)
Obrázek 52 Fuzzy vrstvy použité pro hodnocení výskytu archeologických lokalit na Slovensku – vážená vzdálenost k hranici
říčních sedimentů (vlevo) a vhodný typ půdy (vpravo) (Ďuračiová et al., 2013)
Obrázek 53 Výsledek volby 4 běžných t-norem při agregaci vrstev do výsledné predikce arccheologické lokality (Ďuračiová
et al., 2013)
Fuzzy funkce
Novák (1989) popisuje základní možnosti pro fuzzy funkce, které mohou nastat:
1. Dané fuzzy množině je přiřazena jiná fuzzy množina.
2. Funkce z fuzzy množiny do fuzzy množiny.
3. Fuzzy funkce jako fuzzy relace – pro situace, kdy není možné rozhodnout, zda mezi 2
objekty existuje vztah nebo ne. Vyjadřujeme výrazy jako „mnohem větší než“.
Případ 1 je nejčastější. Např. velké auto má vysokou cenu, za dobré výsledky dostáváme větší
odměnu. V případě 2 není definiční obor ani obor hodnot funkce přesně definován. Např.
chceme definovat funkci z množiny velkých lidí do množiny velkých obleků. Problémem
však je, že množiny malých a velkých obleků mají neprázdný průnik.
Příklad (Novák, 1989): Máme množinu lidí (Petr, Josef, Jana, Marie,..). Pokud u nich budeme
odhadovat výšku, budeme říkat „asi metr sedmdesát“ apod. Zapíšeme pomocí fuzzy množiny
vx s významem „asi výška y pro danou osobu x“ s funkcí příslušnosti:
vxy =0 pokud y<= x-d;
vxy = (y-x+d)/d pokud je x-d<=y<=x;
vxy = (x-y+d)/d pokud je x<=y<=x+d
d je tolerance odhadu výšky, např. 5 cm. Poslední dva případy zajistí, aby odchylka byla
kladná.
Je možné také definovat fuzzy podobnost. Pro její vyjádření pro diskrétní množinu se vytváří
čtvercová matice a v ní se zapíše, nakolik se objekt A podobá objektu B pomocí stupně
příslušnosti.
V některých případech se zabýváme i pravděpodobností fuzzy jevů. Příklady vhodného
využití uvádí Novák (1989). Např. máme vyjádřit pravděpodobnost následujících vágních
výrazů: odpoledne se vyjasní, padne velké číslo, preparát zapůsobí v krátké době.
Velký význam mají fuzzy množiny pro modelování sémantiky. Vyjadřujeme výrazy jako
malý a tlustý atd. Podobně lze fuzzy operace použít i pro kvantifikaci vágních adjektiv. Např.
t-normy lze použít pro popis stupňů pravdivostí pravidel („velmi“, „zhruba“, …) následovně
(Adamčík, 2009):
velmi(x)=x x=t(x x)
super(x)=velmi(velmi(x))
zhruba(x): x L:velmi(zhruba(x))=x
Obrázek 54 Průběh funkce členství pro vybraná adjektiva (Adamčík, 2009)
Fuzzy logika
Pod tímto pojmem se podle Nováka (1989) může chápat vícehodnotová logika nebo
lingvistická logika, jejíž pravděpodobnostní hodnoty jsou jazykově vyjádřeny; v současnosti
se význam koncentruje na druhou variantu.
Místo stupně příslušnosti používáme stupeň pravdivosti, který vyjadřuje míru souhlasu
s tvrzením. Základními operátory jsou AND a OR, ale jejich definice není shodná s klasickou
(binární) logikou. Zpravidla zde mají význam: minimum (AND) a maximum (OR). Existují i
jiné varianty fuzzy operátorů. Doporučené zpracování je fuzzifikace vstupních hodnot, jejich
zpracování a výstup buď v podobě fuzzy množin nebo přímo výsledných hodnot (Caha,
2018).
Pro řešení úloh s fuzzy logikou se používají fuzzy interferenční systémy, který zahrnuje
fuzzifikaci proměnných, vyhodnocení výsledné fuzzy množiny, řízení aplikace vhodným
regulátorem a nakonec zpětnou defuzzifikaci. Implementace se zajišťuje např. pomocí
jFuzzyLogic (Java), ale existují verze pro většinu programovacích jazyků jako Matlab,
Octave, R, Python (Caha, 2018).
Následující příklad počítá míru oslunění ze vstupní proměnné - orientace a sklon svahu.
Výpočet proveden pomocí jFuzzyLogic http://jfuzzylogic.sourceforge.net/.
Obrázek 55 Porovnání výpočtu oslunění klasickým způsobem a fuzzy (Paclíková, 2012)
8.1.3 Fuzzy region
Fuzzy region v dvourozměrném prostoru je definován jako (Verstaete et al., 2006 in Caha,
2011):
))}(,{( ppA A
kde A : U→ [0,1] a p )(pp A . U představuje univerzum všech lokací p a )(pA
vyjadřuje míru, s jakou je p součástí objektu A.
Na těchto základech lze definovat fuzzy prostorové objekty a všechny základní topologické
operace nad těmito objekty.
8.1.4 Prostorově neurčité objekty
Neexistuje sice jednotná definice prostorově neurčitých objektů, ale kombinací různých
přístupů je možné vymezit jejich definici přibližně následovně. Za prostorově neurčité
(přesněji geometricky vágní) lze označit takové objekty, které nemají ostrou hranici mezi
objektem samým a jeho okolím (Dragicevic 2005 in Caha, 2011). Z toho vyplývá, že existují
body v prostoru, u nichž nelze jednoznačně určit, zda-li jsou či nejsou součástí daného prvku.
To může být důsledkem toho, že objekt nemá jasně definované hranice nebo že jeho hranice
jsou časově proměnlivé. Pro potřeby modelu může být podstatné zachytit i tuto proměnlivost
(Dragicevic 2005 in Caha, 2011).
Prvotním přístupem k vymezení prostorových objektů v GIS byla reprezentace pomocí
ostrých objektů, mající naprosto jasně definovanou hranici, jak v rastrovém tak i vektorovém
datovém modelu. Mimo definice objektů s ostrými hranicemi a fuzzy objektů, existoval v 90.
letech ještě koncept tzv. širšího okolí. Ten definoval objekt pomocí dvou hranic - vnitřní
a vnější. Prostor mezi těmito hranicemi potom určoval nejistotu v prostorovém vymezení
objektu (Clementini, Felice, 1996, in Caha, 2011). Tento koncept byl sice jistým posunem
proti klasickému vymezování objektů, ale postrádal možnost jak klasifikovat míru nejistoty ve
vymezení prvku v přechodné zóně mezi vnitřní a vnější hranicí (obr. 56).
Obrázek 56 Vektorová reprezentace geografického regionu: vlevo - ostrého regionu, vpravo - koncept širšího okolí
(Verstraete et al., 2006, in Caha, 2011)
Naproti tomu využití fuzzy pro definování prostorových objektů umožňuje vymezit míru
nejistoty pro body ležící v přechodové zóně, protože pro každý z těchto bodů lze přesně určit
stupeň příslušnosti k danému fuzzy objektu (obr. 57). Zásadním je rozdíl týkající se bodů p1
a p2 (obr. 56-57) (Caha, 2011). Zatím co u konceptu širšího okolí lze o těchto bodech prohlásit
pouze to, že spadají do prostoru, v němž je určení příslušnosti bodu ke geografickému objektu
problematické, u fuzzy přístupu můžeme pomocí funkce příslušnosti určit, s jakou mírou tyto
prvky k danému geografickému objektu patří (p1 mnohem více než p2).
Obrázek 57 Reprezentace geografického regionu jako fuzzy objektu (Verstraete et al., 2006, in Caha, 2011)
Fuzzy přístup lze použít pro modelování všech tří základních reprezentací geografických
objektů: bodu, linie i polygonu (Dragicevič 2005 in Caha, 2011). Základem je vyjádření
polohy bodu v prostoru pomocí dvou fuzzy čísel. Tím jsme schopni reprezentovat nepřesnost
v souřadnicích tohoto bodu. Linie a polygon jsou analogických rozšířením tohoto konceptu
o vyjádření polohy jednotlivých bodů pomocí fuzzy čísel (obr. 59). Celou myšlenku lze
rozšířit až na koncept fuzzy souřadnicového systému (Brimicimbe, 1998, in Caha, 2011), kde
myšlenka fuzzifikace polohy je vložena už do samotného souřadnicového systému a každá
polohová hodnota je ve svém vyjádření přirozeně vágní.
Další možností jak reprezentovat fuzzy region je pomocí ostrého vymezení jeho jádra, nosiče
a funkce, která popisuje přechod z jádra do nosiče (Tang, 2004, in Caha, 2011) (obr. 34).
V některých situacích není nezbytně nutné, aby všechny vlastnosti (prostorové i atributové)
byly modelovány s využitím fuzzy. Je vhodné využít je pouze tam, kde využití toho přístupu
přinese přidanou hodnotu, umožní nám získat více informací, nebo získanou či přenášenou
informaci nějakým způsobem zpřesnit (Caha, 2011).
Obrázek 58 Fuzzy region definovaný pomocí jádra a nosiče a jeho jednotlivé části (Tang, 2004, in Caha, 2011)
Vysvětlivky: a simple fuzzy region in reality – jednoduchá fuzzy region v realitě, closure: definition of a a
simple fuzzy region – uzavření: definice jednoduchého fuzzy regionu, interior – vnitřní, boundary – hranice,
interior of boundary – vnitřek hranice, boundary of the boundary – hranice hranice.
Obrázek 59 Reprezentace fuzzy bodu (A), fuzzy linie (B), fuzzy polygon (C) a fuzzy polygony v mapě (D) (převzato
z Dragicevič, 2005, in Caha, 2011)
Jiný příklad prostorově neurčitého objektu je na následujícím obrázku.
Obrázek 60 Výpočet hustoty stromů a podle toho přiřazení příslušnosti „zalesnění“ (Worboys, Duckham, 2004)
8.1.5 Topologické operace
1. Operace v klasickém topologickém prostoru
V topologickém prostoru lze pro dva polygony A a B definovat jejich vzájemné vztahy
pomocí matice mající 4 nebo 9 prvků (Egenhofer et al., 1994, in Caha, 2011). Matice 4 prvků
řeší pouze vztah hranice δA a vnitřního prostoru objektu A0 s B
0 a δB. Matice 9 prvků
přidává k těmto vztahům ještě vztah Ac a B
c značící doplněk objektu, jako A
- se značí prostor
mimo objekt (u ostrých reprezentací je shodný s doplňkem, u fuzzy prostorových objektů už
ale nikoliv). V tomto ostrém R2 (dvourozměrný prostor) platí, že A
c A
0 = Ø, A
c A
0 = X
(kde X je univerzum diskurzu) a všechny tři části A0 , δA, A
c jsou vzájemně nespojité.
Výsledná matice vypadá následovně (Egenhofer et al., 1994, Tang, 2004, in Caha, 2011):
2. Operace ve fuzzy topologickém prostoru
Pro klasickou reprezentaci v GIS je matice vztahů s 9 prvky dostačující, protože pokrývají
standardní topologické vztahy. Je ale nedostačující pro topologické vztahy fuzzy objektů.
Důvodem je to, že tvrzení Ac A
0 = Ø, A
c A
0 = X nejsou ve fuzzy teorii množin obecně
platná. Stejně tak A0 , δA, A
c nejsou nespojité a jejich sjednocení nemusí být rovno celému
univerzu X. Tyto odchylky znemožňují použití stejného přístupu jako u klasického
topologického prostoru pro řešení topologických vztahů. Tento fakt lze obejít konstrukcí
ostrého fuzzy topologického prostoru (crisp fuzzy topological space) (Tang, 2004, in Caha,
2011). Hlavním požadavkem na takovýto topologický prostor aby je, aby všechny otevřené
množiny byly zároveň množinami ostrými. Tím je zajištěno, že jak hranice fuzzy objektu, tak
jeho vnitřní prostor jsou ostrými množinami, a současně všechny 3 části fuzzy objektu jsou
vzájemně nespojité (Caha, 2011).
Pro určení vztahů mezi fuzzy objekty lze použít vztahovou maticí 3*3 prvky, ale lze také
použít matice o větších rozměrech. Složitou matematickou dedukcí lze dokázat, že ve fuzzy
topologickém prostoru se fuzzy objekt dělí na celkem 5 částí. Těmi jsou: plocha vně prvku,
hranice hranice prvku, vnitřní prostor hranice prvku, hranice vnitřního prostoru a samotný
vnitřní prostor prvku. Na tomto základě lze vymezit matici 5*5 pro topologické vztahy fuzzy
prostorových objektů. Ta umožňuje 225
= 33554432 možných vztahů mezi objekty (Caha,
2011).
Situaci lze generalizovat do 12 případů topologických vztahů dvou fuzzy regionů. Pro
zjednodušení se zavádí pojmy topoarea pro vnitřní plochu objektu, vnitřní plochu hranice a
vnější plochu objektu, a topoline pro hranici hranice prvku (Tang, 2004, in Caha, 2011).
Obrázek 61 Ukázka několika základních topologických vztahů dvou fuzzy regionů a jejich reprezentací vztahovými maticemi
3*3 a 4*4 (Tang, 2004, in Caha, 2011).
Mimo tento přístup lze na vztah dvou fuzzy objektů nahlížet jako na vztah dvou souborů α-
řezů. Vzhledem k faktu, že každý α-řez fuzzy množiny A je ostrá množina, pak lze vztahy
těchto řezů dvou množin řešit pomocí jednoduché vztahové matice o 9 prvcích. Jedná se sice
o zjednodušení celé konceptu, ale složitost definování fuzzy topologického prostoru v GIS se
může ukázat jako příliš náročná, než aby mohla být realizována. Je také nutné si uvědomit, že
se jedná pouze o topologické vztahy těchto objektů. Následné operace sjednocení či průniku
takovýchto množin lze řešit za využití různých t-konorem a t-norem. Tím se celá situace dále
komplikuje, protože využitím různých t-norem a t-konorem získáváme odlišné výsledky
(Caha, 2011).
8.1.6 Jiné prostorové operace
Vedle topologických operací mohou být definovány i jiné fuzzy prostorové operace. Jde např.
o fuzzy konektivitu, fuzzy konvexitu, fuzzy plochu, fuzzy obvod atd. Např. fuzzy plocha se
vypočítá jako součet hodnot členství v jednotlivých pixelech (Worboys, Duckham, 2004).
Při multikriteriálním oceňování jsou fuzzy množiny používány ke standardizaci kritérií.
Výběr typu funkce závisí na porozumění vztahu mezi kritériem a vybranou sadou a na
přístupnosti informací o ovlivnění příslušnosti k fuzzy množině. Ve většině případů je
dostačující sigmoidální nebo lineární funkce.
8.1.7 Kritika fuzzy množin
S využíváním fuzzy množin a příslušných fuzzy operací jsou ale spojeny určité problémy,
z nichž některé můžeme dokumentovat na následujícím příkladu (Worboys, Duckham, 2004).
Mějme oblast lesa a oblast mokřin, obě definované fuzzy množinami. Obě oblasti se částečně
překrývají. Aplikujeme fuzzy průnik (minimum z obou hodnot) a vytvoříme nový region.
Bohužel ale nemůžeme očekávat, že tento region bude ekvivalentní regionu, který by byl
přímo odvozen z indikátoru „mokřadní les“. Tyto problémy mohou vést ke skepsi při aplikaci
teorie fuzzy množin.
Rovněž pozor na problémy, jak se definují a chápou jednotlivé třídy – často je další
nejednoznačnost skryta v definici třídy a ne jen v míře příslušnosti k dané třídě (viz kapitola o
nejednoznačnosti dat).
8.2 Hrubé množiny
Hrubé množiny (rough sets) se primárně používají pro reprezentaci a zdůvodnění granularity
a nerozlišitelnosti informace (Worboys, Duckham, 2004, s. 348). Odpovídají na otázku, jak
reprezentovat podmnožinu X na úrovni granularity vynucené nerozlišitelností vztahu ρ.
Pro vymezení hrubých množin se definují 2 konstrukty (Worboys, Duckham, 2004):
AbXbA |/
AbXbA |/
A je horní aproximace množiny A, A je dolní aproximace množiny A. Pár < A , A > se
nazývá hrubá množina (s ohledem na vztah nerozlišitelnosti ρ na množině X). A je vždy
podmnožinou množiny A v X/ρ (Worboys, Duckham, 2004).
Vymezení hrubé množiny je možné vysvětlit na následujícím obrázku (obr. 43). Sada bodů
představuje X. Podmnožina A je vymezena polygonem obecného tvaru. Překryjeme mřížkou,
která reprezentuje vztah nerozlišitelnosti ρ (mřížka určuje rozlišení, které nemůžeme zlepšit).
Buňky mřížky, které obsahují všechny body uvnitř polygonu A (přitom ale celá buňka nemusí
ležet v A), reprezentují dolní aproximaci. Buňky, které obsahují část bodů uvnitř a část vně
polygonu, reprezentují horní aproximaci (Worboys, Duckham, 2004).
Obrázek 62 Příklad ohraničení polygonu a vymezení hrubé množiny v rastrovém modelu. Výsledek v části d ukazuje
černé buňky jako dolní hranici a sadu černých a bílých buněk jako horní hranici (Worboys, Duckham, 2004).
Pro práci s hrubými množinami se používá zvláštní algebra – např. hrubý průnik či hrubé
sjednocení.
Teorie hrubých množin nám poskytuje dolní a horní aproximaci regionu (co určitě
(minimálně) do ní patří a co maximálně by do ní mohlo patřit). Je vhodná zejména pro změnu
granularity (např. při generalizaci) (Worboys, Duckham, 2004).
Analýza hrubých množin umožňuje zjišťovat funkční závislosti v informačním systému –
příkladem jsou základní techniky data miningu.
Shrnutí:
Měření mlhavosti řeší problém neurčitosti ve vztazích, zejména vágnosti.
Teoretický základ pro operace s neurčitě vymezenými objekty poskytují de
Morganovy zákony. K nejdůležitějším formám patří fuzzy množiny, využívajících
funkci příslušnosti, jádro, nosič, alfa-řezy, fuzzy čísla. Jsou definovány základní
operace nad fuzzy množinami. Velký přínosem je fuzzy vymezení (vágních)
prostorových objektů, včetně specifikace topologických operací nad nimi. Fuzzy
přístup se používá ale i pro využití vágních adjektiv, resp. vztahů. Implementace
umožňuje definici různých tvarů funkce příslušnosti. Hrubé množiny se používají
pro reprezentaci prostorových objektů, u kterých zdůrazňujeme omezenou
prostorovou rozlišitelnost. Využívá zvláštní algebry.
Kontrolní otázky: 1) Kdy se používá měření mlhavosti?
2) Uveďte příklad využití průniku pomocí trojúhelníkových norem.
3) Uveďte příklad využití spojení pomocí trojúhelníkových konorem.
4) Co je stupeň příslušnosti u fuzzy množin?
5) Specifikujte funkci příslušnosti u fuzzy množin.
6) Co je jádro u fuzzy množin?
7) Co je nosič u fuzzy množin?
8) Co je α-řez u fuzzy množin?
9) Vysvětlete některé operace aplikace t-norem a t-konorem.
10) Co je princip rozšíření?
11) Jak se vymezuje prostorově vágní objekt pomocí fuzzy množin?
12) Popište rozdíly mezi operacemi v klasickém a fuzzy topologickém
prostoru.
13) Jak aplikovat fuzzy principy na úlohu viditelnosti?
14) K čemu se používají hrubé množiny?
15) Vysvětlete dolní a horní hranici aproximace regionu podle teorie hrubých
množin.
9 Kvalitativní hodnocení neurčitosti
Cílem kapitoly je vysvětlit způsob práce s kvalitativním hodnocením neurčitosti,
především s vágností v určení jednotlivých tvrzení, klasifikací v území, jak
sestavit rámec rozhodování, jak provádět revizi důkazů k vytvoření konzistentní
báze znalostí, představit možnosti uplatnění vícehodnotové logiky, vysvětlit
schvalovací teorii.
Stručný obsah kapitoly:
Tvorba rámce rozhodování
Důvěra, znalost a jejich vztahy
Revize důvěry
Aktualizace znalostí
Tříhodnotová a vícehodnotová logika
Schvalovací teorie
Pro studium jsou nezbytné základní znalosti teorie pravděpodobnosti.
Získáte znalosti o:
Výstavbě variant výroků na základě znalostí o daném problému
Rozlišení důvěry a znalostí
Způsobech řešení revize důvěry
Odlišení revize a aktualizace důvěry
systému tříhodnotové logiky a jejím praktickém uplatnění pro řešení
prostorových vztahů
schvalovací teorii
Budete umět:
Pracovat s důvěrou a znalostí
Vytvářet a prověřovat jednotlivé výroky o kvalitativním hodnocení
příslušného území
jak řešit kolize znalostí pomocí revize důvěry
uplatnit hodnocení pomocí tříhodnotové logiky
využít schvalovací teorii pro řešení prostorových úloh
Budete schopni:
provést kvalitativní hodnocení posuzovaných variant s využitím několika
přístupů
Času potřebný na nastudování kapitoly – 3 hodiny.
Mějme území rozdělené na 2 plochy, A a B. Zajímáme se, zda jsou zalesněné nebo ne.
Předpokládejme, že vlastnost „zalesněný“ není vágní. Potom každá plocha je nebo není
zalesněna, jiná alternativa není dovolena (Worboys, Duckham, 2004, s. 340).
Výroky:
p: „plocha A je zalesněna“
q: „plocha B je zalesněna“
Množina možných řešení (4 možné světy) jsou (Worboys, Duckham, 2004):
World W1: p je pravdivé, q je pravdivé
World W2: p je pravdivé, q je nepravdivé
World W3: p je nepravdivé, q je pravdivé
World W4: p je nepravdivé, q je nepravdivé
V realitě je možný v daný čas právě jeden svět.
Náš stav znalostí je reprezentován množinou (reprezentace) světů, do které patří ty světy,
které jsou uskutečnitelné (feasible) (Worboys, Duckham, 2004).
Úplná neznalost znamená, že všechny světy jsou možné, dostáváme množinu {W1,W2, W3,
W4} (Worboys, Duckham, 2004).
Úplnou znalost v tomto případě zastupuje jednoprvková množina (množina přípustných
řešení se zredukovala na pouhou 1 variantu), např. {W4} (Worboys, Duckham, 2004).
Čím větší je množina možných světů, tím větší nepřesnost existuje v našich znalostech.
Prázdná množina vzniká jako výsledek nekonzistentní informace (Worboys, Duckham,
2004).
Nepřímá informace může vést ke snížení neurčitosti (zvýšení přesnosti naší báze znalostí)
(Worboys, Duckham, 2004). Např. pokud víme, že obě plochy mají stejný typ pokryvu,
dostáváme množinu {W1, W4}.
Zatím předpokládáme, že vlastnosti obou ploch jsou na sobě nezávislé. To však nemusí být
vždy pravda.
Do plochy A vložíme menší plochu C. Přidáme výrok:
r: „plocha C je zalesněna“.
Předpokládejme existenci omezení, že pokud je plocha A zalesněna, musí být plocha C také
zalesněna, protože leží uvnitř. Ale naopak to nemusí platit. To nám umožňuje rozšířit doménu
možných světů (Worboys, Duckham, 2004):
- World W1: p je pravdivé, q je pravdivé, r je pravdivé
- World W2: p je pravdivé, q je nepravdivé, r je pravdivé
- World W3: p je nepravdivé, q je pravdivé, r je pravdivé
- World W4: p je nepravdivé, q je nepravdivé, r je pravdivé
- World W5: p je nepravdivé, q je pravdivé, r je nepravdivé
- World W6: p je nepravdivé, q je nepravdivé, r je nepravdivé
Nejsou zde zařazeny varianty vyloučené novým omezením, tj. nemůže nastat situace, že by
současně p bylo pravdivé a r nepravdivé (Worboys, Duckham, 2004).
Důvěra (belief) je jistota (přesvědčení) (conviction) agenta o pravdivosti tvrzení (Worboys,
Duckham, 2004).
Znalost je oprávněná správná důvěra (justified true belief) (Worboys, Duckham, 2004).
Např. mohu věřit, že prase létá, ale nemohu to vědět, protože je to ve skutečnosti nepravdivé.
Zatímco veškeré znalosti jsou pravdivou důvěrou, ne všechna pravdivá důvěra je znalostí.
Např. mohu věřit, že existuje život na vzdálených hvězdách, což skutečně náhodně může
nastat, ale není to dostatečné pro znalost – musí mít alespoň nějaké ospravedlnění ve formě
důkazů nebo inference (Worboys, Duckham, 2004).
Je proto potřebné rozlišovat mezi důvěrou a znalostí. Pro tento účel se používá modální
operátor (modal opeator) před příslušným výrokem (Worboys, Duckham, 2004). Proto místo
výroku:
p: „plocha A je zalesněna“
použijeme
Kp (knowledge p): „Vím, že plocha A je zalesněna“ nebo
Bp (belief p): „Věřím, že plocha A je zalesněna“
Důvěra a znalost mohou být propojeny vztahy, např. (Worboys, Duckham, 2004):
¬K¬p→Bp
znamená, že pokud nevím, zda situace p není pravdivá, mohu věřit v p. Jinak řečeno, pokud
nevím o tom, že by nastala negace výroku p, mohu věřit v p. Např. pokud nemám důkaz
o tom, že by plocha A nebyla zalesněná, mohu věřit, že je zalesněná.
Z výše uvedené diskuse lze odvodit, že (Worboys, Duckham, 2004):
Kp→p
tedy pokud vím, že p je pravdivé, musí být p pravdivé. Např. pokud mám důkaz o tom, že
plocha A je zalesněná, musí být zalesněná.
a
¬Kp→¬p
tj. pokud nevím, že p je pravdivé, musí být p nepravdivé.
Tento axiom označují jako předpoklad uzavřeného světa v databázové teorii – pokud db
neobsahuje příslušné tvrzení, pak platí negace tvrzení.
Podle Pokorného platí: „Kdykoliv tvrzení R(a1, .. ,ak) není odvoditelné z EDB a pravidel, pak
¬R(a1, .. ,ak)“. Pozor, není to důkaz (http://www.ksi.mff.cuni.cz/~pokorny/vyuka/dj2-
vyjadrovaci-sila/img0.html).
Platí i další vztahy (Worboys, Duckham, 2004).
axiom pozitivního sebepoznání (positive introspection):
Kp→ KKp (pokud vím, že p je pravdivé, potom vím, že vím, že p je pravdivé)
axiom negativní sebepoznání (negative introspection):
¬Kp→ K¬Kp (pokud nevím, že p je pravdivé, potom vím, že nevím, že p je pravdivé)
Modální formalismus může být rozšířen pro více agentů (Worboys, Duckham, 2004). Pak je
zvykem indexem označit toho, komu patří znalost či důvěra. Např. výrazem Kap se vyjadřuje
fakt, že agent A zná tvrzení p.
9.1.1 Revize důvěry
Pokud získáme novou informaci, která protivořečí (kontraindikuje) naši aktuální důvěru,
musíme ji revidovat (Worboys, Duckham, 2004, s. 343). Typicky není systém revize důvěry
monotónní, protože důvěra může růst i klesat v závislosti na povaze nově přidávané
informace.
Klíčovou otázkou v libovolném nemonotónním systému revize důvěry je, kterou stávající
důvěru zrušit a kterou ponechat. Naneštěstí je systém často provázaný a jedna důvěra staví na
druhé, takže odebrání 1 důvěry může způsobit kaskádový efekt napříč bází znalostí, který lze
jen těžko predikovat (Worboys, Duckham, 2004).
Příklad Gärdenfors (Worboys, Duckham, 2004): Pták chycený v pasti je labuť. Pták chycený
v pasti pochází ze Švédska. Švédsko je součástí Evropy. Všechny evropské labutě jsou bílé.
Nově naučená informace: Pták chycený v pasti je černý.
Tato nová informace je implicitně nekonzistentní se stávající bází znalostí, protože ta vede
k výroku, že Pták chycený v pasti je bílý.
Otázka je, kde měnit důvěru, abychom obnovili konzistenci systému. Vypuštění 1 z 5 výroků
nahoře povede k obnovení konzistence. Ale kterého? Techniky pro rozhodnutí, kterou část
vypustit, zpravidla hodnotí sílu důvěry (strength of belief held) pomocí vztahu preference
(preference relation), často v částečném pořadí (partial order) (Worboys, Duckham, 2004).
Např. se snažíme ponechat významnější či obecnější části informace (např. „Švédsko je
součástí Evropy.“) než údaj o aktuální situaci („Pták chycený v pasti je labuť.“). Také příliš
paušální výroky jsou vhodnými kandidáty na změnu důvěry (zde „Všechny evropské labutě
jsou bílé“). Obecně se doporučuje revidovat důvěru tam, kde je množství změny nejmenší –
tedy uplatnit princip minimální změny (principle of minimal change) (Worboys, Duckham,
2004).
Jiný možný princip, princip blízkosti, upřednostňuje důvěru, která vzešla z důkazů získaných
časově nebo prostorově blízko ke studovanému fenoménu. Např. pokud máme
2 nekonzistentní informace, upřednostníme tu novější (bližší k přítomnosti) (Worboys,
Duckham, 2004).
Dalším doporučeným principem je možnost ověření. Výše uvedené první 3 výroky je
potenciálně možné ověřit. Avšak 4.pravidlo („Všechny evropské labutě jsou bílé“) je obtížné
nebo nemožné ověřit bez pochybností, protože bychom museli kontrolovat každou labuť
v Evropě. Univerzální prohlášení mohou tvořit silná pravidla, ale mohou být předmětem
občasných protipříkladů, jako byla švédská černá labuť. Namísto nepodmíněného
univerzálního pravidla je lepší říci (Worboys, Duckham, 2004):
Všechny evropské labutě jsou bílé (kromě těch, u kterých máme důkaz o opaku v případě
konkrétní labutě).
Uplatňuje se tedy tzv. implicitní (výchozí) zdůvodnění (default reasoning) (Worboys,
Duckham, 2004). Výchozí zdůvodnění v tomto případě bude, že všechny evropské labutě jsou
bílé, avšak připouští se existence odchylek. Výchozí zdůvodnění se dodržuje až do doby, kdy
je nějaký důkaz v protikladu, pak se stáhne (Worboys, Duckham, 2004).
Výchozí zdůvodnění je opět příkladem nemonotónního rozhodování.
9.1.2 Revize a aktualizace
Mezi revizí a aktualizací je třeba jasně rozlišovat (Worboys, Duckham, 2004, s. 344).
Informační systém prochází aktualizací, pokud nově přicházející informace indikuje změnu
v aplikační doméně (v realitě). Informační systém prochází revizí, pokud nově přicházející
informace mění jeho chování, ale nedochází ke změnám v aplikační doméně (Worboys,
Duckham, 2004).
Následující obrázek ukazuje oba případy.
Obrázek 63 Rozdíl mezi revizí a aktualizací (Worboys, Duckham, 2004)
Vysvětlivky: application domain – aplikační doména, pastoral land – pastvina, forest – les, arable crops – orná
půda
9.1.3 Tříhodnotová a vícehodnotová logika
V klasické logice se připouští pouze možnost, že výrok je pravdivý nebo nepravdivý. Ale co
když nevíme, nebo nemá smysl mu přiřadit hodnotu nebo je výrok příliš vágní (Worboys,
Duckham, 2004).
Plocha A je zalesněna – nemusíme mít důkazy o tom, zda je či není, ale také může být
koncept „zalesněn“ příliš vágní, pokud se v ploše nachází několik stromů a nejsme si jisti, zda
to stačí na prohlášení, že je plocha zalesněna.
V tříhodnotové logice se doplňuje stav „nevím“, zpravidla označený U nebo ?.
Kleenův systém poskytuje tabulky, ve kterých jsou uvedeny výsledky tříhodnotové logiky pro
běžné logické operace negace, průnik, sjednocení, implikace a ekvivalence (tab. 10).
Tabulka 10 Kleenův systém pravdivostních tabulek výsledků tříhodnotové logiky pro logické operace průnik,
sjednocení, negace, implikace a ekvivalence (podle Worboys, Duckham (2004, s. 346)
^ T ? F V T ? F ¬ T → T ? F ↔ T ? F
T T ? F T T T T T F T T ? F T T ? F
? ? ? F ? T ? ? ? ? ? T ? ? ? ? ? ?
F F F F F T ? F F T F T T T F F ? T
Rozšířením tříhodnotové logiky je pak mnohahodnotová logika. Takový logický systém se
nazývá stupňovaná teorie (degree theory), protože hodnoty jsou interpretovány jako „stupně
pravdy“. Příkladem jsou třeba fuzzy množiny (Worboys, Duckham, 2004).
Příklad uplatnění tříhodnotové logiky pro vytvoření regionů vznikajících z vágních
prostorových vztahů
V příkladu byl hodnocen prostor univerzity v Keele a pozice jednotlivých budov. Autoři se
dotazovali studentů ve 2 skupinách na vzájemnost blízkost objektů (Worboys, Duckham,
2004).
Obrázek 64 Poloha jednotlivých budov (Worboys, Duckham, 2004)
Kladná skupina odpovídala, zda si myslí, že je pravdivý výrok, že objekt X je blízko objektu
Y. Záporná skupina odpovídala, zda si myslí, že je nepravdivý výrok, že objekt X je blízko
objektu Y. Hodnocení museli provádět jen na základě svých představ (mentálních mapy)
nenahlíželi do map (Worboys, Duckham, 2004).
Pro každý pár objektů pak posuzovali počet kladných a záporných tvrzení o blízkosti.
U některých objektů vzniklo jasné hodnocení, u jiných ne.
Nakonec autoři spočítali významnost a ukázali výsledky v mapě s využitím tříhodnotové
logiky (obr. 65) (Worboys, Duckham, 2004).
Obrázek 65 Výsledné hodnocení blízkosti objektů pro knihovnu (Worboys, Duckham, 2004)
Vysvětlivky: significantly near – významně blízko, neither significantly near or not near – ani významně blízko
ani významně neblízko, significantly not near – významně neblízko
Dobrým příkladem konfliktu v případě klasifikace je rozdíl mezi definicemi močálu ve dvou
klasifikačních systémech 1990 LCMGB a LCM2000. Pro jeho řešení se použije následující
postup (Fisher et al., 2006).
Expert popisuje vztahy mezi prvky dvou klasifikací, založené na popisu jeho expertních
názorů. Vztahy jsou vyjádřeny v tříhodnotové logice, která popisuje párové vztahy. Mohou
být Anticipated (A, předpokládané), Uncertain (U, nejisté) a Improbable (I,
nepravděpodobné). Párové vztahy mohou být vizualizovány v tabulce 11 a ve skutečnosti
reprezentují vztahy M:N, třída v systému je vztažena ke všem třídám ve druhém systému.
Tabulka 11 Expertní hodnocení vztahů mezi klasifikačními třídami v obou mapách jako příklad využití tříhodnotové
logiky (upraveno podle Fisher et al., 2006)
Mapa 1
A B C D
Mapa 2
X předpokládané nepravděpodobné nepravděpodobné nejisté
Y nejisté nepravděpodobné předpokládané nejisté
Z nepravděpodobné předpokládané nejisté předpokládané
Předpokládejme, že parcela X ze systému LCM2000 byla překryta s LCMGB a vygenerovala
následující sadu pixelů (Fisher et al., 2006):
Třída A, 53 pixelů; Třída B, 7 pixelů; Třída C, 11 pixelů; Třída D, 24 pixelů
Pokud použijeme definici vztahů dle tabulky 11, je možné vygenerovat hodnoty pro množinu
(A, U, I) sečtením počtu pixelů odpovídajících jednotlivým typům vztahů a získáme (53, 18,
24) (Fisher et al., 2006). Expert vyjádřil neurčité, pozitivní i negativní, vztahy v tabulce. To
vede k použití Dempster-Shafer teorie.
9.1.4 Schvalovací teorie
O nespecifičnost mluvíme, když je přidělení objektu do třídy závislé na interpretaci. Za
takových okolností je potřebný expertní názor, který určí sadu pravidel nebo tvrzení, které
dovolí rozhodnout o zařazení do třídy.
Schvalovací teorie (endorsment theory) je nenumerický přístup vyvinutý Cohenem (1985, in
Comber et al., 2006), který byl využit v některých automatizovaných mapovacích aplikacích,
kde se kombinovaly různé typy důkazů. Alokace geografických objektů do tříd může být
subjektivním procesem. Kvalitativní zdůvodňovací formalismus vyžaduje definici 4 aspektů
Comber et al., 2006):
1) Musí být identifikována a pojmenována rozdílná síla expertových tvrzení (důvěry)
2) Musí být specifikována interakce mezi tvrzeními, pokud se kombinují s cílem
dosažení celkového schválení.
3) Musí být určen systém hodnocení stupně schválení
4) Musí být definovány kvalitativní limity důvěry, aby bylo možné rozhodnout, kdy už
důkazy narostly tak, aby byla dostatečně důvěryhodná.
Uvažujme např. o územní parcele, která byla dříve klasifikována (vymapována) jako třída X
a existuje podezření, že se změnila. Síla důvěry různých typů tvrzení může být definována
následovně (Comber et al., 2006):
Definitivní (definite) – pokud jeden důkaz indikuje, že hypotéza je pravdivá (takový
typ důkazů je vzácný)
Pozitivní (positive) – pokud důkaz podporuje hypotézu, ale může být rozporován
Průměrný (average) - pokud důkaz přináší jistou podporu hypotéze
Žádný (none) - pokud důkaz nepřináší žádnou podporu hypotéze
Podobně může být specifikována interakce mezi tvrzeními, která generuje schválení hypotézy
(Comber et al., 2006):
Určitá (certain) - pokud důkaz poskytuje definitivní důvěru a žádnou definitivní
nedůvěru
Přesvědčující, pravděpodobná (believed) – pokud kombinovaný důkaz poskytuje
pozitivní důvěru a žádnou pozitivní nedůvěru
Uvěřitelná (plausible) – pokud je průměrná důvěra větší než průměrná nedůvěra
Sporná (conflicting) – pokud jsou váhy pro důvěru a nedůvěru stejné
Na základě expertního hodnocení je k dispozici řada možných variant územní změn a důvěra
v různé typy důkazů pro každý hypotetický směr změny (tab.). Expert také popíše, jak
důležité jsou rozdílné typy důkazů, relativně pro každý pár důkaz-změna (všimněte si, že
žádný z důkazů pro hypotetickou změnu není definitivní). Např. pro změnu ze stavu X na stav
A jsou informace o kvalitě půdy mnohem významnější než pro změnu ze stavu X na stav D.
Reálné příklady jsou převzaty z Skelsey (1997, in Comber et al., 2006), kde bylo uvedeno, že
pro detekci kácení lesa je nejdůležitější informací změna spektrálního chování kombinovaná
s prostorovými pravidly, a Comber at al. (2004, in Comber at al., 2006), kde se zvažuje
možnost polopřirozené změny územního pokryvu a kombinace mnoha typů důkazů.
Tabulka 12 Důkazy pro rozdílné směry změny krajinného pokryvu z třídy X, síla důvěry a charakteristika změněné
plochy. Souhlas v charakteristikách je vyžlucen.
Možný směr změny ze stavu X na nový stav: Změněná
plocha (co
bylo zjištěno)
Důkazy A B C D
Změna ve
spektrálním
signálu je ..
..silná
(průměrná)
..slabá
(pozitivní)
..slabá
(pozitivní)
..velmi silná
(průměrná)
Slabá
půdní typ je
..
..chudý
(pozitivní)
..bohatý
(pozitivní)
..bohatý
(průměrná)
..dobrý
(žádná)
Bohatý
Sklon je… ..příkrý
(průměrná)
..mírný
(žádná)
..příkrý
(průměrná)
..velmi příkrý
(pozitivní)
Příkrý
V hodnoceném území je změna spektrálního signálu slabá, půdní typ je bohatý a sklon území
je příkrý. Pro hypotézu A poskytují data průměrnou podporu pro jedno kritérium (sklon
území). Podobně jsou ohodnoceny ostatní hypotézy.
Následně je možné ohodnotit každou hypotézu podle schématu pro kombinaci důvěry:
Hypotéza A má jen jednu sadu průměrné důvěry z důkazů, proto je uvěřitelná
(plausible).
Hypotéza B má dvě sady pozitivní důvěry, proto je pravděpodobná (believed).
Hypotéza C má dvě sady průměrné důvěry a jednu s pozitivní důvěrou, proto je
pravděpodobná (believed).
Hypotéza D nemá žádnou důvěru na základě důkazů.
V tomto případu jsou 2 hypotézy pravděpodobné (believed), ale zatímco více důkazů
podporuje C, váha důkazů je větší pro B, protože má 2 sady positivní důvěry.
Ačkoliv příklad poskytuje jen omezené množství typů důkazů, směrů změn a schvalování
důvěry, ilustruje základní aplikaci schvalovací teorie.
Schvalovací model používá mnohem více heuristický přístup ke zdůvodnění neurčitosti než
jiné přístupy. Umožňuje specifikovat definici prvků důvěry a jejich interakce podle
uvažovaného problému. Adresuje otázku, co je zdrojem neurčitosti ve zdůvodňovacím
procesu a kde neurčitost do procesu vstupuje. Význam odpovědi je pak interpretován pomocí
metody, která kombinuje jednotlivá schválení (endorsements) podle jejich ocenění (Comber et
al., 2006).
Metoda má řadu výhod (Comber et al., 2006):
Umožňuje reprezentovat obecnou znalost (např. expertní mapovací pravidla)
přirozeným způsobem
Symbolický přístup metody umožňuje reprezentovat situaci a provádět zdůvodnění na
základě znalostí o problémech reálného světa.
Tento typ zdůvodňování dovoluje odvodit interference z dílčích znalostí.
Výsledky schvalovacího přístupu obsahují explicitní informaci o tom, proč se něčemu
důvěřuje nebo nedůvěřuje. Následně je možné to patřičně zohlednit a rozhodnout, jak
reagovat - a to je velmi užitečná vlastnost vzhledem k subjektivitě mapování.
Přístupy založené na schvalování jsou nejvhodnější pro situace, kdy subjektivní stupně důvěry
se obecně nechovají jako pravděpodobnosti nebo nejsou matematicky vyjádřeny. Fáze
vyvozování (elicitation) znalostí při konstrukci expertního systému je jednou z možných
aplikační oblastí: experti často nejsou ochotni vyjadřovat své názory číselně. Naopak metoda
může být nevhodná pro oblasti, ve kterých má číselný stupeň důvěry jasnou sémantiku
a existují adekvátní výrazy pro všechny informace o neurčitosti (Comber et al., 2006).
Shrnutí:
Z možných stavů kvalitativního hodnocení je možné vybudovat množinu možných
stavů světa. Pomocí dalších výroků ji modifikujeme, přitom je nutné rozlišovat
mezi důvěrou (vírou) a znalostí (tj. oprávněnou správnou důvěrou). V případě
nového výroku, který odporuje stávajícímu stavu, je nutné provést revizi důvěry,
často s uplatněním principu minimální změny (minimalizace dopadů změny
důvěry), principu blízkosti (upřednostnění důkazů časově a prostorově blízkých)
nebo možnosti ověření. Vedle revize důvěry probíhá v systému rovněž aktualizace
informací. Klasickou práci s výroky v binární logice je možné rozlišit do
tříhodnotové logiky (nově stav „nevím“), což je spojeno s rozšířením základních
logických operací pomocí Kleenova systému. Pro řešení problému nespecifičnosti
se používá schvalovací teorie. Hodnotí se do 4 úrovní síla důvěry daného tvrzení,
klasifikuje se i varianta interkace mezi tvrzeními. Expertní hodnocení se provádí
pro všechny přípustné varianty. Každá varianta je nakonec oceněna (schválena)
pomocí schématu pro kombinaci důvěry.
Kontrolní otázky: 1) Pro daný příklad výroku sestavte množinu přípustných řešení (světů) a
vysvětlete na nich pojmy úplná neznalost a úplná znalost.
2) Vysvětlete rozdíl mezi důvěrou a znalostí.
3) K čemu se používá axiom uzavřeného světa?
4) Vysvětlete uplatnění vztahu preference pro rozhodnutí o revizi důvěry.
5) Vysvětlete uplatnění principu minimální změny pro rozhodnutí o revizi
důvěry.
6) Vysvětlete uplatnění principu blízkosti pro rozhodnutí o revizi důvěry.
7) Vysvětlete uplatnění principu možnosti ověření pro rozhodnutí o revizi
důvěry.
8) Jaký je rozdíl mezi aktualizací a revizí důvěry?
9) Nakreslete pravdivostní tabulku pro průnik v tříhodnotové logice.
10) Nakreslete pravdivostní tabulku pro sjednocení v tříhodnotové logice.
11) Nakreslete pravdivostní tabulku pro negaci v tříhodnotové logice.
12) Nakreslete pravdivostní tabulku pro implikaci v tříhodnotové logice.
13) Nakreslete pravdivostní tabulku pro ekvivalenci v tříhodnotové logice.
14) Jaké jsou základní požadavky pro schvalovací teorii?
15) Jak se hodnotí síla důvěry tvrzení ve schvalovací teorii?
16) Jak se specifikují různé interakce mezi tvrzeními ve schvalovací teorii?
17) Pro jaké situace je schvalovací teorii nejvhodnější?
10 Kvantitativní přístupy k neurčitosti
Cílem kapitoly je vysvětlit vybrané kvantitativní přístupy k hodnocení neurčitosti,
zejména podmíněnou pravděpodobnost, Bayesovu teorii a Dempter-Shafer teorii
pro hodnocení prostorových problémů.
Stručný obsah kapitoly:
Podmíněná pravděpodobnost
Baeysova teorie pravděpodobnosti
Dempster-Shafer teorie
Důvěryhodnost, uvěřitelnost a operace
Pro studium kapitoly jsou nezbytné základní znalosti z teorie pravděpodobnosti.
Získáte znalosti o:
3 základních konceptech používaných pro kvantitativní hodnocení
neurčitosti pro vymezení a ověřování hypotéz
Teoretické i praktické uplatnění Dempster-Shafer teorie
Budete umět:
Porovnat možnosti použití teoretických přístupů k hodnocení neurčitosti
v případech práce s kvantifikovatelnými hypotézami
Uplatnit rozšířené vnímaní práce s výroky a hypotézami, postavené na
konceptech Dempster-Shafer teorie
Budete schopni:
Využít Dempster-Shafer teorie, případně Baesovy teorie či podmíněné
pravděpodobnosti pro řešení praktických příkladů rozhodování o
pravděpodobném řešení
Času potřebný na nastudování kapitoly – 4 hodiny
Dále jsou uvedeny vybrané kvantitativní přístupy k hodnocení neurčitosti.
10.1 Podmíněná pravděpodobnost
Z oblasti pravděpodobnosti je koncept podmíněné pravděpodobnosti nejdůležitější a nejvíce
používaný pro kvantitativní hodnocení neurčitosti.
Výpočet podmíněné pravděpodobnosti (Worboys, Duckham, 2004):
)(
)()|(
Vp
VUpVUp
Příklad pro výpočet podmíněné pravděpodobnosti zkoumá výskyt právě jednoho sesuvu
v území. Sesuv je menší než plocha 1 buňky a spadá přesně dovnitř buňky (Worboys,
Duckham, 2004).
Úvodní odhad byl, že sesuv je v oblasti A.
p(sesuv v A) = 4/9
Nový důkaz tvrdí, že sesuv může být pouze v regionu B. Jaká je pravděpodobnost, že sesuv je
v regionu A, za podmínky že je v regionu B?
3
1
9
69
2
)(
)()|(
Vp
VUpVUp
Obrázek 66 Dva regiony, ve kterých se hodnotí pravděpodobnost výskyt sesuvu (Worboys, Duckham, 2004)
Vysvětlivky: dotted boundary – tečkovaná hranice, dashed boundary – čárkovaná hranice
Výše uvedená pravděpodobnost je objektivní, protože nezáleží na stavu našeho poznání, ale
na vnějších podmínkách (Worboys, Duckham, 2004).
10.2 Bayesova teorie pravděpodobnosti
Bayesova teorie pravděpodobnosti se používá pro ocenění vztahu, u kterého je dostupná (nebo
se předpokládá) úplná informace. Bayesova teorie pravděpodobnosti je rozšířením klasické
teorie pravděpodobnosti a dovoluje kombinovat primární znalosti s novou pravděpodobností
(důkazy) ve výsledný odhad pravděpodobnosti, že je hypotéza pravdivá (Worboys, Duckham,
2004).
i
ii hphep
hphepehp
)()|(
)()|()|(
p(h|e) posteriorní pravděpodobnost
p(e|h) pravděpodobnost nového zjištění, že je hypotéza pravdivá
p(h) pravděpodobnost pravdivosti hypotézy bez ohledu na nový důkaz (apriorní p.)
Jednoduchý příklad (Worboys, Duckham, 2004):
Máme jen 2 hypotézy - h a její doplněk ¬h (tedy h není pravda), jejichž pravděpodobnosti
jsou p(h) a p(¬h). Např. je oblast zaplavena nebo ne?
První otázka zní - máme nějakou apriorní pravděpodobnost? Jestliže ne, pak p(h) = 0.5 (stejně
pravděpodobné jsou obě odpovědi).
Pravděpodobnost nového zjištění p(e|h) vyjadřuje pravděpodobnost dodatečně zjištěného
důkazu ve prospěch hypotézy.
Termín p(h|e) je posteriorní pravděpodobnost. Zahrnutím další vnější informace k hypotéze je
modifikována pravděpodobnost každé hypotézy vzhledem k nové informaci.
Pokud je k dispozici kompletní informace, může být jediným problémem při přesném
stanovení pravděpodobnosti nedostatek důkazů. Přidáním dalších důkazů můžeme teoreticky
získat správné pravděpodobnostní ocenění každé hypotézy.
Důvěra, stupeň důvěry (degree of belief) je definován podobně jako pravděpodobnost
(Worboys, Duckham 2004, s. 351).
Podobné jsou i 3 hlavní zákony, definujeme i Bayesovu funkci důvěry podobnou podmíněné
pravděpodobnosti (Worboys, Duckham, 2004).
)(
)()|(
VBEL
VUBELVUBEL
)(
)()|(
UBEL
VUBELUVBEL
z těchto 2 rovnic můžeme vyloučit člen průniku a získat vztah:
)(
)|(*)()|(
VBEL
UVBELUBELVUBEL
Je zřejmé, že je to Bayesův vztah – posteriorní důvěra BEL(U|V) je získána násobením
apriorní důvěry BEL(U) a pravděpodobnosti (věrohodnosti), že V nastane, pokud nastalo U.
BEL(V) funguje jako standardizační konstanta, která zajistí, aby BEL(U|V) bylo mezi 0 a 1.
10.3 Dempster-Shaferova teorie
Dempster-Shaferova teorie (D-S) představuje rozšíření Bayesovy teorie pravděpodobnosti.
Dovoluje vyjádření nevědomosti při řízení neurčitosti.
Základním předpokladem D-S teorie je, že nevědomost existuje přímo ve znalostech a že
důvěra (belief) v hypotézu nemusí být nutně doplňkem důvěry v negaci této hypotézy
(Eastmann, 2001).
Jinými slovy Důvěra v hypotézu A + Důvěra v negaci hypotézy A se nemusí rovnat 1 (díky
neurčitosti našich znalostí), tedy platí že:
D(A)+D(¬A) <> 1
Uvažujme následující příklad (Worboys, Duckham 2004, s. 352):
b1: existuje život v soustavě Sírius
b2: neexistuje život v soustavě Sírius
Podle rovnic o pravděpodobnosti, musí být b1+b2=1, ačkoliv máme velmi málo důkazů pro
každý z výroků. Pokud nemáme žádný důkaz, přidělíme oběma stavům stejnou
pravděpodobnost (resp. úroveň důvěry), tj. b1=b2=0,5. Takto jsme ale přidělili vysokou
úroveň důvěry na základě nedostatku důkazů. Takový model odporuje naší intuici.
D-S teorie se zaměřuje na kombinaci stupně důvěry či podpory poskytované jednotlivými
důkazy. Poskytuje metodu vhodnou pro změnu důvěry ve výrok ve světle nového důkazu.
Uvažujme 2 krajní situace:
Case 1 (informační chudost, information scarcity): existuje zhruba stejně malé množství
důkazů na obou stranách.
Case 2 (informační přebytek, information glut): existuje zhruba stejně velké množství důkazů
na obou stranách.
Bayesova analýza tyto 2 případy neumí rozlišit, vždy přidělí 0,5.
Dempster-Shafer zavádí nové koncepty a rozlišuje mezi důvěryhodností (credibility)
a uvěřitelností (věrohodnost, plausibility), a v negativním vyjádření mezi nedůvěrou
a nedostatkem důvěry (Worboys, Duckham 2004).
Důvěryhodnost (credibility) je množství důkazů, které máme ve prospěch věci.
Uvěřitelnost (plausibility) je nedostatek důkazů, které máme proti věci.
credibility(p)=Bel(p)
plausibility(p)= 1-Bel(¬p)
V případě informační chudosti je důvěryhodnost (credibilita) p i důvěryhodnost negace p
malá, ale uvěřitelnost (plausibilita) a uvěřitelnost negace p jsou velké.
V případě informačního přebytku je důvěryhodnost p a důvěryhodnost negace p větší, ale
uvěřitelnost (plausibility) pro p i uvěřitelnost negace p jsou malé.
Následující jednoduchý příklad ukazuje, jak se kombinují pravděpodobnosti s vědomostí
(podle http://www.glennshafer.comássets/downloadsárticlesárticle48.pdf).
Mám subjektivní mínění o spolehlivosti kamaráda Josefa. Moje pravděpodobnost, že je
spolehlivý, je 0,9, a moje pravděpodobnost, že je nespolehlivý = 0,1.
Kamarád přiběhl a prohlásil, že mi spadla větev na auto.
Toto prohlášení, které musí být pravdivé, pokud je spolehlivý, neznamená nutně, že pokud
o něm vím, že je nespolehlivý, bude prohlášení falešné.
Tedy jeho svědectví samotné ospravedlňuje 0,9 (90%) důvěru v to, že mi spadla větev na
auto, ale 0 důvěry v to, že mi nespadla větev na auto (ne 0,1 stupně důvěry!). Tato 0
neznamená, že jsem si jistý, že žádná větev nespadla na moje auto; prostě to znamená, že
Pepovo svědectví mi nedává žádný důvod věřit, že nic (žádná větev) nespadlo na moje auto.
0,9 a 0 dohromady vytvářejí funkci důvěry (belief function).
Předpokládejme, že znám také nějakého Karla, kterému věřím úplně stejně (moje
pravděpodobnost, že je spolehlivý, je 0,9; a moje pravděpodobnost, že je nespolehlivý, se
rovná 0,1). Také on přišel a nezávisle na Josefovi mi oznámil, že mi spadla větev na auto.
Jev, že je Karel spolehlivý, je nezávislý od jevu, že je Josef spolehlivý. Tedy mohu tyto jevy
násobit – pravděpodobnost, že jsou oba spolehliví = 0,9*0,9=0,81. Pravděpodobnost jevu, že
ani jeden není spolehlivý = 0,1* 0,1=0,01. Pravděpodobnost jevu, že aspoň jeden je
spolehlivý je 1-0,01=0,99. Protože oba prohlásili totéž, takže pokud aspoň jeden z nich je
spolehlivý, tak to znamená, že určitě větev spadla na auto. Proto mohu přidělit stupeň důvěry
0,99.
Předpokládejme nyní, že si oba odporují. Josef řekl, že spadla, Karel že nespadla. V tomto
případě nemohou mít oba pravdu, a tedy nemohou být oba spolehliví – jenom jeden je
spolehlivý nebo ani jeden není spolehlivý. Apriorní pravděpodobnost jevu, že Josef je
spolehlivý a Karel je nespolehlivý je 0,09 (0,9*0,1). To samé platí pro jev, že jenom Karel je
spolehlivý (a Josef je nespolehlivý). Apriorní pravděpodobnost jevu, že ani jeden není
spolehlivý je 0,01 (0,1*0,1). Suma těchto pravděpodobností (celý prostor pro hypotézy) je
0,19. Posteriorní pravděpodobnosti (de facto přepočet do součtu 1) jsou 9/19 pro „Josef je
spolehlivý, ale Karel ne“, 9/19 pro „Karel je spolehlivý, ale Josef ne“ a 1/19 pro jev, že ani
jeden není spolehlivý. Takže teď máme 9/19 stupně důvěry, že větev spadla na auto (protože
Josef je spolehlivý) a 9/19 stupně důvěry, že větev nespadla na auto (protože Karel je
spolehlivý).
Všimněme si, že důvěra v určitou hypotézu (spadla větev na auto?) je získána na základě
pravděpodobnosti odpovědi na jinou otázku (je svědek spolehlivý?).
Postup při uplatnění D-S teorie
Nejdříve Dempster-Shaferova teorie definuje hypotézy v hierarchické struktuře odvozené ze
základní sady hypotéz, které tvoří rámec posuzování (frame of discernment) (Eastmann,
2001).
Rámec posuzování má podobný význam jako rámec pro rozhodování, tj. je to sada
alternativních hypotéz nebo tříd, které mohou být přiřazeny entitám. D-S t. považuje tuto sadu
za vyčerpávající. Avšak v praxi D-S zachází s hierarchickými kombinacemi jako
s dodatečnými hypotézami. Navíc v kontextu GIS a DPZ mohou existovat dobré důvody, aby
se některé neřešitelné vazby zpracovávali jako hierarchická kombinace a pracovalo se s nimi
jako s každou jinou evidencí nezávislé třídy/hypotézy, do které může být entita přidělena.
Např. rámec posuzování může zahrnovat [les] a [mokřiny] a pak přítomnost vazby na
[zalesněné mokřiny] může de facto reprezentovat přítomnost třídy „zalesněné mokřiny“, která
nemůže být řešena bez použití lepšího důkazu (Eastmann, 2001).
Mějme rámec posuzování, který zahrnuje 3 základní hypotézy {A,B,C}. Struktura hypotéz,
pro které D-S přijímá důkazy (evidence), zahrnuje všechny možné kombinace [A], [B], [C],
[A,B], [A,C], [B,C], [A,B,C]. První 3 se označují jako prosté (sigleton) hypotézy, protože
obsahují jen jeden základní prvek. Zbytek jsou neprosté hypotézy (non-singleton), které
obsahují více než jeden základní prvek. D-S rozeznává tyto hierarchické kombinace, protože
se často stává, že důkazy, které máme, podporují jen určité kombinace hypotéz bez možnosti
dalšího rozlišení submnožin. Např. chceme identifikovat třídy [listnatý] a [jehličnatý] v rámci
klasifikace krajinného pokryvu a nalezneme důkaz z černobílé letecké fotografie, která
rozlišuje pouze zalesněné a nezalesněné oblasti, ale ne typ lesa. V tomto případě musíme
použít tento důkaz na podporu výskytu hierarchické kombinace [listnatý, jehličnatý]. Jasně to
ukazuje stav neurčitosti. Současně to ale poskytuje cennou informaci, kterou je možné
výhodně využít pomocí D-S procedury v libovolném výroku o důvěře v předložené hypotézy
(Eastmann, 2001).
[A,B,C]
[A,B] [A,C] [B,C]
[A] [B] [C] Obrázek 67 Hierarchická struktura podmnožin v celé množině [A,B,C]
D-S teorie rozeznává 6 důležitých konceptů, které využívá při vyjadřování vazeb některé
z těchto hypotéz (Eastmann, 2001):
přímá statistická pravděpodobnost (basic probability assignement, BPA),
neznalost (ignorance, IGN),
důvěra (belief, BEL),
nedůvěra (disbelief, DIS),
uvěřitelnost (plausibility, PLS),
interval důvěry (interval of belief).
BPA představuje podporu, že část důkazu je poskytována pro jednu z těchto hypotéz a ne pro
jejich podmnožiny. Tedy BPA pro [A,B] reprezentuje množství podpory pro [A,B], ale ne pro
[A] nebo [B], tj. je to stupeň podpory pro nějakou nerozeznatelnou kombinaci [A] a [B]
(Eastmann, 2001).
m(A,B) = BPA pro [A,B]
BPA pro danou hypotézu může být odvozena pomocí odhadu nebo z empirických dat. BPA je
mírou mlhavosti (fuzzy měření).
1 iBPA
Tedy BPA pro konečnou nadmnožinu ([A,B,C] v tomto případě) se rovná doplňku sumy
všech ostatních BPA. Toto množství tedy reprezentuje nevědomost (ignorance) - neschopnost
potvrdit jakýkoliv stupeň rozlišení mezi prvky v rámci posuzování (Eastmann, 2001).
Důvěra (belief) reprezentuje celkovou podporu hypotézy a je odvozována z BPA pro všechny
podmnožiny této hypotézy (Eastmann, 2001):
))((BEL(X) Ym kde Y je prvkem X
Tedy důvěra v [A,B] bude vypočtena jako ΣBPA pro [A,B], [A], [B].
V tomto příkladu důvěra reprezentuje pravděpodobnost, že entita je A nebo B. Všimněte si, že
v případě prostých hypotéz jsou BPA a důvěra totožné.
Nedůvěra (disbelief, DIS) - na rozdíl od Bayesovské teorie pravděpodobnosti není nedůvěra
automaticky doplňkem k důvěře, ale reprezentuje stupeň podpory všech hypotéz, které nemají
průnik s danou hypotézou (Eastmann, 2001).
DIS(X) = BEL (¬X) kde ¬X=not(X)
DIS([A,B]) = BPA[C] = 0,1
Jako protiklad k důvěře vyjadřuje uvěřitelnost (plauzibility, PLS) stupeň, do kterého se až
hypotéze může důvěřovat (přesněji nemůže nedůvěřovat).
PLS(X) = 1 - BEL (¬X) kde ¬X=not(X)
PLS(X) = 1 – DIS(X)
BEL(¬X) = Σ(m(Y)) kde Y∩X je prázdná množina
tedy PLS(X) = Σ(m(Y)) kde Y∩X není prázdná množina
Důvěra reprezentuje stupeň přímých důkazů na podporu hypotézy, uvěřitelnost indikuje
stupeň, do kterého se podmínky zdají být správné pro tuto hypotézu, i když je nedostatek
přímých důkazů. Pro každou hypotézu je tedy důvěra spodní hranicí pro naše přijetí této
hypotézy, zatímco uvěřitelnost reprezentuje horní hranici. Rozdíl mezi nimi je označován
jako interval důvěry (belief interval) a reprezentuje stupeň neurčitosti v přijetí nebo nepřijetí
hypotézy. Platí, že pro plochy s velkým intervalem důvěry každý nový důkaz přispívá
největším stupněm informace, zde má tedy informace největší hodnotu. D-S teorie je proto
velmi užitečná z hlediska porozumění informační hodnotě a v návrhu strategie sběru dat, tak,
aby byla co nejefektivnější při snižování neurčitosti.
Při srovnání s Bayesovou teorií pravděpodobnosti je zjevné, že D-S teorie lépe zachází
s neurčitostí obsaženou v datech. V Bayesově teorii pravděpodobnosti pracujeme jen s tzv.
prostými hypotézami a předpokládá se, že jsou vyčerpávající (tj. jejich součet je 1). Není
odlišena nevědomost. Nedostatek důkazů pro hypotézu tedy vytváří evidenci (důkazy) proti
dané hypotéze. Tyto požadavky a předpoklady však často nejsou v reálných rozhodovacích
situacích garantovány. Např. pro sledování výskytu určitého ptačího druhu bude používána
evidence ve formě zaznamenaných hnízd. Absence hnízda v daném místě však neznamená, že
by se zde sledovaný druh nevyskytoval. Může to znamenat, že zde prostě nebylo provedeno
pozorování nebo že se pozorovatel spletl při určování přítomných druhů. Právě pro takové
případy je D-S teorie vhodná (Gordon and Shortliffe 1985, Srinivasan and Richards 1990, in
Eastmann, 2001).
10.3.1 Dempster-Shaferovy agregační operátory
D-S kombinační pravidla poskytuje důležité nástroje pro agregaci nepřímých důkazů
a neúplné informace.
Výchozí stav znalostí je reprezentován ve formě plné hierarchizace hypotéz a jim přidělených
BPA. Z nich je možné skládáním odvozovat další informace (Eastmann, 2001).
YXkdeYmXm
ZYXkdeYmXmzm
.....).........()(1
..).........()()(
21
21
Jestliže
YproXYmXm ...............0)()( 21
pak se z rovnice stává:
ZYproXYmXmZm ......).........()()( 21
Celková důvěra, uvěřitelnost a interval důvěry se pro každou hypotézu vypočítá na základě
BPA odvozené z výše uvedené rovnice. Ve většině případů je nevědomost redukována po
přidání nové informace (Eastmann, 2001).
10.3.2 Implementace v IDRISI
Modul BELIEF tvoří a ukládá stav znalostí pro plnou hierarchii hypotéz. Navíc dovede
agregovat novou evidenci s existující znalostí a vytvářet nový stav znalostí, který může být
reprezentován ve výstupní mapě důvěry, uvěřitelnost nebo intervalu důvěry spojenou
s libovolnou hypotézou (Eastmann, 2001).
BELIEF nejdříve vyžaduje definice základních hypotéz. Po jejich zadání jsou vytvořeny
všechny hypotézy v hierarchické struktuře (seznam hypotéz). Pro každý zadávaný důkaz jsou
vyžadovány datové vrstvy BPA (rastr s reálnými čísly 0 až 1) spolu s indikací podporované
hypotézy. Položka BUILD KNOWLEDGE BASE v menu ANALYSIS začlení novou
evidenci do systému přepočítáním stavu znalostí pomocí D-S kombinačních pravidel.
Výsledek může být prezentován jako výsledný obrázek ve formě důvěry, uvěřitelnosti nebo
intervalu důvěry pro libovolnou hypotézu. Všechny získané informace jsou uloženy do
znalostní báze pro pozdější využití (Eastmann, 2001).
Používání BELIEF (Eastmann, 2001):
1. Může být obtížné rozhodnout, zda určitou část důkazů použít na podporu důvěry (belief)
v hypotézu nebo naopak doplněk tohoto obrazu použít na podporu nedůvěry (disbelief).
Pokud použijeme zjištění na podporu nedůvěry, neovlivňujeme důvěru v danou hypotézu,
ale její věrohodnost (uvěřitelnost).
Např. v příkladu je blízkost ke stálé vodě používána jako obraz vzdáleností na podporu
nedůvěry pro možnost existence archeologické lokality. Důvodem je to, že v blízkosti vody
není žádný důvod věřit, že by tam lokalita mohla či nemohla být, avšak u míst vzdálených
od vody je výborný důvod předpokládat, že by tam lokalita neměla existovat.
Vždy opatrně uvažujte, zda data poskytují pravdivý důkaz na podporu hypotézy nebo
pouze podporují uvěřitelnost (tedy nemožnost popřít danou možnost).
2. Při zadávání nedůvěry indikujete, že důkaz podporuje kolekci všech hypotéz, které
nezahrnují sledovanou hypotézu. Podle příkladu - jestliže budeme podporovat nedůvěru
pro A, znamená to, že podporujeme důvěru pro [B,C].
3. Pro každou linii důkazů začleněných v BELIEF si ověřte, že jste zadali všechny hypotézy,
v nichž působí určitá část důkazu. Důvod - BELIEF potřebuje provést vnitřní výpočty ve
vztahu k neznalosti a tedy potřebuje vědět také o hypotézách, pro které důkaz nepřidává
podporu. Potřebuje zadat pouze BPA obrazy, jestliže důkaz podporuje hypotézu se
stupněm vyšším než 0. Pro hypotézy, které důkaz nepodporuje, modul přiřazuje nulovou
pravděpodobnost.
4. Pro každou linii evidence BPA obraz musí obsahovat hodnoty z oboru reálných čísel mezi
0 a 1.
Příklad (Eastmann, 2001):
Máme odhadnout, kde se mohou nacházet archeologická místa určité kultury.
Rozhodovací rámec zahrnuje 2 základní prvky: [lokalita] a [nelokalita].
Celkový počet hypotéz, které generuje D-S teorie v plné hierarchii je 2n-1. Implicitně je zde
přítomna vnější hypotéza, která je pravdivá pro nulovou množinu a kterou D-S považuje
automaticky za nepravdivou. Tedy v tomto případě [nelokalita] není prázdnou množinou, ani
to není automaticky předpokládáno D-S. V tomto případě je uvedena jako pozitivní hypotéza
a člen rámce rozlišitelnosti.
Jsou použity čtyři důkazy:
lokalizace známých míst,
četnost povrchových artefaktů (např. střepy keramiky),
blízkost k stálé vodě,
sklon svahu.
První důkaz je považován za přímý důkaz existence archeologické lokality, protože
v blízkosti nebo přímo na známém místě se vyskytují často i další archeologické lokality.
Pokud se v daném místě lokalita nevyskytuje, nemáme žádnou přímou podporu pro hypotézu
„je zde nelokalita“.
Tedy důkaz je většinou nepřímý. Pro oblasti, které jsou blíže k existujícím archeologickým
místům, můžeme předpokládat vyšší pravděpodobnosti hypotézy [lokalita]. Pro transformaci
mapy vzdálenosti od existujících archeologických lokalit na mapu pravděpodobností (BPA
obraz pro podporu hypotézy [lokalita]) může být použita fuzzy funkce příslušnosti.
Četnost povrchových artefaktů je také používána jako další důkaz v podpoře hypotézy
[lokalita].
Vzdálenost od stálé vody a svažitost (ve formě datových vrstev) jsou však použity pro obraz
nedůvěry (disbelief). Důvody jsou zřejmé. Je pravděpodobné, že lokalita nemohla mít příliš
daleko zdroj vody. Nemáme však důvod se domnívat, že každé místo v blízkosti vody má
vyšší pravděpodobnost lokality, naopak – místa, která jsou velmi vzdálená od vody, mají
vysokou pravděpodobnost nelokality. Obdobně u sklonu svahu. Čím příkřejší svah, tím vyšší
pravděpodobnost, že je to „nelokalita“.
Obě datové vrstvy jsou proto přepočteny do rozsahu 0-1 pomocí fuzzy funkce příslušnosti,
aby poskytly podporu hypotézy [nelokalita].
Obrázek 68 Pravděpodobnostní obrazy: hypotéza [lokalita] založená na vzdálenosti od známého místa, hypotéza
[lokalita] založená na četnosti povrchových artefaktů, hypotéza [nelokalita] založená na vzdálenosti od stálé vody a
hypotéza [nelokalita] založená na sklonu svahu. (Eastmann, 2001)
Modul BELIEF kombinuje informace ze všech 4 zdrojů a je použit k vytvoření obrazů
důvěry, uvěřitelnosti a intervalu důvěry pro hypotézu [lokalita].
Obrázek 69 Důvěra (vlevo), uvěřitelnost (uprostřed) a interval důvěry (vpravo) pro přítomnost archeologických
lokalit z D-S kombinace důkazů. (Eastmann, 2001)
Shrnutí:
Podmíněná pravděpodobnost je nejjednodušším způsobem hodnocení kombinace
výroků, což v případě prostorových objektů může být zjištěno z geometrických
pravděpodobností. Bayesova teorie pravděpodobnosti kombinuje primární znalosti
s novou pravděpodobností. Dempster-Shaferova teorie definuje rámec posuzování
jako množinu všech možných řešení a zavádí nové koncepty (přímá statistická
pravděpodobnost, neznalost, důvěra, nedůvěra, uvěřitelnost, interval důvěry), které
se používají pro přesnější popis situace, zejména zohledňují nevědomost a typ
vztahu důkazu k prověřované hypotéze. Pro práci s novými koncepty se používají
speciální agregační operátory.
Kontrolní otázky: 1) Vysvětlete výpočet podmíněné pravděpodobnosti na geometrickém
příkladu 2 tvrzení, které se částečně prostorově překrývají.
2) Vysvětlete princip Bayesova přístupu k výpočtu pravděpodobnosti.
3) Co je hlavní výhodou Dempster-Shafer teorie vůči Bayesově teorii?
4) Co je důvěryhodnost?
5) Co je uvěřitelnost?
6) Co je rámec rozhodování?
7) Jak je konstruována důvěra v určitou hypotézu?
8) Jak se vyjádří nedůvěra v určitou hypotézu?
9) Popište způsob odvození uvěřitelnosti.
10) Jaká je interpretace intervalu důvěry?
11 Validita a objektivnost
Cílem kapitoly je vysvětlit koncept validity a objektivnosti a ukázat druhovou
pestrost typů validity, kterou zpracovatel dat musí zohlednit při práci.
Stručný obsah kapitoly:
Vnitřní a vnější validita
Validizace
Různé typy validity
Dopady ohrožení validity
Objektivnost
Získáte znalosti o:
Konceptu validity a objektivnosti
Typech validity
Přístupech k zajištění validity
Budete umět:
Vnímat problémy způsobené omezenou validitou
Navrhnout způsob zpracování se zajištěním objektivní validity celého
procesu
Budete schopni:
Zabránit nedůvěryhodnému a zkreslenému zpracování a vyhodnocení
Času potřebný na nastudování kapitoly – 30 minut.
Validitou rozumíme ověření výsledků z hlediska jejich platnosti.
Validita se zkoumá při procesu měření, zpracování dat, modelování – obecně jakýkoliv proces
může být posuzován z hlediska validity. Validitou procesu rozumíme jeho shodu s reálnou
podstatou jevu, se vzorem, který má reprezentovat, nahrazovat, či formulovat.
Rozlišujeme vnitřní a vnější validitu.
Typicky vnitřní validita znamená prověření pomocí dat, která byla součástí sady dat, použité
pro výpočet. Např. křížová validace u krigování, pokud byla data součástí datové sady použité
pro odvozování parametrů interpolace. Ve výsledku se projevuje např. prostorová konfigurace
známých bodů. Proto výsledky interní validace nelze považovat za zcela objektivní.
Vnější validita je pak ověření výsledků pomocí nezávislých dat, která nebyla použita ve
výpočtu (ani pro odvození parametrů či konfigurace výpočtu).
Podrobněji se zaměříme na validitu měření:
Starší definice validity měření vyžadovala, aby procedura měření skutečně měřila to, co
předpokládáme, že měří. V současnosti se vychází z požadavku, že uživatel má z výsledků
měření odvodit správná rozhodnutí. Validita odkazuje na přiměřenost, smysluplnost
a užitečnost specifických závěrů, jež se provádějí na základě výsledku měření. Validizace
měřící metody je procesem k podpoře takového přesvědčení. Posuzují se provedená
rozhodnutí, ne měřící instrument jako takový (Hendl, 2006).
Bez spolehlivosti (reliability) nelze dosáhnout validity. Avšak ani velká spolehlivost
(reliabilita) není zárukou validity.
Hendl (2006) tvrdí, že „malá reliabilita zakrývá, nedostatečná validita znetvořuje“.
Koncept validity je triviální, když se jedná o měření znaků jako délka těla. Stává se však
komplikovanou záležitostí, jestliže se jedná o osobní charakteristiky (např. v psychologii)
nebo jiné konstruktury sociálních věd. Při přezkušování validity rozlišujeme obsahovou,
kriteriální a konstruktovou validitu (Hendl, 2006).
Obsahová validita – zjišťujeme, do jaké míry měření skutečně reprezentuje dané vlastnosti
nebo kvality. Např. při konstrukci vědomostních testů si všímáme, zda otázky pokrývají celou
problematiku zkoušené látky (Hendl, 2006).
Kriteriální validita – posuzuje se shodou výsledků zaváděné procedury s nějakou jinou
kriteriální proměnnou nebo s jiným měřením, které je již ověřené. Ověřená procedura měření
se někdy nazývá „zlatý standard“. Zahrnuje následující 2 typy, kde hlavním rozdílem mezi
nimi je čas provedení měření (Hendl, 2006).
1. Souběžná kriteriální validita - hodnota kriteriální proměnné existuje v současnosti.
2. Prediktivní kriteriální validita - hodnota kriteriální proměnné se realizuje
v budoucnu. Např. mnoho přijímacích (vstupních) testů škol či personálních agentur
musí být vyhodnoceno ve vztahu k prediktivní validitě.
Kriteriální validita měřícího testu se také měří pomocí korelačního koeficientu. Při hodnocení
kriteriální validity korelujeme hodnoty posuzovaného měření s hodnotami měření
standardem. Při hodnocení prediktivní variability korelujeme hodnoty testových výsledků
s kriteriálními hodnotami získanými po uplynutí určité doby a odhadujeme tak schopnost
predikovat tyto hodnoty hodnoceným testem (Hendl, 2006).
Konstruktová validita se zabývá teoretickými aspekty měřeného konstruktu (proměnné).
Důkazy o konstruktové validitě musí mít konvergentní charakter (test prokazuje vztahy k těm
proměnným, jež podle teorie očekáváme) nebo diskriminační charakter (naopak nemá vztah
k proměnným, když tento vztah neočekáváme). V této etapě přezkušování nové procedury je
důležité, zda výsledky predikují stavy, které podle teorie očekáváme. Např. test výkonnosti by
měl nabývat nízké hodnoty, pokud sportovec nedosahuje dobrých výsledků v soutěžích. Jedna
z konstruktových validit se nazývá zjevná validita (face validity), jež se zjišťuje na základě
prostého úsudku expertů o validitě měření. Konstruktová validita se má vždy ověřovat
v rámci daného teoretického kontextu (Hendl, 2006).
Kromě toho se rozlišuje externí a interní validita.
Externí validita se týká možnosti zobecnit naše výsledky mimo rámec naší studie (Hendl,
2006).
Interní validita znamená stupeň průkaznosti studie z hlediska působení nezávisle
proměnných na závisle proměnné, jež sledujeme. Zabývá se tím, do jaké míry můžeme
usuzovat o příčinných vztazích mezi oběma typy proměnných (Hendl, 2006).
Např. při posuzování účinnosti intervence (např. terapie) chceme vědět, zda zlepšení výsledků
testů u pokusné skupiny jedinců skutečně způsobila intervence, a ne nějaké jiné příčiny.
Externí validita znamená, že se podobný efekt projeví i u jiné skupiny jedinců, u které
uplatníme stejnou intervenci. Obecně platí, že větší interní validitu mají dobře provedené
experimenty, avšak na rozdíl od výběrových studií založených na náhodném výběru mají
menší externí validitu (Hendl, 2006).
Při praktickém uplatňování těchto konceptů se využívá Pearsonův koeficient korelace (Hendl,
2006).
To je ovšem jen jeden z faktorů ovlivňujících interní validitu. Další možnosti uvádí Hendl
(2006, s. 69) ve vztahu k validitě závěrů experimentálních studií.
Efekty interní validity zkreslující výsledky (podle Hendl, 2006):
selekce jedinců do studovaných skupin (použití nevhodného výběru)
maturace – jedna skupina může prodělat změny ve vztahu k předmětu zkoumání
rychleji než druhá
historie – vnější vliv – zásah zvenčí, co změní podmínky 1 skupiny
mortalita – odchod některých jedinců ze skupiny
regrese k průměru – při učení
testování – opakované testy vedou k tréninku a dosahování lepších výsledků
změna procedury měření
Externí validita prověřuje, zda platí závěry i pro jiné situace a pro „realitu“ (Hendl, 2006).
Rozlišuje se populační validita a ekologická validita. Ekologická validita se zabývá tím, zda
platí závěry i pro použití jiného testu, realizace v jiném prostředí nebo např. v kratším čase na
vyplnění testu (Hendl, 2006).
Ohrožení externí validity může nastat z hlediska populační validity nebo z hlediska
ekologické validity (Hendl, 2006).
Ohrožení populační validity (Hendl, 2006):
populace v experimentu a cílová populace se liší (desetiletí školáci x všichni školáci)
interakce mezi ošetřením (programem) a osobnostní charakteristikou. Jedinci
v experimentu mohou mít zvláštní vlastnosti, které v interakci s ošetřením mohou
ovlivnit výsledek testu.
Ohrožení ekologické validity (Hendl, 2006):
definice konstruktorů
interference více ošetření
hawthornský efekt (efekt novosti, rivality, očekávání experimentátora)
senzitivita mezi pre- a posttestem
interakce mezi historií a ošetřením
interakce mezi dobou měření a ošetřením
11.1 Objektivita měření Objektivita měření znamená stupeň toho, jak jsou výsledky nezávislé na výzkumníkovi nebo
měřeném jedinci ve smyslu subjektivního úmyslného či neúmyslného zkreslení (Hendl,
2006). Při měření fyzikálních veličin v laboratoři se tento problém objevuje zřídka, ale při
hodnocení měření v sociologii nebo psychologii se musí objektivita pečlivě přezkušovat.
Objektivitu měřícího prostředku někdy hodnotíme tak, že korelujeme výsledky vyhodnocení
dvěma hodnotiteli (Hendl, 2006, s. 265). Tím dostáváme relativní míru objektivity. Dnes je
tendence používat spíše absolutní míry shody, jako je kappa koeficient.
Shrnutí:
Validitou procesu rozumíme jeho shodu s reálnou podstatou jevu. Uživatel má
z výsledků měření odvodit správná rozhodnutí. Vnitřní validita se ověřuje pomocí
dat, která byla součástí sady dat, použité pro výpočet. Vnější validita používá
nezávislá data, která nebyla použita ve výpočtu. Obsahová validita prověřuje, do
jaké míry měření skutečně reprezentuje dané vlastnosti nebo kvality. Kriteriální
validita ověřuje shodu výsledků zaváděné procedury s nějakou jinou kriteriální
proměnnou nebo s jiným měřením. Konstruktová validita se zabývá teoretickými
aspekty měřeného konstruktu. Kromě toho se rozlišuje externí a interní validita. Je
sledovat ohrožení externí validity, populační validity a ekologické validity.
Objektivitu je možné hodnotit pomocí kappa koeficientu nebo pomocí korelace
výsledků hodnocení dvou hodnotitelů.
Kontrolní otázky: 1) Co rozumíme validitou?
2) Jaký je rozdíl mezi vnitřní a vnější validitou?
3) Co je validizace?
4) Vysvětlete obsahovou validitu?
5) Co je kriteriální validita a jaké typy obsahuje?
6) Co je prediktivní kriteriální validita?
7) Co je konstruktorová validita a jaké typy obsahuje?
8) Proč je důležitá externí validita?
9) V čem spočívá ohrožení populační validity?
10) V čem spočívá ohrožení ekologické validity?
11) Co je hawthornský efekt?
12 Vizualizace neurčitosti
Cílem kapitoly je vysvětlit možnosti vizualizace neurčitosti prostorových dat nebo
vizualizace neurčitých prostorových dat.
Stručný obsah kapitoly:
Obecné kartografické metody vizualizace neurčitosti
Kartografické vyjadřovací prostředky a grafické proměnné pro vizualizaci
neurčitosti
Aplikační využití kartografických prostředků
Analýza a hodnocení vizualizace
Empirické studie vizualizace neurčitosti
Ke studiu kapitoly jsou potřebné znalosti základů tematické kartografie a základní
principy a rozdělení neurčitosti.
Získáte znalosti o:
3 základních metodách používaných pro vizualizaci neurčitosti
Vlastnostech vnitřních a vnějších grafických proměnných
Způsobech hodnocení vizualizace neurčitosti
Konkrétních příkladech uplatnění
Budete umět:
Vybrat a aplikovat správnou kartografickou metodu a vhodné konkrétní
grafické prvky pro vizualizaci neurčitosti.
Navrhnout způsob hodnocení vhodnosti použitého zobrazení neurčitosti
Budete schopni:
Navrhnout a aplikovat správnou metodu, která usnadní vnímání a
interpretaci neurčitosti obsažené v prezentaci prostorového problému
Času potřebný na nastudování kapitoly – 4 hodiny.
Většina této kapitoly byla upravena z habilitační práce P. Kubíčka (Kubíček, 2012).
Zhang a Goodchild (2002, in Kubíček, 2012) zdůrazňují význam kartografie pro zvýšení
obecného povědomí o nejistotě. Bylo prokázáno, že vizualizace může být použita pro zlepšení
komunikace o nejistotě dat v rámci prostorových analýz a rozhodovacích procesů a napomůže
také k lepšímu pochopení modelovaného reálného světa. Nejistota může vykazovat určité
prostorové vzory a vizualizace je může odhalit a sloužit nejenom jako prostředek prezentace
prostorových dat, ale především jako nástroj explorace a vizuální analýzy.
Okasnen (2006, in Kubíček, 2012) si v souladu s názorem Heuvelinka a kol. (2006, in
Kubíček, 2012) klade otázku, jak je možné, že po 20 letech výzkumu prostorové nejistoty
není daná problematika prakticky implementována v jednotlivých GIS programových
produktech. Příčinu vidí ve 4 hlavních oblastech:
1. Chyby ve vstupních datech a použitých modelech je potřeba charakterizovat, což je
záležitost obtížná a často také finančně a časově náročná.
2. Propagace chyb je drahá a není jednoduché ji finančně zdůvodnit (zejména pro velké
tvůrce prostorových dat).
3. Komplexnost modelování chyb vyžaduje specifickou expertízu.
4. Uživatelé geografických dat a informací nemají o vyjádření nejistoty pro své analýzy
zájem, protože jejich výsledkem jsou obvykle jednoznačná vyjádření a vysvětlovat
vliv nejistoty představuje nejenom výzvu, ale zároveň komunikační a argumentační
zátěž.
12.1 Obecné kartografické metody vizualizace nejistoty
MacEachren (1992, in Kubíček, 2012) se systematicky zabýval možnostmi kartografické
vizualizace nejistoty a navrhnul 3 základní metody finální prezentace (Kubíček, 2012):
1. Srovnávací mapy (maps compared, side-by-side images) – jak pro zvolený atribut, tak
pro vyjádření jeho nejistoty jsou vytvořeny samostatné mapy. Vedle sebe jsou zobrazeny
2 mapová okna stejného rozsahu a měřítka, kde v jednom je zobrazen hlavní jev a ve druhém
jeho neurčitost. Doprovodná mapa může hodnotit vyjádření kvality stanovení dat v ploše.
Patří sem např. mapa neurčitosti vyvozené interpolací (jako je třeba krigovací rozptyl), která
doprovází vlastní mapu hodnot (obr. 70).
Obrázek 70 Odhad obsahu Zn pomocí krigování a doprovodná mapa neurčitosti způsobené interpolací (krigovací
rozptyl)
2. Kombinované mapy (maps combined, mergedóverlayed images) – jak zvolený atribut,
tak jeho neurčitost jsou znázorněny na jedné mapě (v 1 mapovém okně) za využití vhodných
grafických proměnných. Jedná se vlastně o bivariační mapy využívající kombinace dvou
proměnných (Ware, 2004, in Brus, 2013). Používá se např. vybělení míst s vysokou
neurčitostí.
Obrázek 71 Kombinovaná mapy hloubky půdy a nejistoty vizualizovaná pomocí metody vybělení – whitening (vlevo)
a odpovídající legenda (vpravo) (Kubíček, 2012, upravil podle Hengel et al.,2004).
3. Využití interaktivního exploračního nástroje, který umožní snadnou manipulaci
způsobů vizualizace jak pro atribut, tak pro jeho neurčitost. Sekvenční mapy (sequenced
images podle MacEachren 1992, 1995 in Kubíček, 2012.), kde se v případě dynamické
vizualizace lze použít sérií obrazů. V sérii se pravidelně střídají mapa jevu a mapa jeho
neurčitosti.
K dalším metodám podle Brus (2013) patří:
4. Animace: pro vizualizaci je využito standardních parametrů – počet změn, změna
polohy, průhlednost, pořadí, datum zobrazení, frekvence, synchronizace (Gerharz a Pebesma,
2009, in Brus, 2013).
5. Interaktivní reprezentace: nejistotu lze například zobrazovat pomocí interakce myši
(Van der Wel et al., 1998, in Brus, 2013)
6. Sonifikace a psycho-vizuální vizualizace: vnesení akustických proměnných pro
vizualizaci nejistoty (změna rytmu, hlasitosti, vibrací nebo pomocí blikajících textových
zpráv. Zásadní problém při využití zvuku je skutečnost, že zvuk je většinou spojen pouze
s konkrétními body, zatímco grafické metody umožňují globální pohled na danou situaci.
Obrázek 72 Interaktivní vizualizační nástroj pro posouzení nejistoty pomocí střídající se sekvence indexu rizika a
jeho nejistoty (Kubíček, 2012, upravil podle MacEachren 1992).
12.2 Kartografické vyjadřovací prostředky a grafické proměnné pro vizualizaci
nejistoty
Vyjadřovací prostředky jsou základním elementem znázorňovacích metod (Kubíček, 2012).
Koncepce vyjadřovacích prostředků vychází z teorie kartografických znaků, jejímž rozvojem
a užíváním se zabývá kartografická sémiologie. Za jejího zakladatele je považován
francouzský kartograf Bertin (1967, in Kubíček, 2012), který při studiu grafické sémiologie
dospěl k názoru, že kartografické znaky tvoří specifický grafický systém. Za základní
grafický prostředek považuje skvrnu, u které definoval šest proměnných (základních
optických vlastností – tvar, velikost, barvu, intenzitu, hustotu, orientaci) a přiřadil jim pět
charakteristik – asociaci, disasociaci, selekci, ordinalitu a proporcionalitu. Jeho návrh byl
rozšířen o návrhy MacEachrena (1994, in Kubíček, 2012) a Wilkinsona (1999, in Kubíček,
2012). Kombinací grafických proměnných a jejich charakteristik lze dosáhnout až šedesáti
devíti variant grafických prostředků, které je možné uplatnit při kartografickém vyjadřování
(Voženílek a kol 2010, in Kubíček, 2012).
Z konceptuálního hlediska MacEachren (1992, in Kubíček, 2012) upozornil na skutečnost, že
způsob vizualizace nejistoty a využité kartografické metody pro její vizualizaci jsou
proměnlivé v závislosti na účelu a funkci mapy podle DiBiaseho (1990, in Kubíček, 2012)
křivky.
Pro kombinované mapy se používají 2 skupiny grafických proměnných pro vizualizaci
nejistoty (Gershon, 1998, in Kubíček, 2012):
Vnitřní (intrinsic) grafické proměnné mění svoji hodnotu v souvislosti s měnící se
nejistotou – například sytost barvy (colour saturation). V tomto případě se jedná
o použití barev v podstatě stejným způsobem, jako u konvenčních tematických map
(Tyner 2010, in Brus, 2013). Běžné vnitřní metody při tomto postupu kombinují data a
nejistotu společně pomocí dvojrozměrné reprezentace (MacEachren et al., 2005, in
Brus, 2013).
Vnější (extrinsic) grafické proměnné znamenají, že k standardnímu kartografickému
vyjádření jsou přidány další objekty, jako jsou šipky, sloupcové grafy a další objekty
různých tvarů.
Z analýzy literatury je zřejmé, že většina volených přístupů spadá to kategorie vnitřních
grafických proměnných (Slocum et al., 2005, in Kubíček, 2012).
12.2.1 Přístupy založené na vnitřních grafických proměnných
Podle Kubíčka (2012) je třeba si položit otázku, jak jednotlivé grafické proměnné (s možnými
doplňky a modifikacemi) lze logicky provázat s různými druhy datové nejistoty. Mezi
nejdůležitější přístupy patří využití vizuálních proměnných jako barvy, velikosti, pozice,
ostrosti, jasnosti, „fuzziness“, saturace, průhlednosti a ostrosti hran. Lze také nalézt případy
využití jiných barevných modelů nebo aplikaci různých textur nebo Perlínova šumu (Conninx
et al., 2011, in Brus, 2013).
Vhodnost využití jednotlivých proměnných navrhnul a utřídil MacEachren (1992, in Kubíček,
2012) a zároveň upozornil na možná úskalí při nesprávném použití grafické proměnné. Hlavní
rozdíl tkví zejména v logické asociaci vhodných grafických proměnných s odpovídající
kvantitativním a kvalitativním typem vizualizovaných datových proměnných. Velikost
a odstín jsou nejvhodnější pro vizualizaci nejistoty kvantitativních proměnných. Na druhé
straně barva, tvar a částečně orientace je využitelná pro nejistotu v kvalitativních
proměnných. Textura, navzdory tomu, že ji lze kvantifikovat, je nejvhodnější pro binární
klasifikaci „jistý“ x „nejistý“, jíž lze použít pro ve zvláštních případech pro oba typy dat
(Kubíček, 2012).
Obrázek 73 Přehled základních grafických proměnných podle Bertiny doplněných o návrhy MacEachrena (1994) a
Wilkinsona (1999). (Kubíček, 2012, upravil podle Kunz, 2011).
Vysvětlivky: color hue – barevný odstín, color value – intenzita, color saturation – nasycení, shape – tvar, size –
velikost, orientation – orientace, texture – textura, transparency – průhlednost, clarity - zřetelnost
Ačkoliv měla Bertinova typologie obrovský vliv na kartografické myšlení, nelze ji přijímat
jako dogma (Kubíček, 2012). Bertinovy závěry o vhodnosti či nevhodnosti grafických
proměnných pro konstrukce mapy jsou zde prezentovány jako fakt. Řada autorů se přitom
shoduje, že se jedná o konceptuální teorii, jak by mapy a grafické znaky měly být vytvářeny,
avšak ta je podepřena pouze omezenými empirickými zkušenostmi a prakticky žádnými testy.
Mezi hlavní kritické připomínky také patří fakt, že typologie není kompletní a objevila se řada
možných rozšíření. Mezi hlavními lze uvést (Kubíček, 2012):
Morrison (1974) – přidává uspořádání prvků (arrangement) a třetí potenciální rozměr
barvy – nasycení (saturation).
Caivano (1990) – rozšířil pojem textura o další rozměry, kdy rozlišuje v rámci textury
samotné také směr (směrování), velikost vzorku a jeho hustotu. Dokumentuje tak
složitost celého konceptu a také vztah mezi základními proměnnými a složenými,
k nimž patří právě textura.
MacEachren (2004) navrhuje použití termínu vzor (pattern) pro vizuální proměnnou
vyšší úrovně, která představuje jednotku s určitým tvarem, velikostí, orientací,
texturou (v Bertinově smyslu) a uspořádáním.
MacEachren (1992) doporučoval zejména sytost barvy (saturation) jako ideální pro
vyjádření míry nejistoty, a to zejména jako „syté barvy pro velmi jistou informaci
a méně syté pro nejistou informaci“. MacEachren (1992 navrhnul dokonce další
grafickou proměnnou s názvem zaostření (focus), kterou lze dělit na 3 další grafické
proměnné – ostrost hranic (contour crispness), rozlišení (resolution) a průhlednost (fog
transparency).
Obrázek 74 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty (Kubíček, 2012, podle MacEachrena
1992).
Obrázek 75 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty - rozlišení (Kubíček, 2012, podle
MacEachrena 1992).
Obrázek 76 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty - průhlednost (Kubíček, 2012, podle
MacEachrena 1992).
Při zkoumání jednotlivých znaků a jejich vizualizace hovoří MacEachren (2004, in Kubíček,
2012) zejména o barevném nasycení a zaostření (clarity), jako o vhodných kandidátech pro
vizualizaci nejistoty.
Proměnnou zaostření lze dělit na 3 další grafické proměnné (Kubíček, 2012) – ostrost hranic
(contour crispness), rozlišení (resolution) a průhlednost (fog transparency). Ostrost má vztah
ke způsobu vymezení hranic datového prvku – zatímco ostré hranice vymezují jistá data,
neostré přechody signalizují nejistá data. Rozlišení se vztahuje k úrovni detailu prostorových
dat s daným atributem – s úrovní nejistoty klesá prostorové rozlišení (velikost gridu) rastrové
databáze. Průhlednost znamená, jak snadno jsou daná data viditelná přes vrstvu „mlhy“
umístěné jako krycí vrstva. Čím je vyšší nejistota, tím je krycí vrstva hustší a méně průhledná.
Zatímco první dvě subkategorie jsou vhodné k reprezentaci primární informace
o znázorněných jevech, je průhlednost, respektive využití „mlhy“, vhodná k propojení na
metadata – tedy data o mírách kvality a s ní související nejistoty datové sady. Může být
například použita k omezení přístupu (rozuměj vizuálního využití při čtení mapy) k více
nejistým datům (Kubíček, 2012).
V tabulce 13 jsou dokumentovány rozšíření grafických proměnných podle MacEachrena pro
výběr a zhodnocení vhodnosti grafické proměnné ve vztahu k mapovaným jevům a jejich
podstatě (Kubíček, 2012).
Tradiční tištěné mapy mají pouze omezené možnosti, jak informovat uživatele o měřítcích
jejich pravdivosti. MacEachren předpokládá, že užití barevného nasycení, stejně jako
zaostření, budou komplikovat celkovou čitelnost mapy a poukazuje na nutnost využití
dynamických mapových výstupů (Kubíček, 2012).
Schweizer a Goodchild (1992, in Kubíček, 2012) doporučují pro mapování jevu využít
barevné škály (value) zatímco pro kategorie nejistoty využít sytost barvy. Autoři při testování
komplexní škály 15 kategorií hodnot jevu a 15 kategorií nejistoty prokázali, že uvedený
přístup je příliš komplexní pro intuitivní čtení mapy bez užití legendy. MacEachren (2004, in
Kubíček, 2012) doporučuje maximálně 3 kategorie pro úrovně obou proměnných pro
efektivní čtení, případně využití dynamického prostředí s možností změny úrovně zobrazené
nejistoty pomocí interaktivní legendy.
Tabulka 13 Přehled statických vizuálních proměnných a jejich vhodnost pro reprezentaci různých typů geografických
dat (upraveno podle MacEachren 2004, in Kubíček, 2012).
Poměrové (ratio) Pořadové (ordinální) Výčtové (nominální)
Pozice vhodné vhodné Vhodné
Velikost vhodné vhodné vhodné
Jas barvy málo vhodné vhodné nevhodné
Sytost barvy málo vhodné vhodné nevhodné
Barevný odstín málo vhodné málo vhodné vhodné
Ostrost nevhodné vhodné nevhodné
Rozlišení nevhodné vhodné nevhodné
Průhlednost nevhodné vhodné málo vhodné
Textura málo vhodné málo vhodné vhodné
Orientace málo vhodné málo vhodné vhodné
Uspořádání nevhodné nevhodné málo vhodné
tvar nevhodné nevhodné vhodné
Davis a Keller (1997, in Kubíček, 2012) doporučili barevný odstín, barvu a texturu jako
nejvhodnější kandidáty pro vyjádření nejisté informace při použití statických metod. Jiang
a kol. (1995, in Kubíček, 2012) a následně Hengel (2003, in Kubíček, 2012) pracovali
s pojmem světlost (lightness) a doporučili pro vyjádření nejistoty právě intenzitu zesvětlení.
Metodu nazvali „vybělení“ (whitening).
Dalšího vývoje se dočkala také vizualizace pomocí průhlednosti (transparency) (Kubíček,
2012). Původní návrh od MacEachrena předpokládal, že průhledné popředí sdělí uživateli
mapy, že danou oblast lze považovat za jistou, zatímco „zatažené“ popředí, ve kterém je
obtížné vidět data reprezentovaná na pozadí, bude indikovat nejistou informaci. Drecki (2002,
in Kubíček, 2012) používá termín neprůhlednost (opacity), kdy pro klasifikace družicových
snímků doporučil používat neprůhledné objekty za jisté. Uvedená alternativa může být
vhodná ve spojení s izolovanými znaky. V případě bodového symbolu můžeme tak vysoce
průhledný objekt považovat za nejistý, zatímco neprůhledný objekt za jistý. V tomto případě
vysoká průhlednost ponechává skutečnou podstatu objektu na představě uživatele mapy. Oba
případy jsou dokumentovány na obrázku 58. Zatímco pro první (průhlednost) lze považovat
za jistý spodní symbol ve sloupci c), tak pro druhou metodu (neprůhlednost) je jistý horní
symbol, který dává vnitřnímu kruhu jasnou podobu (Kubíček, 2012).
12.2.2 Přístupy založené na vnějších grafických proměnných
Pro vnější grafické proměnné je klíčovou prací publikace PANG (2001, in Kubíček, 2012),
který popisuje využití glyfů (glyph) v podobě složených bodových symbolů pro vyjádření
nejistoty. Glyfy jsou grafické objekty, které pomocí více grafických proměnných (velikost,
barva, tvar, směr…) mohou vyjadřovat současně více aspektů dat včetně jejich nejistoty.
Autor navrhoval užití glyfů s ohledem na možnost vyjádření více druhů nejistoty současně,
ale také upozornil na jejich vizuální komplikovanost. Problém většiny technik založených na
glyfech je, že vnímání velikosti glyfů uživatelem může být také ovlivněno okolní scénou,
která může vytvářet iluzi změny velikosti (Sterzer, Rees, 2006, in Brus 2013).
Drecki (2002, in Kubíček, 2012) zkoumal metody vyjádření nejistoty pro klasifikované
družicové snímky a navrhnul pět odlišným metod pro vyjádření výsledků a jejich nejistoty.
Zajímavá je metoda nazývaná „čtverce“ (squares), při níž je pomocí velikosti čtvercového
glyfu v mřížce reprezentována nejistota klasifikace, zatímco hodnota klasifikace je vyjádřena
barvou na pozadí). Na základě testů byla tato metoda vyhodnocena jako nejvíce efektivní
a překonala výsledky metody neprůhlednosti, či barevného nasycení. Zajímavý je fakt, že
objektivní výsledky nejsou zcela v souladu se subjektivním hodnocením uživatelů, kteří sice
považovali metodu čtverců za „dobrou“, ale měli také silné preference pro vyjádření pomocí
barevné sytosti. Právě vizualizace pomocí sytosti barvy skončila v objektivním hodnocení na
posledním místě a vykázala nejhorší výsledky (Kubíček, 2012).
Obrázek 77 Bodové znaky znázorňující nejistotu pomocí (a) sytost barvy, (b) ostrost hranic, (c) průhlednost (Kubíček,
2012, upravil podle Drecki, 2002).
Drecki (2009, in Kubíček, 2012) se ve své rozsáhlé studii o kartografických metodách
vizualizace a současných výzvách v oblasti vizualizace nejistoty vrátil také k tradičním
metodám vyjadřování kvality dat a s nimi související nejistoty. Zmiňuje zejména diagramy
spolehlivosti, popisy znaků a využití specifických znaků pro vyjádření nejistoty. Diagramy
spolehlivosti (obr. 59) byly obvykle umístěny jako mimorámový údaj a obsahovaly informace
o období sběru data a původního mapování, použitých postupech, podkladových datech
a případně o procesu revize mapy, či rozdílných zdrojích využitých k tvorbě mapy samotné
(Kubíček, 2012).
Diagramy spolehlivosti mohou vyjadřovat různé typy nejistoty geografických dat a obvykle
souvisí pouze s polohovou nejistotou. McGranaghan (1993, in Kubíček, 2012) dokumentoval
příklad komplexních diagramů spolehlivosti, na nichž byla uvedena také historie mapy
(lineage) a tematická nejistota (Kubíček, 2012).
Diagram spolehlivosti ukazuje dělení celého sledovaného území do dílčích celků, které se liší
některými prvky kvality dat. Např. mapový list obsahuje území s různými zdroji dat, s různým
autorským kolektivem apod.
Obrázek 78 Diagram spolehlivosti ukazující zdrojová data a datum jejich vzniku (stáří). (Kubíček, 2012, upravil
podle Drecki,2009).
Nejistota spojená s jednotlivými prvky mapy v podobě bodů, linií a ploch může být také
vyjádřena pomocí popisu, a to jak na úrovni polohové nejistoty, tak případně i pro nejistotu
tematickou (Kubíček, 2012).
Obrázek 79 Vizualizace nejistých geologických hranic a zlomových linií. (Kubíček, 2012, upravil podle Drecki, 2009).
V případě vizualizace neurčitého (nejistého) jevu areálového typu chápe Voženílek a kol
(2010, in Kubíček, 2012) jeho zákres jako přibližný a neurčitý, přičemž obrysem lze naznačit
míru přibližnosti či neurčitosti, např. čárkovanou nebo tečkovanou linií. Pro obrys areálu
samotného – tedy jeho hranici – pak doporučují hierarchická pravidla, která souvisí s mírou
nejistoty areálu. Míra neurčitosti výskytu jevu v areálu se vyjadřuje strukturou obrysové linie,
a to následovně (Kubíček, 2012):
plná linie vyjadřuje nejvyšší jistotu výskytu jevu a určuje rozsah území definovaný
podle přesného výskytu, např. průběh hranice katastrálního území
čárkovaná linie vyjadřuje přibližný výskyt jevu, nebo slouží k vymezení území, které
nelze s velkou jistotou přesně určit, např. oblast černozemě, rozšíření rostlinného
druhu, bramborářská oblast, jezero s nestálým břehem aj.
tečkovaná linie vymezuje areál s nejistým či velmi přibližným až neurčitým výskytem
jevu, např. předpokládaný dosah pevninského ledovce, nejzazší hranice plujícího ledu,
rozšíření živočišného druhu aj.
Ukázka aplikace různě jistých hranic a areálů je na obr. 61.
Pro případné varianty bodových či liniových znaků nejsou uvedena žádná explicitní
doporučení (Kubíček, 2012).
Obrázek 80 Dnešní rozšíření a hlavní sedimentační prostory žacléřského souvrství (Tásler et al.)
Vysvětlivky:
1 .. hranice dnešního rozšíření žacléřského souvrství: a – zjištěná, b – předpokládaná;
2 .. tektonická hranice: a – zjištěná, b – předpokládaná;
3 .. hlavní sedimentační deprese lampertických vrstev (předpokládaná)
4... optimální uhlonosnost lampertických vrstev: a – zjištěná, b – předpokládaná;
5..elevace v době ukládání dolsko-žďáreckých vrstev: a – zjištěné, b – předpokládané;
6.. předpokládaný hlavní sedimentační prostor petrovických vrstev v české části pánve
7.. zjištěná maximální mocnost petrovických vrstev
8..zjištěné směry přínosu – lampertické vrstvy
9..zjištěné směry přínosu – petrovické vrstvy
10..státní hranice
12.3 Aplikační využití základních metod vizualizace nejistoty
V oblasti přírodních hazardů jsou podle Kunz (2011, in Kubíček, 2012) nejčastěji
využívaným přístupem srovnávací mapy, kterým říká „bivariate representations“, ve kterých
jsou na jedné mapě znázorněny tematická mapa odpovídajícího přírodního hazardu a na druhé
s nimi spojená nejistota (Trau a Hurni, 2007, in Kubíček, 2012). Vizuální proměnné
a vizualizační techniky vhodné pro vyjádření nejistoty v přírodních hazardech jsou vyjádřeny
v tabulce 14.
Tabulka 14 Grafické proměnné a vizualizační techniky vhodné pro vyjádření nejistoty při hodnocení přírodních
hazardů podle Trau a Hurni (2007, in Kubíček, 2012)) a Pang (2008 in Kubíček, 2012).
Kunz (2011, in Kubíček, 2012) aplikovala vybrané metody vizualizace nejistoty na konkrétní
data lavinového nebezpečí v oblasti Stampach (Švýcarsko) s cílem konkrétně posoudit
vhodnost jejich využití. Rozlišuje přitom základní přístupy odpovídající kombinovaným
a srovnávacím mapám a v rámci kombinovaných map dále používá jak vnitřní (intrinsic), tak
vnější (extrinsic) vyjadřovací prostředky. Její komentáře k užití vnitřních grafických
proměnných pro vizualizaci nejistoty jsou v tab. 15.
Tabulka 15 Komentáře k užití vnitřních grafických proměnných pro vizualizaci nejistoty (Kubíček, 2012, upravil
podle Kunz, 2011).
Grafické proměnné Komentáře
Barva Zatímco jev je mapován v jedné barvě, pro vyjádření nejistoty je
použito jiné. Vzniká tak kombinace dvou barevných schémat
(škál). Je vhodné pro 2D a 3D mapy.
Vhodné pro vyjádření kvalitativních dat.
Sytost Vyšší nejistota je zvýrazněna vyšší sytostí. Alternativně je možný
i opačný přístup.
Vhodné pro vyjádření kvantitativních dat.
Vizualizační techniky
Šipky, glyfy, sloupce a další
izolinie
Rozlišení, šum
Alternativní pokrytí základní mřížky (gridu)
3D
stínování
Ozdobné prvky (např. měnící se jas nebo přerušení
izolinií)
osvícení
Rozdělení na řezy
Animace (blikání, pohyb, zvětšování, posun)
Grafické proměnné
barva
jas
sytost
průhlednost
textura/vzor
rozostření
Jas Nejistota je zdůrazněna tmavším odstínem (jako tmavší oblast
přitahuje pozornost uživatelů). Je vhodné užít, pokud vysoká
nejistota je důležitá. Alternativní řešení přitáhne pozornost naopak
k jistým oblastem.
Vhodné pro vyjádření kvantitativních dat.
Průhlednost Data s malou nejistotou jsou zvýrazněna.
Vhodné pouze pro 2D mapy
Textura Pro data s velkou variabilitou může být problém příliš velké krytí
podkladu.
Rozostření
(nejasnost)
Velmi intuitivní a široce používané.
Nevhodné pro datové sady obsahující malé plochy a data s
vysokou variabilitou.
Přístupy zahrnující vnitřní proměnné mají společnou nevýhodu, a to že malé změny nejistoty
je obtížné identifikovat, zejména pokud se jedná o datové sady s velkou proměnlivostí
(Kubíček, 2012).
Pro vnější proměnné využila Kunz (2011, in Kubíček, 2012) tři odlišné přístupy – velikost
bodu, hustotu bodů a vyjádření pomocí izolinií (obr.81 a-c).
Obrázek 81 Vizualizace nejistoty lavinového nebezpečí, která využívá pro intenzitu tlaku na podloží odstíny modře a
pro vyjádření nejistoty velikost znaku (a), hustotu bodů (b) a izolinie (c) (Kubíček, 2012, upravil podle Kunz, 2011).
Zatímco vizualizace nejistoty pomocí vnitřních proměnných je realizována pomocí variace
jedné grafické proměnné, vizuální techniky pro vnější proměnné zahrnují kombinace více
proměnných. V tabulce 16 je uveden přehled vizualizačních technik a komentovány hlavní
výhody a nevýhody.
Návaznost vizualizací vytvořených Kunz (2011, in Kubíček, 2012) na teoretické koncepce
vizualizace (kombinované mapy a využití konkrétního typu vnitřních a vnějších grafických
proměnných) je zde uváděna záměrně.
Tabulka 16 Komentáře k metodám vizualizace za využití vnější grafické proměnné (Kubíček, 2012, upravil podle
Kunz, 2011).
Vizualizační techniky Komentář
Šipky, glyfy, sloupce a další Vhodné pro 2D a 3D mapy
Nevhodné pro data s velkou proměnlivostí.
Může dojít k nadměrnému krytí podkladu.
Izolinie Nevhodné pro data s velkou proměnlivostí
(krytí).
Kvantitativní analýza je problematická.
Mohou být zaměněny s vrstevnicemi a přiřazeny
k hodnotám nadmořské výšky.
Rozlišení, šum Data s vysokou mírou nejistoty mohou vytvářet
matoucí a nečitelné mapy.
Alternativní pokrytí základní mřížky
(gridu)
Vhodné pro 2D a 3D.
Nebezpečí nadměrného krytí podkladu.
3D Může dojít k překrytu.
Ve 3D zobrazení může být problematické
vyjádření výšky (například při umístění sloupců
vyjadřujících nejistotu na 3D terénní model).
Stínování Může dojít k překrytu.
Ozdobné prvky (např. měnící se jas
nebo přerušení izoliní)
Nevhodné pro datové sady obsahující malé
plochy a data s velkou variabilitou.
Osvícení Může způsobit matoucí obraz a ztížit
interpretaci.
Rozdělení na řezy Nejistota je vyjádřena pouze relativně
k určitému prahu (větší než/menší než).
Animace (blikání, pohyb, zvětšování,
posun)
Efektivní pro velké datové sady.
Vhodné pro spojitě se měnící data; netříděná
data mohou vytvářet chaotické vzory.
Blikání – přitahuje pozornost, může však být
únavné a dokonce rušivé. Je vhodné jej využít
pouze občasně a po časové omezenou dobu
(například pro upozornění na určitou úroveň
nejistoty).
12.4 Návrh taxonomie vizualizace nejistoty
Podle Kubíčka (2012) se na Bertinova odkazuje ve své práci také Buttenfield (2000, in
Kubíček, 2012), která se zabývala specifiky mapování ekologické nejistoty (mapping
ecological uncertainty) a navrhla taxonomii pro řízení vizualizace nejistoty v ekologických
datech. Systém základních znakových (grafických) proměnných, který byl původně vytvořený
Bertinem, je v návrhu prezentováno pouze 6 typy proměnných (tvar, barva, orientace, odstín,
textura a velikost) v kombinaci s možným vyjádřením pro body, linie a plochy (obr. 63).
Bertinův druhý argument, že existuje hierarchie vizuálních rozdílů, byl potvrzen řadou
empirických studií (viz MacEachren, 1995, in Kubíček, 2012). Vizuálně slabé jsou symboly
v horní části obr. 63. Většina uživatelů není schopna rozlišit symboly s měnícím se tvarem
a orientací.
Barva (včetně sytosti) společně s texturou představují silnější grafické proměnné a poskytuje
nominální i kategorické vizuální odlišení. Tyto proměnné nejsou obecně spojovány s rozdíly
ve velikosti. Nárůst a datové sekvence je nejlépe ilustrovat pomocí nejsilnějších grafických
proměnných – odstín (tmavost) a velikost. Využití sekvence světlý tmavý a postupně se
zvětšující znaky (graduated symbols) bylo potvrzeno empirickými studiemi (viz MacEachern
1995, in Kubíček, 2012).
Obrázek 82 Bertinův systém vizuálních proměnných modifikovaný podle Buttenfield (2000) (Kubíček, 2012)
Navržená taxonomie je modifikací práce Buttenfield a Weibel (1988, in Kubíček, 2012)
a používá kombinaci kartografických vyjádření nejistoty a statistických datových typů. Buňky
tabulky obsahují návrh grafické syntaxe pro mapování nejistoty ve všech možných
kombinacích. Jednotlivé vizualizační techniky jsou popsány a dokumentovány v tabulce 17
společně se způsobem ekologického mapování nejistoty. Buňky psané kurzívou představují
problematické oblasti, v nichž není metrika nejistoty smysluplně definována, nebo kde se
grafická syntaxe rozpadá.
Tabulka 17 Taxonomie pro mapování ekologické nejistoty (Kubíček, 2012, upravil podle Buttenfield a Weibel 1988 a
Buttenfield 2001).
Typ dat/typ
nejistoty
Polohová nejistota Tematická nejistota Aktuálnost
(currentness)
Diskrétní Velikost
tvar
Textura
Barevné nasycení
Barevné
(ne)nasycení
Barevné vyblednutí
Kategorické
(celoplošné)
Textura
Barevné nasycení
Barevné míchání Texturní kryt
Kategorické
(částečné)
Nemá smysl textura Textová informace
(mimorámové údaje)
Souvislé Není rozdíl mezi
polohovou a
tematickou nejistotou
Není jasný rozdíl
Barevné nasycení
Bodové gradienty
Barevné nasycení
Plošné gradienty
Davis a Kelner (1997, in Kubíček, 2012) pracovali s Bertinovou teorií a navrhli sadu
nejvhodnějších proměnných pro vizualizaci nejistoty složenou z odstínu, barvy a textury (hue,
value, and texture). Stejně jako většina ostatních se však jedná pouze o jednorozměrnou
klasifikaci, která bere do úvahy pouze vizuální vlastnosti pro samotné vyjádření nejistoty
(Kubíček, 2012).
Aipperspach (2006, in Kubíček, 2012) navrhnul obecný systém pro vizualizaci nejistoty
založený na Bertinově přístupu, který zohledňoval kódování jak proměnných, jejichž nejistotu
vyjadřujeme, tak proměnných, které pomáhají nejistotu vyjádřit (…“the encoding both of
variables about which there is uncertainty and of variables that represent uncertainty“).
Systém napomáhá klasifikovat existující vizualizace a vytvářet nové. Pro klasifikaci
vizualizace nejistoty využívá celkem 7 grafických proměnných – 6 základních a umístění –
podotýká však, že systém lze rozšířit (Kubíček, 2012).
Základem přístupu je vizualizační prostor definovaný základními parametry – tedy
proměnnými, jejichž nejistotu vyjadřujeme a proměnnými, které jsou pro vyjádření použity
(Kubíček, 2012). Prostor dovoluje, aby kterákoliv z obou typů proměnných byl znázorněn
libovolným typem ze 7 výše jmenovaných proměnných. Vzniká tak potenciální matice
proměnných o rozměrech 7x7 (obr. 83) s příklady experimentálních vizualizací a jejich
zařazení do klasifikační matice. Matice ukazuje, že takto vymezený prostor není stejnoměrně
zaplněn, ale jsou oblasti, které jsou pro vizualizaci nejistoty používány častěji (první řádek
matice využívající pozici - umístění) a naproti tomu jsou oblasti využívané pouze výjimečně
(řádky 6 a 7 využívající k vizualizaci texturu, respektive orientaci) (Kubíček, 2012).
Obrázek 83 Příklady experimentálních vizualizací a jejich zařazení do klasifikační matice (Kubíček, 2012, upravil
podle Aipperspach, 2006).
Vysvětlivky: variable whose value is uncertain – proměnná jejíž hodnota je neurčitá, variable encoding
uncertainty – proměnná kódující neurčitost, position - pozice, color . barva, shape – tvar, size – velikost, value –
hodnota, texture – textura, orientation - orientace
Příkladem užití navrhovaného systému je obr. 65, kde proměnná „využití země“ (v tomto
případě les) je zobrazena pomocí tvaru (strom) a pravděpodobnost jejího výskytu (nejistota) je
zobrazena pomocí 5 různých metod (výchozí je rozostření obrazu – blurring) (Kubíček,
2012).
Navrhovaný vizualizační prostor má svá omezení. Jak uvádí autor, jedním z problémů je
například oddělená vizualizace proměnných na dvou mapách. Z pohledu původní klasifikace
vizualizace nejistoty (MacEachren 1992, in Kubíček, 2012) se vlastně jedná o rozšířenou
modifikaci kombinovaných map (maps combined) s využitím původních rozšíření grafických
proměnných například o rozostření (Kubíček, 2012).
Thomson a kol. (2005, in Kubíček, 2012) navrhují typologii pro geografická data, respektive
pro vizualizaci jejich nejistoty, která by měla poskytnout uživatelům přehled o vizuálních
i výpočetních reprezentacích odlišných typu nejistoty. Přichází také s názorem, že určité
reprezentační techniky, jak výpočetní, tak vizuální, by měly fungovat obzvláště efektně pro
reprezentaci specifického typu nejistoty. Typologie může sloužit pro výběr vhodné vizuální
strategie, a to jak pro samotnou informaci, tak s ní spojenou nejistotu (Kubíček, 2012).
Tvůrci typologie považují za významné dva hlavní rozdíly oproti předchozím iniciativám
v typologii nejistoty (Kubíček, 2012):
1. Typologie se zaměřuje na konkrétní úkol, aby byl analytik schopen se zaměřit na
konkrétní typ nejistoty, se kterým musí pracovat.
2. Jedná se o obecnou typologii, kterou je potřeba přizpůsobit konkrétním podmínkám
(úloze), aby bylo možné definovat konkrétní typy vizualizace.
Obrázek 84 Ukázka využití vizualizačního prostoru - původní vizualizace využívající umístění znaku a jeho rozostření
(pro nejistotu) lze modifikovat pomocí proměnných umístění (a), odstín (b), směr (c), velikost (c) (Kubíček, 2012,
upravil podle Aipperspach, 2006).
Drecki a Maciejewska (2005, in Kubíček, 2012) využili tuto topologii a pokusili se
o praktický přístup k vizualizaci nejistoty pomocí propojení typologie vizualizace nejistoty
s kategoriemi jakosti (kvality dat) na příkladu map velkých měřítek. Autoři se snaží prakticky
přiřadit ke všem výše uvedeným kategoriím odpovídající způsob vizualizace. Jako základ
experimentu sloužila vybraná oblast mapovaná v měřítku 1:10000. Vzhledem k tomu, že
vizualizace nejistoty byla primárně určena novým uživatelům z prostředí veřejné správy, bylo
rozhodnuto použít snadno pochopitelnou, kompaktní a relevantní vizualizaci. Ze stejného
důvodu se autoři rozhodli použít srovnávací mapy, kdy mapy nejistoty jsou doplňkové
k základním mapám jevu, které zůstávají v původní podobě. Pro vizualizaci nejistoty byla
zvolena pěti stupňová kvalitativní škála používající modifikovanou barevnou škálu
dopravního semaforu (obr. 85) (Kubíček, 2012).
Obrázek 85 Ukázka kvalitativní škály pro vyjádření jednotlivých prvků kvality datových sad (Kubíček, 2012)
Škála pak nabývá hodnot od zelené pro velmi dobrou kvalitu dat, přes žluto-zelenou pro
dobrou kvalitu, žlutou pro průměrnou kvalitu, oranžovou pro špatnou kvalitu a konečně
červenou pro velmi špatnou kvalitu. Uvedená klasifikace včetně odpovídajícího popisu
klasifikace je potom přiřazena všem kategoriím kvality na úrovni jednotlivých mapových
listů. Vizuálně dostupná informace tak vlastně odpovídá metadatovému popisu kvality na
úrovni mapových listů, či datových souborů které jsou k dispozici pro jednotlivé mapové listy
(Kubíček, 2012).
Obrázek 86 Ukázka vizualizace nejistoty metadat pro jednotlivé ukazatele kvality na úrovni mapových listů (Kubíček,
2012, upravil podle Drecki a Maciejewska, 2005).
Jako nadstavbu nad jednotlivými kategoriemi kvality navrhují autoři globální vizuální
indikátor nejistoty (global visual uncertainity indicator – G-VisUl), který uživatele informuje
o celkové úrovni nejistoty dané datové sady a upozorňuje je na možné problematické oblasti
(hot spots).
Obrázek 87 Příklady vizualizace celkové nejistoty pomocí globální vizuální indikátor nejistoty (G-VisUl). Vlevo
konzervativní přístup, vpravo liberální přístup (Kubíček, 2012, upravil podle Drecki a Maciejewska, 2005).
Konzervativní přístup určení G-VisUl bere za základ indikátoru tu kategorii kvality, která má
nejnižší kategorii (tedy největší nejistotu) (obr. 87 vlevo). Více liberální přístup volí jako
kategorii kvality průměrnou hodnotu všech kategorií, kterým je přiřazena stejná váha (obr. 87
vpravo). V případě specifických nároků na vybrané kategorie kvality s ohledem na užití dat
lze odpovídajícím kategoriím přiřadit odpovídající váhu a výslednou vizualizaci upravit
(Kubíček, 2012).
Zvolený přístup je důležitý zejména svou relativní jednoduchostí, rychlou pochopitelností
a tím pádem využitelností i pro nové uživatele a dále návazností na existující kategorie kvality
(Kubíček, 2012).
Přes existující omezení se jeví jako potenciálně přínosný s ohledem na zavádění
metadatových popisů kvality v souvislosti se směrnicí INSPIRE (Kubíček, 2012).
12.4.1 Vizualizace nejistoty v přírodních hazardech
Podle Kubíčka (2012) je oblast vizualizace nejistoty v přírodních hazardech případem
aplikační oblasti, která se zaměřuje pouze na efektivitu vizualizace samotné, za předpokladu,
že samotné zavedení a šíření nejistoty je již vyřešeno. Klíčovou oblastí je následná
komunikace s koncovým uživatelem (rozhodovatelem), který musí dostat „správné informace
ve srozumitelné formě (čitelnost mapových výstupů) na správném místě a ve správný čas“.
Pang (2008, in Kubíček, 2012) zdůrazňuje nutnost nejenom percepčního pohledu na
vizualizovaná data, ale také kognitivních aspektů ve smyslu toho, jak uživatelé rozumí
vizualizaci a jak vizualizace ovlivňuje jejich rozhodování a činnosti. Poukazuje na úzkou
vazbu na výzkumy v oblasti kognitivní psychologie, od níž se kartografická, respektive
obecně vizualizační komunita může učit správné a špatné způsoby prezentace informací.
Rozhodovatelé jsou především schopni zpracovat pouze omezený počet grafických
proměnných, a to zejména tehdy, pokud jsou pod časovým tlakem. Je proto nezbytné, aby
vizualizace byly zachovány v co nejjednodušší podobě a obsahovaly pouze kritické informace
nutné pro proces rozhodování. Selektivní předzpracování grafické informace může snížit
kognitivní nápor tím, že umožní uživateli se soustředit důležité aspekty dat (=důležité pro
danou úlohu). Způsob, jakým jsou informace prezentovány, může ovlivnit výsledné
rozhodnutí (Kubíček, 2012).
V oblasti krizového managementu (řízení) je řada osob vstupujících do celého cyklu řízení
v různých okamžicích což má za důsledek, že se výrazně liší typ informací a forma jejich
prezentace, kterou potřebují pro své rozhodování. Způsob „jedna velikost stačí pro všechny“
není zjevně v takovém případě správným řešením. Jako alternativa se nabízí identifikovat
(Kubíček, 2012):
třídy uživatelů,
typy úkolů,
typy a komplexnost dat (datové typy, rozměry dat, typy dat – ordinální, kardinální,
kategorické…)
a pokusit se vytvořit rámec, který odpovídá jedné nebo více vizualizačním metodám a je
nejefektivnější z hlediska „best practices“. Koncepce, kterou PANG (2001, 2008, in Kubíček,
2012) naznačuje, odpovídá zásadám kontextové kartografické vizualizace.
12.5 Analýza a hodnocení vizualizace
Následující část textu se zabývá využitím teorie kognice pro analýzu vizualizace nejistoty.
Poskytuje základní rámec pro analýzu vizualizačních metod a následně také pohled na silné
a slabé stránky odlišných aspektů vizualizace.
12.5.1 Kognitivní aspekty vizualizace nejistoty a vizualizace reprezentace nejistoty
Zuk (2008, in Kubíček, 2012) analyzuje odlišné teoretické přístupy k percepci na základě
prací Bertin (1973, in Kubíček, 2012), Tufte (2001, in Kubíček, 2012) a Ware (2004, in
Kubíček, 2012), které jsou nejčastěji citovány v odlišných vědeckých komunitách
a představují dobrý výchozí bod pro následující srovnání metod vizualizace nejistoty. Každý
z uvedeného tria vědců (Bertin, Tufte, Ware) založil své teoretické přístupy na rozsáhlé sadě
principů, avšak pro další srovnání byly vybrány pouze principy se vztahem k percepci
(Kubíček, 2012).
Asociativní grafické proměnné – jak jsou definovány Bertinem – hrají důležitou roli při
vizualizaci nejistoty (Kubíček, 2012). Jak uvádí Ware (2004, in Kubíček, 2012) jedná se
zejména o charakteristiku oddělených (separable) a integrovaných grafických proměnných
s ohledem na to, zda uživatel potřebuje brát do úvahy data a nejistoty samostatně (pro
separované proměnné), nebo je musí uvažovat v jednotném kontextu (pro integrální
proměnné). Mac Eachren a kol. (1998, in Kubíček, 2012) uvádí, že společné (integrální)
kódování dat a nejistoty mělo negativní vliv na výkon testovaných osob při odhalování shluků
v datech (Kubíček, 2012).
Podle Kubíčka (2012) se s příchodem digitálního zobrazení ocitají původní Bertinovy
grafického proměnné v odlišném prostředí. Zuk (2008, in Kubíček, 2012) navrhuje pro
digitální prostředí nahradit stránkou a srovnávat ji v případě digitálního prostředí s rozsahem
označeným jako „obrazovka“. První rozdíl je v rozsahu informací – současný plošný rozsah
obrazovky (i přes značný rozvoj právě v této oblasti) je menší, než původní rozsah stránky,
takže je potřeba počítat s omezenou možností prezentací původní informace. V samotném
důsledku to znamená, že pro percepci stejného množství informací na obrazovce musí oko
vykonat více pohybů, aby pokrylo větší oblast. Velké tištěné mapy obsahují více informací,
než většina velkých elektronických displejů, které vyžadují pro zobrazení stejné informace
například interakci s uživatelem v podobě posunu stránky (scrolling). Také další Bertinovy
proměnné jsou podobně ovlivněny výše uvedenou redukcí jejich rozsahu (velikosti).
Zvláštním případem je barva (value) – obrazovky prozatím nedosahují ani rozsahu, ani
rozlišení původní tištěné stránky. Leitner a Buttenfield (2000, in Kubíček, 2012) navíc
upozornili na fakt, že světlé a tmavé odstíny barev se mohou chovat odlišně v digitálním
a analogovém prostředí díky odlišnému způsobu vytváření barev (odrazivost x vyzařování).
Hlavním přínosem (změnou) digitálního prostředí je vznik nových vizuálních proměnných,
jak uvádí MacEachren (1995, in Kubíček, 2012) a Ware (2004, in Kubíček, 2012).
V analogovém prostředí není možné například uvažovat o tak silných proměnných, jakými
jsou pohyb a blikání. Naopak některé nově uvedené (rozostření – blur, stín), které původně
Bertin neuvažoval, lze zpětně převést do analogového prostředí a vyjádřit je na nejenom na
obrazovce, ale také v podobě stránky. Bertinovy proměnné jsou relevantní jako sada pro
dvourozměrné vizualizace. Pokud překročíme uvedený limit dvou rozměrů tištěné stránky,
pak lze uvažovat o dalších vizuálních proměnných v souvislosti s hloubkou (3D) a časem
(4D). Zuk (2008, in Kubíček, 2012) poukazuje na fakt, že pokud je 3D vizualizace zobrazena
v 2D, tak lze k její implementaci přistupovat jako k plošné a tím pádem ji analyzovat pomocí
původního Bertinova rámce.
Vizuální reprezentace nejistoty zesiluje kognitivní procesy (Card a kol. 1999, in Kubíček,
2012) a lze tedy předpokládat, že vizuální reprezentace bude přínosem pro rozhodování
s přítomností nejistoty. V oblasti geoinformatiky, která stojí na špici vizualizace nejistoty, byl
navržen rámec doporučující určitou vizuální reprezentaci s ohledem na typ geografických data
a typ nejistoty (MacEachren a kol. 2005, in Kubíček, 2012). Přestože tento rámec definoval
obecné problémy, nebyly prozatím vytvořeny a především přijaty žádné obecné standardy.
Pro obecnou vizualizaci zahrnující rozhodování je potřeba vždy brát do úvahy konkrétní
uživatele a úlohu, kterou je potřeba řešit. Některé typy vizualizace mohou být vhodné
a vypadat přirozeně pro vyjádření nejistoty na metaúrovni – například průhlednost, fuzziness,
barevná sytost (MacEachren a kol., 2005, in Kubíček, 2012), avšak pro rozlišení různých typů
nejistoty či pro integraci s více proměnnými nebudou vhodné.
V ideálním případě by měla vizualizace umožnit celou sadu metod a případně činností
umožňujících uživateli dospět k řešení. Možnost interakce s uživatelem při výběru
reprezentace automaticky sděluje koncovému uživateli, že i v optimální vizualizaci je
přítomna určitá míra nejistoty (viz KUNZ, 2011, in Kubíček, 2012).
12.5.2 Obecný rámec pro podporu vizualizace nejistoty
Zuk (2008, in Kubíček, 2012) vytvořila kategorizaci kognitivní nejistoty a jednoduchý
a snadno aplikovatelný rámec redukující komplexnost kognitivních úkolů souvisejících
s nejistotou. Nejdříve rozdělila rozhodnutí podle vyjádření nejistoty na (Kubíček, 2012):
1. rozhodnutí, pro které není určen limit nejistoty pro konečné rozhodnutí
2. rozhodnutí, která jsou založena na jednom limitu (prahu) nejistoty)
3. rozhodnutí založená na více limitních hodnotách, případně na souvislé škále nejistoty
(funkce).
Rozhodnutí, která využívají nějaký typ limitu (typ 2 a 3) jsou z pohledu kognice jednodušší.
Příkladem jednotné hranice je například 95% interval spolehlivosti (typ 2), pro souvislou
změnu je uváděn příklad pravděpodobnostní distribuční funkce (Kubíček, 2012).
Zuk a Carpendale (2006, in Kubíček, 2012) formulovali sedm doporučení zaměřujících se na
různé fáze rozhodovacího procesu. Vybraná doporučení nejsou rozhodně vyčerpávajícím
návodem pro tvorbu a ohodnocení vizualizace, ale lze je považovat za důležité body, kterými
je potřeba se zabývat pro kategorizaci kognitivní nejistoty a vizualizaci nejistoty obecně
(Kubíček, 2012):
1. Podporujte zjednodušení kognitivních úkolů – zjednodušení je důležité pro redukci
množství informací a tím pádem zvýšení efektivity. Nejistota potenciálně dodává
řešeným úlohám komplexitu, a tak jejich celkové zjednodušení může být důležité.
2. Zajistěte zvýraznění či potlačení nejisté informace – pro rozhodování založené na
jednom limitu nejistoty mohou být důležité obě strany limitu. V případě kognitivního
úkolu, kdy chceme vyloučit určitá data z rozhodnutí, může být kritériem vysoká
nejistota, kterou je potřeba graficky zvýraznit. V případě opačném, kdy je potřeba
přijmout data, je potřeba oblasti vysoké nejistoty vizualizovat tak, aby nepřitahovaly
pozornost. V případě interaktivní vizualizace lze brát do úvahy jeden či více limitů
nejistoty a zvýraznit (potlačit) data s nejistotou nad (pod) limit.
3. Umožněte vizualizaci nejistoty na úrovni metadat i na úrovni dat.
4. Dovolte uživatelům si vybrat vlastní výsledek výpočtu nejistoty pro vizualizaci -
souvisí s pravděpodobnostním výpočtem nejistoty, respektive odpovídající
„reprezentativností“ daného výpočtu. Pro interaktivní nástroje je možné
implementovat výslednou vizualizaci v podobě animace možných výsledků
(realizací), případně jako uživatelský dotaz na možné výsledky.
5. Zjednodušte kognitivní heuristiku – jedná se o způsoby uvažování, které lidé
k interpretaci reality využívají. Se zavedením nejistoty je doporučeno využít
rozšířeného vizuálního vyhledávání - extrakce vybraných dat, detailní pohledy,
interaktivní prohlížení (brushing).
6. Pro vytváření znalostí je potřeba poskytnout interakci – všechny předchozí faktory
počítají s alternativním návrhem a realizací vizualizace. Interaktivní vizualizace je
klíčem k vytvoření vizualizace podle požadavků uživatelů a specifických úloh.
Howard a MacEachren (1996, in Kubíček, 2012) diskutovali tvorbu rozhraní pro
interakci s vizualizací geografické nejistoty a doporučili analyzovat rozhraní na
konceptuální, operativní a implementační úrovni.
7. Zhodnoťte následky špatně interpretované nejistoty – ne vždy přidání nejistoty
přinese lepší výsledky, než původní data bez vyjádření nejistoty. Tento bod má úzký
vztah k jedné z výzkumných výzev v oblasti nejistoty, jak je definovali MacEachren
a kol. (2005, in Kubíček, 2012): „understanding how (or whether) uncertainty
visualization aids exploratory analysis.“ Porozumění jak a zda vůbec vizualizace
nejistoty napomůže vizuální analýze dat, je klíčovým problémem, kterému se
budeme věnovat i v dalších částech práce.
Uvedené kroky mohou sloužit jako obecný návod pro vytváření vizuálních reprezentaci
nejistoty, ale opět nejsou ověřeny rozsáhlejším empirickým výzkumem (Kubíček, 2012).
12.6 Empirické studie vizualizace nejistoty
12.6.1 testování polohové nejistoty
Mezi ojedinělé práce v dané problematice patří studie HOPE A HUNTER, (2007, in Kubíček,
2012), která se zabývá statickým a dynamickým testováním polohové nejistoty. Testování
polohové nejistoty bylo rozděleno na dvě části (Kubíček, 2012):
1. Testování dynamické reprezentace polohové nejistoty – testovány byly celkem čtyři
odlišné způsoby vizualizace (reprezentace) a jejich partikulární vliv na rozhodování.
2. Testování statické reprezentace polohové nejistoty – celkové pochopení vizualizace
nejistoty koncovými uživateli a jejich preference jednotlivých vizualizací
(reprezentací).
Dynamické testování požadovalo od účastníků testování reakce na plavidlo pohybující se ze
zóny A do zóny B. Animaci simulovala rozhraní mobilního zařízení a změna polohy byla
pravidelně obnovována. Uživatelé měli za úkol, jako kapitán lodi, otočit loď tak, aby
nevstoupila do zóny B, která je zakázána (Kubíček, 2012).
Subjektům byly nabídnuty 4 odlišné vizualizace znázorňující polohovou nejistota pracovně
nazvané jako Limity, Měřítko, Pravděpodobnost a Postupná vizualizace (obr. 69-70)
(Kubíček, 2012).
Limity používají tečkované linie pro znázornění oblasti s 99% pravděpodobností výskytu
hranic mezi zónami A a B a lokalizací plavidla (obr. 88) (Kubíček, 2012).
Obrázek 88 Ukázka vizualizace Limity a Měřítko (Kubíček, 2012, upravil podle Hope a Hunter, 2007)
Měřítko obsahuje pouze písemnou informaci o polohové nejistoty umístěnou v legendě, což
do určité míry odpovídá informaci obsažené potenciálně již v metadatech, kterou si
v konečném důsledku musí uživatelé graficky (vizuálně) interpretovat (Kubíček, 2012).
Pravděpodobnost obsahuje na obrazovce informaci o tom, s jakou pravděpodobností (v %) je
plavidlo v zóně B. Hodnota je aktualizována v reálném čase tak, jak se plavidlo pohybuje
směrem k hranicím mezi zónami (Kubíček, 2012).
Obrázek 89 Ukázka vizualizace Pravděpodobnost a Postupná vizualizace (Kubíček, 2012, upravil podle Hope a
Hunter, 2007)
Postupná vizualizace zobrazuje poziční (polohovou) nejistotu hranice mezi zónami pomocí
postupné změny odstínu, směrem k zóně B barva postupně tmavne (Kubíček, 2012).
Pro každé ze 4 možných typů vizualizace bylo vytvořeno při statickém testu 5 odlišných
reprezentací zobrazujících plavidlo v následujících typických situacích (Kubíček, 2012):
a) Jistě v zóně A
b) Pravděpodobně v zóně A
c) Stejná možnost výskytu v obou zónách
d) Pravděpodobně v zóně B
e) Jistě v zóně B
Pro všechny varianty byla také možná odpověď f) nerozumím vizualizaci.
Účastníci testu měli následně vybrat, jaké tvrzení odpovídá obrázku nejlépe. Testy byly
sestavené tak, aby umožnily maximálně objektivizovat výsledky a odstranit potenciální
zvykové zatížení či rychlejší naučení metody a ovlivnění předchozím snímkem (Kubíček,
2012).
Žádná odpověď neobsahovala měření rychlosti.
Na základě testu byly vyhodnoceny celkem 3 typy výsledků (Kubíček, 2012):
1. Identifikace okamžiku, kdy se loď otočila, pro dynamické testy
2. odpověď pro umístění na statickém testu
3. odpověď na osobní preference konkrétního typu vizualizace
Obrázek 90 Ukázka postupné vizualizace s očekávanou odpovědí c)Stejná možnost výskytu v obou zónách (Kubíček,
2012, upravil podle Hope a Hunter, 2007).
12.6.1.1 Testování vizualizace polohové nejistoty
Testování vizualizace polohové nejistoty prováděl také Kubíček se svým kolektivem (2012).
Při testování byla použita mapa katastrálního území, kde jsou hranice parcel vyjádřeny
pomocí dvou barev indikujících odlišnou kvalitu dat (polohovou nejistotu):
Zelená hranice (přesná hranice) - Kód charakteristiky kvality bodu 1, 2 a 3 (body
určené se střední souřadnicovou chybou lepší než 0.14 m).
Červená hranice (méně přesná) - Kód charakteristiky kvality bodu 4, 5, 6, 7 a 8 (bod
určený se střední souřadnicovou chybou 0.26 m, bod určený se střední souřadnicovou
chybou 0.50 m, bod digitalizovaný z mapy měřítka 1:1000 se střední souřadnicovou
chybou 0.21 m, bod digitalizovaný z mapy měřítka 1:2000 se střední souřadnicovou
chybou 0.42 m a bod digitalizovaný z mapy měřítka 1:2880 a jiné (kromě 1000
a 2000).
Parcelní číslo
Kódem charakteristiky kvality bodu (třída přesnosti bodu): 1-8
Kód kvality výměry - Kód kvality výměry je číselný kód, který v SPI (Soubor
Popisných Informací) označuje způsob určení výměry parcely. Kód 2 reprezentuje
výměru parcely určenou ze souřadnic S-JTSK. Kód 1 reprezentuje výměru parcely
určenou jiným číselným systémem a kód 0 reprezentuje výměru parcely určenou
graficky.
Zelená hranice spojuje body s třídou přesnosti <1,3>. Navíc k těmto bodům jsou řazeny body
s třídou přesnosti 8, pokud jsou tyto body též součástí parcely s kódem kvality výměry 2
a body s přesností <4,8> ležící na přímce mezi dvěma body <1,3> (bod je pak součástí zelené
hranice jen ve směru této přímky, nikoliv ve všech směrech).
Červená hranice spojuje navzájem body o přesnosti <4,8> a tyto body s body s přesností
<1,3>
Takovýto přístup k vizualizaci katastrálních hranic v závislosti na jejich kvalitě přímo souvisí
s vizualizací nejistoty a v konkrétním případě také s případnou schopností uživatelů dat
katastru s takto odlišně zobrazenou informací efektivně pracovat.
Následně byly zvoleny 2 typy vizualizace nejistoty (Kubíček, 2012) – první podával
informaci o nejistotě textovou informací o nejistotě a byl vybaven měřítkem pro zjištění
rozsahu nejistoty hranice (kódové označení Hranice), druhý typ byl vizuálně výraznější
(pomocí barevného přechodu hranice, kódové označení Přechod) a přímo graficky vymezoval
rozsah nejistoty s klesající sytostí barvy od hranice směrem do parcel na obou jejich stranách.
Obě metody mají oporu v práci Hope a Hunter (2007) a odpovídají metodám označeným jako
„měřítko“ respektive „přechodná vizualizace“. Volba byla provedena s ohledem na obvykle
používanou reprezentaci katastrálních dat, jejichž jakost respektive nejistota není explicitně
graficky odlišována a lze na ni tudíž usuzovat pouze na základě známého měřítka.
Pro každý jednotlivý typ vizualizace byla vytvořena vizualizace znázorňující 2 sousední
parcely (A a B) a v nich zobrazený zákres budovy (obr. 91), jejíž roh bude postupně ležet
(Kubíček, 2012):
A. Jistě v parcele A
B. Spíše v parcele A
C. Stejně v parcele A i v parcele B
D. Spíše v parcele B
E. Jistě v parcele B
Obrázek 91 Dvě metody vizualizace nejistoty (vlevo hranicí s měřítkem, vpravo kořenovou zeleninu (Kubíček, 2012)
Porovnání reakčních časů uživatelů ukázalo, že ve většině případů respondenti potřebovali k
označení odpovědi více času v případě vizualizace „přechod“ než v případě vizualizace
„hranice“. Uvedená skutečnost se projevila u obou testovaných skupin a v obou případech byl
čas potřebný k nalezení (správné) odpovědi téměř dvojnásobný (Kubíček, 2012)
Odborníci dosahují lepších časů než laici v obou případech vizualizace. Stejně tak se rychleji
zlepšuje jejich reakční doba při opakované vizualizaci a změně polohy budovy (obr. 91). Na
základě testování významnosti (párový t-test), kdy byl testován průměrný čas jednotlivých
respondentů obou skupin, byl prokázán významný rozdíl (p=0,0497) s výrazně lepším
průměrným časem odborníků. Rozdíl byl významný pouze pro celkové průměry, pro
samostatné porovnání vizualizace „hranice“ či vizualizace „přechod“ nebylo významnosti
dosaženo, ačkoliv v obou případech si skupina odborníci počínala lépe. Vzhledem k tomu, že
testy probíhaly u skupiny laiků individuálně, nelze však tuto informaci přeceňovat (Kubíček,
2012).
12.6.1.2 Testování vizualizace polohové nejistoty II
V dalším příkladu Kubíček a kolektiv testovali vizualizaci polohové nejistoty na příkladu
katastrální mapy.
Na obrázcích jsou katastrální parcely s budovami a katastrální hranice zobrazeny pomocí
dvou odlišných metod s určitou mírou přesnosti resp. nejistoty, která se pohybuje v rozsahu
vyznačeným dvěma odlišnými typy vizualizace (Kubíček, 2012).
První z nich je barevný přechod, kde jistota hranice narůstá od okrajů přechodu směrem ke
středu (čím tmavší barva, tím větší jistota hranice mezi parcelami).
V druhém případě – měřítko – je hranice vyznačená linií s určitou přesností resp. nejistotou,
která pohybuje v rozsahu ± 2metry (délka 2 metrů je graficky označena měřítkem v pravém
dolním rohu obrázku).
Obrázek 92 Dva typy vizualizace hranic parcel při 2. pokusu (Kubíček, 2012)
Změnil se také způsob sestavení a provedení testu, a to ze statického na dynamický –
interaktivní. Jednotlivé úlohy byly konstruovány tak, že účastníci testu byli nuceni aktivně
zakreslit linii končící v definovaných částech parcely. Tato lomená čára měla být ukončena
co nejblíže hranici parcel, ale zároveň má splnit jednu z níže uvedených podmínek
(Kubíček, 2012):
Čára je ukončena jistě (na 100%) v parcele A
Čára je ukončena spíše (na ˃ 50%)v parcele A
Čára je ukončena stejně jistě (na 50%) v parcele A či v parcele B
Čára je ukončena spíše (na ˃ 50%) v parcele B
Čára je ukončena jistě (na 100%) v parcele B
Kromě samotné vizualizace nejistoty v reálných podmínkách byla změněna i grafická náplň
mapy. Pro jednotlivé případy byly na rozdíl od prvního testu zvoleny reálné ukázky parcelní
kresby z katastrálního území Prahy, kterým byly pozměněny katastrální čísla pro zachování
anonymity. Všechny vystavené scény tak navozovaly dojem skutečné katastrální mapy
zahrnující zjednodušenou parcelní kresbu, parcelní číslo a obrysy budov v případě základního
pozadí a navíc také barvu a texturu podle využití v případě komplexního pozadí (Kubíček,
2012).
Po provedení cvičných úloh byli účastníci upozorněni, že začíná „ostrá“ část testu a
zopakováno obecné zadání.
Testovací mapové podklady se následně pravidelně střídaly v typu vizualizace – tedy všechny
liché (1,3,5,7,9) byly reprezentovány typem vizualizace „hranice“ a všechny sudé (2,4,6,8,10)
pak typem vizualizace „přechod“. Nejdříve byly testovány vizualizace pro jednoduchou
podkladovou kresbu, které zahrnovala pouze katastrální hranice, budovy podbarvené hnědou
barvou a parcelní čísla. Následně byla změněna podkladová mapa a na jednotlivé parcely byla
přidána textura v podobě barevné výplně a značky vyjadřující druh využití dané plochy
(Kubíček, 2012).
Do vyhodnocení rozdílů přesnosti ukončení linií pro jednotlivé úlohy byly uvažovány pouze
správné odpovědi. Z výsledných grafů je zřejmé, že mezi jednotlivými typy vizualizace
existují jenom malé rozdíly a nelze určit nějaký jednoznačný trend. V případě vizualizace
„přechod“ měli účastníci testu při ukončování v zónách „spíše A, spíše B“ tendenci končit
linii blíže fyzicky vyznačené hranice (Kubíček, 2012).
Pro zbývající typy úloh (jistě A i B, 50:50) se oba typy vizualizace významně neliší.
V případě vizualizace 50:50 (obr. 100) došlo k zajímavému efektu, kdy pro vizualizaci
„hranice“ dochází spíše k překročení středové linie, zatímco u vizualizace „přechod“ byla
tažená linie ukončována ještě před hranicí obou parcel (Kubíček, 2012).
12.6.2 Empirické testování tematické nejistoty
Leitner a Buttenfield (2000, in Kubíček, 2012)) specificky zkoumali, jak je ovlivněno
rozhodování uživatelů, pokud do mapy je přidána informace o nejistotě. Testovali jak
samotnou přítomnost či nepřítomnost informace o nejistotě, tak odlišné způsoby vyjádření
nejistoty prostřednictvím vnitřních grafických proměnných – tmavší vs. světlejší barva, hrubší
vs. jemnější textura (výplň) a sytá vs. světlá barva. Zároveň testovali jak správnost výsledku,
tak rychlost jeho dosažení (Kubíček, 2012).
Významného zlepšení bylo dosaženo při znázornění nejistoty pomocí světlejší barvy
a jemnější textury, což sami autoři označili za překvapivé, protože obvykle tmavší barvy jsou
považovány za více graficky dominantní (Leitner a Buttenfield, 2000, s.13, in Kubíček,
2012). Je třeba také brát do úvahy vliv znázornění kartografické vizualizace na počítačovém
monitoru namísto tradičního tištěného formátu. Z hlediska rychlost dosažení cíle vykazovaly
mapy s vyjádřením nejistoty lepší výsledky, což bylo z určitého hlediska překvapující,
protože měly větší grafické naplnění a tím pádem i vyšší informační obsah. Samotní autoři to
přisuzovali faktu, že informace o nejistotě je uživateli vnímána spíše jako upřesnění, než jako
zvýšení komplexnosti (= složitosti) mapy (Kubíček, 2012).
Práce samotná poukazuje na nedostatečný empirický výzkum v dané oblasti zejména
v souvislosti s nutností testování, avšak neobsahuje žádné ukázky mapových výstupů
(Kubíček, 2012).
Autoři poukazují na nejčastější způsoby vizualizace a existující doporučení ohledně využití
Bertinových grafických proměnných pro vizualizaci nejistoty a mimo jiné zmiňují sytost
barvy – od čisté barvy pro velmi jisté informace až po nenasycenou šedou pro nejisté
informace (Kubíček, 2012).
Experiment byl zaměřen na podporu rozhodování a užití vizualizace nejistoty při této
podpoře. Účastníci testu byli požádáni, aby umístili park a následně letiště a bylo sledováno,
jak obě rozhodnutí provedli, z hlediska 3 různých pohledů (Kubíček, 2012):
1. Jak správně bylo rozhodnutí učiněno?
2. Jak rychle bylo rozhodnutí učiněno?
3. Jak jistě bylo rozhodnutí učiněno?
Využito bylo celkem 8 map (Kubíček, 2012). Zatímco první dvě neobsahovaly žádnou
nejistotu a lišily se pouze počtem tematických kategorií pro znázorněnou problematiku,
dalších 6 map zobrazovalo tematickou nejistotu pomocí dvou tříd (více a méně jisté)
a prostřednictvím odlišných grafických proměnných. Jeden pár map použil odlišnou texturu,
druhý pár odlišnou barvu a třetí pár odlišné barevné nasycení pro vyjádření nejistoty jevu.
Jisté oblasti byly přitom vyjádřeny jemnější texturou, tmavší barvou a více nasycenou barvou
v jednom případě, zatímco v druhém případě byly vytvoření obrácené typy vizualizace. Testu
se zúčastnilo celkem 68 uživatelů (Kubíček, 2012)
Pro každou oblast byly provedeny testy statistické významnosti. Hlavní závěry lze shrnout do
tří oblastí podle výše uvedených pohledů (Kubíček, 2012)
Pro správnost rozhodnutí (výsledky jsou statisticky významné na hladině 0,05):
Jsou-li k dispozici data pro rozdělení výsledků do více tříd, je potřeba je na mapě
znázornit;
Barva (value) se jeví jako nejvhodnější pro vyjádření nejistoty;
Jisté informace by měly být reprezentovány světlejší barvou;
Při použití textury je pro nejisté informace lepší použít hrubší texturu.
Pro rychlé rozhodnutí (symbolizační schéma – výsledky nejsou statisticky významné):
Při větším počtu tematických tříd potřebují subjekty delší čas k rozhodnutí;
Pokud další tematické třídy obsahují informaci o nejistotě, pak je doba odezvy stejná,
nebo dokonce kratší, než u mapy s jedinou tematickou třídou;
Zdá se, že informace o nejistotě je chápána spíše jako vysvětlující, než jako
komplikující;
Pro urychlení rozhodování je nejlepší použít sytost, nebo texturu pro vyjádření
nejistoty;
V případě použití nasycení barvy je potřeba využít pastelových tónů pro více jisté
informace.
Pro jistotu rozhodnutí (symbolizační schéma – výsledky nejsou statisticky významné):
Rozhodnutí byla učiněna se stejnou jistotou bez ohledu na počet tematických tříd;
Srovnání mezi užitím barvy a textury prokázalo rozdíly v jistotě rozhodnutí
sledovaných subjektů. Subjekty jsou si mnohem více jisté, pokud je použito světlé či
tmavé barvy pro nejistotu, než tomu je pro vizualizaci pomocí textury.
Na závěr doporučují zavedení testovaných symbolizačních schémat do oblasti geografických
informačních systémů a systémů podporujících rozhodování.
12.6.2.1 Testování vizualizace tematické nejistoty na příkladu mapování půd
Kubíček a kol. (2012) se zabývali pro tento účel dvěma statickými přístupy vizualizace
nejistoty interpolovaných hodnot, a to srovnávacími a kombinovanými mapami.
Pro srovnávací mapy byla zvolena kombinace interpolovaného povrchu vzniklého krigováním
(zřejmě krigovací chyba) pro hodnotu hloubky půdy a vypočtená hodnota směrodatné
odchylky v jednotlivých místech povrchu posloužila jako mapa nejistoty. Obě proměnné
(hloubka půdy a její nejistota) byly vizualizovány do samostatných map za pomocí stejné
grafické proměnné, a to sytosti barvy. Světlejší tóny byly využity pro vyšší nejistotu
(Kubíček, 2012).
Vedle srovnání byla vytvořena i kombinovaná mapa. U ní byla vytvořena speciální legenda,
která napomáhá čtení a porozumění použitého HSI modelu (Kubíček, 2012).
Obě výše zmíněné metody vizualizace byly testovány na dvou odlišných úrovních (Kubíček,
2012). Na první úrovni byla zjišťována zmíněná intuitivnost metody vybělení v podobě
kombinované mapy, o které hovoří řada autorů (např. Jiang 1996 in Kubíček, 2012), avšak
bez odpovídajících důkazů. Uživatelé byli při testu požádáni, aby označili oblast, která má
podle nich nejvyšší nejistotu. V legendě byl proto vyznačen pouze typ zobrazované proměnné
(hloubka půdy a nejistota), ale nikoliv způsob změny (nárůst x pokles) (Kubíček, 2012).
V testu tematické nejistoty byly díky použitému postupu ověřovány zejména následující
schopnosti uživatelů pro obě základní metody vizualizace nejistoty (Kubíček, 2012):
schopnost dekódovat hodnotu jevu (hloubka půdy) a jejího prostorového vývoje
schopnost dekódovat nejistotu jevu (krigovací chyby) a její prostorový vývoj
dekódování a srovnání obou hodnot ve stejném prostoru
Pro oba typy vizualizace byly zvoleny shodné hodnoty obou jevů pro dekódování, avšak
umístění cvičných polygonů se měnilo, aby se zamezilo efektu zaučení uživatelů. Na základě
výsledků bylo možné konstatovat, že existují významné rozdíly mezi metodami v případě, že
chceme dekódovat úroveň nejistoty a hodnotu s nejistotou dohromady. Hlavní závěry lze
shrnout následovně (Kubíček, 2012):
Testování intuitivnosti vizualizace nejistoty prokázalo, že nejisté informace by měly
být znázorněny světlejšími odstíny. Více účastníků testu (63%) označilo světlejší
hodnotu jako více nejistou a zároveň ke svému rozhodnutí potřebovali méně času
a dosáhli výrazně menšího skupinového časového rozptylu. Výsledky však nebyly
potvrzeny jako statisticky významné, a to ani pro homogenní, ani pro heterogenní
skupinu.
Výsledky na druhé úrovni testování lze rozdělit podle testovaných proměnných,
respektive jejich kombinace. Pro zjednodušení a statistické vyhodnocení rychlosti byly
brány do úvahy pouze správné odpovědi tak, aby bylo možné párové srovnání obou
metod. Pro dekódování míry nejistoty bylo významně lepších výsledků dosaženo
pomocí kombinovaných map, než pro mapy srovnávací. Uvedený výsledek platí jako
pro homogenní skupiny (studenti), tak pro heterogenní skupinu (odborná veřejnost).
Pro dekódování hodnoty jevu (hloubka půdy) byly výsledky pro kombinované mapy
jenom lepší bez statistické významnosti. Opět toto tvrzení platí pro všechny skupiny
účastníků testu. Je otázka, zda v tomto případě nebyl výsledek ovlivněn faktem, že
uživatelé měli možnost se seznámit s metodou kombinované mapy, respektive
vybělení, již na první úrovni testu.
Správnost odpovědí je nižší při komplexnějších úkolech – tedy při dekódovaní obou
proměnných (hodnota a nejistota) společně. Srovnávací mapy dosáhly v tomto případě
signifikantně lepších výsledků, než kombinované mapy. Uvedená část patřila mezi
nejvíce kontroverzní, protože zde byla dosažena pouze 43% správnost odpovědí pro
obě metody zároveň. 64% správných odpovědí bylo pro metodu srovnávacích map,
56% správných odpovědí pro metodu map kombinovaných. V případě
kombinovaných map byli účastníci nejenom rychlejší, ale také jejich směrodatná
odchylka v dosažených časech byla pouze poloviční ve srovnání s druhým typem
vizualizace.
12.6.3 Interaktivní prostředí pro vizualizaci nejistoty
Kunz (2011 in Kubíček, 2012) nabízí interaktivní nástroj pro vizualizaci nejistoty s volitelnou
formou vizualizace v podobě srovnávacích i kombinovaných map a využitím více vnějších
vyjadřovacích prostředků (obr. 93). Alternativně je dokonce nabízen 3D pohled a užití tzv.
prizmatických map, které nejsou dále diskutovány.
Na základě dotazníku konstatuje Kunz (2011 in Kubíček, 2012) následující závěry:
Všechny navržené metody vizualizace nejistoty jsou interpretovatelné – pochopitelné
koncovými uživateli.
Za pochopitelné jsou považovány i kombinované mapy využívající vnitřní grafické
proměnné, a to s následujícími preferencemi:
o Pokud je potřeba nejistotu zdůraznit, pak dávají přednost narůstajícímu
barevnému nasycení, které přitahuje vizuální pozornost k nejistým oblastem,
v nichž jsou jednotlivé buňky rastru tmavší.
o Zvýšení světlosti (průsvitnosti) naopak přitahuje pozornost k jistým hodnotám
a vede k ignoraci (přehlížení) nejistých buněk rastru.
Jinými slovy – v závislosti na tom, co chceme zdůraznit (zda jsou k rozhodování
důležitější jisté/nejisté oblasti), tak je vhodné volit odlišné metody vizualizace.
Zatímco některé metody vizualizace jsou vhodné pro kvantitativní analýzu míry
nejistoty (srovnávací mapy, vnitřní vyjadřovací metody a užití proporciálních kruhů),
jiné jsou vhodnější pro vyjádření celkového prostorového rozmístění nejistoty (hustota
teček, texturní překryv).
Uvedené závěry nejsou podloženy konkrétní kvantifikací odpovědí, jedná se o kvalitativní
závěry získané pomocí interview (Kubíček, 2012). Výsledky lze využít obecně pro vizualizaci
nejistoty libovolných skalárních veličin.
Obrázek 93 Aplikovaná vizualizace nejistoty: a) srovnávací mapy, b) kombinované mapy za využití vnějších
grafických proměnných (hustota bodů), c) kombinované mapy za využití vnitřních grafických proměnných (barevný
odstín) (Kubíček, 2012, upravil podle Kunz, 2011).
Vysvětlivky: impact pressure – tlak při dopadu, uncertainty – neurčitost, increasing intensity – rostoucí intenzita,
increasing uncertainty – rostoucí neurčitost
Výsledky získané Kunz (2011 in Kubíček, 2012) byly dále testovány a rozvíjeny Kubíčkem
a kolektivem. Ten s využitím stejných map sledoval následující cíle:
Zjistit intuitivnost konstrukce stupnic pro zvolené vnitřní a vnější grafické proměnné.
Srovnat schopnost uživatelů efektivně pracovat s vizualizace jevu a nejistoty
přírodního rizika pomocí vnitřních a vnějších grafických proměnných.
Zjistit schopnost uživatelů rozhodnout se na základě přítomné nejistoty jevu.
První mapový podklad využívá vytvoření tematické vrstvy lavinového nebezpečí modré barvy
a její sytosti a pro vyjádření nejistoty pak velikost teček ve třech odlišných kvalitativních
kategoriích.
Druhý typ mapového výstupu byl vytvořen za využití vnitřní proměnné odstín, kdy jednotlivé
kategorie tematického jevu jsou odlišeny barvou a jejich nejistota světlostí odstínu, vše opět
v podobě 3 kategorií.
U tohoto příkladu byly na rozdíl od jiných testů na MU připraveny dva oddělené testy pro
každou metodu vizualizace zvlášť, aby se zabránilo případnému efektu zácviku při
opakovaném čtení stejné vizualizace a přechodu na jinou vizualizaci.
V obr. 74 byla zkoumána intuitivnost legendy pro vizualizaci nejistoty. Byly zde uvedeny jak
vnější grafické proměnné (velikost bodů), tak vnitřní grafické proměnné (odstín) a uživatelé
byli dotázáni na směr, kterým nejistota narůstá či klesá. Vzhledem ke statisticky významným
výsledkům, které podporovaly nárůst nejistoty s narůstající světlostí při metodě vybělení, byl
opětovně zařazen tento krátký test pro případné potvrzení či vyvrácení závěrů.
Teprve potom byla vysvětlena použitá legenda a ukázány příklady, jak číst odpovídající mapy
nejistoty. Následně byla testována schopnost uživatelů dekódovat nejprve jev, následně
nejistotu a konečně nejistotu a jev dohromady. Po každé scéně byla navíc zařazena
samostatná negrafická scéna s otázkou, nakolik si byli uživatelé jisti správností své odpovědi
na dekódování hodnoty jevu, nejistoty a obojího dohromady.
Odpověď bylo třeba následně označit na stupnici 1-5 (1=zcela jistí – 5=zcela nejistí). Tímto
způsobem byla zároveň sledována subjektivní jistota testovaných osob s jejich odpovědí.
V další části testu uživatelé řešili praktickou úlohu, kdy na základě zhodnocení nejistoty
lavinového nebezpečí měli označit část komunikace, která bude nejméně pravděpodobně
zasažena lavinou. Jednalo se o praktické dekódování hodnoty jevu a nejistoty, ale
s konkrétním aplikačním podtextem, kdy se uživatel musí rozhodnout mezi třemi možnostmi.
V tomto závěrečném případě navíc nebyla k dispozici legenda a účastníci testu byli nuceni
prokázat nejenom schopnost řešit konkrétní úlohu, ale také míru pochopení konkrétní
vizualizační metody a hlubší kognici nutnou pro vyřešení úlohy (Kubíček, 2012).
Pro závěrečný test použili kombinaci experimentu s korelační studií v podobě
psychologického testu (Kubíček, 2012). V případě experimentu se obvykle obě zkoumané
skupiny (znaků, proměnných, výstupů) liší pouze v jednom aspektu (velikost bodu, odstín
barev). Zkoumané kartografické výstupy jsou však v tomto ohledu zvláštní v tom, že mapa
představuje komplexní výstup a nelze měnit pouze její části bez ohledu na celek. Obě zvolené
metody (vnitřní x vnější grafické proměnné) se tudíž liší nejenom vyjadřovacími prostředky,
ale také například legendou (3x3 vs. 3x2) a zároveň hodnotami vyjádřenými přímo na
mapovém podkladu. Je tedy obtížně odlišitelné, zda jsou naměřené rozdíly ve výkonu
účastníků testu způsobeny právě odlišnou legendou, nebo rozdíly způsobenými mapovým
vyjádřením. Z tohoto důvodu byly srovnávány obě metody jako celek, tedy o úroveň výše.
Výsledky jsou následně interpretovány o úroveň níže, kde se pokoušíme vyvodit závěry
vycházející s uvedených kognitivních předpokladů (Kubíček, 2012).
První výsledky poskytnul test intuitivnosti legendy vizualizace nejistoty, kde většina
dotázaných upřednostnila v obou případech škálu A, tedy od malého k velkému bodu,
respektive od světlejšího odstínu k sytějšímu pro nárůst nejistoty. V prvním případě tuto škálu
upřednostnilo 74% (55 případů) z dotázaných, ve druhém případě 66% (49 případů)
(Kubíček, 2012).
V obou případech se osoby, které zvolily odpověď A, rozhodovaly významně rychleji a také
jejich časy potřebné k rozhodnutí vykázaly menší celkový rozptyl (Kubíček, 2012).
Pro vyhodnocení rozdílů obou typů vizualizací byly srovnány percepční schopnosti účastníků
v podobě průměrné rychlosti dekódování jedné proměnné (jev, nejistota) a dvou proměnných
(jev+nejistota) a celkové průměrné časy pro oba typy úloh. Výsledky byly poté testovány
pomocí t-testu pro nezávislé proměnné. Ve všech třech případech se ukázaly jako rychlejší
výsledky pro vizualizaci pomocí vnitřních proměnných, tedy kombinace barvy a barevného
odstínu. Osoby testující tento typ vizualizace byly nejenom rychlejší, ale také prokázaly
schopnost se celkově rozhodovat v kratším časovém intervalu (Kubíček, 2012). Rozdíly mezi
metodami však nebyly významné.
V závěrečné praktické úloze měli účastníci testu za úkol označit část komunikace, která bude
nejméně pravděpodobně zasažena lavinou. Jednalo se o složitější úlohu, kde se očekávala
nutnost zapojení vědomého vnímání. Zjišťovány byly jak správnosti odpovědí, tak časy
potřebné k dokončení úlohy. Pro obě úlohy se liší počty správných odpovědí. V případě užití
vnitřních proměnných bylo pouze 14 ze 36 odpovědí správných (39%), zatímco při
vizualizaci pomocí vnějších proměnných bylo správných 30 z 37 možných odpovědí (81%),
tedy více, jak dvakrát tolik (Kubíček, 2012).
Časy správných odpovědí v obou případech vykázaly v testu nevýznamné rozdíly (p=0,0704),
avšak pro vnější proměnnou byly dosažené časy rychlejší, všechny se vešly do rozmezí
4 vteřin.
Poslední sledovaný jev bylo zařazení druhého typu vizualizace, se kterým neměli uživatelé
žádnou zkušenost. V úloze měli za úkol dekódovat dvojici proměnných (jev+nejistota).
Dosažené časy pro správné úlohy byly srovnány s průměrným časem, pro stejný typ úlohy,
který byl dosažen při znalosti dané vizualizace. Vždy byly porovnány průměrné časy pro
stejné typy vizualizace, avšak jednou bez dřívější znalosti a podruhé po zácviku a praktické
zkušenosti. Výsledky byly podle očekávání vždy významně odlišné. V případě, kdy test byl
zaměřen na vnější proměnnou, dosahovali účastníci testu při přechodu na novou vizualizaci
třikrát pomalejšího času. Správně se podařilo odpovědět v 26 případech z 37 (70%). U testu
využívajícího vnitřní proměnnou byli při přechodu na novou vizualizaci uživatelé pouze
dvakrát pomalejší a dosáhli úspěšnosti 81 % (31 správných odpovědí z 36). Uvedené
výsledky podporují názor, že je snazší a intuitivnější se u jednoduchých percepčních úloh
zvyknout na vizualizaci pomocí vnitřní proměnné, konkrétně na kombinaci barva a odstín
(Kubíček, 2012).
12.6.4 Principy testování vizualizace nejistoty
Z výše uvedených empirických studií vyplývá, že v současnosti neexistuje ustálená metodika
pro empirické testování kartografických výstupů obecně a tím méně pro specifickou oblast
vizualizace nejistoty (Kubíček, 2012). Přesto je možné se odkázat na existující návrhy či
obecné metodiky využitelné i v případě vizualizace nejistoty.
Olson (2009 in Kubíček, 2012) se zabývala aspekty testování uživatelů v kartografii
a upozornila na hlavní úskalí, které je nutné brát do úvahy při přípravě, realizaci, hodnocení
a prezentaci takovýchto testů:
přístupnost testovacího prostředí i pro čtenáře a další vědecké pracovníky – bez
možnosti si prohlédnout testovací prostředí je toto zdrojem možných chyb
a nedokonalostí.
dostupnost testovacích materiálů a výsledků – je důležité jak pro posouzení testů
samotných, tak pro případné opakování testů v odlišném kulturním či
socioekonomickém prostředí, hraje také důležitou roli pro opakovatelnost a tím pádem
i potvrditelnost experimentu.
Tvorba dotazníku a struktura otázek představuje klíčový problém při testování uživatelů.
Zatímco psychologové mají k dispozici celou řadu standardizovaných dotazníků či dokonce
testů pro výzkum kognitivních vlastností jedince, kartografové nedisponují ani návodem pro
objektivní kognitivní testování a nezbývá, než hledat inspiraci právě v oblasti psychologie.
Vytváření více variantních metod (kvalitativních i kvantitativních) pro srovnatelnost může
významně napomoci objektivitě výsledků testu (Kubíček, 2012).
Shrnutí:
Hlavními kartografickými metodami vizualizace nejistoty jsou srovnávací mapy,
kombinované mapy a využití interaktivního exploračního nástroje. Pro
kombinované mapy se používají vnitřní grafické proměnné, které mění svoji
hodnotu podle nejistoty, a vnější grafické proměnné, kdy jsou do mapy přidány
další objekty jako šipky, sloupcové grafy apod. Mezi vnitřními se nejvíce uplatňují
změna barvy, velikosti, pozice, ostrosti, jasnosti, „fuzziness“, saturace,
průhlednosti a ostrosti hran (obecněji zaostření). Z vnějších se uplatňují zejména
glyfy. Hodnocení vizualizace je založeno na teorii kognice (percepce). Základní
doporučení zaměřující se na různé fáze rozhodovacího procesu jsou zjednodušení
kognitivních úkolů, zvýraznění či potlačení nejisté informace, vizualizace nejistoty
na úrovni metadat i na úrovni dat, umožnit vybrat vlastní výsledek výpočtu
nejistoty, zjednodušte kognitivní heuristiku, využívejte interakci a zhodnoťte
následky špatně interpretované nejistoty.
Kontrolní otázky: 1) Proč se v GIS produktech zatím neprosazují nástroje vizualizace
neurčitosti?
2) Co to jsou srovnávací mapy?
3) Co jsou kombinované mapy?
4) Popište využití interaktivního exploračního nástroje.
5) Vysvětlete význam sonifikace a psycho-vizuální vizualizace pro neurčitost.
6) Vysvětlete vnitřní a vnější grafické proměnné pro vizualizaci neurčitosti.
7) Vyjmenujte nejdůležitější vizuální grafické proměnné pro vizualizaci
neurčitosti.
8) Jak lze realizovat zaostření?
9) Které z vnitřních proměnných se nejvíce doporučují?
10) Jaké jsou zkušenosti s vybělením?
11) Jak se realizuje metoda glyfů?
12) Seřaďte podle klesající jistoty určení geologické hranice vykreslené jako
čárkovaná, plná a tečkovaná čára.
13) Jaké nové vizuální proměnné vznikly s příchodem digitálního prostředí?
14) Proč se má podpořit zjednodušení kognitivních úkolů?
15) Proč je důležité hodnotit následky špatně interpretované nejistoty?
16) Uveďte příklad zobrazení a možného testování polohové nejistoty linie.
Seznam literatury
Adamčík J. (2009): Sofe2 wiki. On-line:
http://sofe2.pepiino.cz/wiki/doku.php?id=fuzzy_logika. Citováno dne 15.6.2014.
Aronoff, S. (1989): Geographic Information Systems: A Management Perspective, Ottawa,
WDL Publicatios, 1989.
Bernhardsen, T. (1993): Geographic Information Systems (translated into English from the
„En larebok i Geografiske Informasjonssystemer“), DTU Lyngby 1993.
Brus, J. (2013): Vizualizace nejistoty v environmentálních studiích. Disertační práce. UP
Olomouc.
Caers J. (2011): Modeling uncertainty in the Earth Sciences. Wiley-Blackwell. 2011. ISBN
978-1-119-99263-9
Caha, J. (2011): Neurčitost v prostorových operacích. Studie. UP Olomouc.
Caha, J. (2014): Uncertainty Propagation in Fuzzy Surface Analysis. PhD thesis, Palacky
University in Olomouc, 2014.
Caha J. (2018). Přednáška.
Caha, J., Marek, L., Dvorský, J. (2015): Predicting PM10 Concentrations Using Fuzzy
Kriging. In: Onieva, E., Santos, I., Osaba, E., Quintian, H., Corchado, E. (Eds.), Hybrid
Artificial Intelligent Systems SE - 31, s. 371–381. Springer International Publishing, 2015
Comber A., Wadsworth R., Fisher P. (2006): Reasoning Methos for Handling Uncertain
Information in Land Cover Mapping. In Devillers R., Jeansoulin (eds): Fundamentals of
Spatial Data Quality. ISTE, 2006.
Čepička D., Apfelböck H., Kroschel A., LÖ Ch. (2005): Zmatená hlášení Windows.
PCWorld, 1.2.2005. Citováno 18.6. 2014. On-line http://pcworld.cz/software/zmatena-
hlaseni-windows-12164
Dragicevič, S.: Multi-Dimensional Interpolations with Fuzzy Sets. In: Petry, F., Robinson, V.
B., Cobb, M. A. (Eds.), Fuzzy modeling with spatial information for geographic problems,
s. 143–. Berlin : Springer, 2005.
Dudek I. (1999): Poznání a neurčitost základní racionální přístupy a praktické metody. E-
LOGOS. ELECTRONIC JOURNAL FOR PHILOSOPHY/99. ISSN 1211-0442
Ďuračiová R., Lieskovský T., Stopková E., Kročková K. (2013): The benefit of fuzzy logic to
protection of cultural andhistorical heritage. In proceedings of GIS Ostrava 2013 -
Geoinformatics for City Transformation. Ostrava, VŠB-TUO, 2013. 12 stran.
Eastmann J.R. (2001): Idrisi 32. Release 2. Guide to GIS and Image Processing. Volume 2.
2001. Worcester: Clark Labs. p.151.
Eastman, J.R., Kyem, P.A.K., Toledano, J. and Jin, W., (1993). GIS and Decision Making,
Explorations in Geographic Information System Technology, 4, UNITAR, Geneva.
Fisher P., Comber A., Wadsworth R.: Approaches to Uncertainty in Spatial Data (2006). In
Devillers R., Jeansoulin R. (Eds) „Fundamentals of spatial data quality“, 2006, London:
ISTE.
Fonte, C. C., Lodwick, W. A.: Modelling the Fuzzy Spatial Extent of Geographical Entities.
In: Petry, F., Robinson, V. B., Cobb, M. A. (Eds.), Fuzzy modeling with spatial
information for geographic problems, s. 120–142. Berlin : Springer, 2005. ISBN
3540237135.
Harding J. (2006): Vector Data Quality: A Data Provider’s Perspective. In Devillers R.,
Jeansoulin (eds): Fundamentals of Spatial Data Quality. ISTE, 2006.
Hendl J. (2006): Přehled statistických metod zpracování dat: analýza a metaanalýza dat.
Portál, 2006. 583 s. 80-7367-123-9
Horák, J. (2013b): Zpracování dat v GIS. Skripta VŠB-TU Ostrava, Ostrava, 2013.
Horák, J. (2013a): Prostorová analýza dat. Skripta VŠB-TU Ostrava, Ostrava, 2013.
Horáková B.; Horák J.; Růžička J.; Duchoslav T. (2003): MIDAS - katalog geodat veřejné
správy do praxe. Učební text. Ostrava: VŠB-TU, 2003.
Hwang, S., Thill, J.-C. (2005): Modeling Localities with Fuzzy Sets and GIS. In: Petry, F.,
Robinson, V. B., Cobb, M. A. (Eds.), Fuzzy modeling with spatial information for
geographic problems, s. 73–104. Berlin: Springer, 2005.
Inspektor T. (2011): Metody agregace a adjustace geodat pro sledování prostorové segregace
na příkladu Ostravy (2011)
Krivoruchko K., Crawford C.A.G.: Assesing the Uncertainity Resulting from Geoprocessing
Operations (2005). In Maguire, DJ, Batty M, Goodchild MF: GIS, Spatial Analysis and
Modeling. ESRI 2005. s. 68-92 (i dále až 129)
Kubíček P. (2012): Vybrané aspekty vizualizace nejistoty geografických dat. Habilitační
práce. Univerzita obrany Brno.
Lampart M., Horák J., Ivan I. (2013). Úvod do dynamických systémů: teorie a praxe v
geoinformatice. VŠB-TU Ostrava. 200 s. ISBN 978-80-248-3185-5.
Longley, P.A., Goodchild M.F., Maguire D.J., Rhind D.W. (2005): Geographical Information
Systems and Science. Wiley, 2005 (kap. 6 Uncertainty, 127-153 s.)
Maguire, DJ, Batty M, Goodchild MF (2005): GIS, Spatial Analysis and Modeling. ESRI
2005.
Morris, A., Jankowski, P.: Spatial Decision Making Using Fuzzy GIS. In: Petry, F.,
ROBINSON, V. B., COBB, M. A. (Eds.), Fuzzy modeling with spatial information for
geographic problems, s. 275–298. 2005. ISBN 3540237135.
Murgante B., Borruso G., Lapucci A. (2009): Geocomputation & Urban Planning, SCI 176,
(Geocomputation and Urban Planning.pdf)
Novák V. (1989): Fuzzy množiny a jejich aplikace. SNTL. ISBN 80-03-00325-3.
Novák, V. (2000): Základy fuzzy modelování. BEN – technická literatura, Praha, 2000. 176
str.
Paclíková, L. (2012): Evaluace výsledků vybraných prostorových analýz při využití fuzzy
teorie množin a fuzzy logiky. Bakalářská práce, Univerzita Palackého v Olomouci, 2012.
Rapant, P. (2006): Geoinformační technologie. Ostrava.
Rapant, P. (2002): Úvod do GIS. Skripta PGS. Ostrava.
Tomlin, C. D. (1990): Geographic Information Systems and Cartographic Modelling, Prentice
Hall 1990.
Servigne S., LeSage N., Libourel T. (2006): Approaches to Uncertainty in Spatial Data. In
Devillers R., Jeansoulin (eds): Fundamentals of Spatial Data Quality. ISTE, 2006.
Shi W. (2010): Principles of modeling Uncertainties in Spatial Data and Spatial Analysis.
CRC press. 2010.
Schovánek P., Havránek V. (2012): Chyby a nejistoty měření
http://fyzika.upol.cz/cs/system/files/download/vujtek/texty/pext2-nejistoty.pdf
Swoboda H. (1997): Moderní statistika. Praha: Svoboda.
Škrabánek P. (2014): Teorie fuzzy množin a její aplikace. VUT Brno, 2014.
https://www.researchgate.net/profile/Pavel_Skrabanek/publication/309010508_Teorie_fuz
zy_mnozin_a_jeji_aplikace/links/57fdcca508ae49db47554278/Teorie-fuzzy-mnozin-a-jeji-
aplikace.pdf
Worboys M., Duckham M. (2004): Geographic Information Systems: A Computing
Perspective (2nd Edition), CRC Press, Boca Raton, Florida, 2004. ISBN: 0415283752.
Příloha 1 Kvalita dat a její míry podle norem ISO Cíle standardizace je zajistit interoperabilitu, sdílení a využitelnost dat a služeb. Základní
nástrojem standardizace jsou technické normy, případně jiné standardizační dokumenty.
Bohužel současné české překlady norem řady ISO 191xx neumožňují bezprostřední použití a
uživatel musí nahlížet i do anglických originálů těchto norem a výklad adekvátně přizpůsobit.
ISO 19104 obsahuje definici základní termínů v oblasti geografické informace, tedy i prvků
neurčitosti a kvality dat.
ISO 19113 stanoví zásady pro popis kvality geografických dat a specifikuje komponenty pro
vykazování informace o kvalitě.
ISO 19114 obsahuje postupy pro vyhodnocení kvality geografických dat.
ISO 19138 obsahuje specifikaci doporučených měr kvality dat pro vykazování kvality dat.
Kvalita dat vyžaduje, aby byla vykazována producentem a vyhodnocována uživatelem ve
srovnání s jeho požadavky vůči různým kritériím a mírám kvality dat. Výsledky výkazů
kvality musí být vyjádřeny porovnatelným způsobem a je potřebné, aby existovalo společné
chápání měr kvality dat, které byly použity. Je nutné, aby kvalita vykázaná pro datovou sadu
obsahovala míry kvality, které mohou být pro potenciálního uživatele této sady dat zajímavé,
a aby metrika použitá k určení kvality byla vykázána a byla uživateli k dispozici (ISO 19138).
2. Termíny použité v normách řady ISO 191xx
správnost (correctness) (ISO 19138)
soulad s univerzem diskurzu
základní míra kvality dat (data quality basic measure) (ISO 19138)
generická míra kvality dat použitá jako základ pro vytváření konkrétních měr kvality dat
POZNÁMKA Základní míry kvality dat jsou abstraktní datové typy. Nemohou být použity
přímo při vykazování kvality dat.
rozsah kvality dat (data quality scope) (ISO 19113)
rozsah nebo charakteristika (charakteristiky) dat, pro které se vykazuje informace o kvalitě
POZNÁMKA Rozsah kvality dat pro sadu dat může zahrnovat řadu datových sad, k níž daná datová sada
přináleží, vlastní sadu dat nebo menší uskupení dat fyzicky umístěných v sadě dat, kde sdílejí společné
charakteristiky. Společnými charakteristikami mohou být identifikovaný typ vzhledu, atribut vzhledu nebo vztah
vzhledů; kritéria sběru dat; původní zdroj; nebo specifikovaný geografický či časový rozsah.
chyba (error) (ISO 19138)
rozpor s univerzem diskurzu
3. Prvky kvality podle ISO 19113
Následující tabulka byla upravena, protože některé české překlady a výklad jsou
nekonzistentní nebo neodpovídají významu a bylo potřebné doplnit další vysvětlení.
Tabulka P1 Prvky kvality dat a podprvky kvality dat s definicemi (upraveno z ISO 19113)
Prvek kvality dat Podprvek kvality dat Definice dle ISO 19113 Výklad
úplnost (completeness) přidání (commission) excess data present in a dataset nadbytečná data v datové
sadě (chyby II.druhu)
vynechání (omission) data absent from a dataset chybějící data v datové sadě
(chyby I.druhu)
logická konzistence
(bezespornost) (logical
consistency)
konceptuální konzistence
(conceptual consistency)
adherence to rules of the
conceptual schema
dodržení pravidel
konceptuálního schématu
doménová konzistence
(domain consistency)
adherence of values to the value
domains
dodržení příslušnosti hodnot
do domén hodnot
formátová konzistence
(format consistency)
degree to which data is stored in
accordance with the physical
structure of the dataset
dodržení souladu formátu
uložené sady dat
s požadovanou strukturou
sady dat
topologická konzistence
(topological consistency)
correctness of the explicitly
encoded topological
characteristics of a dataset
dodržení explicitně
evidovaných topologických
charakteristik datové sady
polohová přesnost
(positional accuracy)
absolutní nebo vnější
přesnost (absolute or
external accuracy)
closeness of reported coordinate
values to values accepted as or
being true
míra shody vykazovaných
hodnot souřadnic ke
skutečným hodnotám
relativní nebo vnitřní
přesnost (relative or
internal accuracy)
closeness of the relative positions
of features in a dataset to their
respective relative positions
accepted as or being true
míra shody relativních poloh
geoprvků v sadě dat k jejich
příslušným relativním
skutečným polohám
polohová přesnost
rastrových dat (gridded
data position accuracy)
closeness of gridded data
position values to values
accepted as or being true
míra shody hodnot polohy
(buněk) rastrových dat
ke skutečným hodnotám
časová přesnost (temporal
accuracy)
přesnost měření času
(accuracy of a time
measurement)
correctness of the temporal
references of an item (reporting
of error in time measurement)
míra shody časového údaje se
skutečností
časová konzistence
(temporal consistency)
correctness of ordered events or
sequences, if reported dodržení pořadí
uspořádaných událostí nebo
posloupností, pokud se
pořadí vykazuje
časová platnost (temporal
validity)
validity of data with respect to
time
platnost dat s ohledem na čas
tematická přesnost
(thematic accuracy)
správnost klasifikace
(classification correctness)
comparison of the classes
assigned to features or their
attributes to a universe of
discourse (e.g. ground truth or
reference dataset)
porovnání tříd, použitých ke
klasifikaci geoprvků nebo
jejich atributů, s univerzem
diskurzu (např. s referenční
sadou dat)
správnost nekvantitativních
atributů (non-quantitative
attribute correctness)
correctness of non-quantitative
attribute
správnost nekvantitativních
atributů
přesnost kvantitativních
atributů (quantitative
attribute accuracy)
accuracy of quantitative
attributes
míra shody kvantitativních
atributů ke skutečným
hodnotám
V tabulce se používá termín „skutečné“ hodnoty (či polohy), což jsou hodnoty, které jsou
poklá-dány za skutečné nebo jsou skutečné. Pravou hodnotu údaje zpravidla neznáme, za
skutečnou hodnotu je pak považováno nejlepší možné zjištění.
Není jasný rozdíl mezi správností klasifikace a správností nekvantitativních atributů.
4. Struktura měr kvality dat podle ISO 19113
Pro specifikaci měr kvality je použita následující tabulka.
Tabulka P2 Komponenty definující míru kvality dat (ISO 19138)
Řádek Komponenta Popis Povinnost/podmínka
1 Jméno (Name) Jméno míry kvality dat aplikované na data M
2 Přezdívka (Alias) a Jiné oficiálně přijaté jméno, zkratka nebo krátké
jméno pro tutéž míru kvality dat
O
3 Prvek kvality dat (Data
quality element)
Jméno prvku kvality dat, pro nějž se vykazuje kvalita M
4 Podprvek kvality dat (Data
quality subelement)
Jméno podprvku kvality dat, pro nějž se vykazuje
kvalita
M
5 Základní míra kvality dat
(Data quality basic measure)
Jméno základní míry kvality dat, z níž je odvozena
míra kvality dat
C/pokud je odvozena ze základní
míry
6 Definice (Definition) Definice základního pojmu pro míru kvality dat M
7 Popis (Description) Popis míry kvality dat včetně všech vzorců a/nebo
ilustrací potřebných pro zjištění výsledku aplikování
míry
C/pokud není definice postačující
pro pochopení pojmu míry kvality
dat
8 Parametr (Parameter) a Pomocná proměnná použitá mírou kvality dat včetně
jejího jména, definice a volitelně jejího popisu
C/pokud je zapotřebí
9 Typ hodnoty kvality dat
(Data quality value type) a
Typ hodnoty pro vykázání výsledku kvality dat M
10 Struktura hodnot kvality dat
(Data quality value
structure)
Struktura pro vykázání složitého výsledku kvality dat O
11 Odkaz na zdroj (Source
reference) a
Odkaz na zdroj položky, která byla převzata z
externího zdroje
C/pokud nějaký externí zdroj
existuje
12 Příklad (Example) a Ukázka použití míry kvality dat O
13 Identifikátor (Identifier) Celé číslo jednoznačně identifikující míru kvality dat C/pokud jsou míry kvality dat
spravovány v nějakém registru
a Připouští se více záznamů. Kdykoliv se hodnoty pro volitelné a podmíněné prvky nevyskytují, mělo by to být indikováno přiřazením znaku "—" k příslušné komponentě.
Obrázek P1 Specifikace míry kvality dat (ISO 19138)
5. Základní míry kvality dat související s neurčitostí podle ISO 19113
Statistické metody používané pro definování měr kvality dat souvisejících s neurčitostí jsou
založeny na jistých předpokladech:
neurčitosti jsou pro všechny pozorované hodnoty homogenní;
pozorované hodnoty nejsou korelované;
pozorované hodnoty mají normální rozdělení.
Jednorozměrná náhodná proměnná Z(one-dimensional random variable)
Pro spojitou měřenou veličinu (tj. doménou hodnot měřených veličin jsou reálná čísla) je
nemožné udat pravděpodobnost jednotlivé hodnoty, která má být skutečnou hodnotou. Je ale
možné udat pravděpodobnost pro skutečnou hodnotu, že je v určitém intervalu. Tento interval
se nazývá intervalem spolehlivosti. Je dán pravděpodobností P, že se skutečná hodnota
nachází mezi dolní a horní mezí.
P(dolní mez ≤ skutečná hodnota ≤ horní mez) = P
Jestliže je známa směrodatná odchylka , jsou meze dány kvantily u normálního rozdělení
t tP z u z u skutečná hodnota P .
Pokud je směrodatná odchylka známa a priori, použije se následující tabulka, pokud je
směrodatná odchylka odhadována z nadbytečných pozorování, může být interval spolehlivosti
odvozen ze Studentova rozdělení t (viz další tabulka).
Tabulka P3 Vztah základních měr kvality dat ke kvantilům normálního rozdělení a pravděpodobnosti (podle ISO
19138)
Pravděpodobnost
P Kvantil
Základní míra
kvality dat
Zkratka (označení)
základní míry kvality
P = 68,3 % , %68 3u = 1 , %68 3 Zu LE68.3
P = 50 % %50u = 0,6745 %50 Zu LE50
P = 90 % %90u = 1,645 %90 Zu LE90
P = 95 % %95u = 1,960 %95 Zu LE95
P = 99 % %99u = 2,576 %99 Zu LE99
P = 99,8 % , %99 8u = 3 , %99 8 Zu LE99.8
Jestliže směrodatná odchylka není známa, ale jednorozměrná náhodná proměnná je
změřena nadbytečně nezávislými pozorováními, je možné odhadnout směrodatnou
odchylku z pozorování.
miz reprezentuje ité měření hodnoty. Jestliže je známa skutečná hodnota zt pro , lze
odhadnout směrodatnou odchylku podle vztahu
( )2
1
1N
Z mi t
i
s z zr
s nadbytečností r, která je počtem pozorování r = N. Jestliže skutečná hodnota není známa,
může být odhadnuta jako aritmetický průměr pozorování 1
N
t mi
i
z z
.
Směrodatná odchylka pak může být odhadnuta s použitím téhož vzorce pro r = N 1.
Interval spolehlivosti je odvozen ze Studentova rozdělení t s parametrem r (r je počet
nadbytečných měření):
z t zP t s Z z t s P s ( ) / ~ ( )t zZ z s t r
Tabulka P4 Vztah mezi kvantily Studentova rozdělení t a pravděpodobnosti pro různých počet nadbytečných hodnot
(r) (podle ISO 19138)
Pravděpodobnost P Kvantil
pro r = 10
Kvantil
pro r = 5
Kvantil
pro r = 4
Kvantil
pro r = 3
Kvantil
pro r = 2
Kvantil
pro r = 1
P = 50 % t = 1,221 t = 1,301 t = 1,344 t = 1,423 t = 1,604 t = 2,414
P = 68,3 % t = 1,524 t = 1,657 t = 1,731 t = 1,868 t = 2,203 t = 3,933
P = 90 % t = 2,228 t = 2,571 t = 2,776 t = 3,182 t = 4,303 t = 12,706
P = 95 % t = 2,634 t = 3,163 t = 3,495 t = 4,177 t = 6,205 t = 25,452
P = 99 % t = 3,581 t = 4,773 t = 5,598 t = 7,453 t = 14,089 t = 127,321
P = 99,8 % t = 4,587 t = 6,869 t = 8,610 t = 12,924 t = 31,599 t = 636,619
Tabulka P5 Vztah základních měr kvality dat ke kvantilům Studentova rozdělení a pravděpodobnosti (podle ISO
19138)
Pravděpodobnost P Základní míra kvality dat Zkratka (označení) základní míry
kvality
P = 50,0 % %( )50 Zt r s LE50(r)
P = 68,3 % , %( )68 3 Zt r s LE68.3(r)
P = 90,0 % %( )90 Zt r s LE90(r)
P = 95,0 % %( )95 Zt r s LE95(r)
P = 99,0 % %( )99 Zt r s LE99(r)
P = 99,8 % , %( )99 8 Zt r s LE99.8(r)
POZNÁMKA Hodnoty t pro počet nadbytečných hodnot r lze získat z předchozí tabulky.
Dvojrozměrná náhodná proměnná X a Y (two-dimensional random variable)
Případ jednorozměrné náhodné proměnné Z lze rozšířit na dva rozměry, kde je měřená
veličina vždy pozorována dvěma hodnotami. Měřená veličina je dána dvojicí X a Y. Platí zde
stejné předpoklady jako v případě jednorozměrné náhodné proměnné.
Pozorování jsou xmi a ymi. Ekvivalence intervalů spolehlivosti ze všech rozměrů do jednoho
dává oblast spolehlivosti, která se obvykle popisuje jako kruh kolem nejlepšího odhadu pro
skutečnou hodnotu. Pravděpodobnost pro skutečnou hodnotu, že leží v této oblasti, se vypočte
plošnou integrací přes dvojrozměrnou hustotu pravděpodobnosti normálního rozdělení.
Kruhová oblast je charakterizována svým poloměrem. Tento poloměr R se používá jako míra
pro přesnost dvojrozměrných náhodných proměnných:
( ) ( )
( ) ( )
( , , )
2 212 2 2
2 2 2
1e d d
2
t t
X Y
t t
x x y y
X YX Y
x x y y R
P R x y
Pro některé konkrétní pravděpodobnosti může být tento poloměr vypočten v závislosti na
směrodatných odchylkách x a y.
Tabulka P6 Vztah mezi pravděpodobností P a odpovídajícím poloměrem kruhové oblasti
Pravděpodobnost P Základní míra kvality dat Zkratka (označení) základní míry kvality
P = 39,4 % 2 21
2x y CE39.4
P = 50 % , 2 211774
2x y CE50
P = 90 % , 2 22 146
2x y CE90
P = 95 % , 2 22 4477
2x y CE95
P = 99,8 % , 2 23 5
2x y CE99.8
Trojrozměrná náhodná proměnná X, Y, Z(three-dimensional random variable)
Případ jednorozměrné náhodné proměnné Z lze rozšířit na tři rozměry, kde je měřená veličina
vždy pozorována třemi hodnotami. Měřená veličina je dána trojicí X, Y, Z. Platí zde stejné
předpoklady jako v případě jednorozměrné náhodné proměnné.
Pozorování jsou xmi, ymi a zmi. Ekvivalence intervalů spolehlivosti ze všech rozměrů do
jednoho dává objem spolehlivosti, který se obvykle popisuje jako koule kolem nejlepšího
odhadu pro skutečnou hodnotu. Pravděpodobnost pro skutečnou hodnotu, že leží v tomto
objemu, se vypočte objemovou integrací přes trojrozměrnou hustotu pravděpodobnosti
normálního rozdělení. Objem koule je charakterizován jejím poloměrem. Poloměr koule se
používá jako míra pro přesnost trojrozměrných náhodných proměnných (uvedené míry se
označují jako radiální).
Tabulka P7 Vztah mezi pravděpodobností P a odpovídajícím poloměrem kulového objemu
Pravděpodobnost P Základní míra
kvality dat Jméno podle ČSN ISO Opravené jméno
P = 50 % ,0 51 x y z pravděpodobnost kulové
chyby (SEP)
Pravděpodobná trojrozměrná
chyba pro pravděpodobnost 50%
(SEP)
P = 61 % 2 2 2x y z
střední radiální kulová
chyba (MRSE)
střední radiální trojrozměrná
chyba (MRSE)
P = 90 % ,0 833 x y z norma 90% kulové
přesnosti
Pravděpodobná trojrozměrná
chyba pro pravděpodobnost 90%
P = 99 % ,1122 x y z norma 99% kulové
přesnosti
Pravděpodobná trojrozměrná
chyba pro pravděpodobnost 99%
6. Přehled jednotlivých měr kvality dat dle ISO 19138
6.1 úplnost (completeness)
6.1.1 Přidání (Commission)
Míra kvality: nadbytečná položka (Excess item)
Vysvětlení: indikace, že je položka v datech uvedena nesprávně.
Výsledkem je seznam položek, které jsou v datové sadě uvedeny nadbytečně (chyba II.druhu,
chyba beta).
Míra kvality: počet nadbytečných položek (Number of excess items)
Vysvětlení: počet položek v datové sadě, které by v datové sadě neměly být.
Míra kvality: podíl nadbytečných položek (Rate of excess items)
Vysvětlení: poměr počtu nadbytečných položek v datové sadě ku počtu položek, které by v
datové sadě měly být.
Míra kvality: Počet zdvojených instancí geoprvků (Number of duplicate feature
instances)
Vysvětlení: počet geoprvků, které mají vícenásobný záznam v datové sadě (s identickou
polohou, identickými atributy)
6.1.2 Vynechání (Omission)
Míra kvality: chybějící položka (Missing item)
Vysvětlení: indikátor, který ukazuje, že konkrétní položka v datech chybí.
Výsledkem je seznam položek, které v datové sadě chybí (chyba I.druhu, chyba alfa)
Míra kvality: Počet chybějících položek (Number of missing items)
Vysvětlení: počet všech položek, které by měly být v datové sadě a chybějí.
Míra kvality: podíl chybějících položek (Rate of missing items)
Vysvětlení: poměr počtu chybějících položek v datové sadě ku počtu položek, které by v
datové sadě měly být.
6.2 Logická konzistence (Logical consistency)
6.2.1 Konceptuální konzistence (Conceptual consistency)
Příkladem porušení konceptuální konzistence je např. umístění geoprvků porušující
definovanou toleranci, vícenásobný výskyt geoprvků a neplatný překryt geoprvků.
Příklady (ISO 19138):
Příklad 1: Věže s identickými atributy a v rámci vyhledávací tolerance (vyhledávací
tolerance = 10 m)
Příklad 2: Most má přiřazenu neplatnou kategorii Doprava. Použít kategorii Dráha.
Příklad 3: Neplatné umístění Letiště dovnitř Jezera
Příklad 4: Neplatný překryt geoprvku Jezero s liniovým geoprvkem Dráha
Vysvětlivky
1 Most
2 Dráha
3 Jezero
4 Letiště
Míra kvality: nesouhlas s konceptuálním schématem (Conceptual schema
noncompliance)
Vysvětlení: indikace, že položka nesouhlasí s pravidly příslušného konceptuálního schématu.
Výsledkem je seznam případů porušení konzistence konceptuálního schématu.
Míra kvality: počet neplatných překrytů ploch (Number of invalid overlaps of surfaces)
Vysvětlení: celkový počet chybných překrytí v datové sadě.
Příklad: Výsledkem překrytí je 1 chybná oblast překrytí. Daná míra kvality bude mít hodnotu
1.
Vysvětlivky
1 Plocha 1
2 Plocha 2
3 Oblast překrytí
Míra kvality: podíl nesouhlasů s ohledem na pravidla konceptuálního schématu
(Noncompliance rate with respect to the rules of the conceptual schema)
Vysvětlení: poměr počtu položek v datové sadě, které nesouhlasí s pravidly konceptuálního
schématu, k počtu očekávaných položek (položek, o nichž se předpokládá, že v datové sadě
mají být)
Míra kvality: podíl souhlasů s ohledem na pravidla konceptuálního schématu
(Compliance rate with the rules of the conceptual schema)
Vysvětlení: poměr počtu položek v datové sadě, které souhlasí s pravidly konceptuálního
schématu, k počtu očekávaných položek (položek, o nichž se předpokládá, že v datové sadě
mají být)
6.2.2 Doménová konzistence (Domain consistency)
Míry kvantifikují případy porušení doménové integrity (viz databázová integritní omezení).
Míra kvality: neshoda s doménou hodnot (Value domain nonconformance)
Vysvětlení: indikace toho, jestli položka není ve shodě se svou doménou hodnot.
Výsledkem je seznam položek, které mají chybnou doménu hodnot.
Míra kvality: shoda s doménou hodnot (Value domain conformance)
Vysvětlení: indikace toho, že položka je ve shodě se svou doménou hodnot.
Výsledkem je seznam položek, které mají správnou doménu hodnot.
Míra kvality: Počet položek v neshodě se svou doménou hodnot (Number of items not in
conformance with their value domain)
Vysvětlení: počet všech položek v datové sadě, které nejsou ve shodě se svou doménou
hodnot.
Míra kvality: podíl shody s doménou hodnot (Value domain conformance rate)
Vysvětlení: poměr počtu položek v datové sadě, které jsou ve shodě se svou doménou hodnot,
k celkovému počtu položek v datové sadě
Míra kvality: podíl neshody s doménou hodnot (Value domain nonconformance rate)
Vysvětlení: poměr počtu položek v datové sadě, které nejsou ve shodě se svou doménou
hodnot, k celkovému počtu položek v datové sadě
6.2.3 Formátová konzistence (Format consistency)
Míra kvality: Počet neshod fyzické struktury (Physical structure conflicts)
Označení dle ČSN ISO: rozpory fyzické struktury
Vysvětlení: počet všech položek v datové sadě, které jsou uchovávány v rozporu s
požadovanou fyzickou strukturou datové sady
Míra kvality: Podíl neshod fyzické struktury (Physical structure conflict rate)
Označení dle ČSN ISO: podíl rozporů fyzické struktury
Vysvětlení: poměr počtu položek v datové sadě, které jsou uchovávány v rozporu s
požadovanou fyzickou strukturou datové sady, k celkovému počtu položek.
6.2.4 Topologická konzistence (Topological consistency)
Míra kvality: Počet chybných spojení bod-křivka (Number of faulty point-curve
connections)
Vysvětlení: počet chybných spojení bod-křivka v datové sadě
Příklad: Existují dvě spojení bod-křivka tam, kde by se mělo vyskytovat pouze jedno.
Křižovatka dvou ulic by měla být v průsečíku 1.
Míra kvality: Podíl chybných spojení bod-křivka (Rate of faulty point-curve
connections)
Vysvětlení: poměr počtu chybných spojení bod-křivka v datové sadě k počtu předpokláda-
ných spojení bod-křivka
Míra kvality: Počet chybějících spojení v důsledku nedotahů (Number of missing
connections due to undershoots)
Vysvětlení: počet položek v datové sadě, které nejsou v důsledku nedotahů vůči toleranci
parametru správně spojeny
Příklad: Silnice je ukončena před druhou silnicí dále než požadovaná tolerance 3 m (kruh 1),
konec není ukotven. Do míry se připočte hodnota 1.
Míra kvality: Počet chybějících spojení v důsledku přetahů (Number of missing
connections due to overshoots)
Vysvětlení: počet položek v datové sadě, které nejsou v důsledku přetahů vůči toleranci
parametru správně spojeny.
Příklad: Silnice je ukončena za druhou silnicí dále než požadovaná tolerance 3 m (kruh 1),
konec není ukotven.
Do míry se připočte hodnota 1.
Míra kvality: Počet neplatných fiktivních areálů (Number of invalid slivers)
Vysvětlení: počet všech položek v datové sadě, které jsou neplatnými fiktivními areály
Fiktivní areál je neúmyslně vzniklý areál, který se objeví v místech nedodržení horizontální
topologické konzistence (horizontální konflace), např. v důsledků nenávaznosti hranic
polygonů při digitalizaci. Hranice sousedních polygonů pak vytvářejí mezery nebo překryty
malých rozsahů, které jsou charakteristické relativně malou plochu vůči obvodu (tzv. třísky),
proto se pro jejich detekci používají vhodné tvarové koeficienty.
K určení neplatných fiktivních ploch dle ISO 19138 se používají 2 ukazatelé (parametry):
maximální velikost plochy fiktivního areálu
koeficient tloušťky (thickness ratio)
Koeficient tloušťky musí být reálné číslo mezi 0 a 1. Tento koeficient je určen následujícím
vzorcem:
T je koeficient tloušťky
T = 4 [plocha]/[obvod]2
Tento výpočet je shodný s běžně uváděným koeficientem tenkosti (thinness ratio). Ještě lepší
je však jeho vyjádření pomocí zakulacenosti, která má sice mírně jiný vztah, ale prakticky
vede ke stejným výsledkům a má logičtější pojmenování.
T = 1 hodnota odpovídá kruhu, který má největší hodnotu poměru plocha/obvod2.
T = 0 hodnota odpovídá linii, která má nejmenší hodnotu poměru plocha/obvod2.
Koeficient tenkosti tloušťky je nezávislý na velikosti plochy, a čím je hodnota blíže 0, tím
jsou fiktivní areály tenčí.
Maximální plocha určuje horní hranici velikosti fiktivního areálu. Tím se zajistí, aby nebyly
areály s křivolakými obvody a velkými plochami mylně považovány za fiktivní areály (viz
následující obrázky).
Obrázek P2 Řeka je zčásti reprezentována linií (1) a ve střední části polygonem (2). Polygon není vyhodnocen jako
fiktivní areál, protože má plochu větší než stanovený limit.
Obrázek P3 Vedle řeky reprezentované polygonem (3) je digitalizován polygon břehového písku (1) a mezi nimi vznikl
fiktivní areál (2), správně indikovaný protože má odpovídající koeficient tloušťky a malou (podlimitní) plochu.
Míra kvality: Počet chyb neplatných sebeprůseků (Number of invalid self-intersect
errors)
Vysvětlení: počet všech položek v datech, které nepřípustně protínají samy sebe
Obrázek P4 Stavba (1) a nepřípustný průsek (2) (ISO 19138)
Míra kvality: Počet chyb neplatných sebepřekrytů (Number of invalid self-overlap
errors)
Vysvětlení: počet všech položek v datech, které nepřípustně překrývají samy sebe
Obrázek P5 Přehozené pořadí lomových bodů 2 a 3 způsobuje nepřípustný překryt části linie, což je naznačeno
šipkami nad linií.
6.3 Polohová přesnost (Positional accuracy)
6.3.1 Absolutní nebo vnější přesnost (Absolute or external accuracy)
Míra kvality: průměrná chyba polohy (Mean value of positional uncertainties)
Míra kvality dle ČSN ISO: střední hodnota polohových neurčitostí
Vysvětlení: aritmetický průměr vzdáleností mezi měřenými polohami bodů a těmi, které jsou
považovány za odpovídající skutečné polohy
Pro počet bodů (N), jsou dány měřené polohy jako souřadnice xmi, ymi a zmi v závislosti na
rozměru, v němž se poloha bodu měří. Přiřazená množina souřadnic, xti, yti a zti, je pokládána
za reprezentaci skutečných poloh.
Chyby se vypočtou takto:
1D: i mi tie x x
2D: ( ) ( )2 2
i mi ti mi tie x x y y
3D: ( ) ( ) ( )2 2 2
i mi ti mi ti mi tie x x y y z z
Průměrná chyba absolutních nebo vnějších poloh se pak vypočte:
ē = 1
1N
i
i
eN
Mělo by také být stanoveno kritérium pro určení správné korespondující skutečné polohy
(např. korespondence s nejblíže se nacházející polohou, korespondence ve vrcholech podél
linií). Kritérium/kritéria pro nalezení přiřazovaných bodů musí být vykázána s výsledkem
vyhodnocení kvality dat.
Míra kvality: průměrná chyba polohy s vyloučením odlehlých hodnot (Mean value of
positional uncertainties excluding outliers)
Míra kvality dle ČSN ISO: střední hodnota polohových neurčitostí s vyloučením odlehlých
hodnot
Vysvětlení: aritmetický průměr vzdáleností mezi měřenými polohami bodů a těmi, které jsou
považovány za odpovídající skutečné polohy, s vyloučením těch vzdáleností, které překračují
definovaný práh
Míra kvality se vypočte obdobně jako u předchozí míry, pouze s uplatněním kritéria:
i ii
i
e e ee
e e
max
max
, jestliže
0, jestliže
kde emax je práh pro přijetí polohové chyby.
Mělo by také být stanoveno kritérium pro určení správné korespondující skutečné polohy
(např. korespondence s nejblíže se nacházející polohou, korespondence ve vrcholech podél
linií). Kritérium/kritéria pro nalezení přiřazovaných bodů musí být vykázána s výsledkem
vyhodnocení kvality dat.
Míra kvality: počet chyb polohy překračujících daný práh (Number of positional
uncertainties above a given threshold)
Míra kvality dle ČSN ISO: počet polohových neurčitostí překračujících daný práh
Vysvětlení: Chyby jsou definovány jako vzdálenost mezi měřenou polohou a tou, která je
pokládána za odpovídající skutečnou polohu. Sleduje se počet chyb, které překročili zvolený
práh emax.
Mělo by také být stanoveno kritérium pro určení správné korespondující skutečné polohy
(např. korespondence s nejblíže se nacházející polohou, korespondence ve vrcholech podél
linií). Kritérium/kritéria pro nalezení přiřazovaných bodů musí být vykázána s výsledkem
vyhodnocení kvality dat.
Míra kvality: podíl chyb polohy překračujících daný práh (Rate of positional errors
above a given threshold)
Míra kvality dle ČSN ISO: podíl polohových neurčitostí překračujících daný práh
Vysvětlení: Poměr počtu chyb, které překročili zvolený práh emax, k celkovému počtu chyb (tj.
počtu měřených bodů).
Mělo by také být stanoveno kritérium pro určení správné korespondující skutečné polohy
(např. korespondence s nejblíže se nacházející polohou, korespondence ve vrcholech podél
linií). Kritérium/kritéria pro nalezení přiřazovaných bodů musí být vykázána s výsledkem
vyhodnocení kvality dat.
Míra kvality: kovarianční matice (Covariance matrix)
Vysvětlení: symetrická čtvercová matice s rozptyly souřadnic bodů na hlavní diagonále a
kovariancemi mezi těmito souřadnicemi jako nediagonálními prvky.
Kovarianční matice zobecňuje pojem rozptylu z jednoho do n rozměrů, tj. ze skalárních
náhodných proměnných na vektorové náhodné proměnné (ntice skalárních náhodných
proměnných).
(1) Souřadnice 1D (např. výšková data)
Vektorová náhodná proměnná: 1
1n
x
x
x
Její kovarianční matice:
21 1
21
x x xn
xx
xnx xn
, s 1 1x xn xnx
21x označuje rozptyl prvku 1x , jeho druhá odmocnina udává směrodatnou odchylku tohoto
prvku 21 1x x .
Korelace mezi 2 prvky může být vypočtena takto:
xixjxixj
xi xj
. Jestliže jsou souřadnice nekorelované, mají nediagonální prvky hodnotu 0.
(2) Souřadnice 2D
Vektorová náhodná proměnná:
1
1
n
x
yx
y
Její kovarianční matice:
21 1 1 1
21 1 1 1
21 1
x x y x yn
y x y y ynxx
ynx yny yn
,
(3) Souřadnice 3D
Vektorová náhodná proměnná:
1
1
1
n
n
x
y
zx
y
z
Její kovarianční matice:
21 1 1 1 1 1 1
21 1 1 1 1 1 1
21 1 1 1 1 1 1
21 1 1
21 1 1
x x y x z x yn x zn
x y y y z y yn y zn
x z y z z z yn z znxx
x yn y yn z yn yn ynzn
x zn y zn z zn ynzn zn
,
(4) Libovolné pozorovatelné veličiny:
Vektorová náhodná proměnná:
a
bx
z
Její kovarianční matice:
2
2
2
a ba za
ab ba b zbxx
az za bz zb z
6.3.2 Výškové polohové chyby (Vertical positional uncertainties)
Míra kvality: Očekávaná jednorozměrná chyba s pravděpodobností 50% (Linear error
probable)
Míra kvality dle ČSN ISO: pravděpodobnost lineární chyby (LEP)
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná
hodnota nachází s pravděpodobností 50 %. Pro stanovení intervalu se aplikuje LE50 nebo
LE50(r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Míra kvality: Očekávaná jednorozměrná chyba s pravděpodobností 68,3% (Standard
linear error)
Míra kvality dle ČSN ISO: směrodatná lineární chyba (SD)
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí ve vzdálenosti +/- 1
směrodatné odchylky, kde se skutečná hodnota nachází s pravděpodobností 68,3 %. Pro
stanovení intervalu se aplikuje LE68.3 nebo LE68.3 (r) (viz tabulka P3 nebo P5) v závislosti
na postupu vyhodnocení.
Míra kvality: Očekávaná jednorozměrná chyba s pravděpodobností 90 % (Linear map
accuracy at 90 % significance level)
Míra kvality dle ČSN ISO: lineární mapová přesnost na 90% hladině významnosti (LMAS 90
%)
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná
hodnota nachází s pravděpodobností 90 %. Pro stanovení intervalu se aplikuje LE90 nebo
LE90 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Míra kvality: Očekávaná jednorozměrná chyba s pravděpodobností 95 % (Linear map
accuracy at 95 % significance level)
Míra kvality dle ČSN ISO: lineární mapová přesnost na 95% hladině významnosti (LMAS 95
%)
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná
hodnota nachází s pravděpodobností 95 %. Pro stanovení intervalu se aplikuje LE95 nebo
LE95 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Míra kvality: Očekávaná jednorozměrná chyba s pravděpodobností 99 % (Linear map
accuracy at 99 % significance level)
Míra kvality dle ČSN ISO: lineární mapová přesnost na 99% hladině významnosti (LMAS 99
%)
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná
hodnota nachází s pravděpodobností 99 %. Pro stanovení intervalu se aplikuje LE99 nebo
LE99 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Míra kvality: Očekávaná jednorozměrná chyba s pravděpodobností 99.8 % (Near
certainty linear error)
Míra kvality dle ČSN ISO: lineární chyba kvazijistoty
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí ve vzdálenosti +/- 3
směrodatné odchylky, kde se skutečná hodnota nachází s pravděpodobností 99,8 %. Pro
stanovení intervalu se aplikuje LE99.8 nebo LE99.8 (r) (viz tabulka P3 nebo P5) v závislosti
na postupu vyhodnocení.
Míra kvality: střední (jednorozměrná) chyba (Root mean square error)
Míra kvality dle ČSN ISO: směrodatná chyba (RMSE)
Vysvětlení: standardně zjišťovaná střední chyba RMSE pro jednorozměrná data.
Míra kvality: absolutní jednorozměrná chyba s pravděpodobností 90% (alternativa 1)
(Absolute linear error at 90 % significance level of biased vertical data (Alternative 1))
Míra kvality dle ČSN ISO: absolutní lineární chyba na 90% hladině významnosti
vychýlených výškových dat (alternativa 1)
Vysvětlení: absolutní chyba
Způsob výpočtu dle ISO 19138 (tato alternativa převzata z NATO STANAG):
Porovnání dat (zdroje) a kontroly (reference) se vypočte následujícím způsobem:
1. Vypočítat absolutní chybu ve výškovém rozměru v každém bodu:
i i iV V V zdrojová referenční pro i = 1 … N
2. Vypočítat absolutní hodnotu průměrné výškové chyby:
1
1N
i
i
V VN
3. Vypočítat střední chybu pro rozdíly mezi zkoušeným produktem a referenčním
zdrojem:
2M
1
1
1
N
i
i
VN
= RMSE
4. Vypočítat lineární směrodatnou odchylku chyb v referenčním zdroji:
R
5. Vypočítat lineární směrodatnou odchylku chyb ve zkoušeném produktu:
2 2M R
6. Vypočítat poměr absolutní hodnoty průměrné chyby ke směrodatné odchylce:
V
V
poměr
7. Jestliže je ,poměr 1 4 , pak ,V LMAS 1 282 poměr
8. Jestliže je ,poměr 1 4 , pak vypočítat k na základě poměru absolutní hodnotu průměrné
výškové chyby ke směrodatné odchylce výšek podle vztahu
V
2 3LMAS 1,6435 0,92 poměr 0,28 poměr
Rozsah výběru: obvykle se použije minimálně 30 bodů, ale v závislosti na identifikovatelných
kontrolních bodech to nemusí být vždy možné.
Míra kvality: absolutní jednorozměrná chyba s pravděpodobností 90% (alternativa 2)
(Absolute linear error at 90 % significance level of biased vertical data)
Míra kvality dle ČSN ISO: absolutní lineární chyba na 90% hladině významnosti
vychýlených výškových dat (alternativa 2)
Vysvětlení: absolutní chyba
Způsob výpočtu dle ISO 19138:
Porovnání dat (zdroje) a kontroly (reference) se vypočte následujícím způsobem:
1. Vypočítat absolutní chybu ve výškovém rozměru v každém bodu:
i i iV V V zdrojová referenční pro i = 1 … N
2. Vypočítat průměrnou výškovou chybu v absolutní hodnotě :
1
1N
i
i
V VN
3. Vypočítat střední chybu pro rozdíly mezi zkoušeným produktem a referenčním
zdrojem:
2
1
1
1
N
V i
i
VN
4. Vypočítat poměr absolutní hodnoty průměrné chyby ke směrodatné odchylce:
/ VV poměr
5. Jestliže je ,poměr 1 4 , pak ,1 2815k
6. Jestliže je ,poměr 1 4 , pak vypočítat k na základě poměru výškového vychýlení ke
směrodatné odchylce výšek s využitím kubického polynomického vyrovnání prostřednictvím
tabelárních hodnot dle definice v Handbook of Tables for Probability and Statistics (odkaz
[5]).
, , , ,k 2 31 643 5 0 999 556 poměr 0 923 237 poměr 0 282 533 poměr
7. Vypočítat LE90 pro zdroj:
VV k zdrojLE90
8. Vypočítat absolutní LE90:
2 2abs reference zdrojLE90 LE90 LE90
Rozsah výběru: obvykle se použije minimálně 30 bodů, ale v závislosti na identifikovatelných
kontrolních bodech to nemusí být vždy možné.
6.3.2 Dvourozměrné (horizontální) polohové chyby (Horizontal positional uncertainties)
Míra kvality: Očekávaná dvourozměrná chyba s pravděpodobností 39.4% (Circular
standard deviation)
Míra kvality dle ČSN ISO: kruhová směrodatná odchylka (Helmertova chyba bodu, CSE)
Vysvětlení: poloměr kruhu, v němž se nachází skutečné místo bodu s pravděpodobností
39,4%.
Míra kvality: Očekávaná dvourozměrná chyba s pravděpodobností 50 % (Circular
error probable)
Míra kvality dle ČSN ISO: pravděpodobnost kruhové chyby (CEP)
Vysvětlení: poloměr popisující kruh, v němž se nachází skutečné místo bodu s
pravděpodobností 50%.
Míra kvality: Očekávaná dvourozměrná chyba s pravděpodobností 90 % (Circular map
accuracy standard)
Míra kvality dle ČSN ISO: norma kruhové přesnosti mapy (CMAS)
Vysvětlení: poloměr popisující kruh, v němž se nachází skutečné místo bodu s
pravděpodobností 90%.
Míra kvality: Očekávaná dvourozměrná chyba s pravděpodobností 95 % (Circular
error at 95 % significance level)
Míra kvality dle ČSN ISO: kruhová chyba na 95% hladině významnosti (přesnost navigace)
Vysvětlení: poloměr popisující kruh, v němž se nachází skutečné místo bodu s
pravděpodobností 95%.
Míra kvality: Očekávaná dvourozměrná chyba s pravděpodobností 99.8 % (Circular
near certainty error)
Míra kvality dle ČSN ISO: kruhová chyba kvazijistoty (CNCE)
Vysvětlení: poloměr popisující kruh, v němž se nachází skutečné místo bodu s
pravděpodobností 99.8% (3 směrodatné odchylky).
Míra kvality: Střední dvourozměrná chyba (Root mean square error of planimetry)
Míra kvality dle ČSN ISO: směrodatná chyba polohopisu (RMSEP)
Vysvětlení: poloměr kruhu kolem daného bodu ve vzdálenosti 1 směrodatné odchylky
(nachází se v něm skutečná poloha bodu s pravděpodobností 68.3%).
Skutečné hodnoty pozorovaných souřadnic X a Y jsou známy jako xt a yt. Odtud odhad
( ) ( )2 2
1
1 n
mi t mi tix x y y
n
Míra kvality: absolutní dvourozměrná chyba s pravděpodobností 90% (alternativa 1)
(Absolute circular error at 90 % significance level of biased data (Alternative 1))
Míra kvality dle ČSN ISO: absolutní kruhová chyba na 90% hladině významnosti
vychýlených dat (alternativa 1) (CMAS)
Vysvětlení: absolutní horizontální polohová chyba souřadnic s 90% pravděpodobnosti
s ohledem na vychýlení
Způsob výpočtu dle ISO 19138:
Porovnání dat (zdroje) a kontroly (reference) se vypočte následujícím způsobem:
1. Vypočítat absolutní chybu v každém bodu pro každou souřadnici Xi a Yi:
i i i i iX X X Yi Y Y zdroj reference a zdroj reference pro
i = 1…N
2. Vypočítat střední vodorovnou chybu každé souřadnice:
N N
X Xi Y YiN N
1 1
1 1 a
3. Vypočítat kruhovou směrodatnou odchylku naměřených rozdílů mezi zkoušeným
produktem a referenčním zdrojem:
( )
2 2
CM
1 1
1
2 1
N N
i i
Xi X Xi XN
4. Vypočítat kruhovou směrodatnou odchylku chyb v referenčním zdroji: CR
5. Vypočítat kruhovou směrodatnou odchylku chyb ve zkoušeném produktu:
2 2C CM CR
6. Vypočítat absolutní kruhovou chybu na 90% hladině významnosti vychýlených dat
(CMAS):
, ,
2 2
CC
CMAS 1 294 3 0 725 4X Y
Míra kvality: absolutní dvourozměrná chyba s pravděpodobností 90% (alternativa 2)
(Absolute circular error at 90 % significance level of biased data (Alternative 2))
Míra kvality dle ČSN ISO: absolutní kruhová chyba na 90% hladině významnosti
vychýlených dat (alternativa 2) (ACE)
Vysvětlení: absolutní horizontální polohová chyba souřadnic s 90% pravděpodobnosti
s ohledem na vychýlení
Způsob výpočtu dle ISO 19138:
Porovnání dat (zdroje) a kontroly (reference) se vypočte následujícím způsobem:
1. Vypočítat absolutní chybu ve vodorovném rozměru v každém bodu:
i i i i iH X X Y Y 2 2
zdroj reference zdroj reference pro i = 1…N
2. Vypočítat průměrnou vodorovnou chybu:
HiH
N
3. Vypočítat směrodatnou odchylku vodorovných chyb:
2H
H 1iH
N
4. Vypočítat poměr absolutní hodnoty průměrné chyby ke směrodatné odchylce:
/H H poměr
5. Jestliže je ,poměr 1 4 , pak ,1 2815k
6. Jestliže je ,poměr 1 4 , pak vypočítat k, poměr průměru ke směrodatné odchylce, s
použitím kubického polynomického vyrovnání prostřednictvím tabelárních hodnot dle
definice v CRC Handbook of Tables for Probability and Statistics
, , , ,k 2 31 643 5 0 999 556 poměr 0 923 237 poměr 0 282 533 poměr
7. Vypočítat CE90 pro zdroj:
k zdroj H HCE90
8. Vypočítat absolutní CE90:
2 2abs reference zdrojCE90 CE90 CE90
Rozsah výběru: obvykle se použije minimálně 30 bodů, ale v závislosti na identifikovatelných
kontrolních bodech to nemusí být vždy možné.
Míra kvality: elipsa neurčitosti (Uncertainty ellipse)
Míra kvality dle ČSN ISO: elipsa neurčitosti, elipsa směrodatných bodových chyb
Vysvětlení: 2D elipsa s hlavní a vedlejší osou indikujícími směr a velikost chyb bodů ve 2D.
Určitou analogii je možné vidět u elipsy standardizované odchylky (standard deviation
ellipse), která slouží k vyjádření směrové odchylky pro případy výrazná anizotropie
v distribuci bodů (Horák, 2013).
Způsob výpočtu dle ISO 19138:
Z dané kovarianční matice (míra kvality dat tabulka D.32) souřadnic 2D bodu lze určit prvky
popisující elipsu neurčitosti jejími vlastními hodnotami.
Pro jednotlivý bod k je kovarianční matice dána takto: 2
2
k xk xkyk
xxykxk yk
, s xkyk = ykxk
Směr α (směrník) hlavní poloosy elipsy je možno vypočítat následovně:
arctan2 2
21
2
xkyk
xk yk
a délky poloos:
2
2 2 2 2 214
2xk yk xk yk xkyka
2
2 2 2 2 214
2xk yk xk yk xkykb
Míra kvality: elipsa spolehlivosti (Confidence ellipse)
Míra kvality dle ČSN ISO: elipsa spolehlivosti, elipsa spolehlivosti chyby bodu
Vysvětlení: 2D elipsa se hlavní a vedlejší osou indikujícími směr a velikost chyb 2D bodů.
Má stejnou orientaci jako elipsa neurčitosti, ale její osy jsou větší (přibližně 3x). Obě poloosy
se vynásobí odmocninou ( )21 2
, které mají (bez druhé odmocniny) velikost:
P = 1 = 95 % 5,99
P = 1 = 99 % 9,21
6.3.3 Relativní nebo vnitřní přesnost (Relative or internal accuracy)
Míra kvality: relativní výšková chyba (Rel LE90) (Relative vertical error)
Vysvětlení: Vyhodnocení náhodných chyb jednoho geoprvku vůči jinému v téže sadě dat
nebo na téže mapě.
Je to funkce náhodných chyb ve dvou výškách se společným výškovým datem.
Způsob výpočtu dle ISO 19138:
Porovnání (měřených) dat a kontroly (skutečnost) se vypočte následujícím způsobem:
1. Určit všechny možné kombinace dvojic bodů:
Kombinace dvojic bodů = m = n(n1) / 2
2. Vypočítat absolutní výškovou chybu v každém bodu:
Zi = Měřená výškai Skutečná výškai pro i = 1…n
3. Vypočítat relativní výškovou chybu pro všechny kombinace dvojic bodů:
Zrel kj = Zk Zj pro k = 1…m 1, j = k + 1, … m
4. Vypočítat relativní výškovou směrodatnou odchylku:
2
relrel
1Z
Z
m
5. Vypočítat relativní chybu pro pravděpodobnost 90%:
Rel LE90 = 1,645 Z rel
Míra kvality: relativní horizontální chyba (Relative horizontal error)
Míra kvality dle ČSN ISO: relativní vodorovná chyba (Rel CE90)
Vysvětlení: Vyhodnocení náhodných chyb v horizontální poloze jednoho geoprvku vůči
jinému v téže sadě dat nebo na téže mapě.
Je to funkce náhodných chyb ve dvou výškách se společným výškovým datem.
Způsob výpočtu dle ISO 19138:
Porovnání (měřených) dat a kontroly (skutečnost) se vypočte následujícím způsobem:
1. Určit všechny možné kombinace dvojic bodů:
Kombinace dvojic bodů = m = n(n1)/2
2. Vypočítat absolutní chybu v rozměrech X a Y v každém bodu:
Xi = Měřená Xi Skutečná Xi pro i = 1…n
Yi = Měřená Yi Skutečná Yi pro i = 1…n
3. Vypočítat relativní chybu v X a Y pro všechny kombinace dvojic bodů:
Xrel kj = Xk Xj pro k = 1…m1, j = k+1, … m
Yrel kj = Yk Yj pro k = 1…m1, j = k+1, … m
4. Vypočítat relativní směrodatné odchylky v každé ose:
2
relrel
1X
X
m
2
relrel
1Y
Y
m
5. Vypočítat relativní vodorovnou směrodatnou odchylku:
2 2
rel relH rel
2
X Y
6. Vypočítat relativní chybu pro pravděpodobnost 90%:
Rel CE90 = 2,146 H rel
6.4 Časová přesnost (Temporal accuracy)
6.4.1 Přesnost měření času (Accuracy of a time measurement)
Míra kvality: očekávaná chyba času s pravděpodobností 68,3% (Time accuracy at 68,3
% significance level)
Míra kvality dle ČSN ISO: přesnost času na 68,3% hladině významnosti
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí ve vzdálenosti +/- 1
směrodatné odchylky, kde se skutečná hodnota času nachází s pravděpodobností 68,3 %. Pro
stanovení intervalu se aplikuje LE68.3 nebo LE68.3 (r) (viz tabulka P3 nebo P5) v závislosti
na postupu vyhodnocení.
Míra kvality: očekávaná chyba času s pravděpodobností 50% (Time accuracy at 50 %
significance level)
Míra kvality dle ČSN ISO: přesnost času na 50% hladině významnosti
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná
hodnota času nachází s pravděpodobností 50 %. Pro stanovení intervalu se aplikuje LE50
nebo LE50 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Míra kvality: očekávaná chyba času s pravděpodobností 90% (Time accuracy at 90 %
significance level)
Míra kvality dle ČSN ISO: přesnost času na 90% hladině významnosti
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná
hodnota času nachází s pravděpodobností 90 %. Pro stanovení intervalu se aplikuje LE90
nebo LE90 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Míra kvality: očekávaná chyba času s pravděpodobností 95% (Time accuracy at 95 %
significance level)
Míra kvality dle ČSN ISO: přesnost času na 95% hladině významnosti
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná
hodnota času nachází s pravděpodobností 95 %. Pro stanovení intervalu se aplikuje LE95
nebo LE95 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Míra kvality: očekávaná chyba času s pravděpodobností 99% (Time accuracy at 99 %
significance level)
Míra kvality dle ČSN ISO: přesnost času na 99% hladině významnosti
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná
hodnota času nachází s pravděpodobností 99 %. Pro stanovení intervalu se aplikuje LE99
nebo LE99 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Míra kvality: očekávaná chyba času s pravděpodobností 99.8% (Time accuracy at 99,8
% significance level)
Míra kvality dle ČSN ISO: přesnost času na 99.8% hladině významnosti
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná
hodnota času nachází s pravděpodobností 99.8 %. Pro stanovení intervalu se aplikuje LE99.8
nebo LE99.8 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
6.4.2 Časová konzistence (Temporal consistency)
Pro tento podprvek kvality dat nejsou stanoveny žádné míry kvality dat.
6.4.3 Časová platnost (Temporal validity)
Časová platnost může být pojednána se stejnými mírami kvality dat, jaké platí pro hodnoty
atributů specifických pro jiné domény.
6.5 Tematická přesnost (Thematic accuracy)
6.5.1 Správnost klasifikace (Classification correctness)
Míra kvality: Počet nesprávně klasifikovaných geoprvků (Number of incorrectly
classified features)
Míra kvality dle ČSN ISO: Počet nesprávně klasifikovaných vzhledů
Vysvětlení: Počet špatně klasifikovaných geoprvků.
Míra kvality: podíl chybných klasifikací (Misclassification rate)
Vysvětlení: poměr počtu nesprávně klasifikovaných geoprvků k počtu geoprvků, o nichž se
předpokládá, že tu mají být
Míra kvality: matice počtu chybných klasifikací (Misclassification matrix)
Míra kvality dle ČSN ISO: matice chybných klasifikací (MCM)
Vysvětlení: matice, která indikuje počet položek třídy (i) klasifikovaných špatně jako třída (j).
Matice chybných klasifikaci je čtvercová matice s n sloupci a n řádky, kde n znamená počet
uvažovaných tříd.
MCM (i, j) = [# položky třídy (i) klasifikované jako třída ( j)]
Diagonální prvky matice chybných klasifikaci obsahují správně klasifikované položky
a nediagonální prvky obsahují počet chyb chybné klasifikace.
Míra kvality: matice relativního počtu chybných klasifikací (Relative misclassification
matrix)
Míra kvality dle ČSN ISO: matice relativních chybných klasifikací (RMCM)
Vysvětlení: matice, která indikuje počet položek třídy (i) klasifikovaných špatně jako třída (j),
dělený počtem položek třídy (i)
Matice chybných klasifikaci je čtvercová matice s n sloupci a n řádky, kde n znamená počet
uvažovaných tříd.
RMCM (i, j) = [# položky třídy (i) klasifikované jako třída ( j)] / (# položky třídy (i)] 100 %
Diagonální prvky matice obsahují správně klasifikované položky a nediagonální prvky
obsahují relativní počet chyb chybné klasifikace.
Míra kvality: koeficient kappa (Kappa coefficient)
Vysvětlení: koeficient, který hodnotí provedenou klasifikaci s klasifikací čistě náhodnou.
Běžný způsob výpočtu:
PO
POPP
1
kde PP je pozorovaná přesnost (z chybové matice) a PO je přesnost dosažitelná náhodnou
klasifikací.
Způsob výpočtu dle ISO 19138:
S prvky matice chybných klasifikací MCM(i, j) uvedené jako míra kvality dat výše, může být
koeficient () vypočten takto:
( , ) ( , ) ( , )
( , ) ( , )
1 1 1 1
2
1 1 1
MCM MCM MCM
MCM MCM
r r r r
i i j j
r r r
i j j
N i i i j j i
N i j j i
N je počet klasifikovaných položek
6.5.2 Správnost nekvantitativních atributů (Non-quantitative attribute correctness)
Míra kvality: Počet nesprávných hodnot atributů (Number of incorrect attribute values)
Vysvětlení: celkový počet chybných hodnot atributů v příslušné části sady dat.
Míra kvality: podíl správných hodnot atributů (Rate of correct attribute values)
Vysvětlení: poměr počtu správných hodnot atributů k celkovému počtu hodnot atributů
Míra kvality: podíl nesprávných hodnot atributů (Rate of incorrect attribute values)
Vysvětlení: poměr počtu nesprávných hodnot atributů k celkovému počtu hodnot atributů
6.5.3 Přesnost kvantitativních atributů (Quantitative attribute accuracy)
Míra kvality: očekávaná chyba kvantitativního atributu s pravděpodobností 68.3%
(Attribute value uncertainty at 68,3 % significance level)
Míra kvality dle ČSN ISO: neurčitost hodnot atributů na 68,3% hladině významnosti
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí ve vzdálenosti
±1 směrodatné odchylky, kde se skutečná hodnota kvantitativního atributu nachází
s pravděpodobností 68,3 %. Pro stanovení intervalu se aplikuje LE68.3 nebo LE68.3 (r) (viz
tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Míra kvality: očekávaná chyba kvantitativního atributu s pravděpodobností 50 %
(Attribute value uncertainty at 50 % significance level)
Míra kvality dle ČSN ISO: neurčitost hodnot atributů na 50 % hladině významnosti
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná
hodnota kvantitativního atributu nachází s pravděpodobností 50 %. Pro stanovení intervalu se
aplikuje LE50 nebo LE50 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Míra kvality: očekávaná chyba kvantitativního atributu s pravděpodobností 90 %
(Attribute value uncertainty at 90 % significance level)
Míra kvality dle ČSN ISO: neurčitost hodnot atributů na 90 % hladině významnosti
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná
hodnota kvantitativního atributu nachází s pravděpodobností 90 %. Pro stanovení intervalu se
aplikuje LE90 nebo LE90 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Míra kvality: očekávaná chyba kvantitativního atributu s pravděpodobností 95 %
(Attribute value uncertainty at 95 % significance level)
Míra kvality dle ČSN ISO: neurčitost hodnot atributů na 95 % hladině významnosti
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná
hodnota kvantitativního atributu nachází s pravděpodobností 95 %. Pro stanovení intervalu se
aplikuje LE95 nebo LE95 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Míra kvality: očekávaná chyba kvantitativního atributu s pravděpodobností 99 %
(Attribute value uncertainty at 99 % significance level)
Míra kvality dle ČSN ISO: neurčitost hodnot atributů na 99 % hladině významnosti
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná
hodnota kvantitativního atributu nachází s pravděpodobností 99 %. Pro stanovení intervalu se
aplikuje LE99 nebo LE99 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Míra kvality: očekávaná chyba kvantitativního atributu s pravděpodobností 99.8%
(Attribute value uncertainty at 99,8 % significance level)
Míra kvality dle ČSN ISO: neurčitost hodnot atributů na 99,8% hladině významnosti
Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí ve vzdálenosti
±3 směrodatné odchylky, kde se skutečná hodnota kvantitativního atributu nachází
s pravděpodobností 99,8 %. Pro stanovení intervalu se aplikuje LE99.8 nebo LE99.8 (r) (viz
tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.
Autor Doc. Dr. Ing. Jiří Horák
Název Neurčitost v geoinformatice
Vydavatel VŠB-TU Ostrava
Vydání druhé
Rozsah 226 stran
Rok 2018
Copyright © Jiří Horák, 2018
Zdroj financování 1.vydání bylo financováno z projektu CZ.1.07/2.2.00/28.0308 Inovace
bakalářských a magisterských studijních oborů na Hornicko-geologické
fakultě VŠB-TUO, spolufinancovaného Evropským sociálním fondem a
státním rozpočtem České republiky