NEURČITOST V GEOINFORMATICEhomel.vsb.cz/~hor10/Vyuka/Neurcitost/Neurcitost_vysvetl.pdf · Vysoká...

Vysoká škola báňská – Technická univerzita Ostrava

Hornicko-geologická fakulta

NEURČITOST V GEOINFORMATICE

(E-learningová podpora)

Doc. Dr. Ing. Jiří Horák

(2.vydání)

Ostrava, 2018

Vysoká škola báňská – Technická univerzita Ostrava

Hornicko-geologická fakulta

NEURČITOST V GEOINFORMATICE

(E-learningová podpora)

Doc. Dr. Ing. Jiří Horák

(2.vydání)

Ostrava, 2018

i

Obsah Seznam obrázků ..................................................................................................................................................... iv

1 Úvod ............................................................................................................................................................... 1

2 Neurčitost – základní vymezení a rozdělení ................................................................................................... 6

2.1 Základní rozdělení ..................................................................................................................................... 10

2.1.1 Nepřesnost a přesnost ................................................................................................................. 15

2.1.2 Vágnost ....................................................................................................................................... 17

2.1.3 Nejednoznačnost ......................................................................................................................... 20

3 Chyba ........................................................................................................................................................... 26

3.1 Spolehlivost ................................................................................................................................................ 30

3.2 Ocenění chyb .............................................................................................................................................. 32

3.2.1 Velikost potřebného vzorku ........................................................................................................ 32

3.2.2 Výsledné hodnocení chyb u kvantitativních údajů ..................................................................... 33

3.2.3 Výsledné ocenění chyb pro kvalitativní údaje ............................................................................ 35

3.3 Šíření chyb .................................................................................................................................................. 36

3.3.1 Monte Carlo simulace ................................................................................................................. 37

4 Kvalita dat a jejich popis .............................................................................................................................. 40

4.1 Prvky kvality dat ........................................................................................................................................ 42

4.1.1 Polohová přesnost ....................................................................................................................... 43

4.1.2 Rozlišení ..................................................................................................................................... 46

4.1.3 Přesnost atributů ......................................................................................................................... 48

4.1.4 Logická konzistence.................................................................................................................... 50

4.1.5 Sémantická konzistence .............................................................................................................. 52

4.1.6 Úplnost dat .................................................................................................................................. 53

4.1.7 Aktuálnost dat ............................................................................................................................. 56

4.1.8 Rodokmen dat ............................................................................................................................. 58

4.1.9 Jednoduchost dat ......................................................................................................................... 59

4.1.10 Dostupnost dat ............................................................................................................................ 59

4.1.11 Cena dat ...................................................................................................................................... 59

4.1.12 Metakvalita ................................................................................................................................. 59

4.2 Standardizace kvality dat ............................................................................................................................ 61

4.3 Ukládání popisu kvality dat ........................................................................................................................ 62

5 Organizace sběru dat .................................................................................................................................... 65

5.1 Implementace ............................................................................................................................................. 69

6 Zdroje neurčitosti a způsob popisu ............................................................................................................... 70

7 Analýza citlivosti a problém agregace dílčích jednotek ............................................................................... 76

7.1 Analýza citlivosti ........................................................................................................................................ 76

7.2 Problém agregace dat do polygonů ............................................................................................................ 77

8 Měření mlhavosti a hrubé množiny .............................................................................................................. 80

8.1 Fuzzy množiny ........................................................................................................................................... 84

8.1.1 Fuzzy číslo .................................................................................................................................. 90

8.1.2 Operace s fuzzy množinami ........................................................................................................ 96

8.1.3 Fuzzy region ............................................................................................................................. 105

8.1.4 Prostorově neurčité objekty ...................................................................................................... 105

8.1.5 Topologické operace ................................................................................................................. 107

8.1.6 Jiné prostorové operace ............................................................................................................. 109

8.1.7 Kritika fuzzy množin ................................................................................................................ 109

8.2 Hrubé množiny ......................................................................................................................................... 110

9 Kvalitativní hodnocení neurčitosti.............................................................................................................. 113

9.1.1 Revize důvěry ........................................................................................................................... 116

9.1.2 Revize a aktualizace .................................................................................................................. 117

ii

9.1.3 Tříhodnotová a vícehodnotová logika ....................................................................................... 118

9.1.4 Schvalovací teorie ..................................................................................................................... 121

10 Kvantitativní přístupy k neurčitosti ............................................................................................................ 125

10.1 Podmíněná pravděpodobnost .................................................................................................................. 126

10.2 Bayesova teorie pravděpodobnosti ......................................................................................................... 126

10.3 Dempster-Shaferova teorie ..................................................................................................................... 128

10.3.1 Dempster-Shaferovy agregační operátory ................................................................................. 132

10.3.2 Implementace v IDRISI ............................................................................................................ 133

11 Validita a objektivnost ................................................................................................................................ 137

11.1 Objektivita měření .................................................................................................................................. 140

12 Vizualizace neurčitosti ............................................................................................................................... 142

12.1 Obecné kartografické metody vizualizace nejistoty ............................................................................... 143

12.2 Kartografické vyjadřovací prostředky a grafické proměnné pro vizualizaci nejistoty ........................... 145

12.2.1 Přístupy založené na vnitřních grafických proměnných ........................................................... 146

12.2.2 Přístupy založené na vnějších grafických proměnných ............................................................ 150

12.3 Aplikační využití základních metod vizualizace nejistoty...................................................................... 154

12.4 Návrh taxonomie vizualizace nejistoty ................................................................................................... 156

12.4.1 Vizualizace nejistoty v přírodních hazardech ........................................................................... 162

12.5 Analýza a hodnocení vizualizace ........................................................................................................... 163

12.5.1 Kognitivní aspekty vizualizace nejistoty a vizualizace reprezentace nejistoty ......................... 163

12.5.2 Obecný rámec pro podporu vizualizace nejistoty ..................................................................... 165

12.6 Empirické studie vizualizace nejistoty ................................................................................................... 166

12.6.1 testování polohové nejistoty ..................................................................................................... 166

12.6.2 Empirické testování tematické nejistoty ................................................................................... 172

12.6.3 Interaktivní prostředí pro vizualizaci nejistoty.......................................................................... 175

12.6.4 Principy testování vizualizace nejistoty .................................................................................... 180

Seznam literatury ................................................................................................................................................ 182

Příloha 1 Kvalita dat a její míry podle norem ISO .............................................................................................. 185

2. Termíny použité v normách řady ISO 191xx ............................................................................................. 185

3. Prvky kvality podle ISO 19113 .................................................................................................................. 186

4. Struktura měr kvality dat podle ISO 19113 ................................................................................................ 187

5. Základní míry kvality dat související s neurčitostí podle ISO 19113 ......................................................... 188

Jednorozměrná náhodná proměnná Z(one-dimensional random variable) ..................................................... 188

Dvojrozměrná náhodná proměnná X a Y (two-dimensional random variable) ............................................... 190

Trojrozměrná náhodná proměnná X, Y, Z(three-dimensional random variable) ............................................. 191

6. Přehled jednotlivých měr kvality dat dle ISO 19138 .................................................................................. 192

6.1 úplnost (completeness) ............................................................................................................................. 192

6.1.1 Přidání (Commission) ....................................................................................................................... 192

6.1.2 Vynechání (Omission) ...................................................................................................................... 192

6.2 Logická konzistence (Logical consistency) .............................................................................................. 193

6.2.1 Konceptuální konzistence (Conceptual consistency) ........................................................................ 193

6.2.2 Doménová konzistence (Domain consistency) ................................................................................. 194

6.2.3 Formátová konzistence (Format consistency) .................................................................................. 195

6.2.4 Topologická konzistence (Topological consistency) ........................................................................ 196

6.3 Polohová přesnost (Positional accuracy) .................................................................................................. 199

6.3.1 Absolutní nebo vnější přesnost (Absolute or external accuracy) ...................................................... 199

6.3.2 Výškové polohové chyby (Vertical positional uncertainties) ........................................................... 202

6.3.2 Dvourozměrné (horizontální) polohové chyby (Horizontal positional uncertainties) ...................... 206

6.3.3 Relativní nebo vnitřní přesnost (Relative or internal accuracy) ........................................................ 211

6.4 Časová přesnost (Temporal accuracy) ...................................................................................................... 212

6.4.1 Přesnost měření času (Accuracy of a time measurement) ................................................................ 212

6.4.2 Časová konzistence (Temporal consistency) .................................................................................... 214

6.4.3 Časová platnost (Temporal validity) ................................................................................................. 214

iii

6.5 Tematická přesnost (Thematic accuracy) ................................................................................................. 214

6.5.1 Správnost klasifikace (Classification correctness) ............................................................................ 214

6.5.2 Správnost nekvantitativních atributů (Non-quantitative attribute correctness) ................................. 215

6.5.3 Přesnost kvantitativních atributů (Quantitative attribute accuracy) .................................................. 216

iv

Seznam obrázků Obrázek 1 Rozdělení typů neurčitosti a způsobů řešení dle Murgante et al. (2009) ............................................. 12

Obrázek 2 Rozdělení typů neurčitosti a způsobů řešení dle Fisher et al. (2006). .................................................. 14

Obrázek 3 Srovnání přesnostip a přesnostia (precision and accuracy) (Fisher et al., 2006) ................................... 16

Obrázek 4 Taxonomie objektů typu „fiat“ a „bona fide“ (bf=bona fide, f=fiat, o=objekt, p=proces, sb=spatial

boundary, tb=temporal boundary, Earth’surface = zemský povrch, Equator = rovník, your life = tvůj život,

century = století, summer solstice = letní slunovrat). Kubíček (2013), podle Smith (1995) ................................. 18

Obrázek 5 Minimální fyzické požadavky pro definování lesa v jednotlivých zemích (Comber et al., 2004, in

Fisher et al., 2006) (tree height – výška stromů, canopy cover – pokrytí klenbou korun) .................................... 19

Obrázek 6 Tatáž oblast mapovaná rozdílně jednotlivými zkušenými interpretátory jako problém umístění hranice

Fisher et al. (2006, s.53) ........................................................................................................................................ 22

Obrázek 7 Tloušťka koncové měrky v řezu (Schovánek, Havránek, 2012) .......................................................... 35

Obrázek 8 Geometrický nárůst nákladů při rostoucích požadavcích na kvalitu .................................................... 42

Obrázek 9 Srovnání nákladů na 3 stupně kvality polohové přesnosti a aktuálnosti (Bernhardsen, 1993) ............ 42

Obrázek 10 Polohová přesnost vyjádřená pomocí velikosti chyby (vlevo) nebo pomocí pravděpodobnosti shody

poloh obou křížků (vpravo) ................................................................................................................................... 44

Obrázek 11 příklad polohové nepřesnosti (positional inaccuracy) (Servigne et al., 2006) ................................... 45

Obrázek 12 Prostorové rozlišení pro rastrový datový model ................................................................................ 47

Obrázek 13 elementární mapovací jednotka (minimum mapping unit) jako velikost nejmenšího

reprezentovatelného objektu ................................................................................................................................. 47

Obrázek 14 příklad sémantické nepřesnosti (semantic inaccuracy) (Servigne et al., 2006) .................................. 48

Obrázek 15 Ukázky chyb v atributech – v názvu objektů a jeho klasifikaci. ........................................................ 48

Obrázek 16 Mapovaný (vlevo) a skutečný (vpravo) pokryv území ...................................................................... 49

Obrázek 17 Ověřování logické konzistence (uzavření polygonu, topologické spojení linií) (Servigne et al., 2006)

.............................................................................................................................................................................. 51

Obrázek 18 Příklad sémantické nekonzistence (Servigne et al., 2006) ................................................................. 53

Obrázek 19 Příklady vynechání pravých a přidání klamných objektů (B omissions, C commissions) (Servigne et

al., 2006) ............................................................................................................................................................... 54

Obrázek 20 Neúplné pokrytí listu mapy................................................................................................................ 55

Obrázek 21 Neúplnost atributů (druhý sloupec obsahuje řadu prázdných hodnot) ............................................... 56

Obrázek 22 Situace pro klasifikaci případů chyb (Servigne et al., 2006) (dům a ruiny u řeky) ........................... 61

Obrázek 23 Ukázka metadat uložených v systému MIDAS (Horáková et al., 2003) ........................................... 63

Obrázek 24 Příklad latinského čtverce pro testování 4 různých druhů (Swoboda, 1977) ..................................... 68

Obrázek 25 Pravděpodobnost zaplavení území (Eastmann, 2001) ....................................................................... 74

Obrázek 26 Zaplavené území s 5% rizikem chyby (vlevo) a s 25% rizikem chyby (vpravo) (Eastmann, 2001).. 74

Obrázek 27 Srovnání vlivu agregační jednotky na výsledný vzor distribuce hodnot lokalizačního koeficientu pro

počet uchazečů s nanejvýš základním vzděláním v Ostravě (stav k 31. 3. 2010) (upraveno z Inspektor, 2011) .. 78

Obrázek 28 Fuzzy funkce příslušnosti versus ostré funkce pro určení adjektiva „příkrý“ svah (Eastmann, 2001)

.............................................................................................................................................................................. 85

Obrázek 29 Proměnlivé (vágní) hranice řek Tejo a Zêzere v závislosti na výšce vodní hladiny a stupeň

příslušnosti místa k řekám (Fonte, Lodwick, 2005) .............................................................................................. 85

Obrázek 30 Hodnoty členství pixelu ve vymezeném polygonu (Worboys, Duckham, 2004) .............................. 85

Obrázek 31 Stupně příslušnosti pro jednotlivé půdní kategorie a-c v území a výsledná kombinace .................... 86

Obrázek 32 Časová interpolace založená na změně fuzzy množiny (Dragievič 2005) ......................................... 86

Obrázek 33 Fuzzy funkce příslušnosti pro vágní prostorové operátory „blízký“ a „daleký“ ve vztahu místa

k lyžařskému horskému středisku (Morris, Jankowski, 2005) .............................................................................. 87

Obrázek 34 Fuzzy funkce typu „s“ (Eastmann, 2001) .......................................................................................... 87

Obrázek 35 Fuzzy funkce typu „j“ (Eastmann, 2001) ........................................................................................... 88

Obrázek 36 Lineární fuzzy funkce (Eastmann, 2001) ........................................................................................... 88

Obrázek 37 Uživatelem definovaná fuzzy funkce (Eastmann, 2001) ................................................................... 89

Obrázek 38. Funkce příslušnosti pro jádro, nosič, alfa-řez a výška (Škrabánek, 2014) ........................................ 89

v

Obrázek 39 Fuzzy čísla ( a)trojúhelníkové, b)trapezoidální, c) po částech lineární, d) po částech lineární

aproximující gaussovské) (Caha, 2018) ................................................................................................................ 91

Obrázek 40 Ukázky řešení základních aritmetických operací pro 2 fuzzy čísla A a B (Caha, 2018) ................... 92

Obrázek 41 Problém nerozlišitelnosti 2 „překrývajících se“ fuzzy čísel (Caha, 2018) ......................................... 92

Obrázek 42 Reprezentace fuzzy povrchu. (Caha, 2018) ....................................................................................... 93

Obrázek 43 Fuzzy semivariogram (Caha et al., 2015). ......................................................................................... 93

Obrázek 44 Hodnocení fuzzy povrchu koncentrace PM10 pomocí 4 dílčích charakteristik v každém místě (min,

max, min-střed, max- střed) (Caha et al., 2015). ................................................................................................... 94

Obrázek 45 Uměle vygenerovaný DMR a minimální a maximální hodnota v každém místě (Caha, 2014) ......... 95

Obrázek 46 Fuzzy sklon povrchu a minimální a maximální hodnota sklonu v každém místě (Caha, 2014) ........ 95

Obrázek 47 Výsledek klasického výpočtu viditelnosti a pravděpodobná varianta řešení fuzzy viditelnosti

(upraveno z Caha, 2014) ....................................................................................................................................... 96

Obrázek 48 Demonstrace průniku, sjednocení, součinu a doplňku (Novák, 1989) ............................................... 97

Obrázek 49 Znázornění nejběžnějších t-norem pomocí stupně příslušnosti obou prvků na horizontální ploše a

výsledku operace ve formě grafu (Ďuračiová et al., 2013) ................................................................................... 99

Obrázek 50 Vizualizace 6 t-norem (Caha, 2011) ................................................................................................ 100

Obrázek 51 Vizualizace 6 t-konorem (Caha, 2011) ............................................................................................ 101

Obrázek 52 Fuzzy vrstvy použité pro hodnocení výskytu archeologických lokalit na Slovensku – vážená

vzdálenost k hranici říčních sedimentů (vlevo) a vhodný typ půdy (vpravo) (Ďuračiová et al., 2013) ............... 102

Obrázek 53 Výsledek volby 4 běžných t-norem při agregaci vrstev do výsledné predikce arccheologické lokality

(Ďuračiová et al., 2013) ....................................................................................................................................... 102

Obrázek 54 Průběh funkce členství pro vybraná adjektiva (Adamčík, 2009) ..................................................... 103

Obrázek 55 Porovnání výpočtu oslunění klasickým způsobem a fuzzy (Paclíková, 2012) ................................ 104

Obrázek 56 Vektorová reprezentace geografického regionu: vlevo - ostrého regionu, vpravo - koncept širšího

okolí (Verstraete et al., 2006, in Caha, 2011) ...................................................................................................... 105

Obrázek 57 Reprezentace geografického regionu jako fuzzy objektu (Verstraete et al., 2006, in Caha, 2011) .. 106

Obrázek 58 Fuzzy region definovaný pomocí jádra a nosiče a jeho jednotlivé části (Tang, 2004, in Caha, 2011)

............................................................................................................................................................................ 106

Obrázek 59 Reprezentace fuzzy bodu (A), fuzzy linie (B), fuzzy polygon (C) a fuzzy polygony v mapě (D)

(převzato z Dragicevič, 2005, in Caha, 2011) ..................................................................................................... 107

Obrázek 60 Výpočet hustoty stromů a podle toho přiřazení příslušnosti „zalesnění“ (Worboys, Duckham, 2004)

............................................................................................................................................................................ 107

Obrázek 61 Ukázka několika základních topologických vztahů dvou fuzzy regionů a jejich reprezentací

vztahovými maticemi 3*3 a 4*4 (Tang, 2004, in Caha, 2011). .......................................................................... 109

Obrázek 43 Příklad ohraničení polygonu a vymezení hrubé množiny v rastrovém modelu. Výsledek v části d

ukazuje černé buňky jako dolní hranici a sadu černých a bílých buněk jako horní hranici (Worboys, Duckham,

2004). .................................................................................................................................................................. 111

Obrázek 63 Rozdíl mezi revizí a aktualizací (Worboys, Duckham, 2004) ......................................................... 118

Obrázek 64 Poloha jednotlivých budov (Worboys, Duckham, 2004) ................................................................. 119

Obrázek 65 Výsledné hodnocení blízkosti objektů pro knihovnu (Worboys, Duckham, 2004) ......................... 120

Obrázek 66 Dva regiony, ve kterých se hodnotí pravděpodobnost výskyt sesuvu (Worboys, Duckham, 2004) 126

Obrázek 67 Hierarchická struktura podmnožin v celé množině [A,B,C] ............................................................ 130

Obrázek 68 Pravděpodobnostní obrazy: hypotéza [lokalita] založená na vzdálenosti od známého místa, hypotéza

[lokalita] založená na četnosti povrchových artefaktů, hypotéza [nelokalita] založená na vzdálenosti od stálé

vody a hypotéza [nelokalita] založená na sklonu svahu. (Eastmann, 2001)........................................................ 135

Obrázek 69 Důvěra (vlevo), uvěřitelnost (uprostřed) a interval důvěry (vpravo) pro přítomnost archeologických

lokalit z D-S kombinace důkazů. (Eastmann, 2001) ........................................................................................... 135

Obrázek 70 Odhad obsahu Zn pomocí krigování a doprovodná mapa neurčitosti způsobené interpolací (krigovací

rozptyl) ................................................................................................................................................................ 144

Obrázek 71 Kombinovaná mapy hloubky půdy a nejistoty vizualizovaná pomocí metody vybělení – whitening

(vlevo) a odpovídající legenda (vpravo) (Kubíček, 2012, upravil podle Hengel et al.,2004). ............................ 144

Obrázek 72 Interaktivní vizualizační nástroj pro posouzení nejistoty pomocí střídající se sekvence indexu rizika

a jeho nejistoty (Kubíček, 2012, upravil podle MacEachren 1992). ................................................................... 145

vi

Obrázek 73 Přehled základních grafických proměnných podle Bertiny doplněných o návrhy MacEachrena

(1994) a Wilkinsona (1999). (Kubíček, 2012, upravil podle Kunz, 2011). ......................................................... 147

Obrázek 74 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty (Kubíček, 2012, podle

MacEachrena 1992). ........................................................................................................................................... 148

Obrázek 75 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty - rozlišení (Kubíček, 2012, podle

MacEachrena 1992). ........................................................................................................................................... 148

Obrázek 76 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty - průhlednost (Kubíček, 2012,

podle MacEachrena 1992). .................................................................................................................................. 148

Obrázek 77 Bodové znaky znázorňující nejistotu pomocí (a) sytost barvy, (b) ostrost hranic, (c) průhlednost

(Kubíček, 2012, upravil podle Drecki, 2002). ..................................................................................................... 151

Obrázek 78 Diagram spolehlivosti ukazující zdrojová data a datum jejich vzniku (stáří). (Kubíček, 2012, upravil

podle Drecki,2009). ............................................................................................................................................. 152

Obrázek 79 Vizualizace nejistých geologických hranic a zlomových linií. (Kubíček, 2012, upravil podle Drecki,

2009). .................................................................................................................................................................. 152

Obrázek 80 Dnešní rozšíření a hlavní sedimentační prostory žacléřského souvrství (Tásler et al.) .................... 153

Obrázek 81 Vizualizace nejistoty lavinového nebezpečí, která využívá pro intenzitu tlaku na podloží odstíny

modře a pro vyjádření nejistoty velikost znaku (a), hustotu bodů (b) a izolinie (c) (Kubíček, 2012, upravil podle

Kunz, 2011). ........................................................................................................................................................ 155

Obrázek 82 Bertinův systém vizuálních proměnných modifikovaný podle Buttenfield (2000) (Kubíček, 2012)

............................................................................................................................................................................ 157

Obrázek 83 Příklady experimentálních vizualizací a jejich zařazení do klasifikační matice (Kubíček, 2012,

upravil podle Aipperspach, 2006). ...................................................................................................................... 159

Obrázek 84 Ukázka využití vizualizačního prostoru - původní vizualizace využívající umístění znaku a jeho

rozostření (pro nejistotu) lze modifikovat pomocí proměnných umístění (a), odstín (b), směr (c), velikost (c)

(Kubíček, 2012, upravil podle Aipperspach, 2006). ........................................................................................... 160

Obrázek 85 Ukázka kvalitativní škály pro vyjádření jednotlivých prvků kvality datových sad (Kubíček, 2012)

............................................................................................................................................................................ 161

Obrázek 86 Ukázka vizualizace nejistoty metadat pro jednotlivé ukazatele kvality na úrovni mapových listů

(Kubíček, 2012, upravil podle Drecki a Maciejewska, 2005). ............................................................................ 161

Obrázek 87 Příklady vizualizace celkové nejistoty pomocí globální vizuální indikátor nejistoty (G-VisUl). Vlevo

konzervativní přístup, vpravo liberální přístup (Kubíček, 2012, upravil podle Drecki a Maciejewska, 2005). .. 162

Obrázek 88 Ukázka vizualizace Limity a Měřítko (Kubíček, 2012, upravil podle Hope a Hunter, 2007) ......... 167

Obrázek 89 Ukázka vizualizace Pravděpodobnost a Postupná vizualizace (Kubíček, 2012, upravil podle Hope a

Hunter, 2007) ...................................................................................................................................................... 167

Obrázek 90 Ukázka postupné vizualizace s očekávanou odpovědí c)Stejná možnost výskytu v obou zónách

(Kubíček, 2012, upravil podle Hope a Hunter, 2007). ........................................................................................ 169

Obrázek 91 Dvě metody vizualizace nejistoty (vlevo hranicí s měřítkem, vpravo kořenovou zeleninu (Kubíček,

2012) ................................................................................................................................................................... 170

Obrázek 92 Dva typy vizualizace hranic parcel při 2. pokusu (Kubíček, 2012) ................................................. 171

Obrázek 93 Aplikovaná vizualizace nejistoty: a) srovnávací mapy, b) kombinované mapy za využití vnějších

grafických proměnných (hustota bodů), c) kombinované mapy za využití vnitřních grafických proměnných

(barevný odstín) (Kubíček, 2012, upravil podle Kunz, 2011). ............................................................................ 177

1 Úvod

Cílem kapitoly je vysvětlit nezbytnost přítomnosti neurčitosti v reprezentaci

reálného světa a při rozhodování a motivovat čtenáře pro studium výskytu, forem

a chování neurčitosti, zejména v geoinformatice.

Stručný obsah kapitoly:

Vysvětlení nepostižitelnosti reálného světa a významu modelování

Nutnost zjednodušování a tím i růst neurčitosti

Význam neurčitosti

Získáte znalosti o:

východiscích modelování

základním principu rozhodování

významu neurčitosti

Budete umět:

vnímat existenci a všudypřítomnost neurčitosti.

Chápat omezenost reprezentace světa, modelování a rozhodování

Budete schopni:

Vyhnout se chybným závěrům při rozhodování

Času potřebný na nastudování kapitoly – 30 minut.

Imagination is more important than knowledge: for knowledge is limited to what we know and

understand while imagination embraces the entire world and all that ever will be known and

understood. Albert Einstein (Caers, 2011).

Předmětem zájmu geoinformatiky je reálný svět, prostředí, ve kterém žijeme, které se snažíme

pochopit a ovlivňovat ke svému prospěchu.

Reálný svět je pro nás jako celek komplexní, ovlivňovaný a formovaný řadou procesů, které

dosud chápeme jen částečně nebo o jejich existenci dosud vůbec nevíme. Je ovlivňovaný

existencí a činností organismů-jedinců, které působí nejen na prostředí, ale i na sebe navzájem

a tím komplikují pochopitelnost jejich vlivu. Navíc je svět dynamický, současný stav je

výsledkem minulých jevů, takže je svým způsobem jedinečný a neopakovatelný.

Dynamičnost světa také způsobuje, že ve chvíli, kdy zjistíme nějakou informaci o něm, se tato

informace stává zastaralou, protože ve světě dochází k neustálým změnám.

Dudek (1999) to charakterizuje následovně: „Dosavadní vědecký výzkum, který si kladl za cíl

podat přesný obraz okolního světa, ukázal, že takový cíl je nedosažitelný a absolutní poznání

neexistuje. Všechny informace jsou neúplné a hranice poznání před námi jakoby ustupuje

a vyzývá k dalšímu hledání a zkoumání, poznávání nových zákonitostí. Protože svět není

možno chápat jako neměnný a naše poznání určité reality či zákonitosti ztrácí svou absolutní

platnost v tom okamžiku, kdy k tomuto poznání dochází. Tato poznaná realita či zákonitost

tedy nemůže být popsána s naprostou jistotou, tedy s nulovou tolerancí. Princip tolerance

neurčitosti, původně definovaný v oblasti kvantové fyziky, kde vymezil oblast neurčitosti

kvantem, přinesl poznání, že veškeré vědění má své meze a že se naše poznání pohybuje

v mezích určité tolerance.“

Je možné shrnout, že reálný svět je pro nás poznatelný a pochopitelný jen zčásti a

informace, které jsme schopni o něm získat, nejsou dokonalé.

Informace o prostředí člověk získává prostřednictvím svých senzorů (smyslů) a ty se

pochopitelně vytvářely podle jeho potřeb a s důrazem na ty jevy reálného světa, které jsou pro

člověka důležité.

Jako příklad nám může posloužit zrakový orgán. Z celého spektra elektromagnetického záření

vnímáme prostřednictvím zraku úzkou část o vlnových délkách 0.38-0.72 μm, která se

v důsledku toho označuje jako viditelné záření. Proč tomu tak je? Právě v této části spektra

Slunce vysílá nejvíce energie a současně dochází k minimální absorpci v atmosféře, takže je

tato část záření na zemském povrchu nejlépe organismy využitelná, proto se světlocitlivé

skvrny a později zrakové orgány specializovaly na ni. Pokud v našem světě organismy běžně

neohrožuje mikrovlnné nebo radioaktivní záření (protože se vyskytuje zpravidla jen v malém

množství), nebyl důvod k tomu, aby se pro jejich registraci vyvinul potřebný senzorický

systém.

Každý senzor, pomocí kterého získáváme informace, má jistá omezení. Na základě teorie

signálů víme, že k základním charakteristikám patří kvantifikace a vzorkování signálu.

Kvantifikaci můžeme chápat jako schopnost rozlišit jednotlivé úrovně signálu („hodnoty“

signálu), zatímco vzorkování nám vyjadřuje jeho časové rozlišení, tedy frekvenci odečítání

hodnot. To je však jen pro případ jednorozměrného signálu (dimenzí je čas); v případě

prostorových signálů potřebujeme specifikovat vzorkování v prostoru, tj. prostorové rozlišení.

V případě lidského zraku kvantifikací můžeme rozumět např. počet odstínů, které jsme

schopni v obraze rozlišit, vzorkováním pak běžně udávaný interval 0.1 sekundy, po které

zůstává obraz v našem mozku zafixován (setrvačnost lidského zraku). Senzorické možnosti

člověka jsou v moderním světě výrazně rozšiřovány pomocí umělých prostředků (např. pro

registraci jiných vlnových délek, či podrobnější registraci viditelného záření). Přesto se

nemůžeme domnívat, že jsme schopni i v této jediné oblasti dokonale poznat prostředí.

Vlastnosti jednotlivých senzorů (obecněji informačních kanálů), pomocí kterých získáváme

informace, jsou proto důležité a při zpracovávání informací o světě s nimi musíme umět

pracovat. Informace, které získáváme, se snažíme vnímat, pochopit a často také ukládat (pro

pozdější chápání). I zde pochopitelně platí podpora přirozených nástrojů a procesů pomocí

umělých doplňků, které označujeme jako informační technologie. Všechny tyto procesy (ať

již přírodní či umělé) mají svá omezení a své význačné charakteristiky.

Z toho všeho vyplývá, že naše možnosti poznání jsou velmi omezené a ovlivňované řadou

faktorů. Svět je proto pro nás převážně neurčitý, pouze malé části jsou pro nás určité (resp. se

o nich domníváme, že jsou určité), tj. pochopitelné (ne nutně pochopené).

Jednou z možností, jak racionálně porozumět reálnému světu, je vytváření modelů (proces

modelování). Model může být odrazem reality, může zachytit vybrané rysy světa, resp. jevů,

které jsme dokázali zjistit a pochopit na takové úrovni, že informaci o nich dokážeme sdílet

a ukládat. Pokud model reprezentuje část reality, je nutně jeho zjednodušením. Model je také

nutně subjektivní, protože my sami rozhodujeme o jeho formě a poznatcích, které v něm jsou

využity. Navíc, každý člověk vnímá realitu jinak, proto je obtížně postihnout realitu jedním,

všeobecně akceptovatelným způsobem (Longley et al. 2005). Model také vzniká pro určitý

účel, podle něj se volí metody a sledované jevy, proto je účelový. Není možné vytvořit

univerzální model.

Každý model a každé modelování by proto nutně mělo být doprovázeno informací

o uplatněných formách zjednodušení, subjektivismu a účelovosti.

Je nemožné dosáhnout perfektní reprezentace světa, neurčitost ve vnímání a pochopení světa

je nevyhnutelná. Absolutně přesné mohou být pouze abstraktní matematické poznatky

odvozené z jednoznačných axionů a definic (Brus, 2013). Zpravidla je vnitřní komplexnost

a podrobnost světa taková, že je nemožné zachytit každý jednotlivý detail (každou plošku)

v každém možném měřítku ve formě digitální reprezentace (Longley et al. 2005).

K vysvětlení principu vnitřní komplexnosti světa a jeho nelineárního charakteru se používají

fraktály, resp. teorie dynamického chaosu (Lampart et al., 2013).

Informace o světě formalizujeme do podoby geodat. Nemůžeme si být jisti, zda jsou geodata

kompletní, aktuální, dostatečně přesná. Neurčitost je ve všech složkách popisu geoprvků, tj.

geometrické, atributové, časové, funkční, vztahové. Je nezbytné si uvědomit, že pracujeme

s neurčitými geodaty, dokázat tuto neurčitost měřit a hodnotit, naučit se vyjádřit, nakolik jsou

získané výsledky práce s geodaty správné a důvěryhodné.

Stejně tak se neurčitost projevuje i v procesu zpracování geodat, jejich prezentaci

a interpretaci.

Pokud je tedy cílem příslušného informačního systému podpora rozhodování, je nutné

zvažovat, jak neurčitost ovlivní výsledek, informační produkt, který bude použit pro

rozhodování, a jaký dopad může mít toto rozhodnutí (ekonomický, společenský, zdravotní,

environmentální atd.).

Tradiční modely rozhodování vycházejí z principů dokonalých znalostí (poznání) a jistoty

a předpokládají optimální množství informací, tedy ani nedostatek, ani nadbytek informací

(Dudek, 1999). Za těchto předpokladů má každé rozhodnutí pouze jeden důsledek a ten je

předem znám. Můžeme usuzovat, že kdybychom znali všechny podněty, vlivy, příčiny

působící na daný jev nebo proces a jejich sílu, směr působení a jejich vzájemné interakce,

dokázali bychom predikovat jistý výsledek jako následek jejich působení. Tento předpoklad je

však nesplnitelný. Ve skutečnosti většina rozhodnutí probíhá v podmínkách nejistoty

a nedokonalých znalostí, kdy má rozhodnutí více možných důsledků a není předem známo,

který z těchto důsledků nastane. Tato nejistota je důsledkem, jak již bylo řečeno, naší

částečnou nebo úplnou neznalostí procesů (vlivů), které podmiňují určité události a jejich

náhodný charakter (Dudek, 1999). K lepšímu poznání oblasti neurčitosti velkého množství

informací získaných cestou výběrového šetření a ocenění jejich spolehlivosti, slouží pak

statistická inference, umožňující transformovat výsledky výběrových šetření zpět do

základního souboru (Dudek, 1999). Není, a ani nemůže být, jediným nástrojem pro poznání

neurčitosti.

V geografických informačních systémech (GIS) se stále více prosazuje tzv. měkké (soft)

rozhodování na rozdíl od tradičního booleovského (hard) rozhodování. Např. na místo

rozhodnutí, zda oblast je či není ohrožena půdní erozí, poskytujeme pravděpodobnost, s jakou

je celá oblast (či její části) ohrožena. To umožňuje přijmout finální rozhodnutí na základě

úrovně rizika, kterou jsme ochotni akceptovat. Např. rozhodneme o vyslání týmu

zemědělských odborníků na návštěvu oblastí, kde je pravděpodobnost půdní eroze větší než

70%. Nebo se úroveň akceptovatelného rizika upraví podle finanční částky, kterou jsme na

řešení ochotni vynaložit.

Zavádění měkkých rozhodovacích pravidel vyžaduje rozvoj schopnosti řídit neurčitost v GIS.

Vyžaduje datové struktury vhodné k nesení informací o neurčitosti a revizi existujících

postupů pro ocenění a šíření chyb či jiných forem neurčitosti, a pro jejich vizualizaci.

Dalším novým fenoménem spojeným s neurčitostí, jsou podle Kubíčka (2012) nové zdroje

dat, vytvářené společně „veřejností“ (participativní mapování, volunteered geographic

information VGI). Goodchild (2008, in Kubíček 2012) parafrázoval termín Web 2.0 a zavedl

název „Spatial Accuracy 2.0“. Poukazuje na koncept vzniku „mash up“ a zapojení široké

veřejnosti nejenom do využití, ale také do samotné tvorby geografických dat a s tím

související potřebou popsat kvalitu a nejistotu takto vzniklých dat. Taková data často

umožňují opětovné změny dat založené na kolektivní inteligenci (crowdsourcing), která

vychází z principu, že informace získaná pomocí skupinového konsensu má vyšší kvalitu, než

informace poskytnutá jednotlivcem.

Význam neurčitosti spočívá především v:

1. Lepší pochopení reality, jejího skutečného významu, „pravdy“ ve vědeckém bádání

2. Umožňuje ochranu při sporech. Nejisté výsledky mají být prezentovány jako nejisté

s vyjádřením míry nejistoty. Tím se předejde špatnému použití a interpretaci, následně

i možným sporům.

3. Podpora rozhodování - rozhodování provedené nad výsledkem modelování nějakého

jevu. Kromě toho ale také rozhodování, zda nepotřebujeme další, či detailnější data

pro model, nebo přesnější popis modelu (v důsledku přesnější podklad pro

rozhodování). Rozhodování nad výsledkem modelování s popsanou nejistotou vede ke

zvýšení pravděpodobnosti správného rozhodnutí.

Závěrem je nutné zdůraznit, že problematika neurčitosti v geoinformatice se dotýká všech:

producentů dat, výrobců a prodejců programového i technického vybavení, a v neposlední

řadě uživatelů.

Shrnutí:

Reálný svět je pro nás jako celek komplexní, je pro nás poznatelný a pochopitelný

jen zčásti. Informace o něm nejsou dokonalé. Model je zjednodušenou, subjektivní

a účelovou reprezentací světa. Rozhodování vždy obsahuje neurčitost, proto je

výhodné „soft“ rozhodování. Význam neurčitosti je v lepším pochopení reality,

podpoře rozhodování a ochraně při sporech.

Kontrolní otázky: 1) Proč není možné vytvořit dokonalou reprezentaci světa, jeho digitální

kopii?

2) Co znamená „soft“ rozhodování?

3) V čem spočívá význam neurčitosti?

2 Neurčitost – základní vymezení a rozdělení

Cílem kapitoly je vysvětlit různé pohledy na neurčitosti, její příčiny a projevy

zejména v oblasti geoinformatiky, provést základní rozdělení neurčitosti a

podrobně popsat a vysvětlit její základní typy, zejména forem spojených s daty.


Definice a různé pojetí neurčitosti

Zdroje neurčitosti

Základní rozdělení neurčitosti na nepřesnost, nejednoznačnost a vágnost

Vysvětlení jiných přístupů a klasifikací neurčitosti

Vysvětlení precision, accuracy, vágnosti, nejednoznačnosti


základních typech neurčitosti a jejich projevech

principiálních příčinách neurčitosti

různorodosti vědeckých přístupů k této problematice a odlišnostech pojetí

Budete umět:

rozlišovat formy neurčitosti

chápat příčiny neurčitosti

vztahy a podmíněnost mezi jednotlivými formami a třídami neurčitosti

Budete schopni:

rozpoznat přítomnost různých forem neurčitosti ve vámi řešeném

problému

navrhnout vhodná protiopatření

ocenit dopad neurčitosti na výsledek

Času potřebný na nastudování kapitoly – 2 hodiny

Je příznačné, že koncept neurčitosti, její definice a strukturování (rozklad) na složky je

přinejmenším tak neurčitý, jako neurčitost sama. Různí autoři používají odlišné přístupy i ve

vymezení základních pojmů, které se týkají neurčitosti či nejistoty.

Neurčitost je intuitivně vnímána jako širší koncept než nejistota. Pokud hovoříme o nějakém

tvrzení, že je neurčité/určité, poskytuje to širší prostor pro interpretaci, než prohlášení, že

tvrzení je nejisté/jisté. Podle Bruse (2013) je neurčitost převážně spojována s nepoznáním,

zatímco nejistota spíše s náhodností podmínek či výsledků určitých procesů a jevů. Přesto

v tomto textu budou používány oba pojmy jako synonyma.

Caers (2011) vysvětluje, že neurčitost (uncertainty) je způsobena neúplným

porozuměním toho, co chceme kvantifikovat. Upozorňuje, že kvantifikace neurčitosti není

triviální.

Neexistuje žádná „správná“ neurčitost, jinými slovy nikdy nebudeme vědět, zda námi

použitá kvantifikace neurčitosti je nejlepší možná, ba dokonce ani to, zda je korektní.

Existence správné neurčitosti by totiž znamenala perfektně poznat daný jev, což byla ale

automaticky zrušilo naši potřebu hodnocení (kvantifikace) neurčitosti, protože by byl jev

dokonale poznán bez neurčitosti.

Neurčitost nemůže být objektivně měřena. Důvodem je to, že ji zkoumáme prostřednictvím

modelu, o kterém jsme již prohlásili, že je subjektivní. Každé hodnocení neurčitosti je

založeno na určitém modelu a každý model vyžaduje implicitní nebo explicitní předpoklady,

výběry dat, kalibraci modelu apod., které jsou nutně subjektivní (Caers, 2011).

Za kvalitní informaci lze považovat pouze takovou, která užitečná a použitelná pro svého

„spotřebitele“, tj. je přesná, důvěryhodná a dostatečná pro rozhodování uživatele. Do procesu

tak vstupují tacitní a explicitní znalosti a zkušenosti původce a příjemce informace, proto je

zajímavé uvažovat také o efektivní kvalitě informací – skutečné užitečnosti, kdy důležitým

faktorem jsou samotné schopnosti uživatele. Pro uživatele, kteří nemají dostatečné schopnosti,

nebude informace kvalitní (užitečná), ale naopak může kvalita prezentované informace

dokonce poklesnout. Tuto skutečnost také odráží běžně používané definice kvality „vhodnost

pro použití“ (Beard et al., 1991, Hunter 1999, Chrisman, 1984, in Brus, 2013).

Nejistotu lze definovat podle Kubíčka (2012) jako skepticizmus, nedůvěra, podezření či

nedostatek jistoty o něčem. Může také vyjadřovat chybějící jistoty či chybějící ucelenou

znalost o výsledku (Abbaspour a kol. 2003) či nekompletní znalost, která neumožňuje exaktní

vyjádření (Foody a Atkinson, 2002, in Caha, 2013). To však ukazuje na význam nejistoty jen

při kritickém přístupu k hodnocení, navíc má vyjádření negativní charakter, přestože

neurčitost by měla mít neutrální vyjádření.

Nejistota ve vědeckém vyjádření se používá k vyjádření faktu, že jistá míra variability,

neurčitosti, nejasnosti či náhodnosti dat a procesů je zcela přirozená (Drosg, 2007, in Caha,

2013).

Jaké jsou zdroje neurčitosti? Podle Caers (2011):

Náhodnost procesů. Jednotlivé procesy mohou být vnitřně náhodné, mohou vykazovat

chaotické chování. Poměrně populární je obrazné vyjádření tzv. efektu motýlích

křídel, kdy mírné mávnutí křídel motýla nad pobřežím západní Afriky může způsobit

velký hurikán, který zasáhne USA. To ukazuje na možnou extrémní podobu

chaotického chování a zejména vlivu drobných faktorů na následující rozvoj

nelineárních systémů, které způsobuje jejich omezenou predikovatelnost. Týká se to

jak přírodních, tak i společenských jevů (např. při studiu lidského chování, sociální či

kulturních tendencí nebo technologických pokroků).

Omezení porozumění. Problém se týká jak tvůrce modelu, tak uživatele jeho výsledků.

„Přibližně víme“ (we roughly know). Typicky zde řadíme chyby měření. Každé

měření či zjištění je zatíženo určitou chybou (nejistotou). Principiálně je tu možné

vidět vazbu na problém kvantifikace signálu.

„Mohli bychom vědět“ (we could have known). Málokdy jsme schopni jev proměřit

v celém rozsahu – prostorovém i časovém. Používáme měření/zjištění na vybraných

místech a ve vybraném čase, což odpovídá vzorkování. Použité vzorkování vede

k neurčitosti tohoto druhu. Mohli bychom vědět více – pokud zvýšíme frekvenci

vzorkování (v případě náhodnosti procesů to ale nepomůže).

„Nevíme, co víme“ (we do not know what we know). Různé datové sady či

pozorování mohou být interpretovány odlišně jinými lidmi a to poskytuje široké

spektrum závěrů.

„Nevíme, co nevíme“ (we do not know what we do not know). Tato neurčitost se váže

ke skutečnosti, že o některých existujících či možných jevech a procesech nevíme, ani

si je neumíme představit. Logicky proto o nich nemůžeme nic zjišťovat. Tato

neurčitost se označuje jako epistémická neurčitost.

„Nemůžeme vědět“ (we cannot know). Neurčitost spojená s faktem, že některé jevy

nemůžeme měřit z důvodu jejich podstaty či vzdálenosti. Jako příklad se uvádí

vlastnosti vnitřního jádra Země.

K lepšímu pochopení je možné uvést příklady.

Při práci s geodaty je možno se setkat s následujícími informacemi (Růžičková, 2013):

1. Zobrazený objekt je budova, obsah dusíku v půdě je xxx g/m3, koncentrace NOx ve

vzduchu nad xxx způsobuje xxx.

2. Budova je vysoká, kontaminace půdy dusičnany není kritická, zvýšený obsah

dusičnanů v ovzduší při dlouhodobém působení na lidský organismus způsobuje

respirační problémy.

3. Budova má výšku asi 10 m, obsah dusíku v půdě se pohybuje okolo xxx g/m3,

koncentrace NOx ve vzduchu nad cca xxx je škodlivá.

4. Budova je asi vysoká, kontaminace půdy dusičnany nejspíš není vysoká, vyšší

kontaminace vzduchu NOx je pravděpodobně škodlivá.

První tvrzení žádnou neurčitost zdánlivě neobsahuje. Přesto se zde skrývá nejednoznačnost

v tom, co chápeme pod pojmem budova, půda, vzduch.

Druhé tvrzení používá vágní pojem „vysoká“. Není specifikováno, od jaké výšky jsou už

budovy „vysoké“ a jaké ještě jsou „nízké“. Podobně vágní jsou pojmy „zvýšený“,

„dlouhodobý“.

Ve třetím tvrzení se objevuje nejistota vyjádřená slovy „asi“, „okolo“. Neznáme přesnou

výšku budovy a odhadujeme, že je přibližně 10 m.

Ve čtvrtém tvrzení se pak objevuje kombinace všech výše uvedených neurčitostí.

Dodejme, že každá z neurčitostí je ovlivňována i subjektivním posouzením toho, kdo

příslušný výrok a jeho části posuzuje - tedy jaký je jeho názor na to, co je „vysoká“ budova,

jaký rozptyl mají mít hodnoty „okolo“ určité hodnoty, jak on chápe objekt „půda“.

Je zřejmé, že některá označení mají mnohem menší neurčitost než jiná. Výrok „nadmořská

výška Sněžky je 1603 m.n.m“ ponechává výrazně menší prostor pro různorodou interpretaci

(a je tedy mnohem méně neurčitý) než výrok „lidé v Horní Lhotě jsou šťastní“.

Další příklad zkoumá neurčitost vymezení hranice přírodní rezervace. Vyhláška, která hranici

definuje, stanovuje, že např. hranice rezervace sleduje silnici č. 222 až k železnici a dále

sleduje železnici až k mostu přes řeku Odru. Jenže kde přesně vede hranice na silnici či na

kolejovém tělese? Lze to vůbec určit správně? S jakou přesností, ±5 m? Tento typ hranice

není geometricky vymezen, ale je typem logického a topologického vymezení. Logického ve

smyslu navázání hranice na reálné objekty, které skutečně omezují (ve smyslu fyzické

bariéry) chráněné území, protože brání migraci a do určité míry chrání před některými

vnějšími vlivy a omezují v pohybu. Silniční těleso, železniční těleso či řeka budou jistým

způsobem omezovat migraci organismů, zejména některých nižších živočichů. Topologického

ve smyslu charakteru této hranice – pokud se změní průběh řeky (v důsledku vodní eroze či

regulace koryta), musí se změnit i hranice rezervace, nelze ji posunout na druhou stranu řeky,

i když se tím změní výměra, tvar a další geometrické atributy. Současně se tím mohou měnit

i vlastnické vztahy, protože parcely nejsou vymezovány topologicky vůči přírodním prvkům.

Podle Longley et al. (2005) se liší geoinformatika (GIscience) od ostatních oborů tím, že

zpravidla chybí přirozené jednotky analýzy.

Jaký je prostorový rozsah akumulace vysoké nezaměstnanosti? Nebo shluku případů

rakoviny? Vnímáme problém, jak vymezit hranice takové akumulace a rovněž, jak hodnotit

intenzitu uvnitř této akumulace.

Pokud máme více proměnných než jen jednu, je problém o to složitější.

Další typ problému se týká vztahů mezi jednotkami, resp. měřítka zkoumání tohoto vztahu.

V jakém měřítku zkoumat vztah mezi radiací pozadí a výskytem leukémie? Určitě je to

individuální charakteristika, proto by měla být zjišťována pro konkrétní osoby, aby se

zabránilo ekologické chybě. Následně ji ale musíme agregovat z důvodu ochrany údajů

a rovněž pro eliminaci nahodilostí v projevu vztahu a získání statisticky významných údajů.

Podobně se můžeme ptát, při jakém měřítku (resp. pro jaké územní jednotky) ocenit vztah

mezi kvalifikací pracovní síly a mírou nezaměstnanosti.

Longley et al. (2005) upozorňuje, že biologické organismy mají více zjevné přirozené

jednotky analýzy, protože přirozeně seskupují jedince do rodin, do smeček.

Typické otázky spojené s neurčitostí v GIS jsou podle Longley et al. (2005):

Jsou hranice zóny ostré a dobře definované?

Je zařazení příslušného území do zvolené třídy dostatečně robustní a zdůvodněné?

Tyto otázky mají své implikace (dopady):

statistické implikace - jaké konfidenční intervaly zvolit pro stanovené hranice resp.

pro přiřazenou hodnotu třídy?

kartografické implikace - jak vyjádřit neurčitost průběhu hranic nebo přidělených

označení pomocí vhodných symbolů na mapách či v elektronické reprezentaci?

kognitivní implikace - musíme skutečně vše třídit, abychom více zjednodušili a lépe

pochopili svět?

Jedním ze zásadních důvodů, proč je jednodušší zahrnout nejistotu dat do modelu, než se ji

snažit odstranit, je tzv. princip inkompatability (Zadeh 1975, in Caha, 2011). Ten říká, že

roste-li složitost systému, klesá schopnost formulovat přesné a významné soudy o jeho

chování, až do takového bodu, kdy jsou přesnost a relevantnost vzájemně se vylučující

charakteristiky. Na základě toho principu lze vyvodit tvrzení: Abychom mohli s relevantním

objemem dat vymezit prostorový objekt, musíme připustit jistou nepřesnost v jeho vymezení.

Míra této nepřesnosti bude záviset na množství dat, které o daném objektu máme a dále také

na tom, jak je daný objekt vágní ze svojí podstaty (Caha, 2011).

2.1 Základní rozdělení

Variant rozdělení neurčitosti je celá řada a výrazně to souvisí s definicí jednotlivých typů

neurčitosti. Pro základní rozdělení použijeme klasifikaci podle Shi (2010), kde se neurčitost

(uncertainty) dělí na nepřesnost (imprecision), nejednoznačnost (ambiguity) a vágnost

(vagueness):

nepřesnost (imprecision) – je nedostatek specifičnosti nebo nedostatek detailu při

pozorování (Worboys, Duckham 2004). Týká se úrovně variací, spojených se sadou

měření nebo s nedostatkem přesnosti kvality (quality precision) (Shi 2010). Pro její

hodnocení se užívá teorie pravděpodobnosti a statistika. Nepřesnost je měřitelná. Je to

něco, co vzdaluje naměřenou hodnotu od hodnoty správné. Je třeba odlišit vnitřní

(aleatorní) nepřesnost a nepřesnost poznání (epistémickou). Epistemická nepřesnost je

způsobena limitami měřícího zařízení nebo lidské schopnosti percepce, zpracování či

nedostatkem dat k posouzení (Kubíček 2012).

Většinou zde řadíme chyby (nepřesnosti) v datech, jako jsou např.:

Chyby v poloze objektu – chyby měření polohy.

Chyby v kvantitativních atributech – chyby změřené teploty, srážek, průtoku,

obsahu ozónu apod.

Chyby v kvalitativních atributech – chyby určení vlastníka parcely, určení typu

budovy, druhu pozorovaného zvířete apod.

Méně často můžeme vyjádřit i nepřesnosti ve vztazích. Např. přesnost vztahu

popisovaného regresní závislostí, který byl získán proložením regresní funkce body, závisí

na počtu bodů a míře korelace (či asociace); čím vyšší je počet bodů (promítá se do

významnosti vztahu) a čím vyšší je míra korelace, tím přesnější je uvedený vztah.

nejednoznačnost (ambiguity) – týká se buď 1 nebo více vztahů nebo nedostatku jasnosti,

který implikuje 1 nebo více významů. Např. problém, do které třídy zařadit objekt

(u družicových snímků). Podle Fisher et al. (2006) lze rozlišit 2 základní typy

nejednoznačnosti – konflikt a nespecifičnost (viz dále). Popisuje se pomocí např. měr

konfliktu (discordance measures), měr zmatení (confusion measures), měr nespecifičnosti

(nonspecifity measures). Můžeme rovněž rozlišit lingvistickou (sémantickou)

nejednoznačnost a ontologickou (konceptuální) nejednoznačnost.

vágnost (vagueness) – neurčitost ve vymezení objektů (jejich ohraničení i v klasifikaci)

podle Longley et al. (2005) nebo nedostatek jasnosti ve významu (Shi 2010). Běžně je

spojen s obtížemi udělat ostrou hranici (rozlišení) u objektu reálného světa. Pro řešení se

používá teorie fuzzy množin. Protikladem k vágně vymezeným množinám jsou ostré

množiny (crisp), které mají ostré hranice, resp. její prvek buď jasně patří do množiny nebo

nepatří (Worboys, Duckham 2004). Je možné rozlišit ontologickou vágnost, epistemickou

vágnost a sémantickou (lingvistickou) vágnost.

S trochou nadsázky lze tedy říci, že pravděpodobnost nám odpovídá na otázku, zda „něco

nastane“, „zda je něco správně“, či nakolik je správný vztah příčina-důsledek, zatímco teorie

fuzzy množin nám odpovídá na otázku „co vlastně nastalo“.

Podle Nováka (2000) má neurčitost (nejméně) dvě vzájemně komplementární stránky -

vágnost a nejistotu. Ne všichni ale vymezují neurčitost a zpravidla vágnost je řazena až jako

jeden z aspektů nejistoty. To ovšem souvisí s jejich definicemi.

Podle Murgante et al. (2009) a Fishera et al. (2006) je třeba rozlišit dobře definované (well-

defined) a slabě definované (poor-defined) geografické objekty a jejich data.

Podle Murgante et al. (2009) se prostorová data dobře definovaných objektů zpracovávají

s využitím teorie pravděpodobnosti a/nebo pomocí multikriteriální analýzy (MCE). U slabě

definovaných objektů rozlišuje:

nejednoznačnost (ambiguity), u nichž uvádí jako podtyp pouze konflikt (diskordanci,

discordance) (srovnej dělení Fishera),

nepřesnost (inaccuracy), jejímž podtypem je chyba (error), a

vágnost (vagueness), kterou je možné řešit pomocí 3 přístupů:

o funkce členství a s tím spojená teorie fuzzy množin

o teorie vaječného žloutku (egg-yolk theory)

o nerozlišitelnost (indiscernibility) řešenou pomocí teorie hrubých množin

(rough set theory)

Obrázek 1 Rozdělení typů neurčitosti a způsobů řešení dle Murgante et al. (2009)

Vysvětlivky: spatial information –prostorová informace, under uncertainty – za neurčitostí, well-defined data –

dobře definovaná data, probability – pravděpodobnost, M.C.E. – multikriteriální hodnocení, poorly defined data

– špatně definovaná data, ambiguity – nejednoznačnost, diskordance – nesoulad, innacuracy – nepřesnost, error

– chyba, vagueness – vágnost, membership function – funkce příslušnosti, fuziness – mlhavost, egg-yolk theory

– teorie vaječného žloutku, indiscernibility – nerozlišitelnost, rough set – hrubé množiny

Je třeba podotknout, že v obr. 1 vyznačené rozhodování za určitosti je spíše hypotetické,

protože jde zpravidla jen o projev zanedbání všech vlivů ve zjednodušeném modelu. Dokonce

lze říci, že konkrétní data vždy zpravidla „trpí“ všemi typy neurčitosti.

Další dělení popisují Fisher et al. (2006) (obr. 2). V případě dobře definovaných objektů (jak

třída objektů, tak i jednotlivý výskyt objektu) a současně v situaci, kdy pozorování jsou

považována za objektivní, jsou zdrojem neurčitosti chyby a povaha neurčitosti je

pravděpodobnostní.

Pokud je třída objektů nebo samotný objekt slabě definován (poorly defined), potom je možné

rozlišit následující typy neurčitosti (Fisher et al., 2006):

Pokud je neurčitost způsobena slabou definicí třídy objektů nebo instance objektu,

potom je definice třídy nebo množiny v univerzu diskurzu předmětem vágnosti

(vagueness). Tu je možné řešit s pomocí teorie množin nebo jiných formalismů jako je

např. super-hodnocení (super-valuation).

Neurčitost může být dále způsobena nejednoznačností (ambiguity), kterou se rozumí

zmatení (confusion) v definici množiny v univerzu diskurzu. Podle Klir, Yuan (1995,

in Fisher et al., 2006) má 2 formy:

o Konflikt (discord) v případě, kdy je sice objekt či jedinec jasně definován, ale

ukazuje se, že může být členem více než 1 třídy podle různých klasifikačních

schémat či interpretace důkazů. Mluvíme o konfliktu klasifikačního schématu

informace. S konfliktem se pracuje pomocí sémantiky a ontologií, řešení se

získává na základě porozumění sémantice klasifikačních schémat (expertní

řešení) a může být formalizováno pomocí metod umělé inteligence, včetně

Dempster-Shaferovy teorie.

o Nespecifičnost (non-specificity) v situaci, kdy je proces přiřazení objektu do

třídy závislý na interpretaci. I v tomto případě se pro řešení používá řada

metod umělé inteligence, včetně schvalovací teorie (endorsement theory), ale

lze použít i teorii fuzzy množin.

Obrázek 2 Rozdělení typů neurčitosti a způsobů řešení dle Fisher et al. (2006).

Vysvětlivky: uncertainty – neurčitost, well-defined object – dobře definovaný objekt, error – chyba, probability

– pravděpodobnost, poorly defined object – špatně definovaný objekt, vagueness – vágnost, fuzzy set theory –

teorie mlhavých množin, ambiguity – nejednoznačnost, discord – rozpor, expert opinion – expertní názor,

Dempster-Schafer - Dempster-Schaferova teorie, non-specifity – nespecifičnost, endorsement theory –

schvalovací teorie

V souvislosti s krizovými jevy člení Říha a kol. (2005, in Kubíček 2012) nejistotu do dvou

základních kategorií:

Inherentní nejistota (aleatorní) – termín inherence označuje vnitřní příslušnost,

sounáležitost vlastností a jejich nositele. Inherentní má pak významy jako „obsažený

v něčem, lpící v něčem“. Slovo aleatorní, které se často vyskytuje v zahraniční

anglicky psané literatuře, pak vyjadřuje spojitost s náhodou. Inherentní nejistotu

nejsme schopni do budoucna ovlivňovat, protože je plně spjata s nahodilostí okolního

reálného světa. Inherentní nejistoty se mohou vyskytovat v prostoru, v čase, případně

v obojím (Kubíček 2012).

Jde o vnitřní variabilitu, vnitřní nejistotu. Jejím důsledkem je, že ani zvýšení množství

pozorování (dodatečná měření) nevedou k přesnější reprezentaci.

Tato nejistota se nejvíce promítá do „nepřesnosti“. Nahodilost objektů a jevů se

projeví především v chybě při opakování měření (či při měření v těsné blízkosti, kde

se projevuje efekt zbytkového rozptylu, nugget effect, viz Horák, 2013b), tedy musí

dojít ke zvýšení nepřesnosti.

Tato nejistota často souvisí i s ontologickou vágností, tedy s problémy konceptuálně

vymezit objekty a jevy, kdy vzniká více různorodých tříd, s vyšší vnitřní

heterogenitou.

Nejistota poznání (epistémická) – pochází z nedostatku znalostí událostí nebo jevů,

nebo z nedostatku dat, ze kterých jsou vyvozovány závěry. Lze předpokládat, že tato

nejistota se bude v budoucnu snižovat na základě kvalitnějších podkladů nebo nových

poznatků (Kubíček 2012).

Lze ji chápat jako nejistotu reprezentace. Očekává se monotónní charakter poznání,

kdy dalším přidáním dat se snižuje nejistota.

Zdrojem nejistoty poznání může být nejistota modelu (numerická či věcná), případně

nejistota ve stanovení vstupních parametrů (Kubíček 2012).

2.1.1 Nepřesnost a přesnost

Přesnost má v angličtině dva významy, precision a accuracy, mezi kterými je nutné rozlišovat.

Precision má blízko k rozlišitelnosti, zatímco accuracy ke správnosti (viz podrobně další

výklad). Rovněž byla zvažována možnost pojmenování relativní přesnost pro precision

a absolutní přesnost pro accuracy. Avšak accuracy se v jistém kontextu dále dělí na absolutní

a relativní, což znemožňuje použití takového pojmenování. Protože autor nenašel vhodný

výraz, rozlišuje nadále oba typy přesnosti pomocí indexu p a a.

Jak už bylo uvedeno, nepřesnostp (imprecision) je chápána jako nedostatek specifičnosti nebo

nedostatek detailu při pozorování (Worboys, Duckham 2004).

Přesnostp (precision) je tedy chápána jako míra podrobnosti, detailu, schopnosti změřit

podrobnější údaje.

Přesnosta (accuracy) je podle Longley et al. (2005) vyjádřena rozdílem mezi realitou a

naší reprezentací reality. Tento rozdíl může vyjádřen různými matematickými vztahy, ale

slůvko „naši“ naznačuje rozdílnost pohledů, které vznikají jako odraz komplexního,

mnohaměřítkového a vnitřně neurčitého světa. Termín říká, jak odpovídající je popis reality.

Pro lepší pochopení lze uvést, že precision popisuje de facto potenciál přesnosti, to, jak

přesně můžeme měřit, jak přesná je naše metoda měření, jak přesný je přístroj. Oproti tomu

accuracy určuje, jak přesně jsme provedli konkrétní zjištění (vůči realitě), jak přesný je náš

„zásah“.

Přesnosta se dříve spojovala s pravděpodobností správného určení (polohy), v zásadě jako

míra korelace mezi realitou a reprezentací.

Worboys, Duckham (2004) vymezuje inaccuracy jako nedostatek korelace mezi pozorováním

a realitou. Upozorňuje, že nepřesnostp (imprecision) a nepřesnosta (inaccuracy) jsou na

sobě nezávislé (ortogonální vlastnosti). Např. „tato kapitola je psána v Evropě“ je akurátní

(bezchybné) prohlášení, ale málo detailní, tedy nepřesné.

Mezi přesnostmi ve smyslu precision a accuracy je zásadní rozdíl (Fisher et al., 2006).

Přesnostp indikuje rozlišení, se kterým můžeme měřit jev s určitým nástrojem nebo metodou.

Současně ale také znamená schopnost získat tutéž hodnotu při opakování daného měření.

Dobrá přesnostp (precision) se projeví nízkou variabilitou hodnot.

Přesnostp může být omezena schopností ukládat podrobnější údaje (data jsou ukládána

s datovým typem, který neumožňuje záznam dat vyšší přesnosti), z toho potom vyplývá chyba

v rozmezí daném hodnotovým rozlišením.

Dobrý příkladem vyjádření přesnostip je běžně používané empirické pravidlo, podle kterého je

přesnostp (precision) akceptovatelná, pokud způsobí chybu menší než 0,1 mm na výsledné

mapě.

Naopak přesnosta (accuracy) souvisí s pravdou (střed na obr. 3) a tím, jak přesně data

reprezentují sledovaný reálný jev (Fisher et al., 2006). Nepřesnosta (inaccuracy) vzniká mimo

jiné chybami měření, a může být spojena se systematickými metodickými problémy, těmi,

které jsou způsobeny nedokonalou povahou metody používané k získání dat, a použitím

nevhodných procedur zpracování digitálních dat (např. použitý číselný rozsah je příliš úzký

pro prováděnou řadu výpočtů, což vede k automatickému ořezávání dat v každém kroku).

Tyto systematické chyby by měly být popsány co nejúplněji v popisu rodokmenu (lineage)

dat, i když je jejich vliv také pozorován v doméně geometrické přesnosti (tj. v jiném prvku

kvality dat) (Fisher et al., 2006).

Přesnosta (accuracy) se dříve popisovala jako pravděpodobnost správného vyjádření (polohy),

odpovídá jí míra korelace mezi realitou a reprezentací.

Připojovací měření polygonem ze známého bodu může mít velkou přesnostp (precision), ale

malou přesnosta (accuracy) - pokud není výchozí bod správně určen, bude i výsledná poloha

bodů připojených polygonem určena vůči realitě nepřesně.

Rozdíl mezi oběma typy přesnosti lze dobře vysvětlit na příkladu střeleckého terče. Pokud

jsou zásahy málo rozptýlené, ale celý shluk posunut výrazně ze středu terče, je to doklad

situace, kdy mluvíme o nízké vnitřní variabilitě a malých náhodných chybách, ale současně

velké absolutní systematické chybě. Výsledné umístění rány získáme skládáním obou chyb

(určitá analogie skládání rozptylu).

Obrázek 3 Srovnání přesnostip a přesnostia (precision and accuracy) (Fisher et al., 2006)

Označení údaje za „přesný“ je třeba chápat jako relativní vyjádření spokojenosti s jeho

určením, v reálném světě zřejmě neexistuje nic absolutně přesného.

Přesnost je měřitelná vlastnost. Pro hodnocení přesnosti se užívá teorie pravděpodobnosti

a statistika.

Je třeba odlišit vnitřní (inherentní) nepřesnost a nepřesnost poznání (epistémickou).

S nepřesnostíp je spojen problém vzorkování (viz teorie signálů).

S nepřesnostíp je rovněž těsně spjata granularita (Worboys, Duckham 2004, s. 333).

Vztahuje se k existenci shluků (clumps) nebo zrn v pozorování nebo reprezentaci, uvnitř

kterých nemůžeme rozlišit individuální detaily. Granularita má vazbu na nerozlišitelnost

(indiscernibility). Nerozlištitelnost říká, že konečná množina prvků je nerozlišitelná, pokud

libovolný pár prvků nelze rozlišit od sebe pomocí pozorování. Je to vlastnost reflexivní,

symetrická a tranzitivní.

Granularitu lze uplatnit i pro tematický prostor nejenom pro fyzický prostor. Příkladem je

rozlišitelnost tříd klasifikace.

Zpravidla s nepřesností jako typem neurčitosti je spojen pojem chyby.

2.1.2 Vágnost

Podle (Worboys, Duckham 2004, s. 335) je epistemická (epistemic) vágnost vyjádřením

toho, že naše reprezentace objektu světa je vágní, nevnímáme ho úplně a dokonale.

Ontologická (ontic) vágnost popisuje, že sám objekt světa či svět je vágní (jeho koncept).

Pojem „hora“ je vágní v realitě, v důsledku toho je vágní i koncept a tudíž je ontologicky

vágní, a vágní je výraz „hora“ i z hlediska lingvistického. Problémem je především podstata

vymezení hory – pokud bych ji chtěl kvantifikovat, musel bych zřejmě udat minimální plochu

podstavy, minimální výšku či minimální objem.

Vágnost vymezení je dosti častá – stačí porovnat definice i relativně jednoduchých objektů

jako je třeba budova v jednotlivých zákonech.

Příkladem vágního označení je „jižní Evropa“? Malta jistě leží v jižní Evropě, ale když

budeme postupovat k severu, která oblast už nepatří do jižní Evropy? Tyrolsko?

Worboys, Duckham (2004) upozorňuje, že ne každá nepřesnost je vágní (např. tvrzení „osoba

je lokalizována v USA“ není vágní, ale je to nepřesnép). Ale každá vágnost musí být také

nepřesná (vést k nepřesnosti), protože hranice nejsou vymezené.

Lze změřit „přesně“ šířku silnice? Jak je definován okraj silnice, je to jednoznačné? V kterém

místě se má šířka měřit?

Jiným častým příkladem je vymezení okolí města, např. Olomoucko (Caha, 2011). Přesné

prostorové vymezení není možné, ale lidskému myšlení a chápání je takové určení blízké.

Ještě hůře se kvantifikují vlastnosti přírodních objektů. Zkuste změřit šířku údolí.

Klasické formy vágnosti hranic popisují paradox hromady (sorites paradox) nebo paradox

plešatosti:

Mějme hromadu kamení. Postupně z ní odebírejme kameny. Ve kterém okamžiku

přestane hromada existovat?

Mějme plešatého muže. Pokud mu vyroste na hlavě jeden vlas, jistě zůstává nadále

plešatý. Pokud budeme postupně přidávat vlasy, ve kterém okamžiku přestane být

plešatý?

Jedním z projevů vágnosti je neurčitost v určení hranic – hranic území, ale také hranic

tematických tříd či časových určení.

Smith (1995, in Kubíček 2012) navrhnul možnou klasifikaci hranic (On drawing Lines on

a Map). Prezentuje zde obecnou typologii prostorových hranic založenou především na

základním rozdílu mezi bona fide neboli fyzickými hranicemi na straně jedné a fiat neboli

lidmi podmíněnými hranicemi na straně druhé. S daným rozdílem jsou spojeny další

problémy v oblasti vymezování hranic například mezi ostrými a nejasnými hranicemi (crisp

and indeterminate), úplnými a neúplnými (complete and incomplete), symetrickými

a nesymetrickými (symmetrical and asymmetrical) (Kubíček 2012).

Příkladem přirozených (bona fide) hranic jsou např. hranice ostrova nebo hranice vymezené

řekou. Příkladem umělé (fiat) hranice bývá domluvená hranice státu.

Dobře definovanými fiat objekty jsou podle Fisher et al. (2006) např. sčítací obvody (přesně

vymezené hranice určené statistickým úřadem, postupně se seskupují a tvoří úplnou

a neměnnou hierarchii) nebo parcely v západních společnostech (které považují koncept

vlastnictví za důležitý, jejich hranice jsou často vyznačeny v terénu a ukazují ostrou a úplnou

změnu vlastnictví). Často tedy jde o politické, administrativní nebo vlastnické hranice

a jednotky).

Obrázek 4 Taxonomie objektů typu „fiat“ a „bona fide“ (bf=bona fide, f=fiat, o=objekt, p=proces, sb=spatial

boundary, tb=temporal boundary, Earth’surface = zemský povrch, Equator = rovník, your life = tvůj život, century =

století, summer solstice = letní slunovrat). Kubíček (2013), podle Smith (1995)

Klasifikace prostorových a časových hranic objektů a procesů je na obr. 4. Ke každému typu

jsou uvedeny příklady ohraničení: John je objekt přirozeně ohraničený (bfo). Stát Utah je

objekt uměle vymezený (fo). Hranice zemského tělesa je přirozená prostorová hranice (bfsb).

Rovník je uměle vymezenou prostorovou hranicí. Váš život je přirozeně ohraničeným

procesem. Dvacáté století je uměle ohraničeným procesem. Big Bang (velký třesk) je

přirozenou časovou hranicí. Letní slunovrat je uměle určenou časovou hranicí.

Podle Kubíčka (2012) má pobřeží Severního ledového oceánu bona fide hranice, ale přesto

vnímáme tento oceán jako fiat objekt, protože jeho spojení s Atlantským oceánem je tvořeno

hranicí, která neodpovídá typu bona fide a navíc není zcela zřejmé, kde přesně leží. Tento

případ je typický pro řadu dalších geografických hranic kvalitativního typu, jakými jsou

například hranice mezi geomorfologickými tvary reliéfu (svah a údolí). Z tohoto příkladu

vyplývá, že je třeba vymezit další rozdíl mezi ostrými (crisp) a nejasnými (indeterminate)

hranicemi, protože řada geografických objektů (pouště, údolí, duny,..) je vymezena hraniční

přechodnou zónou (oblastí=region), která je do určité míry nejasná.

Většina fiat objektů má ostré hranice, protože je člověk sám definuje. Přírodní objekty (bona

fide) jsou zpravidla slabě definované a mají spíše přechodné (interdeterminate) hranice.

Typickým příkladem je třeba mapování hranic jistého typu lesa. Pro jeho vymezení musíme

použít uměle domluvenou hranici třídy, odpovídající požadovanému výskytu typického

druhu. V realitě však existují různé mezistupně a jistě není pravda, že by při malém snížení

sledovaného výskytu pod daný limit musel být nutně porost přeřazen do jiné třídy. Kromě

vymezení tříd jsou problémy i s vymezením hranic lesa, která je typicky tvořena

přechodovými zónami, jak mezi jednotlivým kategoriemi lesa, tak i na jeho vnější hranici.

Bohužel se stále pravidelně mapuje les pomocí kvalitativních ostrých kategorií, namísto

používání mezistupňů (Fisher et al., 2006) (obr. 5).

Obojí typ neurčitých hranic směřuje k použití fuzzy objektů.

Obrázek 5 Minimální fyzické požadavky pro definování lesa v jednotlivých zemích (Comber et al., 2004, in Fisher et

al., 2006) (tree height – výška stromů, canopy cover – pokrytí klenbou korun)

2.1.3 Nejednoznačnost

Nejednoznačnost (ambiguity) (nejasnost, dvojznačnost) vyplývá zejména z různého označení

geografických objektů a jejich vztahů. Takový aspekt můžeme označit za sémantickou

nejednoznačnost.

Podle Fisher et al. (2006) se nejednoznačnost vyskytuje tam, kde jsou pochybnosti, jak má být

jev klasifikován z důvodu rozdílné percepce tohoto jevu.

Jednoduchým příkladem může být nejednoznačnost pojmenování obce, kdy stejný název

používá několik obcí (Mikulov na jižní Moravě a také v Krušných horách, Kladno ve

Středočeském kraji a také v Pardubickém kraji; podrobný seznam viz tab. 1), či dochází

k záměně názvu obce s částí obce (Vítkov ve Slezsku a Vítkov jako část Prahy) nebo s jiným

typem geografického objektu (Opava jako město nebo jako řeka).

Tabulka 1 Opakování názvů obcí v ČR (stav k 1. 1. 2014)

Nejednoznačné názvy obcí Počet opakování

každého názvu

v ČR

Nová Ves 14x

Němčice, Petrovice 9x

Slatina 8x

Dolany, Pavlov, Sedlec, Vrbice. 7x

Babice, Březina, Březová, Hrádek, Chlum, Lhotka, Osek, Ostrov,

Střítež, Újezd.

6x

Bohuslavice, Borek, Borovnice, Bukovany, Hradiště, Chrášťany,

Janov, Javorník, Kladruby, Ledce, Lipová, Olešná, Olešnice, Podolí,

Radkov, Staré Město, Újezdec, Žďár.

5x

Bělá, Bernartice, Bezděkov, Biskupice, Březí, Čejkovice, Černovice,

Dlouhá Lhota, Kamenná, Kněževes, Komárov, Kostelec, Kozojedy,

Krchleby, Lesná, Lhota, Lukavice, Lukov, Lužice, Markvartice,

Mikulovice, Morašice, Nové Dvory, Obora, Okrouhlá, Olšany,

Ořechov, Přestavlky, Račice, Sedliště, Studnice, Uhřice, Veselá,

Vilémov, Vinařice, Vlkov, Vojkovice, Vysoká, Záhoří, Zhoř, Ždírec.

4x

Adamov, Běleč, Březnice, Břežany, Bystřice, Čistá, Dobšice,

Doubravice, Drnovice, Dřínov, Hartmanice, Heřmanice, Hodonín,

Horní Újezd, Hradčany, Hranice, Hvozd, Hvozdec, Chlístov, Chodov,

Choteč, Chrást, Jankov, Jankovice, Jesenice, Jestřebí, Jindřichov,

Kadov, Kaliště, Kámen, Karlovice, Kluky, Kněžice, Kobylnice, Kouty,

Kozlov, Křenovice, Kyjov, Lány, Lažany, Líšná, Líšnice, Lom,

Lomnice, Loučka, Lubná, Lužany, Mirošov, Mnichov, Moravany,

Nasavrky, Němčičky, Opatov, Pěnčín, Petrov, Písečná, Písek,

Podhradí, Police, Popovice, Radošovice, Rataje, Rovná, Sázava, Seč,

Sedlice, Skalice, Skryje, Skuhrov, Slavětín, Smilovice, Staňkovice,

Střelice, Střížovice, Sudice, Sušice, Svojšice, Šanov, Trstěnice,

3x

Tučapy, Ústí, Vážany, Vestec, Višňová, Voděrady, Vranov, Vysoký

Újezd, Záblatí, Zbýšov, Zvole, Ždánice.

Albrechtice, Andělská Hora, ..., Žiželice, Županovice. - celkem 421

obcí

2x

Každá skupina lidí vnímá svět odlišně a proto i pojmenovává tytéž objekty různě. Rovněž

geografické předložky jako nad, v, před atd. nejsou chápány stejně a ještě více se různí jejich

význam v jiných jazycích. GIS nemůže reprezentovat neutrální pohled na svět, může pouze

poskytnout prostředí pro sjednocení různých pojetí světa. Dokonce můžeme zkoumat

geografický charakter této nejednoznačnosti a identifikovat různé regiony, které se liší

pohledem na svět.

Názvy objektů a jejich topologických vztahů jsou vnitřně nejednoznačné. Vnímání, chování,

jazyk nebo poznání lidí hrají významnou roli při konceptualizaci (tj. při tvorbě modelu).

Kromě výše uvedených příkladů spíše sémantické nejednoznačnosti uvedeme ještě příklady

ontologické, konceptuální nejednoznačnosti. Velmi blízko k tomu má i ontologická vágnost.

Ontologickou nejednoznačností rozumíme např. existenci variant postupu výpočtu různými

cestami s využitím různých konceptů; přitom není jasné, který z nich je správný.

Ontologickou vágností chápeme problém ve vymezení pojmů, pochopení indikátorů,

ohraničení.

Podle Fisher et al. (2006) jsou rozlišovány následující 2 typy nejednoznačnosti:

1. konflikt (discord)

Typickým příkladem geografického konfliktu je označení příslušnosti území z důvodu sporu

dvou národů o jeho vlastnictví.

Které zemi patří Krym? Ukrajině nebo Rusku?

Kašmír je území mezi Indií a Pakistánem, na které si obě země dělají nárok. Jak potom území

zobrazit na politických mapách? Jaký vážný dopad to může mít, poznal pozdě Microsoft,

když indická vláda zastavila prodej OS Windows 95 na svém území. Doposud asi nejdražší

chyba se přihodila Microsoftu při lokalizaci Windows 95 pro indický subkontinent, kdy při

výběru časového pásma nebyl Kašmír v severozápadní Indii označen jako část Indie. Indická

vláda považovala barevné odlišení této oblasti za neakceptovatelné a donutila Microsoft

software stáhnout (PCWorld, 2005).

Podobný problém se stal ve stejné době Microsoftu s příručkou Encarta 95, která ukazovala

mapu Turecka s oddělenou oblastí Kurdistánu. Po protestech turecké vlády odstranil

Microsoft Kurdistán ze všech map, což zase připadalo jako provokace Kurdům (PCWorld,

2005).

Spory ale nemusí být vždy tak zjevné jako v těchto politicky ožehavých případech.

Jak již bylo zdůrazněno, většina přírodních jevů je špatně definovatelná. Je zřejmé, že i při

jejich vymezení vznikají a přetrvávají spory. Příkladem může být definice půdy, která je

vnitřně komplexní a to vede k odlišnostem v definici v literatuře i mezi jednotlivými zeměmi.

Může se stát, že dvě národní klasifikace mají stejně pojmenovanou třídu půdy s různou

definicí, nebo naopak různě pojmenované třídy se stejnou definicí. To může vést k tomu, že

řada půdních profilů je přidělena do různých tříd v různých schématech (Fisher et al., 2006).

Avšak ani když jsou zajištěna stejná data, stejná metodika (definice) a stejný formální popis

tříd, mohou vznikat konflikty mezi jednotlivými lidmi při interpretaci. I zkušení interpretátoři

za stejných podmínek mohou území rozdělit odlišně (obr. 6).

Obrázek 6 Tatáž oblast mapovaná rozdílně jednotlivými zkušenými interpretátory jako problém umístění hranice

Fisher et al. (2006, s.53)

Obdobné (a možná ještě horší) problémy v nekompatibilitě definic a klasifikací existují

u socioekonomických jevů. Typickým příkladem je vymezení nezaměstnanosti nebo

dlouhodobé nemocnosti, které omezují použitelnost mezinárodních statistik.

Pro řešení konfliktů se používají expertní odhady, posuzující kompatibilitu mezi

klasifikacemi. Mohou to být expertní mapovací tabulky (look-up table), metadata, ale také

použití umělé inteligence, hrubých množin i fuzzy množin. Pro řešení se používá také

Dempster-Shaferova teorie.

2. Nespecifičnost (non-specificity)

Příkladem může být vztah „A je severně od B“. Koncept „severně od“ má přinejmenším

3 významy (Fisher et al., 2006):

A leží přesně na stejném poledníku jako B a od něho směrem k severnímu pólu

A leží někde na sever od linie, která prochází B od západu na východ

A leží někde v sektoru mezi SZ a SV, pravděpodobně mezi SSZ a SSV

Všimněme si, že první 2 významy jsou přesné a specifické, třetí je sám o sobě vágní.

Jiným příkladem nespecifičnosti, který uvádí (Fisher et al., 2006), je v případu, kdy není jasné

měřítko analýzy či může být různě interpretováno.

Nejednoznačnost zpravidla ve smyslu nespecifikačnosti také vzniká při konstrukci indikátorů.

Přímé indikátory nesou jasnou korespondenci se sledovaným fenoménem. Např. podrobné

hodnoty rodinných příjmů poskytují dobrý indikátor pro geografii „bohatosti“.

Jinak je tomu u nepřímých indikátorů, kdy nelze najít přímo vhodnou míru sledovaného

ukazatele. Např. odvozování „bohatosti“ z vlastnictví více aut je nepřímým indikátorem.

Selhává např. u sběratelů, majitelů opraven, bazaru, dále vadí fakt, že zpravidla na vesnici

mají lidé na dvoře více aut, jejichž oficiální znalecká cena bývá nízká.

Vztah mezi nepřímým indikátorem a zájmovým jevem je subjektivní, tedy nejednoznačný.

Pokud je jejich vztah nedokonalý, vytváří měření nepřímého indikátoru zpravidla

systematickou chybu.

Nejednoznačnost tedy vzniká i z důvodu použití nedokonalých indikátorů fenoménu namísto

měření samotného fenoménu.

V UK studovali klasifikační systémy pro mokřady a zjistili, že tentýž fenomén ve stejném

území mapuje přinejmenším 6 agentur a každá z nich používá svůj vlastní klasifikační systém

(Longley et al., 2005). Je zřejmé, že v takovém případě se těžko uplatní společná regulační

pravidla.

Podobně jen obtížně lze srovnávat klasifikaci půd UK s celoevropským systémem. Rovněž

v definici ekonomických či sociálních proměnných jsou zřejmé velké rozdíly.

Rozdíly v definicích (v sémantice) tedy představují hlavní problém harmonizace a integrace

dat.

Nejednoznačnost ve smyslu nespecifičnosti vzniká při spojování dat pomocí nejistého

přiřazení do společných kategorií.

Při řešení nespecifičnosti se používá schvalovací teorie (endorsement theory) nebo teorie

fuzzy množin (fuzzy set theory).

Shrnutí:

Jedno z vymezení říká, že neurčitost je způsobena neúplným porozuměním toho,

co chceme kvantifikovat. Neurčitost je subjektivní a je způsobena různými vlivy,

které se zpravidla kombinují. Geoinformatika má svá specifika. Nepřesnost

(imprecision) je nedostatek specifičnosti nebo nedostatek detailu při pozorování,

řadíme k nim i klasické chyby. Nejednoznačnosti zahrnuje konflikty (ve významu

či přiřazení) a nespecifičnost. Častá je především sémantická nejednoznačnost.

Vágnost (vagueness) je neurčitost ve vymezení objektů nebo nedostatek jasnosti

ve významu. Rozlišujeme také dobře definované a slabě definované geografické

objekty a data, dále inherentní (přibližně vnitřní) nejistotu, nejistotu poznání. Je

nutné rozlišit 2 významy přesnosti – accuracy reprezentuje rozdíl mezi realitou a

naší reprezentací reality, zatímco precision odpovídá míře podrobnosti či detailu.

Epistemická vágnost odráží skutečnost, že naše poznání světa je nedokonalé,

zatímco ontologická vágnost popisuje, že samotný sledovaný objekt světa je vágní.

Hranice geografických objektů mohou být fyzické (reálné) nebo umělé.

Kontrolní otázky: 1) Jak lze definovat neurčitost a nejistotu?

2) Je neurčitost objektivní? Proč?

3) Co je tzv. efekt motýlích křídel?

4) Má na výslednou neurčitost vliv vzorkování?

5) Co znamená prohlášení „Nevíme, co víme“?

6) Co znamená prohlášení „Nevíme, co nevíme“?

7) Co znamená prohlášení „Nemůžeme vědět“?

8) Uveďte příklad neurčitého popisu a vymezení geografického objektu a

vysvětlete příslušné typy neurčitosti.

9) V čem spočívají specifika neurčitosti geografických objektů a jevů?

10) Vysvětlete, co je nepřesnost (imprecision).

11) Vysvětlete, co je nejednoznačnost (ambiguity).

12) Vysvětlete, co je vágnost (vagueness).

13) Uveďte příklad dobře definovaného geografického objektu.

14) Uveďte příklad slabě definovaného geografického objektu.

15) K jakému typu neurčitosti přiřadíte polohovou chybu měření souřadnic?

16) Jaké metody používáme pro zpracování vágně vymezených objektů?

17) V čem spočívá neurčitost prostorových jevů, která se projeví existencí

efektu zbytkového rozptylu (nugget effect) při strukturální analýze

v geostatistice?

18) Vysvětlete rozdíl mezi precision a accuracy.

19) Jak lze odlišit vnitřní nepřesnost a nepřesnost poznání?

20) Co je granularita?

21) Vysvětlete rozdíl mezi epistemickou a ontologickou vágností.

22) Musí být každá nepřesnost současně vágní?

23) Uveďte příklady bona fide a fiat hranic u států.

24) Jakého typu jsou hranice běžných geomorfologických útvarů jako je

hřeben či údolí?

25) Jak označíte vlastnost, že podle pojmenování obce často nelze určit

konkrétní administrativní jednotku?

26) Uveďte příklad konfliktu v rámci nejednoznačnosti.

27) V čem spočívá problém interpretace výroku „geoprvek A je východně od

geoprvku B“?

28) Uveďte příklady nepřímých indikátorů určitých vlastností a vysvětlete u

nich problém nespecifičnosti.

3 Chyba

Cílem kapitoly je vysvětlit pojem chyby, rozlišit jednotlivé druhy chyb, vymezit

pojem spolehlivosti a seznámit se s testy, kterými se prověřuje, naučit se stanovit

minimální velikost potřebného vzorku dat, vyhodnocování systematických chyb,

kvalitativních chyb a hodnocení vlivu šíření chyb.


Vysvětlení pojmu chyba a jednotlivých druhů a forem chyb

Spolehlivost, konzistence a opakovatelnost

Relativní a absolutní reliabilita a jejich měření

Oceňování chyb, stanovování minimální velikosti potřebného vzorku

Hodnocení chyb u kvantitativních dat

Hodnocení chyb u kvalitativních dat

Šíření chyb

Monte Carlo simulace pro šíření chyb

Specifikace potřebných vstupních znalostí:

Pro praktické využití většiny uvedených nástrojů jsou nutné alespoň základní

znalosti statistiky a pravděpodobnosti.


Druzích a příčinách chyb

Spolehlivosti, jejím měření a významu

Metodách oceňování a hodnocení chyb

Možnostech vyjádření šíření chyb

Vlivech systematických a hrubých chyb

Budete umět:

Vypočítat jednotlivé charakteristiky chyb.

Kvantifikovat spolehlivost vašich měření či pokusů.

Vyhodnotit dopady šíření chyb

Budete schopni:

Zvážit vliv chyb na vaše výsledky a rozhodování

Správně navrhnout měření či pozorování, aby se minimalizovaly vznikající

chyby, zejména hrubé a systematické

Posoudit vhodnost datových zdrojů a způsobů zpracování pro sledovaný

účel

Času potřebný na nastudování kapitoly – 2 hodiny.

Chyby vznikají v důsledku nejistoty, zejména nepřesnosti, ale důvodem může být i špatná

definice dat či objektů.

Chyba (error) je podle Longley et al. (2005) rozdíl mezi pozorováními nebo měřeními

prováděným pomocí nástrojů. Také může vzniknout v důsledku zanedbání nějakého faktoru

v rámci složeného indikátoru (např. vynechání dopravní dostupnosti z hodnocení pozemku).

Všimněme si, že není definován rozdíl mezi realitou a měřením. Ten v jiných definicích často

figuruje jako vysvětlení pojmu chyba. Jenže skutečnou (reálnou) hodnotu neznáme a nejsme

schopni ji poznat. Proto i definice chyby s pomocí reálné hodnoty nemá praktický význam.

Skutečná (pravá, reálná) hodnota veličiny je hodnota ideální, hodnota zjištěná

s nekonečnou přesností a proto ji nelze žádným reálným způsobem poznat

(http://cs.wikipedia.org/wiki/Chyba_m%C4%9B%C5%99en%C3%AD).

Správná hodnota je hodnota považovaná za skutečnou, je to nejlepší dosažené zjištění

skutečné hodnoty (nejpřesnější dostupné měření apod.).

Chyba měření je rozdíl mezi správnou hodnotou měřené veličiny a hodnotou zjištěnou

měřením.

Podle klasické teorie měření (Hendl, 2006, s. 263) se naměřená (pozorovaná) hodnota X

skládá ze skutečné (ve smyslu správné) hodnoty T a chyby E.

X=T+E

Do chybové komponenty započítáváme průměrnou intraindividuální variabilitu hodnoty T

u měřených jedinců a další vlivy.

Klasický model vychází z následujících předpokladů (Hendl, 2006):

1. chyba E nekoreluje s hodnotou T: ρET=0

2. chyba E neobsahuje systematické vychýlení: μE=0

3. při různých měřeních jsou chyby E nekorelované: ρE1E2=0

4. nekoreluje správná hodnota jednoho měření a stejného konstruktu s chybou druhého

měření stejného konstruktu: ρT1E2=0

http://cs.wikipedia.org/wiki/Chyba_m%C4%9B%C5%99en%C3%AD

Chyba je užší termín než nejistota. Nejistota je neutrální termín. Nejistota může být

způsobena omylem, ale také neúplnou informací. Chyba má tradičně pejorativní jazykové

zabarvení.

Chyby v měření prostorových dat mohou být kvantifikovány pomocí statistických odchylek,

střední chybou měření a jinými mírami. Projevuje se nestabilita pozorovatele, omezení

měřícího zařízení nebo nevhodné pozorovací podmínky. Hlavním zdrojem chyb je získávání

dat (data capturing).

Je nutné ještě připomenout mnoho různých jiných výkladů pojmu chyba. Např. chyba

v počítačovém systému znamená selhání příslušné služby (např. vracení chybového hlášení

programu či webového serveru). Chybovostí pak rozumíme počet chyb za časovou jednotku.

Rozlišujeme 3 typy chyb:

1. Náhodné chyby – Náhodné chyby vznikají náhodnými rušivými vlivy (během měření:

otřesy, změny teplot, tlaku vzduchu; při digitalizaci: otřesy, chvění, chyby odečtu atd.)

a nedokonalostí našich smyslů. Náhodná chyba mění náhodně směr a velikost (Hendl, 2006).

Náhodnou chybu nelze úplně odstranit, lze ji pouze minimalizovat. Náhodnou chybu lze

odhadnout na základě statistického zpracování sady opakovaných měření. Označujeme ji také

jako chyba typu A u měření.

Náhodné chyby zahrnují (Hendl, 2006):

chyby hodnotitele (např. špatně odečetl měřenou hodnotu na stupnici, špatně pochopil

či rozuměl odpovědi dotazované osoby),

intraindividuální variabilitu (opakované měření ukáže jinou hodnotu – projev

inherentní nejistoty, způsobující vnitřní variabilitu, případně časové nestálosti, změna

názoru jedince apod.)

přepisy (opisování údajů)

chyby přístroje (náhodné selhání, momentální špatné fyzikální podmínky).

2. Systematické chyby – velikost a typ chyb v měření ukazuje pravidelný vzor. Běžně je

jejich vliv na výsledky měření větší než náhodných chyb. Při opakovaném měření za stejných

podmínek nabývá systematická chyba vždy přibližně stejné hodnoty. Označujeme ji také jako

chyba typu B u měření.

Na systematickou chybu lze usuzovat pomocí průměrné chyby (viz polohová přesnost).

Zdrojem systematické chyby může být (upraveno podle

http://cs.wikipedia.org/wiki/Nejistota_m%C4%9B%C5%99en%C3%AD):

nedokonalá či neúplná definice měřené veličiny

nevhodný výběr přístroje

http://cs.wikipedia.org/wiki/Nejistota_m%C4%9B%C5%99en%C3%AD

nedokonalost měřících přístrojů

nevhodný výběr vzorků měření

nevhodný postup při měření

nevhodná metoda měření

zaokrouhlování

linearizace, aproximace, interpolace a extrapolace

neznámé nebo nekompenzované vlivy prostředí

nedodržení shodných podmínek při opakovaných měřeních

subjektivní vlivy obsluhy, vliv operátora

nepřesnost etalonů a referenčních materiálů

V případě měřících přístrojů lze systematickou chybu opravit na základě rozboru známých

chyb nebo nestatistickými metodami (např. z dokumentace výrobce či odhadem). Pokud není

u měřicích přístrojů specifikována, odhaduje se jako jedna polovina nejmenšího dílku u

mechanických měřidel.

Běžné postupy na eliminaci systematické chyby:

kalibrace měřícího zařízení

přidání korekčního čísla k hodnotám měření při zpracování

použití jiné, vhodnější procedury

3. Hrubé chyby (gross error) – omyly, způsobené člověkem. Vznikají nepozorností nebo

přehlédnutím, poruchou měřicího přístroje, nevhodnou metodou měření, zaměřením

nesprávného cíle při geodetickém měření, lidskou chybou ve výpočtu. Zpravidla je větší než

náhodná chyba. V případě primárního měření není oprava takové chyby možná nebo je

neekonomická, pak je vždy třeba opakovat měření.

Tabulka 2 Běžné důvody chyb v databázi (Fisher et al, 2006)

Typ chyby Příčina chyby

Měření Měření vlastnosti je chybové

Přidělení (assignement) Objekt je klasifikován do špatné třídy kvůli chybě měření

provedené specialistou v terénu či laboratoři nebo provedené

měřičem (geodetem)

Generalizace třídy Po měření v terénu se kvůli zjednodušení provede seskupení

objektů do tříd, které mají podobné vlastnosti

http://cs.wikipedia.org/wiki/Linearizace

Prostorová generalizace Generalizace kartografické reprezentace objektu před digitalizací,

včetně posunutí, zjednodušení apod.

Vstup Data jsou špatně kódována během vstupu (digitálního či ručního)

do GIS

Časová Objekt změnil charakter mezi časem sběru dat a časem využití

databáze

Zpracování Při transformaci dat vznikají chyby v důsledku zaokrouhlení či

chyb algoritmu.

Výsledné chyby je možné složit kombinovanou nejistotu podle vztahu:

22

BAC uuu

Při měření přístroji se někdy rozlišuje základní chyba měření a pracovní chyba měření

(http://cs.wikipedia.org/wiki/Chyba_m%C4%9B%C5%99en%C3%AD).

Základní chyby měření je přístrojem dosahováno za předpokladu, že měřicí přístroj je

provozován v předepsaných referenčních podmínkách. To znamená, že veškeré veličiny, které

mohou nepříznivě ovlivnit přesnost měření, musí mít předepsanou konstantní velikost, popř.

je povolen rozptyl jen ve velmi úzkých mezích. Mezi hlavní ovlivňující veličiny obvykle patří

okolní teplota, kolísání napájecího napětí přístroje atd. Zjednodušeně lze říci, že základní

chyby měření daným přístrojem je dosahováno v laboratorních, přesně definovaných

podmínkách.

Pracovní chyba měření platí pro měření prováděná v pracovních podmínkách, oproti

základní chybě se pracuje v širším rozsahu pracovních teplot, při větším kolísání napájecího

napětí apod. Proto pracovní chyba bývá vyšší než chyba základní. Podle ČSN 61557 může být

relativní pracovní chyba měření maximálně 30%.

Základní statistické charakteristiky náhodné chyby jsou nepřesnost, opakovatelnost

a reliabilita (spolehlivost) (Hendl, 2006). Nepřesnost již byla vysvětlena, opakovatelnost

a spolehlivost se částečně překrývají a jsou vysvětleny dále.

3.1 Spolehlivost

Spolehlivost je možné chápat jako výsledek 2 faktorů - z konzistence a opakovatelnosti.

Spolehlivost (reliabilita) (Hendl, 2006, s. 48) znamená stupeň shody výsledků měření jednoho

objektu provedeného za stejných podmínek (opakovatelnost). U testů složených z mnoha

položek odpovídá konzistenci hodnot různých podmnožin položek mezi sebou.

Nespolehlivost (nízká reliabilita) měření má různý původ. Jeden zdroj nespolehlivosti obvykle

nazýváme subjektivní chybou. Zapříčiňuje ji individuální variabilita měřeného subjektu

(únava, klesání zájmu apod.). Pozorovací chyba je jiným zdrojem chyb. Závisí na provedení

měření hodnotitelem. Také uvažujeme přístrojové chyby (např. selhání hardwaru).

Postupy k určení spolehlivosti:

http://cs.wikipedia.org/wiki/Chyba_m%C4%9B%C5%99en%C3%AD

opakovaná měření (test-retest reliabilita) – označujeme tak konzistenci neboli shodu

opakovaných měření, která jsou oddělena určitým časovým intervalem

měření paralelních testů – znamená shodu měření s jiným ekvivalentním měřením

stejného konstruktu (pokud existují dvě verze A a B téhož testu apod.)

půlení intervalu (split-half reliabilita) – vyjadřuje, do jaké míry jsou konzistentní

jednotlivé části instrumentu měření (nejčastěji se týká různých položek jednoho testu).

Jde o metodu internální konzistence, která nevyžaduje u jedince opakované použití

měřící procedury.

Spolehlivost (reliabilitu), zahrnující konzistenci a opakovatelnost měření, zachycujeme

obecně dvěma způsoby - relativně a absolutně.

Relativní reliabilita se odhaduje bezrozměrnými hodnotami, absolutní reliabilita se udává

v jednotkách měření.

Relativní reliabilita se posuzuje pomocí koeficientu reliability Rel(X).

Koeficient reliability Rel(X) pro měřící metodu je definován poměrem Var(T)/Var(X), tj.

(rozptyl pravdivého skóru)/(rozptyl pravdivého skóru + chybový rozptyl), kde Var() označuje

teoretický rozptyl náhodné proměnné. To lze zapsat následovně (Hendl, 2006):

2

)(

)()()(Re TX

XVar

EVarXVarXl

Koeficient reliability je tedy 2.mocninou koeficientu korelace mezi T a X. Varianty měření

Rel(X) jsou:

Test-retest reliabilita – odhadujeme Rel(X) Pearsonovým koeficientem korelace dvou

měření n-objektů danou metodou ve dvou časových okamžicích.

Reliabilita paralelních měření – provedeme měření n-objektů dvěma nezávislými

metodami, vyhodnotíme Rel(X) Pearsonovým koeficientem korelace.

Reliabilita zjištěná půlením testu – použijeme, pokud měření X získáváme jako

součet parciálních hodnot, které např. obdržíme jako odpovědi na různé položky

dotazníku, jež měří stejnou charakteristiku. Počítáme korelační koeficient r1/2 mezi

dvěma polovinami položek dotazníku zadaného n osobám. Rel(X) se pak spočítá

následovně:

)1(

2)(Re

2/1

2/1

r

rXl

Korelace položky s celkovým skórem – při korelování každé položky testu, resp.

navrhované škály s celkovým skórem (hodnotou testu) dostáváme další míru internální

konzistence ukazující, jak každá položka souhlasí se sumou odpovědí na ostatní

položky (tj. ze sumy vyloučíme hodnocenou položku).

Absolutní reliabilita (Hendl, 2006, s.265) je koncept, jímž se posuzují změny hodnot na

jejich škále. Jinak řečeno, tento typ konzistence vyjadřuje velikost variability, která se

očekává u naměřené hodnoty. Její určení vychází ze směrodatné odchylky měření s, kterou lze

odhadnout:

))(Re1( Xlss x

kde sx označuje rozptýlenost dat ve skupině. Hodnota 3s označuje kritickou diferenci. Její

význam je následující: jestliže máme dvě měření x1 a x2 u stejné osoby, pak pouze v 5 %

případů bude jejich rozdíl (x1 - x2) v absolutní hodnotě větší než 3s, pokud mezi měřeními

a při měření nedošlo k nějaké změně. Kritickou mez diference lze aplikovat i na měření

2 osob. Pokud je jejich rozdíl větší než kritická diference, můžeme tvrdit, že správné hodnoty

obou osob se skutečně liší.

Tabulka 3 Využití Pearsonova koeficientu korelace rxy při hodnocení metod měření (Hendl, 2006, s. 266)

korelační koeficient rxy Aplikace/intepretace

x y

měření v čase I měření v čase II odhad reliability

první polovina testu druhá polovina testu odhad reliability

paralelní forma testu I paralelní forma testu II odhad reliability

hodnocený test cílové kritérium souběžná validita

hodnocený test měření kritéria v budoucnu prediktivní validita

hodnotitel I hodnotitel II odhad objektivity

3.2 Ocenění chyb

Ocenění chyb měření běžně zahrnuje 3 kroky:

Výběr části dat (sady míst),

opakování měření - jejich přeměřením (znovu určení v daných místech) přesnějšími

nástroji či postupy,

srovnání nových měření s původními, ocenění odchylek, statistické vyhodnocení.

3.2.1 Velikost potřebného vzorku

Velikost potřebného vzorku (n) je určována vynásobením odhadu standardizované chyby

měření čtvercem standardizovaného skóre (z) vyžadovaného pro požadovanou úroveň

spolehlivosti (např. 1.96 pro 95 % interval) a dělením výsledku čtvercem požadovaného

intervalu spolehlivosti (e) (např. 0.01 pro 10 %). V případě odhadu n při znalosti střední

chyby (RMSE) se vzorec zjednoduší:

nz s

e

2 2

22

kde s je odhadnutá střední chyba.

Pro odhad proporcionální chyby u kategorizovaných dat se používá vztah:

nz pq

e

2

2

kde p je odhadovaná proporcionální chyba a platí, že:

q = (1-p)

Podrobnější hodnocení je k dispozici v (Eastman et al. 1993).

3.2.2 Výsledné hodnocení chyb u kvantitativních údajů

Výsledné ocenění pro kvantitativní údaje se udává pomocí střední chyby, která se vypočte:

1

)(2

n

txRMSE

ii

xi zjištěná hodnota v místě i

ti správná hodnota v místě i

Střední chyba nerozlišuje mezi systematickou a náhodnou chybou.

Použití střední chyby je vhodné pro data s normálním rozdělením. V případě distribuce dat

s výraznou asymetrií je vhodnější použití robustních technik založených např. na kvantilech.

3.2.2.1 Vyhodnocení náhodných chyb (nejistoty typu A)

Provádí se na základě statistické analýzy opakované série měření. Je způsobena mnoha

malými náhodnými vlivy. Výsledná hodnota měření je dána aritmetickým průměrem ze série

výsledků měření. Nejistota typu A se vypočte jako výběrová směrodatná odchylka série dat

u A.

V případě malého počtu měření (n < 10), je však tento výpočet málo spolehlivý, a musí se

provést korekce zjištěné nejistoty pomocí vynásobení rozšiřujícím koeficientem kA z tabulky

4. Se zmenšujícím se n totiž klesá věrohodnost nejistoty, což koeficient kompenzuje.

Tabulka 4 Rozšiřující koeficient (Schovánek, Havránek 2012)

n 10 9 8 7 6 5 4 3 2

kA 1 1.2 1.2 1.3 1.3 1.4 1.7 2.3 7.0

Vynásobením získáváme tzv. rozšířenou nejistotu uS. Pro kA = 2 do něj spadá 95 % hodnot z n

měření a pro kA = 3 celých 99.7 % (pro kA = 1 je to 68 %). Čili je to kolik směrodatných

odchylek má být použito místo 1.

3.2.2.2 Vyhodnocení systematických chyb (nejistoty typu B)

Nejistota B typu nemá náhodný charakter. Při opakovaných měřeních na sebe upozorní

trvalým výskytem. Vyhodnocení se provádí jinými než statistickými přístupy. Nejistota typu

B se odhaduje na základě všech dostupných informací. Například údaje výrobce měřící

techniky, vlivy techniky měření, metod, konstant, podmínek, za kterých měření probíhá,

zkušenosti z předchozích sérií měření, z poznatků o chování materiálů, údaje získané při

kalibraci a třeba nejistoty referenčních údajů v příručkách. Vychází se z dílčích nejistot

jednotlivých zdrojů. Je-li známá maximální odchylka j-tého zdroje, pak se nejistota j-tého

zdroje určí podle vztahu (Schovánek, Havránek 2012):

k

zu

j

Bzj

max

kde hodnota k je součinitel vycházející ze zákona rozdělení (viz tab. 4).

Při jejím určení tedy odhadujeme maximální rozsah odchylek od naměřené hodnoty tak, aby

v něm skutečná hodnota s velkou pravděpodobností ležela.

V případě, že máme stanoveno více nejistot v měřicím řetězci, výslednou nejistotu dostaneme

jejich geometrickým součtem. Korelace mezi jednotlivými zdroji nejistot typu B se nebere

v úvahu (Schovánek, Havránek 2012).

Výsledná nejistota se pro m zdrojů určí s využitím zákona o aditivitě rozptylů (UB2 je

rozptylem příslušné položky) a vážením jednotlivých vlivů pomocí součinitele citlivosti

(Schovánek, Havránek 2012):

m

j

BzjjBx uAu1

22

kde A je součinitel citlivosti jednotlivých zdrojů.

3.2.2.3 Příklad součtu nejistot

Měříme komparačně středovou tloušťku čočky, tj. porovnáváme její tloušťku s koncovými

(Johansonovými) měrkami pomocí číslicového úchylkoměru (Schovánek, Havránek 2012).

Jde o přesné (přesnější než posuvným měřítkem nebo mikrometrem) komparační měření

mechanických součástí mezi dvěma hroty, z nichž jeden je pevný a druhý, posuvný, náleží

k úchylkoměru. Dvě měrky jsou položeny na sebe a mají každá nepřesnost ub1 = ±0.5 μm.

Úchylkoměr má ub2 = ±1 μm a deformaci hrotů během měření odhadneme na ub3 = ±0.3 μm.

Výsledná nejistota měření ub je (Schovánek, Havránek, 2012):

3.1260952.13.015.022 2222

3

2

2

2

1 bbbb uuuu

Výsledná nejistota měření je ub = ±1.3 μm.

Obrázek 7 Tloušťka koncové měrky v řezu (Schovánek, Havránek, 2012)

Výpočet použijeme pro orientaci před vlastním měřením, případně pokud máme měření jen

jedno. Pokud je statistická chyba typu A (náhodná chyba) výrazně nižší než vypočtená chyba,

musíme zvážit, zda nejsou hodnoty zatíženy systematickou chybou a dle toho stanovit

nejistotu výsledku.

3.2.3 Výsledné ocenění chyb pro kvalitativní údaje

Pro celkové hodnocení se doporučuje použít chybovou matici. Chybová matice obsahuje

tabulku s počty vzorkových bodů nalezených v každé možné kombinaci správných

a mapovaných (klasifikovaných) kategorií.

Tabulka 5 Chybová matice (kontingenční tabulka pro hodnocení přesnosti klasifikace)

realita

map

ován

o

Jehličnatý Smíšený listnatý voda celkem Chyba I.druhu

Jehličnatý 24 0 0 3 27 0.11

Smíšený 3 36 16 0 55 0.35

listnatý 0 0 28 0 28 0

voda 2 0 0 14 16 0.12

celkem 29 36 44 17 126

Chyba

II.druhu

0.17 0 0.36 0.18 0.19

Chyby nadbytečného přijetí (commision) - mapované vzorky byly ve skutečnosti něco

jiného. Je to chyba I.druhu. Snižování chyby nadbytečného přijetí je prostředkem zvýšení

přesnost mapování.

Chyby vynechání (omission) - vzorky dané kategorie byly mapovány jako jiná kategorie. Je

to chyba II.druhu. Podle ní se hodnotí adekvátnost mapování.

Celková proporcionální chyba je 0.19 (v 19% případů bylo mapováno něco jiného, než je ve

skutečnosti).

Podrobnější popis hodnocení klasifikační přesnosti je uveden v kapitole Přesnost atributů.

Hodnocení klasifikace pomocí proporcionální chyby není zcela objektivní, proto se používá

kappa index (KIA, kappa index of agreement). KIA je podobný ukazateli proporcionální

přesnosti (doplněk proporcionální chyby).

Kappa index hodnotí provedenou klasifikaci s klasifikací čistě náhodnou. Vypočte se jako:

PO

POPP

1

kde PP je pozorovaná přesnost (z kontingenční tabulky, resp. chybové matice) a PO je

přesnost dosažitelná náhodným zařazením pixelů do jednotlivých tříd.

Výpočet v IDRISI provádí modul ERRMAT, který vyžaduje 2 vstupní soubory: původní

kategorizovaný obraz (vrstvu) a druhou vrstvu se správnými hodnotami. Tato „správná mapa“

je typicky ve formě vrstvy s převažující hodnotou 0 (pozadí) s izolovanými ostrůvky, kde byla

zjištěna správná hodnota. Výsledkem je chybová matice a sumární statistika. ERRMAT udává

pro každou kategorii rovněž kappa index shody KIA.

3.3 Šíření chyb

Pokud neurčitost existuje v datových vrstvách, chyby se šíří jakýmikoliv analýzami

a kombinují se s chybami z jiných zdrojů. Specifické vzorce pro očekávané šíření chyb

vznikly z typických GIS matematických operací. Jako příklad je možné uvést několik

aritmetických operací dle (Eastmann, 2001), kde S odpovídá směrodatné odchylce (resp.

střední chybě RMS):

Součet/rozdíl 2 překrývajících se vrstev (např. Z=X+Y nebo Z=X-Y):

22

yxz SSS

Násobení/dělení 2 překrývajících se vrstev (např. Z=X*Y nebo Z=X/Y):

)()( 2222 XSYSS yxz

Přidání či odečtení konstanty (např. Z=X+k nebo Z=X-k):

xz SS

Násobení konstantou (např. Z=X*k):

kSS xz

Dělení konstantou (např. Z=X/k):

kSS xz /

Umocnění konstantou (např. Z=Xk):

2))1(2(2

x

k

z SXkS

Obecně představuje výpočet šíření chyb pomocí vzorců problém, protože:

a) šíření je silně ovlivněno vzájemnou korelací mezi proměnnými a tato korelace není

vždy známá

b) je nyní k dispozici jen omezený počet vzorečků a řada GIS operací má neznámé

charakteristiky šíření chyb

K řešení se používá obecný přístup označovaný jako Monte Carlo simulace.

IDRISI obsahuje 2 moduly, které za určitých okolností šíří chybovou informaci automaticky

s těmito procedurami - modul MCE a SURFACE. Jestliže všechny vstupní faktory pro MCE

modul mají chybovou informaci (RMSE) zapsanou v poli „value error“ v jejich

dokumentačních souborech, MCE vypočte výslednou chybu a zapíše ji do dokumentačního

souboru výsledného souboru. Výpočet je možné akceptovat v případě splnění 2 základních

předpokladů: a) mezi faktory není žádná korelace, b) nesmí být neurčitost ve vahách. Nejsou-

li tyto předpoklady platné, je možné využít procedury Monte Carlo. V případě modulu

SURFACE se chybová informace šíří při odvozování sklonu z digitálního modelu terénu,

který má opět v poli „value error“ zapsánu střední chybu RMSE.

3.3.1 Monte Carlo simulace

Často se setkáváme se situací, kdy každá vstupní proměnná může být charakterizována

pomocí statistické distribuce hodnot. Současně můžeme jistým způsobem charakterizovat

prostorové vlastnosti proměnných, např. pomocí jádrového odhadu, topologického popisu

sousedství či pomocí prostorové autokorelace.

V těchto případech lze pro ocenění šíření chyb a neurčitosti spojené se zpracování využít

Monte Carlo simulace.

V analýze šíření chyb pomocí Monte Carlo simulace simulujeme efekt chyb v každé datové

vrstvě, abychom ocenili, jak se šíří chyby při analýze. Prakticky to znamená, že všechny

analýzy běží 2x - jednou normálně a podruhé s datovými vrstvami, které obsahují simulované

chyby. Srovnáním obou výsledků může být odhadnut efekt (vliv) chyb - jediným důvodem

k rozdílu jsou zde totiž ony simulované chyby. Odečtením obou vrstev (překryvná operace)

získáme rozdílový obraz, který ukazuje plošnou distribuci chyb. Pokud má výsledek normální

distribuci, můžeme vypočítat směrodatnou odchylku s rozdílového obrazu a použít ji jako

dobrý indikátor finální střední chyby RMSE.

Např. v IDRISI se k vytvoření simulované chyby používá procedura RANDOM, která vytváří

datový soubor s náhodnými hodnotami podle přímkového (rectlinear), normálního (N) nebo

lognormálního (LN) modelu. Pro N a LN distribuci může být střední chyba buď konstantní

pro celý obraz, nebo může být definována chyba pomocí obrazu (mapy), který má prostorově

variabilní hodnoty. Pro kategorizovaná data dává přímkový (rectlinear) model celočíselné

hodnoty, které mohou být použity jako kódy kategorií. Pro kvantitativní data generují všechny

modely reálná čísla. Např. chcete-li přidat simulovanou chybu k DEM se střední chybou RMS

= 3 m, RANDOM by měl být použit ke generování povrchu podle N modelu s průměrem 0

a směrodatnou odchylkou = 3. Tento obraz bude přidán k DEM. Výsledek nemá žádný

speciální význam vzhledem k realitě - prostě obsahuje chyby stejné povahy, jaké

předpokládáme, že existují v originále.

Maguire et al. (2005, s. 78) uvádí příklad využití Monte Carlo simulace pro ověření korelace

mezi 2 proměnnými (teplota půdy a vlhkost půdy). Obě veličiny byly krigovány, jenže

krigování jako nejlepší lokální odhad potlačí variabilitu a vyhladí výsledky.

Koeficient korelace mezi oběma rastrovými mapami vyšel r=-0,54.

Geostatistická simulace umožňuje realizovat 1000 možných realizací map obou proměnných

na základě statistické distribuce příslušných hodnot, prostorové autokorelace a vzájemné

korelace (cross-correlation). Pro každý pár map byl spočítán koeficient korelace. Výsledkem

je 1000 hodnot korelace r. Výsledné hodnoty r se pohybovaly od -0,58 do –0,28. 95% interval

spolehlivosti byl v rozsahu –0,53 až –0,36. Původní odhad –0,54 byl tedy díky vyhlazení

velmi optimistickým odhadem korelace.

Velkou výhodou Monte Carlo simulace je její flexibilita. Můžete simulovat různé distribuce,

za různých předpokladů, s rozdílným výběrem klíčových parametrů. Pro různá data mohou

být použity rozdílné modely variability.

Shrnutí:

Skutečná (pravá, reálná) hodnota veličiny je hodnota ideální, hodnota zjištěná

s nekonečnou přesností. Správná hodnota je hodnota považovaná za skutečnou, je

to nejlepší dosažené zjištění skutečné hodnoty. Chyba měření je rozdíl mezi

správnou hodnotou měřené veličiny a hodnotou zjištěnou měřením pomocí

nástrojů nebo pozorováním. Náhodné chyby vznikají náhodnými rušivými vlivy a

lze je pouze minimalizovat (chyba typu A). Systematické chyby se projevují

pravidelným vzorem ve výsledcích, měří se průměrnou chybou. Hrubé chyby jsou

omyly způsobené člověkem. Pracovní chyba měření zohledňuje vyšší toleranci

nezbytnou při měření v pracovních (neideálních) podmínkách. Spolehlivost

zahrnuje konzistenci a opakovatelnost. Konzistence hodnotí shodu hodnot různých

podmnožin položek mezi sebou či za různých podmínek, zatímco opakovatelnost

stupeň shody výsledků měření jednoho objektu provedeného za stejných

podmínek. Rozlišuje se absolutní a relativní spolehlivost (reliabilita); každá má

své postupy měření. Ocenění chyb měření běžně zahrnuje výběr části dat,

opakování měření a srovnání výsledků. Velikost potřebného vzorku se určuje ze

střední chyby u kvantitativních dat nebo z proporcionální chyby u kvalitativních

dat. V případě malého počtu dat je nutné chybu korigovat (navýšit) pomocí

rozšiřujícího koeficientu. V případě hodnocení kvalitativních chyb je nutné rozlišit

chyby nadbytečného přijetí (chyba I.druhu) a chyby vynechání (chyba II.druhu).

K popisu šíření chyb se používají známé vzorce nebo Monte Carlo simulační

metoda.

Kontrolní otázky: 1) Co je chyba?

2) Lze zjistit skutečnou hodnotu veličiny?

3) Jaké předpoklady mají být splněny u náhodných chyb?

4) Jak vznikají náhodné chyby?

5) Co jsou systematické chyby?

6) Lze měřit systematické chyby?

7) Co může být zdrojem systematické chyby?

8) Jak vznikají hrubé chyby?

9) Jaký je rozdíl mezi základní a pracovní chybou měření?

10) Co je spolehlivost?

11) Co je konzistence?

12) Co je opakovatelnost?

13) Jak se zjišťuje spolehlivost?

14) Jak se zjišťuje koeficient reliability?

15) Jak se měří relativní reliabilita?

16) Co je absolutní reliabilita?

17) Jak se běžně postupuje při oceňování chyb?

18) Jak se určí velikost potřebného vzorku u kvantitativních dat?

19) Jak se určí velikost potřebného vzorku u kvalitativních dat?

4 Kvalita dat a jejich popis

Cílem kapitoly je seznámit čtenáře s jednotlivými aspekty kvality dat, které jsou

vyjádřeny jako složky metadat, tj. jako položky, které je nutné u každého datového

díla či služby specifikovat.


Význam metadat

Základní rozdělení prvků kvality

Popis jednotlivých prvků kvality dat

Metakvalita

Standardizace popisu kvality dat

Získáte:

Důležitosti a přístupech k popisu metadat

Přehled a srovnání jednotlivých prvků kvality dat

Znalosti o vlivech jednotlivých prvků na výslednou kvalitu a použití dat

Vědomosti o popisu metakvality

Budete umět:

Navrhnout odpovídající strukturu metadat pro datovou sadu/službu

Správně popsat požadované prvky kvality dat.

Identifikovat zdroj chyb u datového souboru či služby

Budete schopni:

Správně využívat metadata

Vyhnout se chybnému zpracování a interpretaci prostorových dat


Popis neurčitosti dat musí být uveden v metadatech, které obecně popisují kvalitu dat.

Různé formy neurčitosti se promítají do různých složek popisu kvality dat, zpravidla ale nejen

do jedné.

Znalost kvality dat je velmi důležitá pro posouzení možného použití dat. Zvláštního významu

nabývá, jestliže se data předávají mezi organizacemi nebo se šíří veřejně.

S příchodem budování geoinformačních infrastruktur se stala problematika kvality dat

mimořádně aktuální a naléhavou.

Jakmile použití dat překračuje prvoplánový účel či dochází k jejich sdílení více uživateli,

musí být popisu a reprezentaci kvality dat (a tedy i interní nejistoty) věnována zvláštní

pozornost. Je třeba si uvědomit, že základní definice kvality hovoří „o míře uspokojení

uživatelských potřeb“. Je tedy logické, že ve chvíli ztráty přesného vymezení uživatele a jeho

potřeb, musí být tato otázka dobře řešena.

Otázky správného posouzení kvality dat jsou důležité i proto, že budovaný GIS může sloužit

různým účelům, které je někdy v počátcích jeho budování těžké správně odhadnout. Kvalita

geografických dat je však často zkoušena až poté, co nesprávné rozhodnutí vede k nějakým

ztrátám.

Srovnejte životnost dat a současnou požadovanou funkcionalitu GIS. Je zřejmé, že nároky na

data se s vývojem požadavků budou měnit.

Znalost kvality geografických dat je pro aplikaci těchto dat často rozhodující, neboť různí

uživatelé a různé aplikace mají mnohdy odlišné požadavky na kvalitu (ISO 19138).

Vhodnost použití se podle Fisher et al. (2006) označuje často jako „externí kvalita“. Data plní

specifické požadavky uživatele. Tím automaticky vyjadřujeme, že jde o obtížně hodnotitelné

kritérium. Nicméně je to zcela zásadní kritérium. Pro hodnocení se používá např. testování

odchylek nebo doplňkové anotace uživatelů (Fisher et al., 2006).

Náklady na ocenění kvality dat jsou přímo úměrné naší náročnosti a možným ztrátám. Čím

důkladněji chceme testovat kvalitu dat, tím vyšší je cena jak vlastních testů, tak i ztrát

způsobených zdržením prací při provádění testů a opravě nedostatků (přitom růst nákladů je

nelineární vůči rostoucí kvalitě (obr. 8). Proto by úroveň testování měla odpovídat

požadované úrovni přesnosti. Navíc rozdílné složky kvality dat se liší nákladností zvyšování

své kvality (obr. 9).

Obrázek 8 Geometrický nárůst nákladů při rostoucích požadavcích na kvalitu

Obrázek 9 Srovnání nákladů na 3 stupně kvality polohové přesnosti a aktuálnosti (Bernhardsen, 1993)

4.1 Prvky kvality dat

Kvalitu dat (a tedy i užitečnost dat) popisuje základní složky kvality dat.

Podle Aronoffa (1989) mohou být tyto složky sdruženy do 3 kategorií: mikrosložky,

makrosložky a uživatelské složky (usage components).

Mikrosložky jsou faktory kvality dat, které přísluší k jednotlivým prvkům dat. Zpravidla se

oceňují statistickým testováním datového produktu vůči nezávislému zdroji s vyšší kvalitou

informace („správné“ hodnoty). Patří sem polohová přesnost (positional accuracy), rozlišení,

přesnost atributů a logická konzistence.

Makrosložky kvality dat příslušejí k datům jako celku. Nepodrobují se testování, ale jsou

oceňovány posouzením (např. úplnost dat) nebo výpisem informací o datech (např. datum

pořízení). Mezi hlavní makrosložky patří úplnost dat, aktuálnost dat a rodokmen dat (lineage).

K makrosložkám kvality dat patří i metanejistota, kterou rozumíme nejistotu v určení všech

aspektů kvality dat. Viz metakvalita a její dokumentace.

Uživatelské složky kvality dat se vztahují k podmínkám organizace. Např. vliv ceny dat

závisí na finanční situaci organizace - pro některé organizace jsou určitá data příliš drahá

a musí se omezit na jiná, levnější data. Jiným faktorem je dostupnost dat.

Podrobnější seznam prvků kvality dat uvádí Worboys, Duckham (2004, s.336):

Accuracy – blízkost shody mezi daty a věcmi, které jsou jimi popisovány

Bias – systematická odchylka dat

Completness – úplnost dat

Consistency – úroveň logických kontradikcí uvnitř dat

Currency – aktuálnost dat

Format – struktura a syntaxe použitá ke kódování dat

Granularita – granularita, rozlišení

Lineage – historie, rodokmen

Precision – úroveň detailu nebo specifičnosti dat

Reliability – trustworthiness (důvěryhodnost, spolehlivost) stupně důvěry, který má

uživatel k datům

Timeliness – určuje, jak relevantní jsou data pro aktuální potřeby uživatele

Nekonzistence – porušení logických vazeb. Nekonzistenci zjistíme, např. pokud mohu

odvodit protiklad z dat či pravidel. V českých překladech ISO norem řady 191xx se

objevil termín „bezespornost“.

Příklad nekonzistentní sady výroků: Opava má 62500 obyvatel. Všechna města nad

100000 jsou velká. Opava je velké město.

Relevance a vhodnost použití (relevance and fitness for use)

Relevance – popisuje vztah mezi informací a jejím kontextem. V případě datové sady

relevance znamená (míru) propojení datové sady na určitou aplikaci.

4.1.1 Polohová přesnost

Polohovou přesností se rozumí geometrická přesnosta (positional accuracy or geometric

accuracy).

Poloha objektů je v databázi zaznamenána jako sada souřadnic. Jediným způsobem, jak měřit

polohou přesnost je srovnat datovou sadu s jinou datovou sadou lepší kvality (označovanou

jako kontrolní či referenční údaje), nebo s daty odvozenými z měření a vzorkování (např. GPS

senzory). Geometrická přesnost, neboli přesnost souřadnic, přímo závisí na metodě pořízení

dat a zpracování měření (Servigne et al., 2006).

Polohová přesnosta je očekávaná odchylka geografické lokalizace objektu v datovém

souboru od jeho správné polohy. V některých případech se může polohová přesnosta

charakterizovat pravděpodobností, že předpověď bude správná - tedy např. pravděpodobnost,

že pozice bodu určená z mapy bude na "správném" místě, tj. na místě zjištěném přesnějším

měřením např. geodeticky. Tj. pravděpodobnost, že lokalizace uvedená v datech odpovídá

skutečné pozici.

Obrázek 10 Polohová přesnost vyjádřená pomocí velikosti chyby (vlevo) nebo pomocí pravděpodobnosti shody poloh

obou křížků (vpravo)

Polohová přesnost (positional accuracy) může být definována jako stupeň, do kterého

digitální reprezentace entit reálného světa souhlasí se správnou polohou na zemském povrchu

(Harding, 2006).

Podle Ordenance Survey má polohová přesnost 2 komponenty - geometrickou věrnost

(geometric fidelity) a relativní přesnost (relative accuracy).

Relativní přesnost označuje polohovou konzistenci bodu ve vztahu k lokálním bodům. Pro

její měření se používá porovnání přepočítaných (scaled) vzdáleností dobře definovaných bodů

(např. rohy budov) se vzdálenostmi změřenými mezi těmito body v terénu. Výsledky jsou

vyjádřeny pomocí očekávaného směrodatného chybového vektoru (expected standard error

vector) pro danou mapovou oblast (Harding, 2006).

Geometrická věrnost je správnost geoprvků v datech vůči tvarům a spojení (alignment) bodů

entit reálného světa, které reprezentují. Připojení (propojení), která jsou přímková v reálném

světě, musí být reprezentována jako přímková i v datech. Hodnocení se provádělo vizuálním

posouzením v měřítku odpovídajícímu měřítku provedeného měření (Harding, 2006).

Podobný význam má dělení polohové přesnosti (positional accuracy) na absolutní (absolute)

přesnost a relativní (relative) přesnost (Servigne et al., 2006).

Rovněž je třeba rozlišit mezi horizontální (planimetric) přesností (accuracy) a výškovou

(altimetric) přesností (pro 3D data). Výšková přesnost se často chápe jako problém

sémantické přesnosti (semantic accuracy), protože výška bodů je zpravidla zaznamenána jako

alfanumerický atribut (Servigne et al., 2006).

Obrázek 11 příklad polohové nepřesnosti (positional inaccuracy) (Servigne et al., 2006)

Vysvětlivky: nominal ground – modelová realita, dataset to qualify – datová sada určená pro kvalifikaci

Již před výběrem zdroje dat (a i způsobu zpracování dat) by měl mít uživatel jasnou představu

o požadované polohové přesnosti.

Nejčastějším zdrojem dat byly analogové mapy. Polohová přesnost map většinou vyhovuje

při práci v určitém měřítku. Pochopitelně na analogové mapě se používají pro záznam objektů

symboly v jiném měřítku, než je měřítko mapy. Linie jsou vyznačovány určitou tloušťkou,

body jako symboly o určité velikosti. Snímání těchto objektů vede a priori k nepřesnostem.

Vedle polohové přesnosti ovlivňuje volba měřítka zdroje i úplnost dat (viz úplnost dat).

Přesnost se zpravidla testuje výběrem určitého vzorku bodů předepsaným způsobem

a porovnání jejich souřadnic s kontrolní sadou zdrojem informací. Je třeba sledovat, aby

vzorky pro ocenění přesnosti byly vybrány náhodně a aby reprezentovaly celou plochu

Podrobněji viz kapitola organizace sběru dat.

Polohová přesnost má 2 složky: průměrnou odchylku (bias) a rozptyl přesnosti.

Odchylka představuje systematickou chybu mezi reprezentovanou a správnou polohou.

Ideálně by měla být odchylka rovna 0, aby zde nebyla žádná systematická chyba. Průměrná

odchylka je měřena jako průměrná polohová chyba ze vzorků bodů.

Rozptyl přesnosti se obecně odhaduje výpočtem směrodatné odchylky vybraných testovaných

bodů. Nízká odchylka odpovídá nízkému rozptylu chyb v poloze a tedy pravděpodobně nízké

náhodné chybě.

Nejčastější způsobem vyjádření polohové přesnosti zvláště v geodézii a fotogrammetrii je

střední (souřadnicová) chyba (RMSE, root mean square error) (viz kapitola 3). Tento výpočet

však nerozlišuje mezi systematickou odchylkou (průměrnou odchylkou) a náhodnou

odchylkou (rozptyl přesnosti).

Vztah mezi střední chybou a měřítkem mapy ukazuje např. tab. 6.

Střední chyba udávaná u map 1:10000 (např. ZABAGED) je 3 až 10 m. Mapa 1:200000

(DMU200) má střední chybu 40 až 80 m.

ČSN 013411 „Mapy velkých měřítek. Kreslení a značky“ udávala požadované třídy přesnosti,

z nich první pět bylo definováno střední souřadnicovou chybou (viz tab. 7), další třídy

přesnosti pak měřítkem mapy. Tyto požadavky přesnosti se promítly následně do dalších

předpisů, např. předpis ČUZK „Struktura a výměnný formát digitální katastrální mapy

a souboru popisných informací katastru nemovitostí České republiky a dat BPEJ verze 1.3“

č.j. 5270/1999-22.

Tabulka 6 Absolutní přesnost vektorových dat Ordnance Survey (Harding, 2006)

Typ měření Střední chyba

(RMSE)

95% konfidenční

interval

99 % konfidenční

interval

1:1250 (urbánní

území)

± 0.42 m ± 0.73 m ± 0.90 m

1:2500 (přeměření) ± 1.10 m ± 1.90 m ± 2.40 m

1:2500 (důkladná

revize)

± 2.70 m ± 4.67 m ± 5.79 m

1:10000 (horské

území a planiny)

± 4.09 m ± 7.08 m ± 8.78 m

Tabulka 7 Třídy přesnosti dle ČSN 013411

Třída přesnosti Střední souřadnicová chyba

1 ± 0,04 m

2 ± 0,08 m

3 ± 0,14 m

4 ± 0,26 m

5 ± 0,50 m

Pro zlepšení polohové přesnosti jsou v jednotlivých zemích (Rakousko, Bavorsko, Irsko,

Severní Irsko) realizovány programy, které zajistí převod regionálních i národních mapových

dat do nových zobrazovacích mapových systémů, případně pro provádění lokální adjustace na

kontrolní body. Podobně i UK řeší problém zlepšení přesnosti vektorových dat velkého

měřítka v rurálních oblastech. Topografické mapování v rurálních oblastech bylo založeno na

transformacích v 50tých letech, kdy se transformovaly mapování z lokálních souřadnicových

systémů v každém okrese (county )do britského národního souřadnicového systému (British

National Grid system). Zatímco původní polohová přesnost byla dobrá (±1.2 m RMSE),

omezení při transformaci vedly k přesnostia na úrovni ±2.7 m RMSE. Nový program využívá

zpřesnění GPS měření (Harding, 2006).

4.1.2 Rozlišení

Rozlišení dat představuje velikost nejmenší rozlišitelné jednotky nebo nejmenší

reprezentovatelné jednotky. V případě snímků - leteckých, družicových - odpovídá rozlišení

nejmenšímu objektu, který lze rozlišit. Někdy se také používá termín prostorové rozlišení

(spatial resolution).

Pro kamerové systémy se obyčejně udává rozlišení v řádcích na mm (lines/mm). Typickou

hodnotou pro letecké mapovací kamery je 80 l/mm.

U digitálních skenovacích systémů jako jsou senzory družic, se prostorové rozlišení definuje

jako velikost území, které je zachyceno na 1 pixelu. Příklady prostorového rozlišení

u družicových skenerů - např. TM 30m a 120 m, ETM 15 m, Ikonos PAN 1 m, QuickBird

PAN 61-75 cm.

Obrázek 12 Prostorové rozlišení pro rastrový datový model

V případě tematických map jako jsou půdní mapy, mapy využití území (land use) či mapy

jiných kategorizovaných dat je potřebné nedefinovat rozlišení pomocí rozměru pixelu, ale

jako elementární mapovací jednotka (minimum mapping unit), která vyjadřuje velikost

nejmenšího reprezentovaného objektu. Proces rozhodování o velikosti elementární mapovací

jednotky (tedy nejmenším zahrnutém objektu) probíhá při tvorbě tematické mapy. Závisí na

účelu mapy, přesnosti dat apod.

Obrázek 13 elementární mapovací jednotka (minimum mapping unit) jako velikost nejmenšího reprezentovatelného

objektu

Ukládání dat a prezentace informací probíhá v GIS odděleně. Uložená geografická data

mohou být principiálně zobrazena v libovolném měřítku. Popisy a další části mapové

kompozice se připojují až při tvorbě výstupu a jejich velikost se přizpůsobuje měřítku

výstupu. Pokud bychom přijali tezi, že geografická data nejsou vázána na žádné měřítko, bylo

by možné zvolit velmi malou elementární mapovací jednotku a to i pro velké oblasti.

Uvedený přístup možného zobrazování geografických dat lze přijímat pouze teoreticky.

Reálně je nutné vycházet z měřítka, ve kterém byla data pořízena (např. měřítko mapy, která

byla digitalizována), protože nám udává úroveň přesnosti a rozlišení získaných dat. Za data

existující v GIS reálně v měřítku 1:1 lze považovat data získaná z měřických terénních

přístrojů (včetně GNSS).

Vykreslování map v měřítku větším než je měřítko, ve kterém byla data pořízena, nelze

doporučit. Výjimečně se provádí např. v případě, že chceme použít v tematické mapě jako

podklad hrubou generalizovanou topografickou skutečnost a využívá se faktu, že mapy

malých měřítek jsou více generalizované (Aronoff, 1989).

Řada programových systémů umožňuje definovat rozmezí zvětšení, ve kterém budou

příslušnou vrstvu zobrazovat, a tím respektovat měřítko pořízení dat.

4.1.3 Přesnost atributů

Atributová přesnost se také označuje jako sémantická přesnost.

Atributová přesnost (attribute accuracy) je přesnost záznamu informací reálného světa

pomocí atributů (Harding, 2006). Zahrnuje hodnocení přesnosti atributů jako klasifikace

geoprvků, jejich názvy, popis nebo popis změn v historii.

Hodnota atributu je výsledkem měření nebo interpretace, pocházející z různých přímých

lidských pozorování (Servigne et al., 2006).

Sémantická přesnost je definována jako rozdíl mezi měřením a jiným srovnatelným měřením

vyšší kvality (přesnosti) (obr. 14). Protože zpravidla neznáme pravé hodnoty, srovnáváme

s referenčními údaji („správné“ hodnoty) (Servigne et al., 2006).

Jak známo, v atributech se mohou objevit hodnoty výčtové (nominální), pořadové, intervalové

nebo poměrové. Viz měření u nich (Horák, 2013). Výčtové a pořadové odpovídají diskrétním

proměnným, zatímco intervalové a pořadové spojitým.

Obrázek 14 příklad sémantické nepřesnosti (semantic inaccuracy) (Servigne et al., 2006)


Diskrétní proměnná nabývá konečného počtu hodnot, zatímco spojitá proměnná libovolných

hodnot (např. teplota, hustota populace, nadmořská výška) v rámci určitého intervalu. Pro

posouzení přesnosti spojitých atributů se používá stejných metod jako u polohové přesnosti.

Jinak je tomu o diskrétních proměnných, kde se aplikují metody posouzení klasifikační

přesnosti, tedy proporcionální přesnost.

Obrázek 15 Ukázky chyb v atributech – v názvu objektů a jeho klasifikaci.

Klasifikační přesnost je pravděpodobnost, že třída přidělená místu odpovídá třídě, která by

mohla být nalezena v reálném světě.

Posuzování klasifikační přesnosti je dobře známo z hodnocení dat DPZ, kdy je prováděná

interpretace ověřována terénní rekognoskací.

Chyby v klasifikaci mohou být prezentovány ve formě kontingenční tabulky.

Chybná klasifikace leží mimo hlavní diagonálu. Nutné je i expertní posouzení, které z chyb

jsou závažné pro další interpretaci (některé chyby v určení nejsou závažné, protože nevedou

v dané aplikaci k chybnému rozhodnutí).

Obrázek 16 Mapovaný (vlevo) a skutečný (vpravo) pokryv území

Tabulka 8 Kontingenční tabulka pro hodnocení přesnosti klasifikace DPZ

Skutečnost

Map

ován

o

V posledním sloupci jsou proporcionální chyby z nesprávného zařazení, kdy jsou jako chyby

označeny případy, kdy mapované objekty (pixely) byly ve skutečnosti (ve vzorku) něco

jiného. Např. u smíšeného lesa bylo celkem 19 chyb (3 pixely byly ve skutečnosti jehličnatým

lesem a 16 listnatým lesem).

V posledním řádku jsou proporcionální chyby z opomenutí - vzorky byly mapovány jako jiná

kategorie. Proti realitě bylo např. 5 pixelů jehličnatého lesa špatně klasifikováno.

Celková proporcionální chyba je 0.19 (19%).

Problematika klasifikační přesnosti je dosti komplexní a není zcela objektivní, což vyplývá

mimo jiné z ovlivnění přesnosti faktory jako je: počet tříd, tvar a velikost jednotlivých oblastí

(čím větší a čím kulatější oblast, tím je identifikace spolehlivější), způsob výběru testovacích

bodů. Např. pokud provedeme náhodný nebo pravidelný výběr bodů v celé oblasti a získáme

jen velmi málo vzorků pro třídu např. mokřiny (tvoří-li např. jen 1% plochy území), těžko

budeme posuzovat správnost klasifikace pro tuto třídu. U takových případů můžeme mít

problémy i s vlastním ověřením správnosti klasifikace v terénu, je-li sledované místo příliš

malé. Současně jsou problémy i se splněním předpokladu nezávislosti vzorků, protože

jednotlivé třídy spolu souvisí. Ideálně by měla být každá třída na mapě testována zvlášť.

Je třeba připomenout, že v přesnosti atributů se projevuje řada problémů. Nejednoznačnost

definice třídy může mít charakter konfliktu, kdy různé zdroje, různé autority udávají různou

definici tříd, nebo nespecifičnosti, kdy není jednoznačné zařazení prvků do tříd.

Máme-li k dispozici více variant interpretace, můžeme si nechat vykreslit

nejpravděpodobnější výslednou interpretaci (modus hodnoty např. operace LocalMajority)

a současně vykreslit mapy věrohodnosti identifikace (nejvyšší spolehlivost je v místě shody

klasifikace ze všech variant, nejnižší spolehlivost v místě nejvyšší variability identifikace).

Dalším problémem je vágnost ve vymezení tříd, v neexistenci ostrých hranic, tvorbě

přechodů. V přírodě např. neexistuje tak ostrá hranice jako na mapě, ale např. přechodná zóna

"okraj mokřiny" šířky 10m (navíc závislá na čase podle vývoje hladiny spodní vody).

Aronoff (1989) proto mluví vedle klasifikační přesnosti i o identifikační přesnosti (jak často

byl přidělen správný atribut) a diskriminační přesnosti (přesnost v oddělení sousedních typů).

4.1.4 Logická konzistence

Logická konzistence vypovídá o tom, jak dobře jsou udržovány logické vztahy mezi objekty.

Logická konzistence kontroluje míru rozporů vůči deklarovaným logickým pravidlům.

Trochu užší pojetí říká, že se vztahuje ke všem logickým pravidlům, které řídí struktury

a atributy geografických dat a popisuje kompatibilitu mezi datovými sadami (Servigne et al.,

2006).

Ještě užší vymezení používá Harding (2006), podle kterého je logická konzistence měřením

stupně, do jakého datová logika a syntaxe souhlasí (complies) s datovou strukturou

definovanou v datové specifikaci. Např. kontrola kvality pro logickou konzistenci používaná

v OS pro vektorová data velkého měřítka zahrnují kontrolu topologické konzistence (např.

kontrola volných konců linií, počáteční a koncový bod polygonu musí mít stejné souřadnice

atd.), validitu datové struktury a validitu hodnot.

Datová sada je považována za konzistentní na logické úrovni, pokud respektuje strukturní

charakteristiky vybraného datového modelu a pokud je kompatibilní s omezeními atributů

definovaných v datech. Devillers, Jeansoulin (2006) k tomu přidává i požadavek na dodržení

logických vztahů.

Existuje několik úrovní logické konzistence, od jednoduchého logického ověření rozsahu

hodnot atributů až po specifická pravidla konzistence, založená na geometrii (např. je obvod

polygonu správně uzavřen?) nebo na logickém prostorovém vztahu (omezení topologické

integrity – příklad: každá linie sítě musí být připojena přes vrchol k další linii) (Servigne et

al., 2006).

Konzistence nám umožňuje mimo jiným verifikovat (Servigne et al., 2006), zda:

Objekty popsané v geografické databázi přesně respektují realitu.

Topologie a prostorové vztahy jsou reprezentovány a respektovány.

Použité proměnné se blíží vhodným hodnotám (limitní hodnoty, typy atd.)

Datový soubor je konzistentní. Tento aspekt může být rozšířen na spolehlivost média,

na kterém je soubor uložen.

Obrázek 17 Ověřování logické konzistence (uzavření polygonu, topologické spojení linií) (Servigne et al., 2006)

Vysvětlivky: nominal terrain – realita, dataset to qualify – datová sada určená pro kvalifikaci

Nezajištění logické konzistence objektů vede k problémům při zpracování (např. nedokonalý

překryv). Porušení logické konzistence se může objevit v důsledku těchto faktorů:

různá měřítka originálních map

různé rozlišení

různé stáří jednotlivých datových vrstev

rozdílný klasifikační systém

různé metodické postupy při tvorbě mapy.

I malé odchylky v polohové přesnosti (zcela v mezích požadované přesnosti) se při překryvu

vrstev mohou jevit jako logická nekonzistence vznikem překryvů nebo naopak tenkých

"prázdných" štěrbin mezi 2 objekty (odštěpek = sliver). Některé programy pro GIS jsou

schopny tyto problémy řešit vytvořením pásu neurčitosti mezi objekty, který jejich okraje

překrývá (tzv. fuzzy boundary).

Logickou konzistenci je vhodné zajišťovat již před vlastním vstupem dat, kdy např. při

překreslení podkladů je možno stav kontrolovat a provádět úpravy (tento proces se někdy

označuje jako konflace).

4.1.5 Sémantická konzistence

Významově blízká logické konzistenci je také sémantická konzistence (semantic consistency).

Někteří autoři chápou sémantickou konzistenci jako nadřazený pojem (zahrnuje i logickou

konzistenci) – část z těchto sémantických problémů je možné označit za porušení logických

pravidel a tedy porušení logické konzistence.

Koncept sémantické konzistence vyjadřuje kvalitu, se kterou jsou popsány geografické

objekty ve srovnání s použitým modelem (Servigne et al., 2006). Tento aspekt kvality se více

vztahuje k relevanci významnosti geografických objektů než k jejich reprezentaci (Salgé,

1995, in Servigne et al., 2006). Sémantická konzistence má proto velký význam pro určení

vhodnosti použití.

Cílem ověřování sémantické konzistence se provádí pomocí měření „sémantické vzdálenosti“

mezi geografickými objekty a „nominal ground“ (modelová realita) (Servigne et al., 2006).

Musíme rozlišit mezi pohledem producenta a uživatele. Producent má poskytnout specifikaci

sémantického obsahu databáze (zejména specifikace, které definují modelovou realitu

(nominal ground), model, podmínky výběru apod.) a současně poskytnout informaci

o sémantické kompatibilitě (semantic performance), tj. o úrovni shody s výše definovanými

sémantickými omezeními). Pro uživatele je cílem definovat vhodnost těchto dat pro své

požadavky. Znalost specifikací je důležitá zejména ze sémantického pohledu (Servigne et al.,

2006) – shodují se uživatel a producent na vymezení jevu (např. obsahuje třída nemocnice

také kliniky)? Podle Puricelli (2000, in Servigne et al., 2006) mohou být rozlišeny 2 úrovně

specifikace:

Geometrická, která definuje tvar a polohu objektů (přitom platí jak pro rastrový tak

pro vektorový model)

Sémantická, která popisuje objekty.

Při tvorbě sémanticky konzistentních dat se uplatňují výběrová kritéria, která definují např.

vstupní podmínky (minimální velikost entity), agregační operace a jejich parametry (všechny

pole s plodinami budou uloženy a sloučeny do zemědělských zón) (Servigne et al., 2006).

Extrakce představuje transformaci entit reálného světa do objektů, atributů, polí v rámci

vybraného modelu a data (Servigne et al., 2006).

Při hodnocení sémantické konzistence narážíme na problémy vágnosti a nejednoznačnosti.

Sémantická konzistence zahrnuje oblast logické konzistence (datová omezení), časové

konzistence (nekonzistentní datumy), a sémantické přesnosti (sémantické nekonzistence ve

formě např. klasifikační chyby) (Servigne et al., 2006). Sémantická konzistence je složena

z několika parametrů, které nelze jednoduše rozlišit. Flagrantní chyba (např. dům v jezeře) je

sémantickou nekonzistencí, ale může být způsobena časovou chybou (změnily se břehy

jezera), logickou nekonzistencí (nebyly vztahy v úvahu domy na pilotech) nebo chyba

úplnosti (zapomnělo se na ostrov) (Servigne et al., 2006).

Obrázek 18 Příklad sémantické nekonzistence (Servigne et al., 2006)


4.1.6 Úplnost dat

Z hlediska dodavatele dat je úplnost měřením stupně, do jakého obsah dat koresponduje

s reálným světem podle specifikace pořizování (capture) dat, pokrytí datové sady a úrovně

aktuálnosti požadované dle aktualizační politiky (Harding, 2006). Nesoulad může být měřen

kvantifikací počtu vynechání (omission, chyba II.druhu), kdy některé entity reálného světa

odpovídají specifikaci pro záznam do digitálního modelu, ale přitom v něm chybějí,

a nadbytečnosti (comission, chyba I.druhu), kdy naopak některé geoprvky existují v datech,

ale neodpovídají specifikaci pořizování dat (obr. 19).

Srovnání objektů v databázi se všemi objekty univerzu diskurzu (ideální stav transformace

a zápisu všech reálných objektů do modelu, tedy úplný model) vyžaduje formální popis obou

těchto datových sad (Servigne et al., 2006).

Je třeba zdůraznit, že úplnost databáze (či mapy) může být vyhovující pro jeden účel, ale ne

pro jiný, závisí tedy na vymezené doméně. Proto je tento prvek kvality ve vztahu k vhodnosti

použití. Navíc je tu ještě jeden rozpor. Zatímco informace o kvalitě dat (úplnosti dat) je

poskytována zpravidla producentem dat, informace o vhodnosti použití je běžně

charakterizována dobou nutnou k přípravě pro užití datové sady. Navíc během životního

cyklu datové sady je zpravidla informace o kvalitě (vč. úplnosti) poskytována pouze jednou,

na začátku producentem, zatímco hodnocení vhodnosti použití je prováděno pro každou

aplikaci (Servigne et al., 2006).

Obrázek 19 Příklady vynechání pravých a přidání klamných objektů (B omissions, C commissions) (Servigne et al.,

2006)


Úplnost je možné zkoumat následujícími otázkami (Servigne et al., 2006):

Je pokrytí zóny úplné?

Je počet modelovaných objektů stejný jako počet objektů definovaných v modelu?

Mají modelované objekty správný počet atributů a jsou všechny hodnoty přítomny?

Jsou všechny entity v realitě reprezentované v modelu?

Je všechno, co je zahrnuté v konceptuálním modelu, také přítomno v databázi?

Můžeme rozlišit 2 typy úplnosti (Servigne et al., 2006):

úplnost dat (data completeness), která se určuje na základě hodnocení výskytu

vynechání správných a přidání klamných objektů vůči modelu (tj. srovnává se mezi

datovou sadou a ideálním modelem, tj. univerzem diskurzu) a která je měřitelná

a nezávislá na aplikaci.

úplnost modelu (model completeness) je hodnocení rozdílů mezi abstrakcí světa

odpovídající datové sadě a abstrakcí světa odpovídající cílové aplikaci, preferovaně

z hlediska vhodnosti použití (je model dostatečně bohatý, aby vyhověl požadavkům

aplikace?). Nedá se měřit, zpravidla se jen slovně vyhodnotí.

Aronoff (1989) ji označoval jako úplnost klasifikace s poněkud užším vymezením,

kdy určoval, jak dobře lze pomocí zvolené klasifikace reprezentovat data. Vymezení

tříd by mělo pokrývat celý možný rozsah. Např. pokud rozčleníme "dobytek" na třídy

"krávy", "býci", "ovce", nebudeme schopni nikde začlenit "koně". Pokud zde zařadíme

třídu "ostatní", je opět na našem posouzení, zda je vyhovující zařazení koní do

"ostatních". Jiný problém představuje vágnost hranic, např. situace, kdy vymezené

třídy tvoří spolu postupné přechody. Např. rozdělení lesního porostu na třídy

"jehličnatý", "listnatý" a "smíšený" vede k problémům definice rozhraní mezi třídami -

les, který je z 35% jehličnatý, bude řazen do třídy „listnatý“ nebo „smíšený“ ? Při

detailnějším vymezení (např. třídy po 10 % jehličnanů v lese) budou problémy

s nekonzistencí, protože např. tak detailně nejsme schopni les z letecké fotografie

klasifikovat.

Samozřejmě i zde se objevuje problém nejednoznačnosti. Definice tříd se může lišit

mezi jednotlivými mapovými listy v důsledku práce rozdílného interpretátora.

Výsledná mapa může mít výbornou polohovou přesnost a klasifikaci, ale hranice

sousedních listů budou poznamenány závažnými nesrovnalostmi. Pokud známe přesně

způsob provedení klasifikace, můžeme teoreticky provést reklasifikaci a sjednotit listy

map.

Datovou úplnost dále dělí na (Servigne et al., 2006):

formální úplnost (formal completeness) – týkající se datové struktury, tedy syntaxe,

kompatibility se standardy a používanými formáty, přítomnost povinných metadat)

objektová úplnost (object completeness), která zahrnuje úplnost atributů (attribute

completeness), geografickou úplnost (pokrytí) a úplnost vztahů (completeness of

relationships).

Někdy může být vhodné použít nejnovější data, která jsou ale dostupná jen v části území

(a použijí-li se zbytkem starého podkladu, pak jsou vůči němu nekonzistentní), a někdy

naopak lepší použít data starší, dobře vykrývající celou oblast, která jsou konzistentní.

Obrázek 20 Neúplné pokrytí listu mapy

Obrázek 21 Neúplnost atributů (druhý sloupec obsahuje řadu prázdných hodnot)

Úplnost geografického pokryvu úzce souvisí i s problémem generalizace map. Je jasné, že

použijeme-li jako zdroj mapu měřítka 1:50000, bude obsahovat jen některé objekty (díky

generalizaci) ve srovnání s mapou 1:5000. Např. shluk domů může být reprezentován

v malém měřítku jako 1 „dům“ (blok zástavby).

Aronoff (1989) ještě vyznačoval v rámci úplnosti stupeň verifikace, ale ten je třeba řadit do

metakvality (viz příslušná kapitola).

4.1.7 Aktuálnost dat

Aktuálnost dat (currency) popisuje, jak aktuální jsou data. Podle Harding (2006) je to

parametr udávající, jak dobře je objekt reálného světa aktuálně popsán v datech. Aktuálnost

pak může být vyjádřena pomocí sémantické přesnosti, atributové přesnosti, úplnosti či

konzistence (Harding, 2006).

Podle Servigne et al. (2006) reprezentuje aktuálnost (timeliness) časový posun (offset) mezi

vytvořenou datovou sadou a modelovou realitou (nominal ground) určenou k referenčnímu

datu T. Může být charakterizována intervalem validity pro datovou sadu.

Zpravidla se ale časový aspekt kvality dat se nejčastěji vyjadřuje uvedením datumu pořízení

dat (např. snímku).

Mezi časovým aspektem a jinými prvky kvality existuje celá řada vazeb (Servigne et al.,

2006):

Rodokmen – obsahuje řadu časových informací (společně s popisem změn)

Geometrická přesnosta – časová informace někdy vysvětlí chyby

Sémantická přesnosta – pro detekci nekonzistencí

Úplnost – je posuzována jen pro entity časově konzistentní

Logická konzistence - je posuzována jen pro entity časově konzistentní

Sémantická konzistence – měření sémantické konzistence časového aspektu v databázi

dovoluje hodnocení citlivosti (responsiveness) aktualizace databáze ve vztahu ke

změnám reálných jevů.

Aktuálnost dat je kritickým faktorem pro mnoho druhů geografické informace. Příkladem

mohou být demografická data nebo data o využití země, která se mohou výrazně v průběhu

roku změnit. Data mohou být také výrazně závislá na časovém intervalu (např. sezóna), ve

které byly sbírány.

Způsob řešení časových aspektů závisí na typu jevu. Některé třídy entit se znovu vkládají do

databáze ve víceméně pravidelném intervalu (např. letecké snímkování), jiné vyžadují

sledování celé historie (katastrální mapy) a některé mají smíšený charakter – např. fixní jev

(fixní poloha) s pravidelně se měnícími atributy (teplotní čidlo), nebo se jeho hranice mění

(politické hranice, linie pobřeží) (Servigne et al., 2006).

Perioda aktualizace závisí na oboru a na požadavcích. Např. v lesním hospodářství může být

dostačující perioda aktualizace 5-10 let. Zemědělské podmínky se mění rychleji, a proto

vyžadují podstatně častější aktualizaci. Jiná je situace v oborech, kde dochází k rychlým

změnám v čase a je nutná "průběžná" aktualizace (např. městské systémy 2-3 týdny). Pak je

výhodné použít systémů, které aktualizaci provádějí automaticky a rovněž i automaticky

provádí ukládání data aktualizace.

Podle Ordnance Survey jsou objekty rozděleny do 2 kategorií podle časové periody

aktualizace – významné geoprvky jsou aktualizovány do 6 měsíců od jejich vzniku v rámci

„kontinuální“ revize, zatímco málo významné geoprvky jsou aktualizovány v pětiletém

(v případě hor či planin desetiletém) cyklu (Harding, 2006).

Časový faktor se také může výrazně projevit v nekonzistenci dat.

Časová konzistence (temporal consistency) může být součástí sémantické konzistence.

Časová konzistence se týká datumu získání dat, datumu aktualizace dat a obdobími validity

(validity periods) (Servigne et al., 2006).

Různorodost zaznamenávaného času souvisí se 3 základními časy, které se v souvislosti

s informačními systémy vyskytují:

Logický čas (čas v realitě), kdy jev nastal v realitě (světový čas dle Rapant, 2002)

Čas pozorování tohoto jevu (indikační čas dle Rapant, 2002)

Transakční čas, kdy byl jev zaznamenán v databázi (systémový čas dle Rapant, 2002)

Určení správného časového intervalu pro potvrzení validity databáze (intervalu aktualizace)

závisí především na sledovaném jevu. Podobně i časová konzistence mezi objekty závisí na

typu jevu. Komplexní jevy nebo jevy, které mají vnitřní vztahy, vyžadují velmi dobrou

časovou konzistenci (zejména topologické struktury, např. silniční síť), zatímco nezávislé

entity ji nevyžadují (např. typicky individuální geoprvky jako jsou rozcestníky) (Servigne et

al., 2006).

Udržování požadované časové informace vyžaduje přidání jednoho či více atributů pro

objekty a vztahy. Udržování časové konzistence však vyžaduje více – zpravidla verzování dat.

Modifikace nemůže být omezena na přepsání novou částí dat, ale měl by se změnit pouze

příznak validity starých dat (na neplatný, předchozí segment uliční sítě) a nová data by měla

obsahovat odkaz na stará data (např. který silniční segment byl dříve platný) (Servigne et al.,

2006).

4.1.8 Rodokmen dat

Pod pojmem rodokmen dat (historie, původ dat) (lineage) rozumíme historii dat, tedy popis

zdroje dat a postupu při jejich sběru a základních úpravách před jejich uložením do databáze

GIS, až po reprezentaci digitálních dat.

Clarke, Clark (1995, in Servigne et al., 2006) identifikuje následující požadované informace

pro rodokmen:

Zdroj dat, původ, oblast (reference domain, např. geologie), charakteristiky

prostorových dat, souřadnicové a zobrazovací systémy, a odpovídající korekce

a kalibrace.

Pořizování, kompilace a odvozování: hlavní hypotézy použité pro pozorování,

kalibraci a korekce. Např. georeferencování nebo aplikace na určitou doménu, popis

metod použitých pro interpretaci, interpolaci nebo agregaci dat.

Konverze dat: definice konverzních procesů, např. kroky při vektorizaci rastrových

dat, při digitalizaci, při fotogrammetrickém vyhodnocení.

Zpracování dat: údaje o jednotlivých krocích zpracování dat.

Transformace nebo analýzy: transformace souřadnic, generalizace, posuny,

reklasifikace – a všechny definované, pokud možno, pomocí přesných matematických

výrazů. Všechny použité parametry by měly být jasně definované, protože tyto

transformace mají zásadní dopad na vytvářená data.

Parametr je často popisován formou volného textu, kde jsou postupně popsány potřebné

informace (Servigne et al., 2006). Jejich pořizování je pracné a často velmi obtížné, přesto

tento typ informací je nejužitečnější, ne-li nepostradatelný (Servigne et al., 2006). Např.

u topografické mapy může taková dokumentace zahrnovat datum použitých leteckých

snímků, fotogrammetrické metody pro vykreslování izolinií a zákres objektů, použití

kontrolních bodů, metodu tvorby finální mapy.

Každý zdroj dat a každý způsob jejich sběru zavádí do dat určitou úroveň chyb. V některých

případech může znalost rodokmenu dat významně ovlivnit rozhodování o použití dat.

Někdy jsou považovány zvláště údaje o postupu při zpracování dat za důvěrné a nesdělují se.

V ideálním případě by měla být určitá informace o rodokmenu dat včleněna přímo do

datového souboru a být zcela veřejná.

4.1.9 Jednoduchost dat

Jednoduchost a transparentnost dat ovlivňuje zejména dostupnost z pohledu snadnosti využití

dat a nepřímé náklady. Na rozdíl od dostupnosti, která je typicky uživatelskou složkou (závisí

na účelu uživatele) je jednoduchost objektivní vlastností datové sady bez ohledu na účel.

Jednoduché struktury dat a jednoduchý obsah dat posilují porozumění datům, urychlují jejich

využití a zmenšují rizika špatné interpretace. Transparentnost je spojena se snadností čtení dat

(např. textové formáty či jiné snadno čitelné formáty napomáhají využití). Transparentnost je

spojena i s interoperabilitou – data splňující požadavky interoperability jsou snadno

použitelná.

4.1.10 Dostupnost dat

Dostupnost (přístupnost) (accessibility) odpovídá snadnosti získání a využití dat. V některých

případech je vhodnější hovořit o přístupnosti dat, jako obecnějším faktoru.

Dostupnost dat je omezována z řady důvodů od majetkových vztahů, utajení skutečností,

ochrany osob a jejich majetku (individuálních svobod) až po politické embargo.

Dostupnost a přístupnost jsou typické uživatelské složky – závisí na konkrétní organizaci

a účelu použití.

Data mohou být veřejně přístupná a přesto pro danou organizaci nedostupná díky jejím

nedostatečným vnitřním lidským a technickým zdrojům (např. nemá smysl kupovat družicový

snímek, není-li člověk, který je schopen provést jeho interpretaci).

4.1.11 Cena dat

Přímé náklady odpovídají hodnotě nákupu dat u jiné organizace. Na ceně dat (přímých

nákladech) závisí možnosti použití dat v organizaci. Jestliže byla data pořizována uvnitř

organizace, jejich reálná cena může být zastíněna. Oceňování takto pořízených dat může být

velmi problematické (lidé i zařízení pracuje současně i na jiných úkolech apod.).

Nepřímé náklady zahrnují časové a materiálové náklady nutné k plnému využití dat. Po

nákupu dat se mohou zaměstnanci dlouho učit, jak s nimi zacházet a jak je využít, data mohou

být nekompatibilní s jinými používanými daty nebo se zakoupeným programovým

vybavením. Tyto dodatečné nepřímé náklady mohou být podstatně vyšší než přímé náklady

a mohou determinovat využitelnost dat.

4.1.12 Metakvalita

Vedle hodnocení kvality dat je přirozené, že se provede i hodnocení kvality informace,

s jakou jsou prvky kvality dat popsány (Servigne et al, 2006, s.185-186). Mluvíme

o metakvalitě (meta-quality).

Již Aronoff (1989) popisoval v rámci úplnosti dat tzv. stupeň verifikace, který odpovídá

věrohodnosti dat, ověřované množstvím a distribucí polních měření nebo jiných nezávislých

zdrojů informace. Geologové tento aspekt kvality vyjadřují na geologických mapách formou

zákresu např. u linií - ověřené linie (polními pracemi, důlní činností, tedy maximálně

věrohodné) vyznačují plnou čarou, méně ověřené (např. z vrtů nebo jiných bodových měření)

čárkovanou čarou a neověřené, tj. předpokládané linie se zakreslují tečkovaně. Podobné

vyjádření stupně spolehlivosti dat však není obecně zavedeno, proto se doporučuje doplňovat

alespoň jako atributovou hodnotu k jednotlivým geografickým prvkům.

Nejdůležitější z indikátorů metakvality jsou (Servigne et al, 2006):

Datum zpracování popisu kvality dat

Hodnocení použité metody (testovaná, vypočítaná, odhadovaná)

Velikost populace (vzorku), ze kterého byla charakteristika určena

Datum zpracování popisu kvality dat může být řešeno ad hoc (např. při provedení auditu)

nebo může být ověřování kvality dat kontinuální (např. u systémů, které mají zabudovaný

mechanismus ověřování integrity dat pomocí triggerů).

K běžným problémům při určování kvality dat patří problematická spolehlivost použit metody

z důvodů (Servigne et al, 2006) používání limitních hodnot, kvalita algoritmu, metoda

propagace apod.

Populace použitá v metodě hodnocení může záviset na metodě hodnocení. Někdy se hodnotí

celá populace (všechny prvky v datové sadě), jindy se aplikuje jistý typ vzorkování. Celá

populace může být dělena (partition) podle času (např. hodnocení kvality nových entit během

posledních dvou měsíců, hodnocení kvality entit, které jsou 3 až 5 let staré) nebo podle území

(např. zpracování určité administrativní jednotky).

CEN ISO identifikuje 3 hlavní prvky metakvality metadat:

jistota (confidence) – popisuje správnost (accuracy) informace o kvalitě (prvcích

kvality dat). Vztahuje se především k použitým metodám a jejich spolehlivosti,

v menší míře k velikosti a typu použité populace.

homogenita (homogeneity) – „textový nebo kvalitativní popis očekávané nebo

testované jednotnosti (uniformity) kvalitativních parametrů v sadě geografických dat“.

Datová sada může být výsledkem jednorázového procesu pořízení nebo výsledkem

kombinace různých technik (letecké snímky, digitalizace z map, GPS měření atd.).

Homogenita závisí hlavně na populaci, použité při hodnocení. Homogenita nemůže

být ověřena, pokud se hodnotí celá populace. Pro hodnocení homogenity je nutné

populaci rozdělit do několika částí a srovnat výsledky hodnocení kvality dat

v jednotlivých částech (při použití stejné metody) mezi sebou. Testy homogenity se

používají zejména v situaci, kdy jsou data pořizovány různými operátory, v závislosti

na zóně a datu pořízení.

spolehlivost (reliability) – „popisuje pravděpodobnost, s jakou vzorkování dat použité

pro hodnocení kvality je reprezentativní pro celou datovou sadu“. Statistická metoda,

založená na vzorkování, může být považována za spolehlivou globální metodu, pokud

jsou pokryty všechny geografické zóny a všechny dotčené časové období a populace

je dostatečně velká.

4.2 Standardizace kvality dat Parametry kvality se částečně překrývají, což stěžuje určení původu chyb. Např. na obr. 22

dvě datové sady reprezentují totéž území. Ve druhé chybí jeden geoprvek, k čemuž mohlo

dojít v důsledku 3 různých typů chyb (Servigne et al., 2006):

Chyba geometrické přesnostia (ruiny jsou příliš vlevo) spojená s chybou úplnosti (dům

chybí)

Klasifikační chyba, konkrétně sémantická přesnosta (dům byl klasifikován jako ruina)

společně s chybou úplnosti (ruina chybí)

Dvojitá chyba časové přesnostia – ruina zmizela a dům se změnil na ruinu.

Obrázek 22 Situace pro klasifikaci případů chyb (Servigne et al., 2006) (dům a ruiny u řeky)

Hodnocení kvalitativních parametrů je pro uživatele užitečné, ale mělo by být snadno

dosažitelné (Servigne et al., 2006). K tomu směřuje standardizace parametrů kvality a jejich

měření.

Standardizace kvality dat, vhodně definovaná, testovaná a certifikovaná může chránit jak

uživatele geografických informací, tak jejich producenty. Producenti geografických informací

se totiž potřebují bránit nesprávnému (v rozporu s předpokládaným účelem používání)

používání jejich produktů.

FGDC definuje 5 základních komponent kvality:

atributovou přesnost,

polohou přesnost,

logickou konzistenci,

úplnost a

rodokmen dat.

Otázkami standardizace kvality dat se zabývá rovněž Evropská komise standardizace (CEN)

a ISO. Technická komise CEN definovala následující aspekty kvality:

rodokmen dat (lineage) - popisuje historii dat včetně popisu zdroje, použitých

transformací a zodpovědné (autorské) organizace

přesnosta (accuracy) - pravděpodobnost správného přiřazení hodnoty

schopnost abstrakce (ability for abstraction) - měření, jak dobře může být reálný

objekt světa definován v abstraktním obraze světa

úplnost (completeness) - rozdíl mezi abstraktním obrazem světa a datovým souborem

v daný čas

spolehlivost (reliability) - kvalitativní měření kvality parametrů a pravděpodobnost

detekce hrubých chyb

aktuálnost (currency) - aktuálnost aspektů kvality pro celý datový soubor

Standardy kvality, vyžadované pro data v databázi GIS, a metody pro její měření musí být

definovány před začátkem pořizování dat. Standardy kvality dat musí sloužit potřebám

uživatelů, proto se uživatelé musí podílet na jejich konstituování tak, aby byly v korelaci

s praktickými omezeními, jako jsou náklady, technické možnosti, množství produkce apod.

Podrobnější popis standardizace metadat je uveden v příloze A.

4.3 Ukládání popisu kvality dat Informace o kvalitě dat by měly být připojeny ke každé datové sadě, každému souboru.

Z hlediska formy můžeme prvky kvality prostorových dat zapisovat ve formě metadat nebo

doprovodných datových sad.

Metadata mohou být uložena v databázi ve formě systémových atributů, v textových

souborech, v XML apod. Typický obsah metadat je uveden např. u popisu ZABAGED. Jiná

data vyžadují uložení podstatně většího množství informací. Např. u geochemických dat by

mělo být v metadatech detailně uvedeno datum sběru, kdo sbíral vzorky, popis vzorkovací

metody, příprava dat, popis analytických prací, název laboratoře, kde byly vzorky

zpracovány.

Obrázek 23 Ukázka metadat uložených v systému MIDAS (Horáková et al., 2003)

Shrnutí:

Kvalita dat se prakticky popisuje metadaty. Metadata je možné rozdělit na

mikrosložky, makrosložky a uživatelské složky. Polohová přesnosta je očekávaná

odchylka geografické lokalizace objektu v datovém souboru od jeho správné

polohy. Zpravidla se vyjadřuje pomocí střední souřadnicové chyby RMSE.

Rozlišení dat představuje velikost nejmenší rozlišitelné jednotky nebo nejmenší

reprezentovatelné jednotky, často se jednoduše udává rozměrem pixelu.

Atributová přesnost je přesnost záznamu informací reálného světa pomocí atributů

(někdy sémantická přesnost). Kvalitativní atributy se hodnotí pomocí

proporcionální chyby (resp. klasifikační přesnosti). Logická konzistence udává

míru shody s deklarovanými logickými vztahy mezi objekty. Sémantická

konzistence vyjadřuje kvalitu, se kterou jsou popsány geografické objekty ve

srovnání s použitým modelem, resp. modelové reality. Úplnost je měřením stupně,

do jakého obsah dat koresponduje s reálným světem podle dané specifikace, a je

úzce vázaná na účel. Hodnotí se počet případů nadbytečnosti (chyba I.druhu) a

vynechání (chyba II.druhu). Aktuálnost dat popisuje, jak aktuální jsou data.

Rodokmen dat představuje popis celé historie dat, od zdroje až do daného stavu

popisovaných dat. Jednoduchost a transparentnost dat ovlivňuje zejména

dostupnost z pohledu snadnosti využití dat a nepřímé náklady. Cena dat zahrnuje

přímé i nepřímé náklady. Metakvalita hodnotí kvalitu informace, s jakou jsou

prvky kvality dat popsány. Patří se zejména jistota, homogenita a spolehlivost

určení prvků kvality.

Kontrolní otázky: 1) Má být popis kvality dat co nejdokonalejší?

2) Co to jsou mikrosložky kvality dat?

3) Co jsou uživatelské složky kvality dat?

4) Co je geometrická přesnost?

5) Co je geometrická věrnost?

6) Co je relativní přesnost?

7) Jak rozlišuje střední chyba mezi systematickou a náhodnou chybou?

8) Jaká je povolená střední souřadnicová chyba pro 3.třídu přesnosti dle ČSN

013411?

9) Jak se udává rozlišení u leteckých kamer?

10) Uveďte typická prostorová rozlišení pro družicové systémy.

11) Co popisuje sémantická přesnost?

12) Co je proporcionální přesnost?

13) Jak vznikají chyby z nesprávného zařazení a jak z opomenutí?

14) Závisí klasifikační přesnost na počtu tříd?

15) Jak pojmenujete skutečnost, že datová sada respektuje určenou datovou

strukturu (datový model) a je kompatibilní s omezeními atributů

definovaných v datech?

16) Co sleduje sémantická konzistence?

17) Co znamená chyba I. a II. druhu z hlediska sledování úplnosti dat?

18) Jaký je rozdíl mezi úplností dat a úplností modelu?

19) Jaký je rozdíl mezi formální úplností a objektovou úplností?

20) Jak vyjadřujeme aktuálnost dat?

21) Proč dělíme geoprvky podle periody aktualizace?

22) Co musí obsahovat rodokmen dat?

23) Proč mají být data jednoduchá a transparentní?

24) Co zahrnují nepřímé náklady u dat?

25) Co je metakvalita a jak se popisuje?

26) Vysvětlete 3 hlavní složky popisu metakvality dat.

27) Jaké aspekty kvality dat vyžaduje popisovat CEN?

5 Organizace sběru dat

Cílem kapitoly je vysvětlit metody sběru dat a jejich dopady na kvalitu výběru dat.


Hlavní metody výběru dat při výběrovém šetření


Způsobech organizace sběru dat a tvorby vzorku

Vlivu organizace sběru dat na kvalitu dat

Budete umět:

Posoudit vliv organizace sběru dat na kvalitu dat

Budete schopni:

Správně navrhnout organizaci sběru dat


Prvním a zásadním krokem při pořizování dat je zvážení organizace jejich sběru. V některých

případech je to jednoduché, protože je to dáno metodikou příslušného zdroje - např. snímání

družicových dat. Pokud sami organizujeme sběr dat, je zpravidla tento krok velmi důležitý pro

hodnotu získaných dat a systematické chyby, které vzniknou špatnou organizací sběru dat

prakticky nelze následně zpracováním odstranit.

K běžným technikám patří výběrové šetření.

Výběrové šetření (survey) znamená shromažďování dat od určitého počtu jednotek, obyčejně

v jednom časovém okamžiku, s cílem získat systematicky množinu kvantifikovatelných údajů

o určitém počtu proměnných, které se pak analyzují, aby se nalezly vztahy mezi nimi (Hendl,

2006).

Hlavní metody výběru dat:

1) Výběr na základě dobrovolnosti – používá se např. v průzkumech veřejného mínění.

Jedinci z populace se sami rozhodují, zda odpoví nebo ne. Pravděpodobně na výzvu

reagují jen vysoce motivovaní jedinci. Dobrovolníci mají často více extrémní názory

(Hendl, 2006).

2) Výběr na základě dostupnosti – jedinci jsou vybráni na základě dostupnosti

a výhodnosti. Např. provádíme průzkum o nákupních zvycích ve sportovní prodejně

a vybereme 100 jedinců na základě jejich dostupnosti v této prodejně v sobotu

dopoledne. Nebo výzkum pacientů, kteří leží v dané nemocnici. Je ale možné, že se

svými zvyklostmi a jinými charakteristikami liší od ostatní části populace (Hendl,

2006).

3) Kvótní výběr – při tomto výběru mají tazatelé za úkol provést rozhovor s určitým

počtem jedinců v několika různých kategoriích obyvatelstva. Za kategorie se volí např.

věk, pohlaví nebo ekonomický status. Vychází se zpravidla z demografických

informací o obyvatelstvu. Nedostatkem je subjektivní výběr jedince z dané kategorie

tazatelem – nevíme, zda nebyl něčím ovlivněn, zda některé typy nepreferuje (Hendl,

2006).

4) Náhodný výběr – nejlepší pro statistické šetření, protože řada technik ho přímo

vyžaduje. Představuje ideál, který je v praxi často neuskutečnitelný nebo obtížně

uskutečnitelný. Měly by při něm být splněny následující podmínky (Hendl, 2006):

a. každý prvek populace má známou pravděpodobnost, že bude do výběru

zařazen.

b. výběr je proveden pomocí metody, jež tuto pravděpodobnost výběru realizuje.

c. pravděpodobnosti výběru prvků se uvažují při zpracování získaných dat.

5) Stratifikovaný náhodný výběr - pokud víme, že populace obsahuje různorodé

subpopulace, je možné provést prostý náhodný výběr pro každou skupinu zvlášť.

Podskupiny se označují strata neboli vrstvy. Podskupiny jsou voleny tak, že jsou více

homogenní. Výsledky pro všechny skupiny pak tvoří výběr (Hendl, 2006).

V případě GIS může být stratifikovaný náhodný výběr realizován na základě

systematického rozdělení oblasti do pravoúhlých částí. V případě jiného

požadovaného dělení nebo pokud nemá vzorkovaná oblast obdélníkový tvar, se

používá následující procedura:

a. určení plochy jednotlivých nepravidelných oblastí, výpočet jejich relativní,

neboli proporcionální, plochy (daná oblast / celá plocha),

b. dělit požadovanou velikost vzorku proporcionální plochou. Dostaneme novou

(větší) velikost vzorku tak, abychom se ujistili, že požadovaný počet bodů

spadne do oblasti zájmu,

c. necháme náhodně vygenerovat body v celém území (pro novou velikost

vzorku) a použijeme jen ty body, které spadnou do oblasti zájmu.

d. Spojíme všechny dílčí výběry bodů

6) Vícestupňový shlukový výběr - používá se pro získání informací o veřejném mínění,

když např. chceme zjistit názory lidí z panelových sídlišť měst určité velikosti.

Postupuje se např. takto (Hendl, 2006):

a. vybere se náhodně vzorek okresů

b. z takto vybraných okresů se v každém okrese náhodně vybere určitý počet měst

o dané velikosti

c. pro takto vybraná města se vybere náhodně vzorek jejich sídlišť

d. z vybraných sídlišť se náhodně vyberou domácnosti, ve kterých se provede

dotazování.

V každé vrstvě shluků se provádí náhodný výběr. Je to velmi efektivní a méně

nákladné, než klasický prostý náhodný výběr domácností ze sídlišť. Pro zpracování dat

se někdy používají speciální techniky (Hendl, 2006).

7) Systematický výběr - začíná se soupisem a očíslováním prvků populace. Pak se

provede rozhodnutí, jak z tohoto seznamu systematicky vybírat prvky. Např. vždy

1 prvek z 50. Zvolí se náhodně prvek z první padesátky a další pro výběr se určí

připočtením 50. Musíme ovšem zajistit, aby primární přidělování čísel prvkům nebylo

závislé na těch charakteristikách, které se mají zkoumat (Hendl, 2006).

8) Randomizace, strukturní homogenita - randomizace znamená proces přiřazování

jedinců do experimentální a kontrolní skupiny či skupin. Tím se zajistí, že homogenní

rozložení matoucích (rušivých) proměnných je ve skupinách podobné a bude se tím

jejich vliv rušit (Hendl, 2006, s.62).

9) Latinské čtverce - latinské čtverce tvoří schéma pokusného zařízení, jehož se používá

zejména při zemědělských experimentech a které umožňuje zcela zřetelně vyřadit

náhodné výkyvy (Swoboda, 1977, s.334-335). Při pokusech s novými druhy rostlin,

s novými hnojivy apod. je vždy nebezpečí, že výsledky sklizní nedovolí spolehlivé

závěry, protože i nepatrné rozdíly v jakosti půdy ovlivnily výsledky více než jakost

nového druhu nebo nového hnojiva (obr. 24). Proto se používá takové uspořádání

pokusu, které podobné nahodilosti vyřadí tím, že při pokusech např. se třemi druhy se

veliké pole rozdělí na devět čtverců a dané tři druhy se vysadí tak, že v každé řadě

a v každém sloupci je každý ze tří druhů. Jestliže druhy označíme písmeny A, B a C,

vypadá schéma latinského čtverce takto (Swoboda, 1977):

A B C

B C A

C A B

Obrázek 24 Příklad latinského čtverce pro testování 4 různých druhů (Swoboda, 1977)

Pro čtyři druhy by muselo být k dispozici 42 = 16 čtverců, pro 6 druhů 36 čtverců atd.

Pak se porovnají rozdíly „mezi“ řádky, sloupci a druhy, a tím se může dalekosáhle

rozlišit vliv půdních podmínek od vlivu druhů. Mimoto dává rozdíl z celkového

rozptylu a „mezi“ ještě jako zbytek rozdíly „uvnitř“, které vyjadřují náhodné faktory,

k nimž se nepřihlíželo nebo které nebyly poznány (Swoboda, 1977).

Schéma latinského čtverce není ovšem omezeno jen na zemědělství. Podobným

způsobem lze mimo jiné provádět analýzu odchylek při výrobě, např. tak, že se nový

výrobní postup porovná s dosavadním na třech různých strojích, které jsou střídavě

obsluhovány třemi více nebo méně schopnými dělníky. Na základě tohoto pokusného

schématu probíhají často také lékařské, biologické a psychologické experimenty

a pomocí analýzy odchylek jako pak vyhodnoceny (Swoboda, 1977).

Rozřesení (jittering), částečné roztřesení (semi-jittering), nezávislé roztřesení (uncorrelated

jitter) a další metody vzorkování jsou uvedeny v Rapant (2006).

První 3 techniky nejsou ideální, protože získaná data mohou být zkreslena. Projevuje se

systematická chyba, pokud se data získají od jedinců, patřících do stejné subpopulace se

specifickými znaky. Viz u nich uvedená kritika (Hendl, 2006).

5.1 Implementace IDRISI nabízí moduly SAMPLE a ERRMAT. SAMPLE vybírá sadu bodů (ve vektorovém

formátu) podle libovolného náhodného, systematického nebo stratifikovaného náhodného

schématu. Poslední alternativa je nejvíce preferována, protože kombinuje výhody obou

předchozích - nevychýlený charakter náhodného vzorkovacího schématu s dobrým

geografickým pokrytím u systematického schématu.

Shrnutí:

Výběru na základě dobrovolnosti nebo na základě dostupnosti je vhodné se

vyhnout. Kvótní výběr patří ke standardním technikám u dotazníkového šetření,

ale je ovlivněn subjektivností výběr konkrétního jedince. Stratifikovaný náhodný

výběr zajišťuje rovnoměrné vzorkování ve všech třídách klasifikace.

Vícestupňový shlukový výběr vybírá postupně v jednotlivých hierarchických

vrstvách náhodně. Systematický výběr je další vhodnou technikou. Randomizace

či Latinské čtverce představují techniky zajišťující eliminaci nežádoucích

systematických vlivů.

Kontrolní otázky: 1) Proč se provádí výběrové šetření?

2) Jaké jsou nevýhody výběru na základě dobrovolnosti?

3) Jak se organizuje výběr na základě dostupnosti?

4) Vysvětlete realizaci kvótního výběru.

5) Popište postup pro stratifikovaný náhodný výběr.

6) Jak se provádí výběr v jednotlivých vrstvách (úrovních) u vícestupňového

shlukového výběru?

7) Popište možnou organizaci systematického výběru.

8) Vysvětlete metodu Latinských čtverců.

6 Zdroje neurčitosti a způsob popisu

Cílem kapitoly je vysvětlit komplexnost projevů neurčitosti při realizaci

prostorových úloh – ve zdrojích, ve způsobu zpracování i ve způsobu

rozhodování.


Rámec rozhodování a důkazy

Neurčitost ve vstupních datech

Neurčitost ve vztazích

Neurčitost přijímaného rizika rozhodování

Pro studium kapitoly jsou potřebné znalosti o základním rozdělení neurčitosti.


Základním konceptu vymezení rámce rozhodování

Projevech a formách neurčitosti ve vstupních datech

Projevech a formách neurčitosti ve vztazích

Projevech a formách neurčitosti přijímaného rizika rozhodování

Budete umět:

vnímat projevy neurčitosti v jejich komplexním působení v celém procesu

zpracování a rozhodování

správně vymezit zdroje a příčiny chyb

Budete schopni:

Vyhnout se chybným závěrům při rozhodování


Z hlediska přístupu Eastmann et al. (2001) byl předchozí popis zaměřen především na chyby

ve zdroji a její příčiny. Přitom neurčitost zahrnuje všechny známé i neznámé chyby,

nejasnosti nebo variace jak v databázi, tak v rozhodovacích pravidlech.

Za hlavní zdroje neurčitosti jsou považovány:

neurčitost ve volbě koncepce modelu, způsobu popisu objektů a jevů (koncept)

neurčitosti ve vstupních datech

neurčitost ve vztazích

neurčitost přijímaného rizika rozhodování

Jde o praktické vyjádření zdrojů nejistoty s určením způsobu, jak ji měřit a jak ji metodicky

zahrnovat do problematiky zpracování dat.

Z hlediska porozumění původu a roli neurčitosti v rozhodovacím procesu je užitečné

považovat proces rozhodování za problém příslušnosti k množině cílových členů. Je možné

vymezit tzv. rámce rozhodování (decision frame), které obsahují všechny uvažované

alternativy (nebo hypotézy).

Chápeme ji jako množinu přípustných řešení (v podstatě obor funkce, ze kterého vybíráme

výsledek). Např. 4 varianty zalesnění, z nichž musím vybrat právě jednu.

Pro podporu rozhodování hledáme důkazy.

Důkaz (evidence) je informace, na jejímž základě můžeme ocenit příslušnost varianty (např.

lokality) do cílové množiny (decision set).

V klasické logice platí, že čím více máme důkazů, tím významnější závěry můžeme udělat.

Tuto vlastnost označujeme jako monotónní logiku. Toto nemusí vždy platit – existují sporné

případy (nejednoznačnost), chaotické jevy. Worboys, Duckham (2004) ještě uvádí 2 důležité

principy, které se běžně uplatňují při tvorbě báze znalostí na podporu rozhodování:

Báze znalostí je bezchybná (sound) pokud všechny deduktivní konsekvence jsou

pravdivé. Tedy nikdy nemůžeme odvodit nepravdu (falsehood). Mohou ale existovat

věci, které jsou pravdivé, ale nejsou z naší báze znalostí odvoditelné.

Báze znalostí je úplná, pokud všechny pravdivé výroky (propositions) které mohou

být konstruovány pomocí jazyka termínů a vztahů jsou prokazatelné (provable) ze

svých předpokladů.

1. Neurčitost ve vstupních datech

Tento druh neurčitosti odpovídá klasické nepřesnosti. Zjednodušeně se týká „chyb měření“

a je běžně reprezentován střední chybou (root mean square error RMSE) v případě

kvantitativních dat a proporcionální chybou v případě kvalitativních dat. Spadá pod klasickou

teorii pravděpodobnosti a statistické odvození jejich ocenění a šíření.

Svým způsobem jde o „statickou“ nejistotu (nemyšleno časově, ale jako zachycení určitého

stavu dat, na rozdíl od procesů, kterými se mění nejistota dat při zpracování).

Neurčitosti se objevují ve všech složkách geodat, zejména polohové (geometrické), tematické

(atributové) a časové, případně ve vztahové a funkční. Neurčitost v polohové složce je

spojena s problémem umístění (přesnosti lokalizace), vymezení objektů (ostrých hranic) apod.

Neurčitost v atributové složce dat zahrnuje chyby v atributech, nejasnost určení apod.

Neurčitosti v datech odpovídají zejména nepřesnosti (inaccuracy a imprecision).

Silně ji ovlivňuje nejednoznačnost (ambiguity) a vágnost.

Zjednodušená reprezentace reality nutně vede k neurčitosti v datech (např. zjednodušení

tvaru), ovlivňuje formu uložení (vektorový, rastrový datový model).

2. Neurčitost ve vztazích

Neurčitost ve vztazích je neurčitost ve vztahu mezi vstupními daty a cílovou, tj. vybranou

sadou objektů. Má vztah k charakteru důkazu, resp. vztahu mezi důkazem a cílovou sadou.

Svým způsobem jde o „dynamickou“ nejistotu (nemyšleno pouze časově - jde zachycení

vztahů, souslednosti, příčina-důsledek, časový vývoj apod.).

Neurčitost zde vzniká minimálně ze 3 zdrojů:

1) Neurčitost v definici rozhodovacího kritéria (vágnost rozhodovacího kritéria)

Některá kritéria mají nízkou míru neurčitosti. V případě podmínky zaplavení území mořem

do kóty 310 m.n.m. je zřejmé, že pokud neuvažujeme chyby měření (viz typ neurčitosti ve

vstupních datech), pak všechny propojené plochy, které jsou níže než uvedená výška

budou nepochybně zaplaveny.

Definice kritéria, která není tak jednoznačně (matematicky) interpretovatelná, je nutně

spojena s vyšší mírou neurčitosti. Jde tedy o problém vágnosti.

Např. je požadován výběr příkrých svahů. Co je to příkrý svah? Jak ho budeme definovat?

Budou to svahy se sklonem větším než 10%? Znamená to snad, že svah se sklonem

9.9999% není příkrý? Takové množiny označujeme jako fuzzy množiny a jsou typicky

definovány funkcí členství (příslušnosti).

2) Neurčitost v průkaznosti vztahu

Neurčitost v průkaznosti vztahu je dána různou mírou průkaznosti existence vztahu mezi

zjištěnou situací (vstupní data) a sledovanou charakteristikou. Hodnotíme tedy „přímost“

vztahu, zda je funkční (jednoznačná) nebo neurčitá. Existuje zde analogie s interpolací –

rozlišuje se přesná interpolace (numerické řešení s dodržením naměřených hodnot –

accuracy v daném místě) a aproximací, tedy přibližným, prokládajícím řešením.

V případě zaplavené půdy i příkrých svahů existuje přímý vztah mezi daty (výška, sklon)

a sledovanou charakteristikou (zatopení, příkrost svahu). Jindy však není důkaz vztahu tak

přímočarý a jistý. Skutečná podoba vztahu může být neznámá nebo může být postavena

jen na expertním odhadu.

Např. identifikace vodních ploch na základě nízké odrazivosti v infračervené oblasti

v datech DPZ. Zjištění, že dané místo má nízkou odrazivost, neznamená zcela jistě, že jde

o vodní hladinu, je to pouze domněnka, protože ostatní materiály také absorbují

infračervené záření.

Dobrým příkladem je také prostorová interpolace – máme celou řadu metod výpočtu, ale

expert rozhodne, která se hodí v konkrétní aplikaci.

Tento typ neurčitosti je podobný svým charakterem funkcím členství u fuzzy množin.

Avšak není to definice vlastní množiny, je to pouze jednoduché vyjádření stupně, do

kterého důkaz prokazuje přítomnost množiny. Nepoužívá se zde tedy logika fuzzy množin,

ale spíše Bayesova nebo Dempster-Shaferova teorie.

3) Chyba ve specifikaci modelu

Chybu ve specifikaci modelu (model specification error) popisuje již Alonso (1968, in

Eastmann, 2001). Někdy je rozhodování založeno na jednom kritériu. Běžnější je použití

několika kritérií k definování vybrané sady. Např. vhodná oblast je vybrána na základě

mírného svahu a blízkosti cesty. Vznikají 2 problémy:

a) jsou tato kritéria dostatečná k nalezení vhodné oblasti?

b) Agregujeme správně evidenci z těchto kritérií? Je-li pravděpodobnost označení tohoto

svahu za vhodný 0.6 a blízkost cest jako vhodného 0.7, jaká bude výsledná

pravděpodobnost příslušnosti místa ke skupině vhodných oblastí? Je to 0.42 podle

teorie pravděpodobnosti, 0.6 podle fuzzy množin, 0.78 podle Bayese, 0.88 podle

Dempster-Shaffera, nebo 0.65 podle lineární kombinace? Jak dobře tyto agregované

hodnoty vyjadřují stupeň členství ve vybrané sadě?

3. Neurčitost přijímaného rizika rozhodování

Při rozhodování musíme zpravidla zvolit jistou míru rizika či hladiny pravděpodobnosti,

s jakou chceme získat výsledek. To logicky znamená přijetí určitého rizika chybného

rozhodnutí - rozhodovací riziko (decision risk). Např. máme soustavu míst spolu

s pravděpodobností jejich zaplavení při určité úrovni hladiny. Finální rozhodnutí, která místa

budou zaplavena, je provedeno na základě zvoleného limitu pravděpodobnosti.

Obrázek 25 Pravděpodobnost zaplavení území (Eastmann, 2001)

Obrázek 26 Zaplavené území s 5% rizikem chyby (vlevo) a s 25% rizikem chyby (vpravo) (Eastmann, 2001)

Při hodnocení rozhodovacího rizika se ukazuje, že je jednoduššího ho interpretovat

u jednodušších forem neurčitosti, jako je třeba měření chyb. Pokud se posuneme k více

nepřímým vztahům Bayesovské pravděpodobnosti a D-S teorie důvěry až do dosti nezávisle

založeného konceptu fuzzy množin, vzdalujeme se dál a dál od schopnosti posoudit riziko

v absolutním smyslu (Eastman 1996). Rozhodování založené na fuzzy množinách umožňuje

posoudit, že přijetí jedné alternativy je méně riskantní než druhé, ale ne kolik je aktuální

riziko. Namísto výpočtu absolutního rizika musíme posuzovat relativní riziko.

Např. ocenění skupiny kandidátů na zaměstnání - můžeme zkoušet řadu kvantifikovatelných

kritérií (stupeň vzdělání, počet let praxe,...), které dovolí zařadit kandidáty do kategorií (tříd).

Pak máme snahu vzít nejlepší skupinu individuí na základě předpokladu, že nám budou

nejlépe vyhovovat. Přesto bude chybět nějaká absolutní stupnice odpovídající

pravděpodobnosti, s jakou splníme cíl.

V praxi se výsledek relativizuje např. dělením maximální hodnotou. Následně se může

aplikovat limitní hodnota pro získání určitého procenta nejlepších (tj. nejméně riskantních)

dostupných řešení. Výhodou tohoto postupu je jeho univerzálnost.

Shrnutí:

Pro dobré řešení rozhodování je vhodné vymezit rámec rozhodování, který

obsahují všechny uvažované alternativy. Pro ně hledáme důkazy. Neurčitost ve

vstupních datech zahrnuje typicky chyby měření, je jak v polohové tak i atributové

složce. Neurčitost ve vztazích vzniká z důvodu neurčitosti v definici

rozhodovacího kritéria, v průkaznosti vztahu nebo ve specifikaci modelu.

Neurčitost přijímaného rizika rozhodování je spojeno s volbou limitu

pravděpodobnosti přijímaného řešení.

Kontrolní otázky: 1) Co je rámec rozhodování?

2) Uveďte příklad neurčitosti ve vstupních datech

3) Jak souvisí neurčitost v definici rozhodovacího kritéria a vágnost kritéria?

4) Vysvětlete problémy vznikající v důsledku neurčitosti v průkaznosti

vztahu.

5) Jaké jsou možnosti kombinace pravděpodobností jednotlivých kritérií?

6) Jak se nastavuje rozhodovací riziko?

7 Analýza citlivosti a problém agregace dílčích jednotek

Cílem kapitoly je vysvětlit 2 běžné problémy a jejich řešení – nejasné vlivy

jednotlivých faktorů na výsledek a problém agregace dat.


Analýza citlivosti

Problém agregace dat do polygonů

Měřítkový efekt

Zónový efekt


Problémech rozdílného vlivu jednotlivých faktorů

Základním principu analýzy citlivosti

Problémech agregace dat do polygonů

Budete umět:

Připravit analýzu citlivosti

Připravit zpracování geodat s eliminací vlivu MAUP

Budete schopni:

Optimalizovat svůj model vzhledem ke skutečně významným faktorům

Vyhnout se zkreslení výsledků v důsledku MAUP problému


7.1 Analýza citlivosti

Analýza citlivosti zkoumá, jak model (numerický či koncepční) reaguje na změny informací

poskytovaných na vstupu (Krivoruchko, Crawford 2005). Vstupní informace zahrnuje data

použitá ke kalibraci modelu, předpokládané parametry nebo odhadované parametry z dat

použité k řízení modelu a základní předpoklady pro vytvoření modelu. Hlavním cílem

analýzy citlivosti je identifikovat ty části modelu, které jsou kritické a které ne.

Proč provádět analýzu citlivosti? Malá změna klíčového parametru může způsobit podstatnou

změnu výsledku modelu a mít velký dopad na závěry, které odvozujeme z modelu.

Analýza citlivosti je proto důležitá pro stanovení spolehlivosti výstupů modelu.

Stejně tak může být důležitá i pro určení komponent, které nejsou tak důležité. Např. výstupy

modelu mohou být necitlivé na neurčitost ve vstupních informacích. Nebo tak mohou různé

vstupní informace vést ke zcela stejným závěrům.

Obecně analýza citlivosti může být významným analytickým nástrojem, který může vést

k efektivnější alokaci zdrojů. Může usměrnit úsilí při sběru dat, snížit výpočetní nároky,

osvětlit nutnost zlepšení modelu a poskytovat indikaci spolehlivosti výstupů modelu. Analýza

citlivosti může být užitečným nástrojem pro hodnocení modelu, plánování a rozhodování.

Vytvořený model lze testovat tak, že jednotlivé vstupy jsou měněny v určitých krocích

a sleduje se reakce na výstupu modelu.

Krivoruchko, Crawford (2005) uvádí příklad hledání optimálního prostředí pro jeden druh

kalifornského hmyzožravého ptáčka v blízkosti San Diego. Maximální povolený sklon svahu se

mění ze 40 až na 20%, změní se šířka obalové zóny kolem silnic atd. Změna povoleného

sklonu ze 40 na 25% vede k poklesu velikosti plochy optimálního prostředí o 24%, další

pokles na 20% sklonu vede ke snížení plochy až o 40%. Z toho vyplývá velká závislost

výsledků na přesnosti stanovení sklonu. Je tedy nutné zjistit podrobnější informace

o preferenci sklonů svahů ptactvem a zajistit lepší digitální model reliéfu.

7.2 Problém agregace dat do polygonů

Problematiku MAUP (Modifiable areal unit problem) podrobněji popsal Openshaw už v roce

1984. Stěžoval si, že volba reálných jednotek plošných objektů používaných v mnoha

geografických studiích je libovolná, je individuálně upravitelná a zcela podléhá rozmarům

uživatelů, kteří s geodaty pracují. Už v této době bylo zřejmé, že tato proměnlivost měřítek

prvků vede odchylkám ve výsledcích studií. Tento problém má zásadní vliv především

u agregovaných dat, která jsou použita pro shlukování (cluster analysis), pro prostorovou

epidemiologii, prostorovou statistiku, či při tvorbě kartogramů, kde může snadno dojít

k nesprávné interpretaci výsledků. Geodata jsou často agregována pro prezentaci výsledků

studií ve vhodném kontextu. Příkladem agregačních zón mohou být třeba sčítací okrsky nebo

obvodní oddělení policie. Jsou to libovolně stanovené zóny (areály) v prostoru a pro

zobrazení různých dat mohou být použity variantně pro různé účely. Sčítací okrsky mohou

být vymezeny tak, aby obsahovaly zhruba stejný počet domů, což je například pro prezentaci

počtu vloupání do domů vhodnější než vymezení policejních okrsků (daných v UK

historickým správním vývojem).

Mnoho zdrojových geodat vyžaduje pečlivou volbu agregačních zón pro prezentaci

prostorové variability geodat srozumitelným způsobem. Existují různé možnosti vymezení

vhodných areálů.

Např. volba areálů pro lokalizaci a agregaci kriminálních činů má téměř nekonečné množství

variant řešení. Mohou být využity existující administrativní hranice (městské obvody, obce,

okresy, …), sčítací obvody, hranice hygienických okrsků atd. V GIS lze jednoduchým

dotazem automatizovaně vygenerovat velké množství různých nepřekrývajících se buněk

např. pravidelné, často čtvercové (gridy). Počet různých kombinací vymezení zájmových

ploch je velký. Openshaw (1984) vypočítal, že jestliže je potřeba agregovat 1000 objektů do

20 skupin je možné vytvořit až 101260 různých kombinací jejich shluků. Ačkoliv je tolik

různých možností, často je vybírána ta nejsnáze dostupná místo té kontextově nejvhodnější.

Problém MAUP je úzce spjat s ekologickou chybou, resp. s ekologickou odchylkou (Bailey

and Gatrell, 1995). Ekologická odchylka způsobená proměnlivým měřítkem prvků byla

popsána 2 samostatnými efekty, které obvykle nastanou souběžně během analýz

agregovaných dat. Měřítkový efekt způsobuje, že pro různé úrovně agregace produkují

statistické výpočty odchylky ve výsledcích. Je to dáno tím, že vazba mezi proměnnými závisí

na velikosti prostorových jednotek, ke kterým jsou vztaženy. Tato závislost obecně vzrůstá se

zmenšujícím se měřítkem (tj. se zvětšením plochy jednotek). Například vzniká, pokud jsou

data ze sčítacích okrsků přepočítávána na vyšší administrativně-správní jednotky.

Zónový efekt popisuje proměnlivost ve statistické závislosti způsobené přeskupováním dat

do jiných sestav/uspořádání ve stejném měřítku. Tento agregační problém je méně známý a je

patrný až tehdy, když jsou data zobrazována variantně pro různě stanovené agregační

prostorové jednotky (stejného měřítka).

Měřítkový efekt lze doložit na změně lokalizačního koeficientu (v některých částech jsou

dobře patrné) (obr. 27) a nárůstu Gini koeficientu pro menší jednotky (tab. 9).

Obrázek 27 Srovnání vlivu agregační jednotky na výsledný vzor distribuce hodnot lokalizačního koeficientu pro počet

uchazečů s nanejvýš základním vzděláním v Ostravě (stav k 31. 3. 2010) (upraveno z Inspektor, 2011)

Tabulka 9 Gini koeficient pro počet uchazečů o zaměstnání (UC), s nejvýše základním vzděláním (UCVABC) a

dlouhodobě nezaměstnaných (UCE12) v závislosti na agregační úrovni (podle Inspektor, 2011)

městské obvody Základní sídelní jednotky sčítací obvody

UC 0,12 0,22 0,31

UCVABC 0,28 0,44 0,55

UCE12 0,19 0,33 0,46

Shrnutí:

Hlavním cílem analýzy citlivosti je identifikovat ty části modelu, které jsou

kritické a které ne. Je důležitá pro stanovení spolehlivosti výstupů modelu. Způsob

agregace geodat do výpočetních jednotek má významný vliv na výsledky.

Měřítkový efekt způsobuje, že pro různé úrovně agregace produkují statistické

výpočty odchylky ve výsledcích. Zónový efekt popisuje proměnlivost ve

statistické závislosti způsobené přeskupováním dat do jiných sestav/uspořádání ve

stejném měřítku.

Kontrolní otázky: 1) Co je cílem analýzy citlivosti?

2) Jak se provádí analýza citlivosti?

3) Co je problém MAUP?

4) Vysvětlete měřítkový efekt.

5) Vysvětlete zónový efekt.

8 Měření mlhavosti a hrubé množiny

Cílem kapitoly je vysvětlit teoretické přístupy k měření mlhavosti, zejména teorie

fuzzy množin. Důraz je klade i na vysvětlení relevantních prostorových konceptů,

zejména prostorově neurčitých objektů, topologických operací pro ně. V závěru je

vysvětlen odlišný přístup hrubých množin.


Koncept měření mlhavosti

De Morganovy zákony, trojúhelníkové normy a konormy

Teoretické základy fuzzy množin

Operace s fuzzy množinami

Fuzzy region

prostorově neurčité objekty

topologické operace

Jiné prostorové operace

Implementace měření mlhavosti

Hrubé množiny

Pro studium jsou nezbytné znalosti teorie pravděpodobnosti a teorie množin.


Významu měření mlhavosti

Teoretických principech a východiscích

Teorii a operacích pro fuzzy množiny

Definici, vymezování a operacích s vágními prostorovými objekty

Teoretických principech topologických operací pro klasický a pro fuzzy

prostor

O implementaci v prostředí IDRISI

Koncept hrubých množin pro omezenou rozlišitelnost

Budete umět:

Aplikovat teorii fuzzy množin pro vaši aplikaci

Vymezit prostorově vágní objekty a pracovat s nimi

Využít koncepce hrubých množin

Budete schopni:

Využít teorie fuzzy množin pro korektní řešení problému vágnosti,

případně i dalších forem neurčitosti

Čas potřebný na nastudování kapitoly – 4 hodiny.

Jedním z významných zdrojů neurčitosti je neurčitost ve vztazích, tedy aspekt běžně

označovaný jako neurčitost rozhodovacích pravidel.

Používané nástroje se zabývají neurčitostí, zda entita patří k finální vybrané (cílové) sadě.

Tyto nástroje spadají do obecné kategorie neurčitých výrazů příslušnosti k množině, známé

jako měření mlhavosti FM (fuzzy measure). Termín FM (nezaměňovat s jiným možným

vyjádřením v podobě fuzzy množin) odpovídá jakékoliv množinové funkci, která je

monotónní vzhledem k množině příslušností (Dubois and Prade 1982, in Eastmann, 2001).

Významnými příklady fuzzy měření jsou Bayesovská pravděpodobnost, důvěra a věrohodnost

z Dempster-Shaferovy teorie, a funkce příslušnosti fuzzy množin.

Základním rysem fuzzy měření jsou charakteristiky, které sledují De Morganovy zákony při

konstrukci operátorů průniku a sjednocení a tedy základní pravidla šíření neurčitosti při

agregaci důkazů (evidence). De Morganovy zákony definují trojúhelníkové vztahy mezi

operátory průniku, sjednocení a negace (Eastmann, 2001):

T(a,b) = ~S (~a,~b) kde T = průnik (AND) = T-Norm

S = sjednocení (OR) = T-CoNorm

~ = negace (NOT)

Průnikové operátory v tomto kontextu jsou známy jako trojúhelníkové normy (zjednodušeně

T-normy, T-norms), zatímco sjednocovací operátory jsou známé jako trojúhelníkové konormy

(T-CoNorms).

T-norma je definována (upraveno z Yager 1988 in Eastmann, 2001):

mapování T: [0,1]*[0,1] [0,1] tak, že platí:

T(a,b) = T(b,a) komutativní zákon

T(a,b)>=T(c,d) jestliže (a>=c) a (b>=d) monotónní

T(a,(T(b,c)) = T (T(a,b),c) asociativní zákon

T(1,a) = a

Příklady využití průniku (tj. které funkce se chovají stejně):

min (a,b) průnikový operátor pro fuzzy množiny

a*b průnikový operátor pro pravděpodobnosti

1-min(1,((1-a)^p + (1-b)^p)^(1/p) pro p>=1

max(0,a+b-1)

T-konorma je definována (upraveno z Eastmann, 2001):

mapování S: [0,1]*[0,1] [0,1] tak, že platí:

S(a,b) = S(b,a) komutativní zákon

S(a,b)>=S(c,d) jestliže (a>=c) a (b>=d) monotónní

S(a,(S(b,c)) = S (S(a,b),c) asociativní zákon

T(0,a) = a

Příklady využití sjednocení (tj. které funkce se chovají stejně):

max (a,b) sjednocovací operátor pro fuzzy množiny

a + b - a*b průnikový operátor pro pravděpodobnosti

min(1,(a^p + b^p)^(1/p) pro p>=1

min(1,a+b)

Tyto příklady naznačují široké rozmezí operací, které jsou k dispozici pro agregaci pomocí

fuzzy měření, a tedy agregace kritérií v rozhodovacím procesu. Mezi různými operátory je

nejvíce extrémním (ve smyslu poskytování nejextrémnějších numerických výsledků po

agregaci) operátor minimum T-norma a maximum T-konorma. Tyto operátory mají zvláštní

význam, protože jsou nejčastěji používanými agregačními operátory pro fuzzy množiny.

Navíc, Yager (1988, in Eastmann, 2001) ukázal, že reprezentují extrémní konce kontinua

příbuzných agregačních funkcí vytvořených operacemi OWA (uspořádaného váhového

průměru). Problém není v posouzení, zda je jedna skupina operátorů lepší než druhá, ale

v tom, že rozdílné vyjádření rozhodovacích pravidel vyžaduje rozdílné agregační procedury.

Zpravidla se používají 3 základní logiky při vyjádření neurčitosti rozhodovacích pravidel

(Eastmann, 2001):

teorie fuzzy množin,

Bayesovská statistika,

Dempster-Shaferova teorie.

Každá má svou velmi rozdílnou sadu T-norem a T-konorem operátorů. Není však vždy jasné,

co použít. Tento výsledek vychází také ze skutečnosti, že rozhodovací pravidla zahrnují více

než jednu formu neurčitosti. Také to ale pramení z nedostatku výzkumu, zjišťujícího kdy by

měly být jednotlivé metody používány.

Obecnější pravidla:

rozhodovací problémy, které mohou být řešeny v rámci mapování vhodnosti, mohou

efektivně využívat logiku fuzzy množin (např. multikriteriální ocenění). Pokud např.

definujeme vhodnost jako soustavu kontinuálních faktorů (vzdálenost od cest, sklon,

atd.), je vyjádření vhodnosti kontinuální. Neexistuje jasné rozlišení mezi oblastmi,

které jsou vhodné a které ne. Mnoho (ne-li většina) problémů alokace zdrojů v GIS

spadá do této kategorie.

přítomnost mlhavosti ve smyslu pochybností neznamená vždy, že problém bude

vhodné řešit pomocí fuzzy množin. Např. měření neurčitosti spojené s ostře

ohraničeným souborem může vést k funkci příslušnosti, které jsou v podstatě identické

svým charakterem s těmi u fuzzy množin. Rozlišující charakteristikou je spíše to, že

soubor je sám vnitřně nejasný, nejednoznačný. Např. pokud uvažujeme o zaplavení

oblasti v důsledku postavení přehrady, určitá neurčitost existuje díky chybám v DMT.

Pokud předpokládáme náhodné rozložení chyb a prostorovou nezávislost chyb, potom

graf pravděpodobnosti zaplavení proti výšce uváděné v databázi bude mít velmi

pravděpodobně kumulativní N křivku tvaru S a ne nějakou jinou typickou členskou

funkci fuzzy množin. Množina sama není nejasná - je pouze ostře ohraničená.

Pochybnosti jsou jen u měření výšek. Vztah je totiž jasný (pokud zanedbáme

dynamiku hydrologického jevu).

přítomnost mlhavosti ve smyslu neprůkaznosti, nepřesvědčivosti (inconclusiveness)

běžně spadá k Bayesově pravděpodobnosti nebo k Dempster-Shaferově teorii.

Problém je u nepřímých důkazů - důkaz nedovoluje přímo ocenit členskou množinu,

ale spíše ovlivnit ji s určitou mírou neurčitosti. Primárně se obě logiky zabývají ostře

ohraničenými sadami – pochybnosti jsou tedy o průkaznosti vztahů, nikoliv v datech.

Klasickým případem je procedura řízené klasifikace při analýze dat DPZ. Pomocí

tréninkové množiny zakládá Bayesovský klasifikátor (tj. rozhodovací stroj) statistický

vztah mezi důkazem a vybranou sadou (ve formě podmíněné funkce hustoty

pravděpodobnosti). Tímto způsobem jsou založeny neurčité vztahy, které dovolují

ovlivnit stupeň členství pixelu ve vybrané sadě.

nehledě na jejich společné základy může agregace pravděpodobností pomocí Bayese a

Dempster-Shafera (D-S) podávat značně rozdílné výsledky. Primární rozdíl mezi nimi

se týká role absence důkazu. Bayes považuje nepřítomnost důkazu v podpoře určité

hypotézy za vznik důkazu na podporu alternativní hypotézy, zatímco Dempster-Shafer

teorie ne. Tedy, nehledě na fakt, že oba považují hypotézy v rozhodovacím rámci za

vyčerpávající, D-S umí pracovat s neznalostí, zatímco Bayes nikoliv.

Dalším rozdílem je, že Bayesovský přístup kombinuje důkazy, které jsou podmíněny

hypotézami ve vybrané sadě (je založena na trénovacích datech), zatímco D-S teorie

agreguje důkazy odvozené z nezávislých zdrojů.

Nehledě na tyto obecnější pravidla je úplná implementace uvedených principů složitá díky

dosavadnímu omezení teoretického rozvoje na určité prototypové kontexty. Např. teorie fuzzy

množin vyjadřuje pochybnosti v množině členství ve formě funkcí příslušnosti. Avšak to

nezachycuje zdroj neurčitosti přímo ve tvaru členské funkce. Např. můžeme agregovat

nepřímý důkaz a pochybnosti ve vybrané sadě? Zde se otevírá další pole pro výzkum.

Soft computing jsou metody, které umožňují nalézat řešení vágně a neúplně popsaných

problémů. I když toto řešení nemusí být zcela optimální, alespoň je reálně dosažitelné. Soft

computing zahrnuje metody umělé inteligence jako je fuzzy logika, neuronové algoritmy,

genetické algoritmy a dále pravděpodobnostní metody, či teorii chaosu. Tyto metody se

většinou používají kombinovaně např. jako neuro-fuzzy, fuzzy-genetické algoritmy

(Růžičková, 2012).

8.1 Fuzzy množiny Mocným nástrojem pro popis bohatosti reality (i když ne zcela přesně) je přirozený jazyk. A

to nejen kvůli bohatosti vyjadřování, ale i díky používání vágních pojmů. Ty mohou

označovat objekty, které jen těžce přesně definujeme nebo ohraničíme (židle, chytrý člověk,

velký strom, červená barva) (Novák, 1989).

Namísto jednoznačného rozhodnutí, zda je daný člověk chytrý nebo ne, můžeme raději určit

míru našeho souhlasu s výrokem, že tento člověk je chytrý.

Pozor, nejde o pravděpodobnost. Nezkoumáme, zda nastal či nenastal nějaký jev, tedy v tomto

případě zda nastal jev „chytrosti“, nebo v případě vymezení velkého stromu jev, zda strom,

který pozorujeme, má výšku 30 m. Zaměřujeme se na popis vágnosti, nikoliv na

pravděpodobnost výskytu.

Důvodem rostoucí obliby teorie fuzzy množin a fuzzy logiky mohou být zejména čtyři hlavní

myšlenky (Caha, 2011):

částečná příslušnost prvku do množiny (např. město, může být částečně malé i středně

velké současně)

popis kategorií bez jasných a ostrých hranic (např. sklony svahů, nelze stanovit

exaktní hranici, kdy se sklon stává velkým) (obr. 28-30)

modelování jevů a objektů, které prochází postupnou změnou z jednoho stavu do

jiného stavu (např. půdní typy, jsou charakterizovány vlastnostmi, které se mění

postupně) (viz obr. 31-32)

využití aproximačních výrazů (např. nedaleko vodního zdroje, blízko města atd.)

umožňuje modelovat vztahy a procesy podobným procesem, jako je lidské uvažování

(obr. 33).

Definice fuzzy množiny

Mějme X jako prostor všech prvků a obecný prvek x z toho prostoru. Pak fuzzy množina A na

X je charakterizována funkcí příslušnosti )(xf A(fuzzy membership grade or possibility), která

asociuje (mapuje) každé x z X s hodnotou z intervalu [0,1], kterou označujeme jako stupeň

příslušnosti. Čím jsou hodnoty stupně příslušnosti prvku x bližší hodnotě 1, tím více je prvek

x prvkem množiny A specifikován prostřednictvím funkce )(xf A(Caha, 2011). Klasická (ostrá)

množina je potom pouze speciálním případem fuzzy množiny, kde stupeň příslušnosti se

skokem mění z hodnoty 0 na 1. Např. na obr. 28 pro příkrý svah můžeme definovat fuzzy

funkci příslušnosti takovou, že svah 10% má členství = 0, svah 25% má členství 1. Mezi 10%

a 25% sklonu svahu funkce příslušnosti postupně narůstá od 0 do 1.

Obrázek 28 Fuzzy funkce příslušnosti versus ostré funkce pro určení adjektiva „příkrý“ svah (Eastmann, 2001)

Vysvětlivky: fuzzy set – mlhavá množina, crisp set – ostrá množina, possibility – možnost, slope gradient –

sklon svahu

Obrázek 29 Proměnlivé (vágní) hranice řek Tejo a Zêzere v závislosti na výšce vodní hladiny a stupeň příslušnosti místa

k řekám (Fonte, Lodwick, 2005)

Objekt nemusí mít pouze vektorovou reprezentaci. Na obr. 30 jsou pro příklad uvedeny

v matici hodnoty členství pixelu v regionu (Worboys, Duckham, 2004).

Obrázek 30 Hodnoty členství pixelu ve vymezeném polygonu (Worboys, Duckham, 2004)

Na dalším obrázku jsou uvedeny stupně příslušnosti pro jednotlivé základní půdní kategorie

v území a výsledná kombinace dominujících půdních typů.

Obrázek 31 Stupně příslušnosti pro jednotlivé půdní kategorie a-c v území a výsledná kombinace

Vysvětlivky: a mollic Bori-Udic Cambosoils, b typic Bori-Udic Cambosoils, c lithic Udi-Orthic Primosoils

Pomocí fuzzy množin lze řešit i postupnou časovou změnu příslušnosti objektu z 1. do 2.třídy

(viz následující obr), např. postupné zarůstání louky lesem.

Obrázek 32 Časová interpolace založená na změně fuzzy množiny (Dragievič 2005)

Ukázka modelování vágního prostorového operátoru blízký a daleký je na dalším obrázku.

Obrázek 33 Fuzzy funkce příslušnosti pro vágní prostorové operátory „blízký“ a „daleký“ ve vztahu místa k lyžařskému

horskému středisku (Morris, Jankowski, 2005)

Funkce příslušnosti

Typické tvary funkcí příslušnosti jsou vysvětleny na implementaci v IDRISI:

1) sigmoidální (tvaru „s“) je vytvářena na základě funkce kosinus. Modul FUZZY vyžaduje

pozici 4 bodů podél osy X, které ovlivňují tvar křivky. Je třeba dodržovat logiku umístění

kontrolních bodů (a, b, c, d) tak, jak je znázorněna v obrázcích.

Obrázek 34 Fuzzy funkce typu „s“ (Eastmann, 2001)

2) funkce tvaru J - jsou také běžné, i když sigmoidální jsou častější. Je nutné zdůraznit, že

funkce inklinuje k 0, ale dosáhne ji až v nekonečnu. Tedy inflexní body a a d indikují

body, kde funkce dosahuje spíše 0.5 než 0.

Obrázek 35 Fuzzy funkce typu „j“ (Eastmann, 2001)

3) lineární funkce - tento typ funkcí je široce využíván v elektronických zařízeních, které

využívají fuzzy logiku. Uplatňuje se dobře kvůli své jednoduchosti, ale také i díky potřebě

monitorovat výstup z lineárních senzorů, které se běžně používají.

Obrázek 36 Lineární fuzzy funkce (Eastmann, 2001)

4) uživatelem definovaná funkce - pokud vztahy mezi hodnotou a fuzzy příslušností

neodpovídají žádnému ze tří výše uvedených typů, aplikuje se uživatelem definovaná

funkce. Kontrolních bodů může být tolik, kolik je potřebné k definici křivky funkce

příslušnosti. Funkce příslušnosti mezi 2 sousedními kontrolními body je lineárně

interpolována.

Obrázek 37 Uživatelem definovaná fuzzy funkce (Eastmann, 2001)

Základní pojmy fuzzy množin

Několik důležitých pojmů týkajících se fuzzy množin (Caha, 2011):

jádro (core, kernel) je množina všech x, kde stupně příslušnosti 1)( xA

nosič (support) je množina všech x, kde 0)( xA

α-řez (α-cut) je množina všech x, kde )(xA pro 1,0

výška (height) je maximální hodnota )(xf Apro všechny x z X. Pokud neexistuje jádro,

není výška rovna 1.

Podstatnou myšlenkou je, že všechny α-řezy (jejichž speciálními případy je jak jádro, tak

i nosič) jsou klasickými (ostrými) množinami (Caha, 2011).

Obrázek 38. Funkce příslušnosti pro jádro, nosič, alfa-řez a výška (Škrabánek, 2014)

Fuzzy množiny mohou být spojité i diskrétní. U diskrétních se někdy používá jednoduchý

výpis jejích prvků ve formě sady zlomků, kde v čitateli je stupeň příslušnosti a ve jmenovateli

označení příslušné třídy.

Někdy se také vyjadřuje mohutnost fuzzy množiny (card), což odpovídá počtu prvků

množiny. U diskrétních se použije suma stupně příslušnosti přes celý nosič (což je suma všech

nenulových stupňů příslušnosti) či integrál. Mohutnost lze definovat i jako fuzzy číslo (fcard),

což má význam vágního vyjádření např. „asi 2“ (Novák, 1989).

Princip rozšíření

Jednou z nejdůležitějších vět fuzzy teorie množin je tzv. princip rozšíření. Mějme funkci f

představující mapování univerza X na Y a fuzzy množinu A na X definovanou následovně

(Caha, 2011):

}/)(.../)(/)({ 2211 nnAAA xxxxxxA

Pak obrazem A skrze mapování f(.) je fuzzy množina B na Y definovaná následovně (Caha,

2011):

}/)(.../)(/)({ 2211 nnAAA yxyxyxAfB

kde y = f(xi).

Tedy fuzzy množina v X indukuje fuzzy množinu ve Y, s funkcí příslušnosti s hodnotou 0,

pokud pro dané y neexistuje x, nebo supremum funkce příslušnosti odpovídajícího x.

Je zřejmé, že aplikací funkce f na prvky univerza X se jejich stupně příslušnosti přenášejí

beze změny na jejich obrazy.

Princip rozšíření umožňuje definovat všechny potřebné matematické operace nad fuzzy

množinami, stejně jako fuzzy čísla. Jeho prostřednictvím lze například definovat algebru

fuzzy čísel.

8.1.1 Fuzzy číslo

Zvláštním případem fuzzy množiny je fuzzy číslo. Fuzzy číslo je fuzzy množina v univerzu

reálných čísel reprezentující určitou hodnotu spolu s vyjádřením možné nepřesnosti v hodnotě

obsažené. Pomocí toho lze modelovat pojmy jako „asi 10“ nebo „kolem 4“.

Je vyžadováno, aby fuzzy čísla měly alespoň po částech spojitou funkci příslušnosti. Typicky

se používají jednoduché lineární tvary (obr. 39).

Obrázek 39 Fuzzy čísla ( a)trojúhelníkové, b)trapezoidální, c) po částech lineární, d) po částech lineární aproximující

gaussovské) (Caha, 2018)

S fuzzy čísly je možné provádět běžné aritmetické operace sčítání, odečítání, násobení a

dělení. Formálně to lze zobecnit jako (Caha, 2018):

˜Z = ˜X ◇ ˜ Y

kde ◇ značí některou z operací +,−, ・, /

Jejich jednoduché řešení využívá rozdělení na rostoucí, stagnující a klesající část funkcí

příslušností, ty se řeší zvlášť a výsledek se sjednotí.

V intervalové aritmetice se provede rozklad fuzzy čísel na jednotlivé alfa řezy a provedou se

výpočty samostatně pro každý alfa řez. Pro každý interval pak určíme (Caha, 2018):

[𝑧∝, 𝑧∝̅̅ ̅] = [𝑥∝, 𝑥∝̅̅ ̅]◇ [𝑦∝, 𝑦∝̅̅ ̅] = [min(𝐺) ,max(𝐺)]

kde 𝐺 = {𝑥∝◇𝑦∝, 𝑥∝◇𝑦∝̅̅ ̅̅ , 𝑥∝̅̅ ̅◇𝑦∝, 𝑥∝̅̅ ̅◇𝑦∝̅̅ ̅̅ , }

Pokud použijeme operátor dělení, musí být samozřejmě Y neprázdná množina, jinak operace

nemá smysl.

Obrázek 40 Ukázky řešení základních aritmetických operací pro 2 fuzzy čísla A a B (Caha, 2018)

Nad fuzzy čísly lze při použití principu rozšíření definovat všechny algebraické operace jako

u klasických čísel (Kaufmann, Gupta, 1985 in Caha, 2011). Provede se diskrétní reprezentace

(rozdělením po úsecích) a na nich se provede operace. Výsledek se interpoluje.

V případě funkcí je třeba rozlišovat, zda je monotónní nebo ne. Pokud ano, provede se

rozklad na 𝛼−řezy a propagují se pouze limitní body intervalů. Pokud funkce není monotónní,

je třeba použít jiné techniky např. tzv. vertexevou metodu nebo princip rozšíření s

pravidelným vzorkováním (získáme pak aproximaci výsledku, ne přesný výsledek) (Caha,

2018).

Vzájemné porovnávání fuzzy čísel není na rozdíl od klasických čísel triviální problém (obr.

41). Existuje řada postupů, jak lze fuzzy čísla porovnávat jak mezi s sebou, tak i společně s

klasickými čísly. Problematický případ s nerozlišitelností 2 fuzzy čísel je na následujícím

obrázku. Mohli bychom ho formulovat jako dotaz, zda je „asi 1.2“ vždy menší než „asi 1.8“,

když víme, že rozsah možných hodnot pro 1. fuzzy číslo je od 0.2 do 2.8 a pro 2.číslo je od 0

do 2.2.

Obrázek 41 Problém nerozlišitelnosti 2 „překrývajících se“ fuzzy čísel (Caha, 2018)

Možným řešením je simulace hodnot podle hodnot příslušnosti. Pro ~X např. série náhodně

vygenerovaných čísel 0.5, 1, 1.2, 1, … a pro ~Y série náhodných čísel 1.8, 2, 1, 1.7, 0.1,…

Nad nimi se pak již stačí ptát, kolik realizací X je menších než realizací Y.

Praktické využití nabízí R package FuzzyNumbers

(http://www.rexamine.com/resources/FuzzyNumbers/).

Jednou z možností využití fuzzy čísel je reprezentace povrchu reliéfu.

http://www.rexamine.com/resources/FuzzyNumbers/

Jde o povrch, jehož z souřadnice jsou vyjádřeny fuzzy číslem ˜Z , zatímco souřadnice x,y se

zde považují za přesné (např. se prováděla interpolace v přesně definované síti). Reprezentuje

možný rozsah dat buď s ohledem na neurčitost v datech využitých pro tvorbu tohoto povrchu,

nebo na neurčitost ve vztazích, konkrétně použité interpolační metody a jejího nastavení (obr.

42).

Obrázek 42 Reprezentace fuzzy povrchu. (Caha, 2018)

Vysvětlivky: Trojúhelníky odpovídají vertikálnímu zobrazení fuzzy čísel, kde přepona reprezentuje maximální

rozsah hodnot výšky v daném bodě a poloha odlehlého vrcholu označuje nejpravděpodobnější hodnotu.

Existují vhodná fuzzy rozšíření pro všechny běžné interpolační metody pro tvorbu fuzzy

povrchů (např. IDW, spline, kriging). Vyžadují však velmi intenzivní výpočty (Caha et al.,

2015).

Obrázek 43 Fuzzy semivariogram (Caha et al., 2015).

Z jednoho výsledného fuzzy povrchu lze pak odvozovat řadu informací, např. minimální a

maximální hodnotu v daném místě, rozdíl mezi minimem a střední hodnotou, rozdíl mezi

maximem a střední hodnotou (obr. 44).

Obrázek 44 Hodnocení fuzzy povrchu koncentrace PM10 pomocí 4 dílčích charakteristik v každém místě (min, max, min-

střed, max- střed) (Caha et al., 2015).

Nad fuzzy povrchy pak lze provádět běžné topografické analýzy, jejímiž výsledky jsou opět

fuzzy čísla. Např. výpočty sklonu, orientace (obr. 46) a viditelnosti (obr. 47).

Obrázek 45 Uměle vygenerovaný DMR a minimální a maximální hodnota v každém místě (Caha, 2014)

Obrázek 46 Fuzzy sklon povrchu a minimální a maximální hodnota sklonu v každém místě (Caha, 2014)

Obrázek 47 Výsledek klasického výpočtu viditelnosti a pravděpodobná varianta řešení fuzzy viditelnosti (upraveno z Caha,

2014)

Pokud se pracuje při určování viditelné oblasti s neurčitostí, je třeba odlišit 2 jevy (Worboys,

Duckham, 2004):

Pravděpodobná oblast viditelnosti: u ní se předpokládá dokonalá viditelnost, jasně

ohraničený terén a žádný vliv vegetace. Neurčitost vzniká pouze v důsledku chyb

a nepřesností měření výšek. Pravděpodobná oblast viditelnosti je vypočtena na základě

určitého modelu neurčitosti. Hranice oblasti budou ostré, ale její poloha je neurčitá kvůli

chybám měření. V podstatě říkáme, že přesnostp (precision) bude vysoká, ale přesnosta

(accuracy) nízká.

Fuzzy oblast viditelnosti: předpokládá se naopak dokonalá měření výšek a neurčitost vzniká

díky atmosférickým podmínkám, odrazu světla, sezónním a vegetačním efektům. Hranice

nebude ostrá, ale široká a odstupňovaná. Vytváří se fuzzy region, při kterém se nepoužívá

klasická pravděpodobnost.

Je zřejmé, že komplexní hodnocení viditelnosti by mělo zahrnout obě složky.

8.1.2 Operace s fuzzy množinami

Většina operací s fuzzy množinami je pouhým rozšířením operací nad klasickými množinami.

Fuzzy množina je prázdná pouze pokud 0)( xf Apro všechna x z X. Doplněk fuzzy

množiny je definován AA ff 1' . Rovnost (shoda) fuzzy množin A = B nastává pouze když

)(xf A= )(xfB

pro všechna x v X.

Základní operace s množinami zahrnuje průnik, sjednocení, součin a doplněk (Novák, 1989)

(obr. X). Součin se používá místo průniku v situaci, kdy víme, že obě množiny spolu

vzájemně korelují (je mezi nimi vnitřní souvislost). Součin je totiž nižší než průnik.

Obrázek 48 Demonstrace průniku, sjednocení, součinu a doplňku (Novák, 1989)

K dalším operacím patří (Novák, 1989):

omezený rozdíl (om-) (A součin negace B),

rozdíl (A průnik negace B),

(silně) symetrický rozdíl (A om- B or B om- A),

slabě symetrický rozdíl (A - B or B - A)

Omezený rozdíl je množina, jejíž prvky patří více do A než do B. Naopak rozdíl je množina,

jejíž prvky více méně patří do A a ne do B (Novák, 1989).

Operace sjednocení a průniku fuzzy množin jsou definovány pomocí tzv. t-norm a t-konorm

(fuzzy konjukce, fuzzy disjunkce). Binární operace t-normy T:<0,1>2→<0,1> musí splňovat

vlastnosti komutativnost, asociativitu, monotónnost a ohraničenost. Stejné vlastnosti musí

splňovat i binární operace t-konormy S:<0,1>2→<0,1>. T-normy a T-konormy vytváří

obvykle vzájemně duální dvojice. Za duální dvojici operací lze označit t-normu a t-konormu,

pokud splňují pro všechna α,β <0,1> (Caha, 2011):

α S β = 1 - [(1 - α) T (1 - β)]

což je pouze upravená forma zápisu De Morganových zákonů, které mají následující podobu

a platí jak pro klasické tak i pro fuzzy množiny (Caha, 2011):

(A B)`=A` B`

(A B)`=A` B`

Využití různých t-norem a t-konorem poskytuje různé výsledky. Mezi nejdůležitější t-normy

patří (Caha, 2011):

minimum Tmin(a,b) = min(a,b)

součin - Tprod(a,b) = a × b

Lukasiewiczova t-norma TLuk(a,b) = max{0, a + b - 1}

Radikální (drastická) t-norma

o TD(a,b) = a pokud b=1

o TD(a,b) = b pokud a=1

o TD(a,b) = 0 v ostatních případech

Nilpotentovo minimum

o TNM(a,b) = min(a,b) pokud a+b>1

o TNM(a,b) = 0 v ostatních případech

Hamacherův součin

o TH(a,b) = 0 pokud a=b=0

o baba

babaTH

),( v ostatních případech

K těmto t-normám tvoří duální dvojici následující t-konormy:

maximum Smax(a,b) = max(a,b)

pravděpodobnostní součin Ssum(a,b) = a + b - a × b

ohraničený (omezený) součet SLuk(a,b) = min{ a+b,1}

radikální (drastická) t-konorma

o SD(a,b) = a pokud b=0

o SD(a,b) = b pokud a=0

o SD(a,b) = 1 v ostatních případech

Nilpotentovo maximum

o SNM(a,b) = max(a,b) pokud a+b<1

o SNM(a,b) = 1 v ostatních případech

Einsteinův součet

o ba

babaSH

1),(

Příklad: Mějme 1 prvek, který patří do fuzzy množiny A se stupněm příslušnosti 0,3 a do

fuzzy množiny B se stupněm příslušnosti 0,7. Jednotlivé varianty průniku a sjednocení dávají

následující hodnoty (Škrabánek, 2014):

t-norma t-konorma

Klasická t-norma (min) 0.3 Klasická t-konorma (max) 0.7

Hamacherovův součin 0.266 Hamacherovův součet 0.734

Algebraický součin 0.210 Algebraický součet 0.790

Einsteinova t-norma 0.176 Einsteinův součet 0.826

Omezený rozdíl 0 Omezený součet 1

Drastický součin 0 Drastický součet 1

Obrázek 49 Znázornění nejběžnějších t-norem pomocí stupně příslušnosti obou prvků na horizontální ploše a výsledku

operace ve formě grafu (Ďuračiová et al., 2013)

Obrázek 50 Vizualizace 6 t-norem (Caha, 2011)

Obrázek 51 Vizualizace 6 t-konorem (Caha, 2011)

Obrázek 52 Fuzzy vrstvy použité pro hodnocení výskytu archeologických lokalit na Slovensku – vážená vzdálenost k hranici

říčních sedimentů (vlevo) a vhodný typ půdy (vpravo) (Ďuračiová et al., 2013)

Obrázek 53 Výsledek volby 4 běžných t-norem při agregaci vrstev do výsledné predikce arccheologické lokality (Ďuračiová

et al., 2013)

Fuzzy funkce

Novák (1989) popisuje základní možnosti pro fuzzy funkce, které mohou nastat:

1. Dané fuzzy množině je přiřazena jiná fuzzy množina.

2. Funkce z fuzzy množiny do fuzzy množiny.

3. Fuzzy funkce jako fuzzy relace – pro situace, kdy není možné rozhodnout, zda mezi 2

objekty existuje vztah nebo ne. Vyjadřujeme výrazy jako „mnohem větší než“.

Případ 1 je nejčastější. Např. velké auto má vysokou cenu, za dobré výsledky dostáváme větší

odměnu. V případě 2 není definiční obor ani obor hodnot funkce přesně definován. Např.

chceme definovat funkci z množiny velkých lidí do množiny velkých obleků. Problémem

však je, že množiny malých a velkých obleků mají neprázdný průnik.

Příklad (Novák, 1989): Máme množinu lidí (Petr, Josef, Jana, Marie,..). Pokud u nich budeme

odhadovat výšku, budeme říkat „asi metr sedmdesát“ apod. Zapíšeme pomocí fuzzy množiny

vx s významem „asi výška y pro danou osobu x“ s funkcí příslušnosti:

vxy =0 pokud y<= x-d;

vxy = (y-x+d)/d pokud je x-d<=y<=x;

vxy = (x-y+d)/d pokud je x<=y<=x+d

d je tolerance odhadu výšky, např. 5 cm. Poslední dva případy zajistí, aby odchylka byla

kladná.

Je možné také definovat fuzzy podobnost. Pro její vyjádření pro diskrétní množinu se vytváří

čtvercová matice a v ní se zapíše, nakolik se objekt A podobá objektu B pomocí stupně

příslušnosti.

V některých případech se zabýváme i pravděpodobností fuzzy jevů. Příklady vhodného

využití uvádí Novák (1989). Např. máme vyjádřit pravděpodobnost následujících vágních

výrazů: odpoledne se vyjasní, padne velké číslo, preparát zapůsobí v krátké době.

Velký význam mají fuzzy množiny pro modelování sémantiky. Vyjadřujeme výrazy jako

malý a tlustý atd. Podobně lze fuzzy operace použít i pro kvantifikaci vágních adjektiv. Např.

t-normy lze použít pro popis stupňů pravdivostí pravidel („velmi“, „zhruba“, …) následovně

(Adamčík, 2009):

velmi(x)=x x=t(x x)

super(x)=velmi(velmi(x))

zhruba(x): x L:velmi(zhruba(x))=x

Obrázek 54 Průběh funkce členství pro vybraná adjektiva (Adamčík, 2009)

Fuzzy logika

http://sofe2.pepiino.cz/wiki/lib/exe/fetch.php?cache=&media=inf_fuzzy_tnormy.jpg

Pod tímto pojmem se podle Nováka (1989) může chápat vícehodnotová logika nebo

lingvistická logika, jejíž pravděpodobnostní hodnoty jsou jazykově vyjádřeny; v současnosti

se význam koncentruje na druhou variantu.

Místo stupně příslušnosti používáme stupeň pravdivosti, který vyjadřuje míru souhlasu

s tvrzením. Základními operátory jsou AND a OR, ale jejich definice není shodná s klasickou

(binární) logikou. Zpravidla zde mají význam: minimum (AND) a maximum (OR). Existují i

jiné varianty fuzzy operátorů. Doporučené zpracování je fuzzifikace vstupních hodnot, jejich

zpracování a výstup buď v podobě fuzzy množin nebo přímo výsledných hodnot (Caha,

2018).

Pro řešení úloh s fuzzy logikou se používají fuzzy interferenční systémy, který zahrnuje

fuzzifikaci proměnných, vyhodnocení výsledné fuzzy množiny, řízení aplikace vhodným

regulátorem a nakonec zpětnou defuzzifikaci. Implementace se zajišťuje např. pomocí

jFuzzyLogic (Java), ale existují verze pro většinu programovacích jazyků jako Matlab,

Octave, R, Python (Caha, 2018).

Následující příklad počítá míru oslunění ze vstupní proměnné - orientace a sklon svahu.

Výpočet proveden pomocí jFuzzyLogic http://jfuzzylogic.sourceforge.net/.

Obrázek 55 Porovnání výpočtu oslunění klasickým způsobem a fuzzy (Paclíková, 2012)

http://jfuzzylogic.sourceforge.net/

8.1.3 Fuzzy region

Fuzzy region v dvourozměrném prostoru je definován jako (Verstaete et al., 2006 in Caha,

2011):

))}(,{( ppA A

kde A : U→ [0,1] a p )(pp A . U představuje univerzum všech lokací p a )(pA

vyjadřuje míru, s jakou je p součástí objektu A.

Na těchto základech lze definovat fuzzy prostorové objekty a všechny základní topologické

operace nad těmito objekty.

8.1.4 Prostorově neurčité objekty

Neexistuje sice jednotná definice prostorově neurčitých objektů, ale kombinací různých

přístupů je možné vymezit jejich definici přibližně následovně. Za prostorově neurčité

(přesněji geometricky vágní) lze označit takové objekty, které nemají ostrou hranici mezi

objektem samým a jeho okolím (Dragicevic 2005 in Caha, 2011). Z toho vyplývá, že existují

body v prostoru, u nichž nelze jednoznačně určit, zda-li jsou či nejsou součástí daného prvku.

To může být důsledkem toho, že objekt nemá jasně definované hranice nebo že jeho hranice

jsou časově proměnlivé. Pro potřeby modelu může být podstatné zachytit i tuto proměnlivost

(Dragicevic 2005 in Caha, 2011).

Prvotním přístupem k vymezení prostorových objektů v GIS byla reprezentace pomocí

ostrých objektů, mající naprosto jasně definovanou hranici, jak v rastrovém tak i vektorovém

datovém modelu. Mimo definice objektů s ostrými hranicemi a fuzzy objektů, existoval v 90.

letech ještě koncept tzv. širšího okolí. Ten definoval objekt pomocí dvou hranic - vnitřní

a vnější. Prostor mezi těmito hranicemi potom určoval nejistotu v prostorovém vymezení

objektu (Clementini, Felice, 1996, in Caha, 2011). Tento koncept byl sice jistým posunem

proti klasickému vymezování objektů, ale postrádal možnost jak klasifikovat míru nejistoty ve

vymezení prvku v přechodné zóně mezi vnitřní a vnější hranicí (obr. 56).

Obrázek 56 Vektorová reprezentace geografického regionu: vlevo - ostrého regionu, vpravo - koncept širšího okolí

(Verstraete et al., 2006, in Caha, 2011)

Naproti tomu využití fuzzy pro definování prostorových objektů umožňuje vymezit míru

nejistoty pro body ležící v přechodové zóně, protože pro každý z těchto bodů lze přesně určit

stupeň příslušnosti k danému fuzzy objektu (obr. 57). Zásadním je rozdíl týkající se bodů p1

a p2 (obr. 56-57) (Caha, 2011). Zatím co u konceptu širšího okolí lze o těchto bodech prohlásit

pouze to, že spadají do prostoru, v němž je určení příslušnosti bodu ke geografickému objektu

problematické, u fuzzy přístupu můžeme pomocí funkce příslušnosti určit, s jakou mírou tyto

prvky k danému geografickému objektu patří (p1 mnohem více než p2).

Obrázek 57 Reprezentace geografického regionu jako fuzzy objektu (Verstraete et al., 2006, in Caha, 2011)

Fuzzy přístup lze použít pro modelování všech tří základních reprezentací geografických

objektů: bodu, linie i polygonu (Dragicevič 2005 in Caha, 2011). Základem je vyjádření

polohy bodu v prostoru pomocí dvou fuzzy čísel. Tím jsme schopni reprezentovat nepřesnost

v souřadnicích tohoto bodu. Linie a polygon jsou analogických rozšířením tohoto konceptu

o vyjádření polohy jednotlivých bodů pomocí fuzzy čísel (obr. 59). Celou myšlenku lze

rozšířit až na koncept fuzzy souřadnicového systému (Brimicimbe, 1998, in Caha, 2011), kde

myšlenka fuzzifikace polohy je vložena už do samotného souřadnicového systému a každá

polohová hodnota je ve svém vyjádření přirozeně vágní.

Další možností jak reprezentovat fuzzy region je pomocí ostrého vymezení jeho jádra, nosiče

a funkce, která popisuje přechod z jádra do nosiče (Tang, 2004, in Caha, 2011) (obr. 34).

V některých situacích není nezbytně nutné, aby všechny vlastnosti (prostorové i atributové)

byly modelovány s využitím fuzzy. Je vhodné využít je pouze tam, kde využití toho přístupu

přinese přidanou hodnotu, umožní nám získat více informací, nebo získanou či přenášenou

informaci nějakým způsobem zpřesnit (Caha, 2011).

Obrázek 58 Fuzzy region definovaný pomocí jádra a nosiče a jeho jednotlivé části (Tang, 2004, in Caha, 2011)

Vysvětlivky: a simple fuzzy region in reality – jednoduchá fuzzy region v realitě, closure: definition of a a

simple fuzzy region – uzavření: definice jednoduchého fuzzy regionu, interior – vnitřní, boundary – hranice,

interior of boundary – vnitřek hranice, boundary of the boundary – hranice hranice.

Obrázek 59 Reprezentace fuzzy bodu (A), fuzzy linie (B), fuzzy polygon (C) a fuzzy polygony v mapě (D) (převzato

z Dragicevič, 2005, in Caha, 2011)

Jiný příklad prostorově neurčitého objektu je na následujícím obrázku.

Obrázek 60 Výpočet hustoty stromů a podle toho přiřazení příslušnosti „zalesnění“ (Worboys, Duckham, 2004)

8.1.5 Topologické operace

1. Operace v klasickém topologickém prostoru

V topologickém prostoru lze pro dva polygony A a B definovat jejich vzájemné vztahy

pomocí matice mající 4 nebo 9 prvků (Egenhofer et al., 1994, in Caha, 2011). Matice 4 prvků

řeší pouze vztah hranice δA a vnitřního prostoru objektu A0 s B

0 a δB. Matice 9 prvků

přidává k těmto vztahům ještě vztah Ac a B

c značící doplněk objektu, jako A

- se značí prostor

mimo objekt (u ostrých reprezentací je shodný s doplňkem, u fuzzy prostorových objektů už

ale nikoliv). V tomto ostrém R2 (dvourozměrný prostor) platí, že A

c A

0 = Ø, A

c A

0 = X

(kde X je univerzum diskurzu) a všechny tři části A0 , δA, A

c jsou vzájemně nespojité.

Výsledná matice vypadá následovně (Egenhofer et al., 1994, Tang, 2004, in Caha, 2011):

2. Operace ve fuzzy topologickém prostoru

Pro klasickou reprezentaci v GIS je matice vztahů s 9 prvky dostačující, protože pokrývají

standardní topologické vztahy. Je ale nedostačující pro topologické vztahy fuzzy objektů.

Důvodem je to, že tvrzení Ac A

0 = Ø, A

c A

0 = X nejsou ve fuzzy teorii množin obecně

platná. Stejně tak A0 , δA, A

c nejsou nespojité a jejich sjednocení nemusí být rovno celému

univerzu X. Tyto odchylky znemožňují použití stejného přístupu jako u klasického

topologického prostoru pro řešení topologických vztahů. Tento fakt lze obejít konstrukcí

ostrého fuzzy topologického prostoru (crisp fuzzy topological space) (Tang, 2004, in Caha,

2011). Hlavním požadavkem na takovýto topologický prostor aby je, aby všechny otevřené

množiny byly zároveň množinami ostrými. Tím je zajištěno, že jak hranice fuzzy objektu, tak

jeho vnitřní prostor jsou ostrými množinami, a současně všechny 3 části fuzzy objektu jsou

vzájemně nespojité (Caha, 2011).

Pro určení vztahů mezi fuzzy objekty lze použít vztahovou maticí 3*3 prvky, ale lze také

použít matice o větších rozměrech. Složitou matematickou dedukcí lze dokázat, že ve fuzzy

topologickém prostoru se fuzzy objekt dělí na celkem 5 částí. Těmi jsou: plocha vně prvku,

hranice hranice prvku, vnitřní prostor hranice prvku, hranice vnitřního prostoru a samotný

vnitřní prostor prvku. Na tomto základě lze vymezit matici 5*5 pro topologické vztahy fuzzy

prostorových objektů. Ta umožňuje 225

= 33554432 možných vztahů mezi objekty (Caha,

2011).

Situaci lze generalizovat do 12 případů topologických vztahů dvou fuzzy regionů. Pro

zjednodušení se zavádí pojmy topoarea pro vnitřní plochu objektu, vnitřní plochu hranice a

vnější plochu objektu, a topoline pro hranici hranice prvku (Tang, 2004, in Caha, 2011).

Obrázek 61 Ukázka několika základních topologických vztahů dvou fuzzy regionů a jejich reprezentací vztahovými maticemi

3*3 a 4*4 (Tang, 2004, in Caha, 2011).

Mimo tento přístup lze na vztah dvou fuzzy objektů nahlížet jako na vztah dvou souborů α-

řezů. Vzhledem k faktu, že každý α-řez fuzzy množiny A je ostrá množina, pak lze vztahy

těchto řezů dvou množin řešit pomocí jednoduché vztahové matice o 9 prvcích. Jedná se sice

o zjednodušení celé konceptu, ale složitost definování fuzzy topologického prostoru v GIS se

může ukázat jako příliš náročná, než aby mohla být realizována. Je také nutné si uvědomit, že

se jedná pouze o topologické vztahy těchto objektů. Následné operace sjednocení či průniku

takovýchto množin lze řešit za využití různých t-konorem a t-norem. Tím se celá situace dále

komplikuje, protože využitím různých t-norem a t-konorem získáváme odlišné výsledky

(Caha, 2011).

8.1.6 Jiné prostorové operace

Vedle topologických operací mohou být definovány i jiné fuzzy prostorové operace. Jde např.

o fuzzy konektivitu, fuzzy konvexitu, fuzzy plochu, fuzzy obvod atd. Např. fuzzy plocha se

vypočítá jako součet hodnot členství v jednotlivých pixelech (Worboys, Duckham, 2004).

Při multikriteriálním oceňování jsou fuzzy množiny používány ke standardizaci kritérií.

Výběr typu funkce závisí na porozumění vztahu mezi kritériem a vybranou sadou a na

přístupnosti informací o ovlivnění příslušnosti k fuzzy množině. Ve většině případů je

dostačující sigmoidální nebo lineární funkce.

8.1.7 Kritika fuzzy množin

S využíváním fuzzy množin a příslušných fuzzy operací jsou ale spojeny určité problémy,

z nichž některé můžeme dokumentovat na následujícím příkladu (Worboys, Duckham, 2004).

Mějme oblast lesa a oblast mokřin, obě definované fuzzy množinami. Obě oblasti se částečně

překrývají. Aplikujeme fuzzy průnik (minimum z obou hodnot) a vytvoříme nový region.

Bohužel ale nemůžeme očekávat, že tento region bude ekvivalentní regionu, který by byl

přímo odvozen z indikátoru „mokřadní les“. Tyto problémy mohou vést ke skepsi při aplikaci

teorie fuzzy množin.

Rovněž pozor na problémy, jak se definují a chápou jednotlivé třídy – často je další

nejednoznačnost skryta v definici třídy a ne jen v míře příslušnosti k dané třídě (viz kapitola o

nejednoznačnosti dat).

8.2 Hrubé množiny

Hrubé množiny (rough sets) se primárně používají pro reprezentaci a zdůvodnění granularity

a nerozlišitelnosti informace (Worboys, Duckham, 2004, s. 348). Odpovídají na otázku, jak

reprezentovat podmnožinu X na úrovni granularity vynucené nerozlišitelností vztahu ρ.

Pro vymezení hrubých množin se definují 2 konstrukty (Worboys, Duckham, 2004):

AbXbA |/

AbXbA |/

A je horní aproximace množiny A, A je dolní aproximace množiny A. Pár < A , A > se

nazývá hrubá množina (s ohledem na vztah nerozlišitelnosti ρ na množině X). A je vždy

podmnožinou množiny A v X/ρ (Worboys, Duckham, 2004).

Vymezení hrubé množiny je možné vysvětlit na následujícím obrázku (obr. 43). Sada bodů

představuje X. Podmnožina A je vymezena polygonem obecného tvaru. Překryjeme mřížkou,

která reprezentuje vztah nerozlišitelnosti ρ (mřížka určuje rozlišení, které nemůžeme zlepšit).

Buňky mřížky, které obsahují všechny body uvnitř polygonu A (přitom ale celá buňka nemusí

ležet v A), reprezentují dolní aproximaci. Buňky, které obsahují část bodů uvnitř a část vně

polygonu, reprezentují horní aproximaci (Worboys, Duckham, 2004).

Obrázek 62 Příklad ohraničení polygonu a vymezení hrubé množiny v rastrovém modelu. Výsledek v části d ukazuje

černé buňky jako dolní hranici a sadu černých a bílých buněk jako horní hranici (Worboys, Duckham, 2004).

Pro práci s hrubými množinami se používá zvláštní algebra – např. hrubý průnik či hrubé

sjednocení.

Teorie hrubých množin nám poskytuje dolní a horní aproximaci regionu (co určitě

(minimálně) do ní patří a co maximálně by do ní mohlo patřit). Je vhodná zejména pro změnu

granularity (např. při generalizaci) (Worboys, Duckham, 2004).

Analýza hrubých množin umožňuje zjišťovat funkční závislosti v informačním systému –

příkladem jsou základní techniky data miningu.

Shrnutí:

Měření mlhavosti řeší problém neurčitosti ve vztazích, zejména vágnosti.

Teoretický základ pro operace s neurčitě vymezenými objekty poskytují de

Morganovy zákony. K nejdůležitějším formám patří fuzzy množiny, využívajících

funkci příslušnosti, jádro, nosič, alfa-řezy, fuzzy čísla. Jsou definovány základní

operace nad fuzzy množinami. Velký přínosem je fuzzy vymezení (vágních)

prostorových objektů, včetně specifikace topologických operací nad nimi. Fuzzy

přístup se používá ale i pro využití vágních adjektiv, resp. vztahů. Implementace

umožňuje definici různých tvarů funkce příslušnosti. Hrubé množiny se používají

pro reprezentaci prostorových objektů, u kterých zdůrazňujeme omezenou

prostorovou rozlišitelnost. Využívá zvláštní algebry.

Kontrolní otázky: 1) Kdy se používá měření mlhavosti?

2) Uveďte příklad využití průniku pomocí trojúhelníkových norem.

3) Uveďte příklad využití spojení pomocí trojúhelníkových konorem.

4) Co je stupeň příslušnosti u fuzzy množin?

5) Specifikujte funkci příslušnosti u fuzzy množin.

6) Co je jádro u fuzzy množin?

7) Co je nosič u fuzzy množin?

8) Co je α-řez u fuzzy množin?

9) Vysvětlete některé operace aplikace t-norem a t-konorem.

10) Co je princip rozšíření?

11) Jak se vymezuje prostorově vágní objekt pomocí fuzzy množin?

12) Popište rozdíly mezi operacemi v klasickém a fuzzy topologickém

prostoru.

13) Jak aplikovat fuzzy principy na úlohu viditelnosti?

14) K čemu se používají hrubé množiny?

15) Vysvětlete dolní a horní hranici aproximace regionu podle teorie hrubých

množin.

9 Kvalitativní hodnocení neurčitosti

Cílem kapitoly je vysvětlit způsob práce s kvalitativním hodnocením neurčitosti,

především s vágností v určení jednotlivých tvrzení, klasifikací v území, jak

sestavit rámec rozhodování, jak provádět revizi důkazů k vytvoření konzistentní

báze znalostí, představit možnosti uplatnění vícehodnotové logiky, vysvětlit

schvalovací teorii.


Tvorba rámce rozhodování

Důvěra, znalost a jejich vztahy

Revize důvěry

Aktualizace znalostí

Tříhodnotová a vícehodnotová logika

Schvalovací teorie

Pro studium jsou nezbytné základní znalosti teorie pravděpodobnosti.


Výstavbě variant výroků na základě znalostí o daném problému

Rozlišení důvěry a znalostí

Způsobech řešení revize důvěry

Odlišení revize a aktualizace důvěry

systému tříhodnotové logiky a jejím praktickém uplatnění pro řešení

prostorových vztahů

schvalovací teorii

Budete umět:

Pracovat s důvěrou a znalostí

Vytvářet a prověřovat jednotlivé výroky o kvalitativním hodnocení

příslušného území

jak řešit kolize znalostí pomocí revize důvěry

uplatnit hodnocení pomocí tříhodnotové logiky

využít schvalovací teorii pro řešení prostorových úloh

Budete schopni:

provést kvalitativní hodnocení posuzovaných variant s využitím několika

přístupů


Mějme území rozdělené na 2 plochy, A a B. Zajímáme se, zda jsou zalesněné nebo ne.

Předpokládejme, že vlastnost „zalesněný“ není vágní. Potom každá plocha je nebo není

zalesněna, jiná alternativa není dovolena (Worboys, Duckham, 2004, s. 340).

Výroky:

p: „plocha A je zalesněna“

q: „plocha B je zalesněna“

Množina možných řešení (4 možné světy) jsou (Worboys, Duckham, 2004):

World W1: p je pravdivé, q je pravdivé

World W2: p je pravdivé, q je nepravdivé

World W3: p je nepravdivé, q je pravdivé

World W4: p je nepravdivé, q je nepravdivé

V realitě je možný v daný čas právě jeden svět.

Náš stav znalostí je reprezentován množinou (reprezentace) světů, do které patří ty světy,

které jsou uskutečnitelné (feasible) (Worboys, Duckham, 2004).

Úplná neznalost znamená, že všechny světy jsou možné, dostáváme množinu {W1,W2, W3,

W4} (Worboys, Duckham, 2004).

Úplnou znalost v tomto případě zastupuje jednoprvková množina (množina přípustných

řešení se zredukovala na pouhou 1 variantu), např. {W4} (Worboys, Duckham, 2004).

Čím větší je množina možných světů, tím větší nepřesnost existuje v našich znalostech.

Prázdná množina vzniká jako výsledek nekonzistentní informace (Worboys, Duckham,

2004).

Nepřímá informace může vést ke snížení neurčitosti (zvýšení přesnosti naší báze znalostí)

(Worboys, Duckham, 2004). Např. pokud víme, že obě plochy mají stejný typ pokryvu,

dostáváme množinu {W1, W4}.

Zatím předpokládáme, že vlastnosti obou ploch jsou na sobě nezávislé. To však nemusí být

vždy pravda.

Do plochy A vložíme menší plochu C. Přidáme výrok:

r: „plocha C je zalesněna“.

Předpokládejme existenci omezení, že pokud je plocha A zalesněna, musí být plocha C také

zalesněna, protože leží uvnitř. Ale naopak to nemusí platit. To nám umožňuje rozšířit doménu

možných světů (Worboys, Duckham, 2004):

- World W1: p je pravdivé, q je pravdivé, r je pravdivé

- World W2: p je pravdivé, q je nepravdivé, r je pravdivé

- World W3: p je nepravdivé, q je pravdivé, r je pravdivé

- World W4: p je nepravdivé, q je nepravdivé, r je pravdivé

- World W5: p je nepravdivé, q je pravdivé, r je nepravdivé

- World W6: p je nepravdivé, q je nepravdivé, r je nepravdivé

Nejsou zde zařazeny varianty vyloučené novým omezením, tj. nemůže nastat situace, že by

současně p bylo pravdivé a r nepravdivé (Worboys, Duckham, 2004).

Důvěra (belief) je jistota (přesvědčení) (conviction) agenta o pravdivosti tvrzení (Worboys,

Duckham, 2004).

Znalost je oprávněná správná důvěra (justified true belief) (Worboys, Duckham, 2004).

Např. mohu věřit, že prase létá, ale nemohu to vědět, protože je to ve skutečnosti nepravdivé.

Zatímco veškeré znalosti jsou pravdivou důvěrou, ne všechna pravdivá důvěra je znalostí.

Např. mohu věřit, že existuje život na vzdálených hvězdách, což skutečně náhodně může

nastat, ale není to dostatečné pro znalost – musí mít alespoň nějaké ospravedlnění ve formě

důkazů nebo inference (Worboys, Duckham, 2004).

Je proto potřebné rozlišovat mezi důvěrou a znalostí. Pro tento účel se používá modální

operátor (modal opeator) před příslušným výrokem (Worboys, Duckham, 2004). Proto místo

výroku:

p: „plocha A je zalesněna“

použijeme

Kp (knowledge p): „Vím, že plocha A je zalesněna“ nebo

Bp (belief p): „Věřím, že plocha A je zalesněna“

Důvěra a znalost mohou být propojeny vztahy, např. (Worboys, Duckham, 2004):

¬K¬p→Bp

znamená, že pokud nevím, zda situace p není pravdivá, mohu věřit v p. Jinak řečeno, pokud

nevím o tom, že by nastala negace výroku p, mohu věřit v p. Např. pokud nemám důkaz

o tom, že by plocha A nebyla zalesněná, mohu věřit, že je zalesněná.

Z výše uvedené diskuse lze odvodit, že (Worboys, Duckham, 2004):

Kp→p

tedy pokud vím, že p je pravdivé, musí být p pravdivé. Např. pokud mám důkaz o tom, že

plocha A je zalesněná, musí být zalesněná.

a

¬Kp→¬p

tj. pokud nevím, že p je pravdivé, musí být p nepravdivé.

Tento axiom označují jako předpoklad uzavřeného světa v databázové teorii – pokud db

neobsahuje příslušné tvrzení, pak platí negace tvrzení.

Podle Pokorného platí: „Kdykoliv tvrzení R(a1, .. ,ak) není odvoditelné z EDB a pravidel, pak

¬R(a1, .. ,ak)“. Pozor, není to důkaz (http://www.ksi.mff.cuni.cz/~pokorny/vyuka/dj2-

vyjadrovaci-sila/img0.html).

Platí i další vztahy (Worboys, Duckham, 2004).

axiom pozitivního sebepoznání (positive introspection):

Kp→ KKp (pokud vím, že p je pravdivé, potom vím, že vím, že p je pravdivé)

axiom negativní sebepoznání (negative introspection):

¬Kp→ K¬Kp (pokud nevím, že p je pravdivé, potom vím, že nevím, že p je pravdivé)

Modální formalismus může být rozšířen pro více agentů (Worboys, Duckham, 2004). Pak je

zvykem indexem označit toho, komu patří znalost či důvěra. Např. výrazem Kap se vyjadřuje

fakt, že agent A zná tvrzení p.

9.1.1 Revize důvěry

Pokud získáme novou informaci, která protivořečí (kontraindikuje) naši aktuální důvěru,

musíme ji revidovat (Worboys, Duckham, 2004, s. 343). Typicky není systém revize důvěry

monotónní, protože důvěra může růst i klesat v závislosti na povaze nově přidávané

informace.

Klíčovou otázkou v libovolném nemonotónním systému revize důvěry je, kterou stávající

důvěru zrušit a kterou ponechat. Naneštěstí je systém často provázaný a jedna důvěra staví na

druhé, takže odebrání 1 důvěry může způsobit kaskádový efekt napříč bází znalostí, který lze

jen těžko predikovat (Worboys, Duckham, 2004).

http://www.ksi.mff.cuni.cz/~pokorny/vyuka/dj2-vyjadrovaci-sila/img0.html

http://www.ksi.mff.cuni.cz/~pokorny/vyuka/dj2-vyjadrovaci-sila/img0.html

Příklad Gärdenfors (Worboys, Duckham, 2004): Pták chycený v pasti je labuť. Pták chycený

v pasti pochází ze Švédska. Švédsko je součástí Evropy. Všechny evropské labutě jsou bílé.

Nově naučená informace: Pták chycený v pasti je černý.

Tato nová informace je implicitně nekonzistentní se stávající bází znalostí, protože ta vede

k výroku, že Pták chycený v pasti je bílý.

Otázka je, kde měnit důvěru, abychom obnovili konzistenci systému. Vypuštění 1 z 5 výroků

nahoře povede k obnovení konzistence. Ale kterého? Techniky pro rozhodnutí, kterou část

vypustit, zpravidla hodnotí sílu důvěry (strength of belief held) pomocí vztahu preference

(preference relation), často v částečném pořadí (partial order) (Worboys, Duckham, 2004).

Např. se snažíme ponechat významnější či obecnější části informace (např. „Švédsko je

součástí Evropy.“) než údaj o aktuální situaci („Pták chycený v pasti je labuť.“). Také příliš

paušální výroky jsou vhodnými kandidáty na změnu důvěry (zde „Všechny evropské labutě

jsou bílé“). Obecně se doporučuje revidovat důvěru tam, kde je množství změny nejmenší –

tedy uplatnit princip minimální změny (principle of minimal change) (Worboys, Duckham,

2004).

Jiný možný princip, princip blízkosti, upřednostňuje důvěru, která vzešla z důkazů získaných

časově nebo prostorově blízko ke studovanému fenoménu. Např. pokud máme

2 nekonzistentní informace, upřednostníme tu novější (bližší k přítomnosti) (Worboys,

Duckham, 2004).

Dalším doporučeným principem je možnost ověření. Výše uvedené první 3 výroky je

potenciálně možné ověřit. Avšak 4.pravidlo („Všechny evropské labutě jsou bílé“) je obtížné

nebo nemožné ověřit bez pochybností, protože bychom museli kontrolovat každou labuť

v Evropě. Univerzální prohlášení mohou tvořit silná pravidla, ale mohou být předmětem

občasných protipříkladů, jako byla švédská černá labuť. Namísto nepodmíněného

univerzálního pravidla je lepší říci (Worboys, Duckham, 2004):

Všechny evropské labutě jsou bílé (kromě těch, u kterých máme důkaz o opaku v případě

konkrétní labutě).

Uplatňuje se tedy tzv. implicitní (výchozí) zdůvodnění (default reasoning) (Worboys,

Duckham, 2004). Výchozí zdůvodnění v tomto případě bude, že všechny evropské labutě jsou

bílé, avšak připouští se existence odchylek. Výchozí zdůvodnění se dodržuje až do doby, kdy

je nějaký důkaz v protikladu, pak se stáhne (Worboys, Duckham, 2004).

Výchozí zdůvodnění je opět příkladem nemonotónního rozhodování.

9.1.2 Revize a aktualizace

Mezi revizí a aktualizací je třeba jasně rozlišovat (Worboys, Duckham, 2004, s. 344).

Informační systém prochází aktualizací, pokud nově přicházející informace indikuje změnu

v aplikační doméně (v realitě). Informační systém prochází revizí, pokud nově přicházející

informace mění jeho chování, ale nedochází ke změnám v aplikační doméně (Worboys,

Duckham, 2004).

Následující obrázek ukazuje oba případy.

Obrázek 63 Rozdíl mezi revizí a aktualizací (Worboys, Duckham, 2004)

Vysvětlivky: application domain – aplikační doména, pastoral land – pastvina, forest – les, arable crops – orná

půda

9.1.3 Tříhodnotová a vícehodnotová logika

V klasické logice se připouští pouze možnost, že výrok je pravdivý nebo nepravdivý. Ale co

když nevíme, nebo nemá smysl mu přiřadit hodnotu nebo je výrok příliš vágní (Worboys,

Duckham, 2004).

Plocha A je zalesněna – nemusíme mít důkazy o tom, zda je či není, ale také může být

koncept „zalesněn“ příliš vágní, pokud se v ploše nachází několik stromů a nejsme si jisti, zda

to stačí na prohlášení, že je plocha zalesněna.

V tříhodnotové logice se doplňuje stav „nevím“, zpravidla označený U nebo ?.

Kleenův systém poskytuje tabulky, ve kterých jsou uvedeny výsledky tříhodnotové logiky pro

běžné logické operace negace, průnik, sjednocení, implikace a ekvivalence (tab. 10).

Tabulka 10 Kleenův systém pravdivostních tabulek výsledků tříhodnotové logiky pro logické operace průnik,

sjednocení, negace, implikace a ekvivalence (podle Worboys, Duckham (2004, s. 346)

^ T ? F V T ? F ¬ T → T ? F ↔ T ? F

T T ? F T T T T T F T T ? F T T ? F

? ? ? F ? T ? ? ? ? ? T ? ? ? ? ? ?

F F F F F T ? F F T F T T T F F ? T

Rozšířením tříhodnotové logiky je pak mnohahodnotová logika. Takový logický systém se

nazývá stupňovaná teorie (degree theory), protože hodnoty jsou interpretovány jako „stupně

pravdy“. Příkladem jsou třeba fuzzy množiny (Worboys, Duckham, 2004).

Příklad uplatnění tříhodnotové logiky pro vytvoření regionů vznikajících z vágních

prostorových vztahů

V příkladu byl hodnocen prostor univerzity v Keele a pozice jednotlivých budov. Autoři se

dotazovali studentů ve 2 skupinách na vzájemnost blízkost objektů (Worboys, Duckham,

2004).

Obrázek 64 Poloha jednotlivých budov (Worboys, Duckham, 2004)

Kladná skupina odpovídala, zda si myslí, že je pravdivý výrok, že objekt X je blízko objektu

Y. Záporná skupina odpovídala, zda si myslí, že je nepravdivý výrok, že objekt X je blízko

objektu Y. Hodnocení museli provádět jen na základě svých představ (mentálních mapy)

nenahlíželi do map (Worboys, Duckham, 2004).

Pro každý pár objektů pak posuzovali počet kladných a záporných tvrzení o blízkosti.

U některých objektů vzniklo jasné hodnocení, u jiných ne.

Nakonec autoři spočítali významnost a ukázali výsledky v mapě s využitím tříhodnotové

logiky (obr. 65) (Worboys, Duckham, 2004).

Obrázek 65 Výsledné hodnocení blízkosti objektů pro knihovnu (Worboys, Duckham, 2004)

Vysvětlivky: significantly near – významně blízko, neither significantly near or not near – ani významně blízko

ani významně neblízko, significantly not near – významně neblízko

Dobrým příkladem konfliktu v případě klasifikace je rozdíl mezi definicemi močálu ve dvou

klasifikačních systémech 1990 LCMGB a LCM2000. Pro jeho řešení se použije následující

postup (Fisher et al., 2006).

Expert popisuje vztahy mezi prvky dvou klasifikací, založené na popisu jeho expertních

názorů. Vztahy jsou vyjádřeny v tříhodnotové logice, která popisuje párové vztahy. Mohou

být Anticipated (A, předpokládané), Uncertain (U, nejisté) a Improbable (I,

nepravděpodobné). Párové vztahy mohou být vizualizovány v tabulce 11 a ve skutečnosti

reprezentují vztahy M:N, třída v systému je vztažena ke všem třídám ve druhém systému.

Tabulka 11 Expertní hodnocení vztahů mezi klasifikačními třídami v obou mapách jako příklad využití tříhodnotové

logiky (upraveno podle Fisher et al., 2006)

Mapa 1

A B C D

Mapa 2

X předpokládané nepravděpodobné nepravděpodobné nejisté

Y nejisté nepravděpodobné předpokládané nejisté

Z nepravděpodobné předpokládané nejisté předpokládané

Předpokládejme, že parcela X ze systému LCM2000 byla překryta s LCMGB a vygenerovala

následující sadu pixelů (Fisher et al., 2006):

Třída A, 53 pixelů; Třída B, 7 pixelů; Třída C, 11 pixelů; Třída D, 24 pixelů

Pokud použijeme definici vztahů dle tabulky 11, je možné vygenerovat hodnoty pro množinu

(A, U, I) sečtením počtu pixelů odpovídajících jednotlivým typům vztahů a získáme (53, 18,

24) (Fisher et al., 2006). Expert vyjádřil neurčité, pozitivní i negativní, vztahy v tabulce. To

vede k použití Dempster-Shafer teorie.

9.1.4 Schvalovací teorie

O nespecifičnost mluvíme, když je přidělení objektu do třídy závislé na interpretaci. Za

takových okolností je potřebný expertní názor, který určí sadu pravidel nebo tvrzení, které

dovolí rozhodnout o zařazení do třídy.

Schvalovací teorie (endorsment theory) je nenumerický přístup vyvinutý Cohenem (1985, in

Comber et al., 2006), který byl využit v některých automatizovaných mapovacích aplikacích,

kde se kombinovaly různé typy důkazů. Alokace geografických objektů do tříd může být

subjektivním procesem. Kvalitativní zdůvodňovací formalismus vyžaduje definici 4 aspektů

Comber et al., 2006):

1) Musí být identifikována a pojmenována rozdílná síla expertových tvrzení (důvěry)

2) Musí být specifikována interakce mezi tvrzeními, pokud se kombinují s cílem

dosažení celkového schválení.

3) Musí být určen systém hodnocení stupně schválení

4) Musí být definovány kvalitativní limity důvěry, aby bylo možné rozhodnout, kdy už

důkazy narostly tak, aby byla dostatečně důvěryhodná.

Uvažujme např. o územní parcele, která byla dříve klasifikována (vymapována) jako třída X

a existuje podezření, že se změnila. Síla důvěry různých typů tvrzení může být definována

následovně (Comber et al., 2006):

Definitivní (definite) – pokud jeden důkaz indikuje, že hypotéza je pravdivá (takový

typ důkazů je vzácný)

Pozitivní (positive) – pokud důkaz podporuje hypotézu, ale může být rozporován

Průměrný (average) - pokud důkaz přináší jistou podporu hypotéze

Žádný (none) - pokud důkaz nepřináší žádnou podporu hypotéze

Podobně může být specifikována interakce mezi tvrzeními, která generuje schválení hypotézy

(Comber et al., 2006):

Určitá (certain) - pokud důkaz poskytuje definitivní důvěru a žádnou definitivní

nedůvěru

Přesvědčující, pravděpodobná (believed) – pokud kombinovaný důkaz poskytuje

pozitivní důvěru a žádnou pozitivní nedůvěru

Uvěřitelná (plausible) – pokud je průměrná důvěra větší než průměrná nedůvěra

Sporná (conflicting) – pokud jsou váhy pro důvěru a nedůvěru stejné

Na základě expertního hodnocení je k dispozici řada možných variant územní změn a důvěra

v různé typy důkazů pro každý hypotetický směr změny (tab.). Expert také popíše, jak

důležité jsou rozdílné typy důkazů, relativně pro každý pár důkaz-změna (všimněte si, že

žádný z důkazů pro hypotetickou změnu není definitivní). Např. pro změnu ze stavu X na stav

A jsou informace o kvalitě půdy mnohem významnější než pro změnu ze stavu X na stav D.

Reálné příklady jsou převzaty z Skelsey (1997, in Comber et al., 2006), kde bylo uvedeno, že

pro detekci kácení lesa je nejdůležitější informací změna spektrálního chování kombinovaná

s prostorovými pravidly, a Comber at al. (2004, in Comber at al., 2006), kde se zvažuje

možnost polopřirozené změny územního pokryvu a kombinace mnoha typů důkazů.

Tabulka 12 Důkazy pro rozdílné směry změny krajinného pokryvu z třídy X, síla důvěry a charakteristika změněné

plochy. Souhlas v charakteristikách je vyžlucen.

Možný směr změny ze stavu X na nový stav: Změněná

plocha (co

bylo zjištěno)

Důkazy A B C D

Změna ve

spektrálním

signálu je ..

..silná

(průměrná)

..slabá

(pozitivní)

..slabá

(pozitivní)

..velmi silná

(průměrná)

Slabá

půdní typ je

..

..chudý

(pozitivní)

..bohatý

(pozitivní)

..bohatý

(průměrná)

..dobrý

(žádná)

Bohatý

Sklon je… ..příkrý

(průměrná)

..mírný

(žádná)

..příkrý

(průměrná)

..velmi příkrý

(pozitivní)

Příkrý

V hodnoceném území je změna spektrálního signálu slabá, půdní typ je bohatý a sklon území

je příkrý. Pro hypotézu A poskytují data průměrnou podporu pro jedno kritérium (sklon

území). Podobně jsou ohodnoceny ostatní hypotézy.

Následně je možné ohodnotit každou hypotézu podle schématu pro kombinaci důvěry:

Hypotéza A má jen jednu sadu průměrné důvěry z důkazů, proto je uvěřitelná

(plausible).

Hypotéza B má dvě sady pozitivní důvěry, proto je pravděpodobná (believed).

Hypotéza C má dvě sady průměrné důvěry a jednu s pozitivní důvěrou, proto je

pravděpodobná (believed).

Hypotéza D nemá žádnou důvěru na základě důkazů.

V tomto případu jsou 2 hypotézy pravděpodobné (believed), ale zatímco více důkazů

podporuje C, váha důkazů je větší pro B, protože má 2 sady positivní důvěry.

Ačkoliv příklad poskytuje jen omezené množství typů důkazů, směrů změn a schvalování

důvěry, ilustruje základní aplikaci schvalovací teorie.

Schvalovací model používá mnohem více heuristický přístup ke zdůvodnění neurčitosti než

jiné přístupy. Umožňuje specifikovat definici prvků důvěry a jejich interakce podle

uvažovaného problému. Adresuje otázku, co je zdrojem neurčitosti ve zdůvodňovacím

procesu a kde neurčitost do procesu vstupuje. Význam odpovědi je pak interpretován pomocí

metody, která kombinuje jednotlivá schválení (endorsements) podle jejich ocenění (Comber et

al., 2006).

Metoda má řadu výhod (Comber et al., 2006):

Umožňuje reprezentovat obecnou znalost (např. expertní mapovací pravidla)

přirozeným způsobem

Symbolický přístup metody umožňuje reprezentovat situaci a provádět zdůvodnění na

základě znalostí o problémech reálného světa.

Tento typ zdůvodňování dovoluje odvodit interference z dílčích znalostí.

Výsledky schvalovacího přístupu obsahují explicitní informaci o tom, proč se něčemu

důvěřuje nebo nedůvěřuje. Následně je možné to patřičně zohlednit a rozhodnout, jak

reagovat - a to je velmi užitečná vlastnost vzhledem k subjektivitě mapování.

Přístupy založené na schvalování jsou nejvhodnější pro situace, kdy subjektivní stupně důvěry

se obecně nechovají jako pravděpodobnosti nebo nejsou matematicky vyjádřeny. Fáze

vyvozování (elicitation) znalostí při konstrukci expertního systému je jednou z možných

aplikační oblastí: experti často nejsou ochotni vyjadřovat své názory číselně. Naopak metoda

může být nevhodná pro oblasti, ve kterých má číselný stupeň důvěry jasnou sémantiku

a existují adekvátní výrazy pro všechny informace o neurčitosti (Comber et al., 2006).

Shrnutí:

Z možných stavů kvalitativního hodnocení je možné vybudovat množinu možných

stavů světa. Pomocí dalších výroků ji modifikujeme, přitom je nutné rozlišovat

mezi důvěrou (vírou) a znalostí (tj. oprávněnou správnou důvěrou). V případě

nového výroku, který odporuje stávajícímu stavu, je nutné provést revizi důvěry,

často s uplatněním principu minimální změny (minimalizace dopadů změny

důvěry), principu blízkosti (upřednostnění důkazů časově a prostorově blízkých)

nebo možnosti ověření. Vedle revize důvěry probíhá v systému rovněž aktualizace

informací. Klasickou práci s výroky v binární logice je možné rozlišit do

tříhodnotové logiky (nově stav „nevím“), což je spojeno s rozšířením základních

logických operací pomocí Kleenova systému. Pro řešení problému nespecifičnosti

se používá schvalovací teorie. Hodnotí se do 4 úrovní síla důvěry daného tvrzení,

klasifikuje se i varianta interkace mezi tvrzeními. Expertní hodnocení se provádí

pro všechny přípustné varianty. Každá varianta je nakonec oceněna (schválena)

pomocí schématu pro kombinaci důvěry.

Kontrolní otázky: 1) Pro daný příklad výroku sestavte množinu přípustných řešení (světů) a

vysvětlete na nich pojmy úplná neznalost a úplná znalost.

2) Vysvětlete rozdíl mezi důvěrou a znalostí.

3) K čemu se používá axiom uzavřeného světa?

4) Vysvětlete uplatnění vztahu preference pro rozhodnutí o revizi důvěry.

5) Vysvětlete uplatnění principu minimální změny pro rozhodnutí o revizi

důvěry.

6) Vysvětlete uplatnění principu blízkosti pro rozhodnutí o revizi důvěry.

7) Vysvětlete uplatnění principu možnosti ověření pro rozhodnutí o revizi

důvěry.

8) Jaký je rozdíl mezi aktualizací a revizí důvěry?

9) Nakreslete pravdivostní tabulku pro průnik v tříhodnotové logice.

10) Nakreslete pravdivostní tabulku pro sjednocení v tříhodnotové logice.

11) Nakreslete pravdivostní tabulku pro negaci v tříhodnotové logice.

12) Nakreslete pravdivostní tabulku pro implikaci v tříhodnotové logice.

13) Nakreslete pravdivostní tabulku pro ekvivalenci v tříhodnotové logice.

14) Jaké jsou základní požadavky pro schvalovací teorii?

15) Jak se hodnotí síla důvěry tvrzení ve schvalovací teorii?

16) Jak se specifikují různé interakce mezi tvrzeními ve schvalovací teorii?

17) Pro jaké situace je schvalovací teorii nejvhodnější?

10 Kvantitativní přístupy k neurčitosti

Cílem kapitoly je vysvětlit vybrané kvantitativní přístupy k hodnocení neurčitosti,

zejména podmíněnou pravděpodobnost, Bayesovu teorii a Dempter-Shafer teorii

pro hodnocení prostorových problémů.


Podmíněná pravděpodobnost

Baeysova teorie pravděpodobnosti

Dempster-Shafer teorie

Důvěryhodnost, uvěřitelnost a operace

Pro studium kapitoly jsou nezbytné základní znalosti z teorie pravděpodobnosti.


3 základních konceptech používaných pro kvantitativní hodnocení

neurčitosti pro vymezení a ověřování hypotéz

Teoretické i praktické uplatnění Dempster-Shafer teorie

Budete umět:

Porovnat možnosti použití teoretických přístupů k hodnocení neurčitosti

v případech práce s kvantifikovatelnými hypotézami

Uplatnit rozšířené vnímaní práce s výroky a hypotézami, postavené na

konceptech Dempster-Shafer teorie

Budete schopni:

Využít Dempster-Shafer teorie, případně Baesovy teorie či podmíněné

pravděpodobnosti pro řešení praktických příkladů rozhodování o

pravděpodobném řešení

Času potřebný na nastudování kapitoly – 4 hodiny

Dále jsou uvedeny vybrané kvantitativní přístupy k hodnocení neurčitosti.

10.1 Podmíněná pravděpodobnost

Z oblasti pravděpodobnosti je koncept podmíněné pravděpodobnosti nejdůležitější a nejvíce

používaný pro kvantitativní hodnocení neurčitosti.

Výpočet podmíněné pravděpodobnosti (Worboys, Duckham, 2004):

)(

)()|(

Vp

VUpVUp

Příklad pro výpočet podmíněné pravděpodobnosti zkoumá výskyt právě jednoho sesuvu

v území. Sesuv je menší než plocha 1 buňky a spadá přesně dovnitř buňky (Worboys,

Duckham, 2004).

Úvodní odhad byl, že sesuv je v oblasti A.

p(sesuv v A) = 4/9

Nový důkaz tvrdí, že sesuv může být pouze v regionu B. Jaká je pravděpodobnost, že sesuv je

v regionu A, za podmínky že je v regionu B?

3

1

9

69

2

)(

)()|(

Vp

VUpVUp

Obrázek 66 Dva regiony, ve kterých se hodnotí pravděpodobnost výskyt sesuvu (Worboys, Duckham, 2004)

Vysvětlivky: dotted boundary – tečkovaná hranice, dashed boundary – čárkovaná hranice

Výše uvedená pravděpodobnost je objektivní, protože nezáleží na stavu našeho poznání, ale

na vnějších podmínkách (Worboys, Duckham, 2004).

10.2 Bayesova teorie pravděpodobnosti

Bayesova teorie pravděpodobnosti se používá pro ocenění vztahu, u kterého je dostupná (nebo

se předpokládá) úplná informace. Bayesova teorie pravděpodobnosti je rozšířením klasické

teorie pravděpodobnosti a dovoluje kombinovat primární znalosti s novou pravděpodobností

(důkazy) ve výsledný odhad pravděpodobnosti, že je hypotéza pravdivá (Worboys, Duckham,

2004).

i

ii hphep

hphepehp

)()|(

)()|()|(

p(h|e) posteriorní pravděpodobnost

p(e|h) pravděpodobnost nového zjištění, že je hypotéza pravdivá

p(h) pravděpodobnost pravdivosti hypotézy bez ohledu na nový důkaz (apriorní p.)

Jednoduchý příklad (Worboys, Duckham, 2004):

Máme jen 2 hypotézy - h a její doplněk ¬h (tedy h není pravda), jejichž pravděpodobnosti

jsou p(h) a p(¬h). Např. je oblast zaplavena nebo ne?

První otázka zní - máme nějakou apriorní pravděpodobnost? Jestliže ne, pak p(h) = 0.5 (stejně

pravděpodobné jsou obě odpovědi).

Pravděpodobnost nového zjištění p(e|h) vyjadřuje pravděpodobnost dodatečně zjištěného

důkazu ve prospěch hypotézy.

Termín p(h|e) je posteriorní pravděpodobnost. Zahrnutím další vnější informace k hypotéze je

modifikována pravděpodobnost každé hypotézy vzhledem k nové informaci.

Pokud je k dispozici kompletní informace, může být jediným problémem při přesném

stanovení pravděpodobnosti nedostatek důkazů. Přidáním dalších důkazů můžeme teoreticky

získat správné pravděpodobnostní ocenění každé hypotézy.

Důvěra, stupeň důvěry (degree of belief) je definován podobně jako pravděpodobnost

(Worboys, Duckham 2004, s. 351).

Podobné jsou i 3 hlavní zákony, definujeme i Bayesovu funkci důvěry podobnou podmíněné

pravděpodobnosti (Worboys, Duckham, 2004).

)(

)()|(

VBEL

VUBELVUBEL

)(

)()|(

UBEL

VUBELUVBEL

z těchto 2 rovnic můžeme vyloučit člen průniku a získat vztah:

)(

)|(*)()|(

VBEL

UVBELUBELVUBEL

Je zřejmé, že je to Bayesův vztah – posteriorní důvěra BEL(U|V) je získána násobením

apriorní důvěry BEL(U) a pravděpodobnosti (věrohodnosti), že V nastane, pokud nastalo U.

BEL(V) funguje jako standardizační konstanta, která zajistí, aby BEL(U|V) bylo mezi 0 a 1.

10.3 Dempster-Shaferova teorie

Dempster-Shaferova teorie (D-S) představuje rozšíření Bayesovy teorie pravděpodobnosti.

Dovoluje vyjádření nevědomosti při řízení neurčitosti.

Základním předpokladem D-S teorie je, že nevědomost existuje přímo ve znalostech a že

důvěra (belief) v hypotézu nemusí být nutně doplňkem důvěry v negaci této hypotézy

(Eastmann, 2001).

Jinými slovy Důvěra v hypotézu A + Důvěra v negaci hypotézy A se nemusí rovnat 1 (díky

neurčitosti našich znalostí), tedy platí že:

D(A)+D(¬A) <> 1

Uvažujme následující příklad (Worboys, Duckham 2004, s. 352):

b1: existuje život v soustavě Sírius

b2: neexistuje život v soustavě Sírius

Podle rovnic o pravděpodobnosti, musí být b1+b2=1, ačkoliv máme velmi málo důkazů pro

každý z výroků. Pokud nemáme žádný důkaz, přidělíme oběma stavům stejnou

pravděpodobnost (resp. úroveň důvěry), tj. b1=b2=0,5. Takto jsme ale přidělili vysokou

úroveň důvěry na základě nedostatku důkazů. Takový model odporuje naší intuici.

D-S teorie se zaměřuje na kombinaci stupně důvěry či podpory poskytované jednotlivými

důkazy. Poskytuje metodu vhodnou pro změnu důvěry ve výrok ve světle nového důkazu.

Uvažujme 2 krajní situace:

Case 1 (informační chudost, information scarcity): existuje zhruba stejně malé množství

důkazů na obou stranách.

Case 2 (informační přebytek, information glut): existuje zhruba stejně velké množství důkazů

na obou stranách.

Bayesova analýza tyto 2 případy neumí rozlišit, vždy přidělí 0,5.

Dempster-Shafer zavádí nové koncepty a rozlišuje mezi důvěryhodností (credibility)

a uvěřitelností (věrohodnost, plausibility), a v negativním vyjádření mezi nedůvěrou

a nedostatkem důvěry (Worboys, Duckham 2004).

Důvěryhodnost (credibility) je množství důkazů, které máme ve prospěch věci.

Uvěřitelnost (plausibility) je nedostatek důkazů, které máme proti věci.

credibility(p)=Bel(p)

plausibility(p)= 1-Bel(¬p)

V případě informační chudosti je důvěryhodnost (credibilita) p i důvěryhodnost negace p

malá, ale uvěřitelnost (plausibilita) a uvěřitelnost negace p jsou velké.

V případě informačního přebytku je důvěryhodnost p a důvěryhodnost negace p větší, ale

uvěřitelnost (plausibility) pro p i uvěřitelnost negace p jsou malé.

Následující jednoduchý příklad ukazuje, jak se kombinují pravděpodobnosti s vědomostí

(podle http://www.glennshafer.comássets/downloadsárticlesárticle48.pdf).

Mám subjektivní mínění o spolehlivosti kamaráda Josefa. Moje pravděpodobnost, že je

spolehlivý, je 0,9, a moje pravděpodobnost, že je nespolehlivý = 0,1.

Kamarád přiběhl a prohlásil, že mi spadla větev na auto.

Toto prohlášení, které musí být pravdivé, pokud je spolehlivý, neznamená nutně, že pokud

o něm vím, že je nespolehlivý, bude prohlášení falešné.

Tedy jeho svědectví samotné ospravedlňuje 0,9 (90%) důvěru v to, že mi spadla větev na

auto, ale 0 důvěry v to, že mi nespadla větev na auto (ne 0,1 stupně důvěry!). Tato 0

neznamená, že jsem si jistý, že žádná větev nespadla na moje auto; prostě to znamená, že

Pepovo svědectví mi nedává žádný důvod věřit, že nic (žádná větev) nespadlo na moje auto.

0,9 a 0 dohromady vytvářejí funkci důvěry (belief function).

Předpokládejme, že znám také nějakého Karla, kterému věřím úplně stejně (moje

pravděpodobnost, že je spolehlivý, je 0,9; a moje pravděpodobnost, že je nespolehlivý, se

rovná 0,1). Také on přišel a nezávisle na Josefovi mi oznámil, že mi spadla větev na auto.

Jev, že je Karel spolehlivý, je nezávislý od jevu, že je Josef spolehlivý. Tedy mohu tyto jevy

násobit – pravděpodobnost, že jsou oba spolehliví = 0,9*0,9=0,81. Pravděpodobnost jevu, že

ani jeden není spolehlivý = 0,1* 0,1=0,01. Pravděpodobnost jevu, že aspoň jeden je

spolehlivý je 1-0,01=0,99. Protože oba prohlásili totéž, takže pokud aspoň jeden z nich je

spolehlivý, tak to znamená, že určitě větev spadla na auto. Proto mohu přidělit stupeň důvěry

0,99.

Předpokládejme nyní, že si oba odporují. Josef řekl, že spadla, Karel že nespadla. V tomto

případě nemohou mít oba pravdu, a tedy nemohou být oba spolehliví – jenom jeden je

spolehlivý nebo ani jeden není spolehlivý. Apriorní pravděpodobnost jevu, že Josef je

spolehlivý a Karel je nespolehlivý je 0,09 (0,9*0,1). To samé platí pro jev, že jenom Karel je

spolehlivý (a Josef je nespolehlivý). Apriorní pravděpodobnost jevu, že ani jeden není

spolehlivý je 0,01 (0,1*0,1). Suma těchto pravděpodobností (celý prostor pro hypotézy) je

0,19. Posteriorní pravděpodobnosti (de facto přepočet do součtu 1) jsou 9/19 pro „Josef je

spolehlivý, ale Karel ne“, 9/19 pro „Karel je spolehlivý, ale Josef ne“ a 1/19 pro jev, že ani

jeden není spolehlivý. Takže teď máme 9/19 stupně důvěry, že větev spadla na auto (protože

Josef je spolehlivý) a 9/19 stupně důvěry, že větev nespadla na auto (protože Karel je

spolehlivý).

Všimněme si, že důvěra v určitou hypotézu (spadla větev na auto?) je získána na základě

pravděpodobnosti odpovědi na jinou otázku (je svědek spolehlivý?).

Postup při uplatnění D-S teorie

Nejdříve Dempster-Shaferova teorie definuje hypotézy v hierarchické struktuře odvozené ze

základní sady hypotéz, které tvoří rámec posuzování (frame of discernment) (Eastmann,

2001).

Rámec posuzování má podobný význam jako rámec pro rozhodování, tj. je to sada

alternativních hypotéz nebo tříd, které mohou být přiřazeny entitám. D-S t. považuje tuto sadu

za vyčerpávající. Avšak v praxi D-S zachází s hierarchickými kombinacemi jako

s dodatečnými hypotézami. Navíc v kontextu GIS a DPZ mohou existovat dobré důvody, aby

se některé neřešitelné vazby zpracovávali jako hierarchická kombinace a pracovalo se s nimi

jako s každou jinou evidencí nezávislé třídy/hypotézy, do které může být entita přidělena.

Např. rámec posuzování může zahrnovat [les] a [mokřiny] a pak přítomnost vazby na

[zalesněné mokřiny] může de facto reprezentovat přítomnost třídy „zalesněné mokřiny“, která

nemůže být řešena bez použití lepšího důkazu (Eastmann, 2001).

Mějme rámec posuzování, který zahrnuje 3 základní hypotézy {A,B,C}. Struktura hypotéz,

pro které D-S přijímá důkazy (evidence), zahrnuje všechny možné kombinace [A], [B], [C],

[A,B], [A,C], [B,C], [A,B,C]. První 3 se označují jako prosté (sigleton) hypotézy, protože

obsahují jen jeden základní prvek. Zbytek jsou neprosté hypotézy (non-singleton), které

obsahují více než jeden základní prvek. D-S rozeznává tyto hierarchické kombinace, protože

se často stává, že důkazy, které máme, podporují jen určité kombinace hypotéz bez možnosti

dalšího rozlišení submnožin. Např. chceme identifikovat třídy [listnatý] a [jehličnatý] v rámci

klasifikace krajinného pokryvu a nalezneme důkaz z černobílé letecké fotografie, která

rozlišuje pouze zalesněné a nezalesněné oblasti, ale ne typ lesa. V tomto případě musíme

použít tento důkaz na podporu výskytu hierarchické kombinace [listnatý, jehličnatý]. Jasně to

ukazuje stav neurčitosti. Současně to ale poskytuje cennou informaci, kterou je možné

výhodně využít pomocí D-S procedury v libovolném výroku o důvěře v předložené hypotézy

(Eastmann, 2001).

[A,B,C]

[A,B] [A,C] [B,C]

[A] [B] [C] Obrázek 67 Hierarchická struktura podmnožin v celé množině [A,B,C]

D-S teorie rozeznává 6 důležitých konceptů, které využívá při vyjadřování vazeb některé

z těchto hypotéz (Eastmann, 2001):

přímá statistická pravděpodobnost (basic probability assignement, BPA),

neznalost (ignorance, IGN),

důvěra (belief, BEL),

nedůvěra (disbelief, DIS),

uvěřitelnost (plausibility, PLS),

interval důvěry (interval of belief).

BPA představuje podporu, že část důkazu je poskytována pro jednu z těchto hypotéz a ne pro

jejich podmnožiny. Tedy BPA pro [A,B] reprezentuje množství podpory pro [A,B], ale ne pro

[A] nebo [B], tj. je to stupeň podpory pro nějakou nerozeznatelnou kombinaci [A] a [B]

(Eastmann, 2001).

m(A,B) = BPA pro [A,B]

BPA pro danou hypotézu může být odvozena pomocí odhadu nebo z empirických dat. BPA je

mírou mlhavosti (fuzzy měření).

1 iBPA

Tedy BPA pro konečnou nadmnožinu ([A,B,C] v tomto případě) se rovná doplňku sumy

všech ostatních BPA. Toto množství tedy reprezentuje nevědomost (ignorance) - neschopnost

potvrdit jakýkoliv stupeň rozlišení mezi prvky v rámci posuzování (Eastmann, 2001).

Důvěra (belief) reprezentuje celkovou podporu hypotézy a je odvozována z BPA pro všechny

podmnožiny této hypotézy (Eastmann, 2001):

))((BEL(X) Ym kde Y je prvkem X

Tedy důvěra v [A,B] bude vypočtena jako ΣBPA pro [A,B], [A], [B].

V tomto příkladu důvěra reprezentuje pravděpodobnost, že entita je A nebo B. Všimněte si, že

v případě prostých hypotéz jsou BPA a důvěra totožné.

Nedůvěra (disbelief, DIS) - na rozdíl od Bayesovské teorie pravděpodobnosti není nedůvěra

automaticky doplňkem k důvěře, ale reprezentuje stupeň podpory všech hypotéz, které nemají

průnik s danou hypotézou (Eastmann, 2001).

DIS(X) = BEL (¬X) kde ¬X=not(X)

DIS([A,B]) = BPA[C] = 0,1

Jako protiklad k důvěře vyjadřuje uvěřitelnost (plauzibility, PLS) stupeň, do kterého se až

hypotéze může důvěřovat (přesněji nemůže nedůvěřovat).

PLS(X) = 1 - BEL (¬X) kde ¬X=not(X)

PLS(X) = 1 – DIS(X)

BEL(¬X) = Σ(m(Y)) kde Y∩X je prázdná množina

tedy PLS(X) = Σ(m(Y)) kde Y∩X není prázdná množina

Důvěra reprezentuje stupeň přímých důkazů na podporu hypotézy, uvěřitelnost indikuje

stupeň, do kterého se podmínky zdají být správné pro tuto hypotézu, i když je nedostatek

přímých důkazů. Pro každou hypotézu je tedy důvěra spodní hranicí pro naše přijetí této

hypotézy, zatímco uvěřitelnost reprezentuje horní hranici. Rozdíl mezi nimi je označován

jako interval důvěry (belief interval) a reprezentuje stupeň neurčitosti v přijetí nebo nepřijetí

hypotézy. Platí, že pro plochy s velkým intervalem důvěry každý nový důkaz přispívá

největším stupněm informace, zde má tedy informace největší hodnotu. D-S teorie je proto

velmi užitečná z hlediska porozumění informační hodnotě a v návrhu strategie sběru dat, tak,

aby byla co nejefektivnější při snižování neurčitosti.

Při srovnání s Bayesovou teorií pravděpodobnosti je zjevné, že D-S teorie lépe zachází

s neurčitostí obsaženou v datech. V Bayesově teorii pravděpodobnosti pracujeme jen s tzv.

prostými hypotézami a předpokládá se, že jsou vyčerpávající (tj. jejich součet je 1). Není

odlišena nevědomost. Nedostatek důkazů pro hypotézu tedy vytváří evidenci (důkazy) proti

dané hypotéze. Tyto požadavky a předpoklady však často nejsou v reálných rozhodovacích

situacích garantovány. Např. pro sledování výskytu určitého ptačího druhu bude používána

evidence ve formě zaznamenaných hnízd. Absence hnízda v daném místě však neznamená, že

by se zde sledovaný druh nevyskytoval. Může to znamenat, že zde prostě nebylo provedeno

pozorování nebo že se pozorovatel spletl při určování přítomných druhů. Právě pro takové

případy je D-S teorie vhodná (Gordon and Shortliffe 1985, Srinivasan and Richards 1990, in

Eastmann, 2001).

10.3.1 Dempster-Shaferovy agregační operátory

D-S kombinační pravidla poskytuje důležité nástroje pro agregaci nepřímých důkazů

a neúplné informace.

Výchozí stav znalostí je reprezentován ve formě plné hierarchizace hypotéz a jim přidělených

BPA. Z nich je možné skládáním odvozovat další informace (Eastmann, 2001).

YXkdeYmXm

ZYXkdeYmXmzm

.....).........()(1

..).........()()(

21

21

Jestliže

YproXYmXm ...............0)()( 21

pak se z rovnice stává:

ZYproXYmXmZm ......).........()()( 21

Celková důvěra, uvěřitelnost a interval důvěry se pro každou hypotézu vypočítá na základě

BPA odvozené z výše uvedené rovnice. Ve většině případů je nevědomost redukována po

přidání nové informace (Eastmann, 2001).

10.3.2 Implementace v IDRISI

Modul BELIEF tvoří a ukládá stav znalostí pro plnou hierarchii hypotéz. Navíc dovede

agregovat novou evidenci s existující znalostí a vytvářet nový stav znalostí, který může být

reprezentován ve výstupní mapě důvěry, uvěřitelnost nebo intervalu důvěry spojenou

s libovolnou hypotézou (Eastmann, 2001).

BELIEF nejdříve vyžaduje definice základních hypotéz. Po jejich zadání jsou vytvořeny

všechny hypotézy v hierarchické struktuře (seznam hypotéz). Pro každý zadávaný důkaz jsou

vyžadovány datové vrstvy BPA (rastr s reálnými čísly 0 až 1) spolu s indikací podporované

hypotézy. Položka BUILD KNOWLEDGE BASE v menu ANALYSIS začlení novou

evidenci do systému přepočítáním stavu znalostí pomocí D-S kombinačních pravidel.

Výsledek může být prezentován jako výsledný obrázek ve formě důvěry, uvěřitelnosti nebo

intervalu důvěry pro libovolnou hypotézu. Všechny získané informace jsou uloženy do

znalostní báze pro pozdější využití (Eastmann, 2001).

Používání BELIEF (Eastmann, 2001):

1. Může být obtížné rozhodnout, zda určitou část důkazů použít na podporu důvěry (belief)

v hypotézu nebo naopak doplněk tohoto obrazu použít na podporu nedůvěry (disbelief).

Pokud použijeme zjištění na podporu nedůvěry, neovlivňujeme důvěru v danou hypotézu,

ale její věrohodnost (uvěřitelnost).

Např. v příkladu je blízkost ke stálé vodě používána jako obraz vzdáleností na podporu

nedůvěry pro možnost existence archeologické lokality. Důvodem je to, že v blízkosti vody

není žádný důvod věřit, že by tam lokalita mohla či nemohla být, avšak u míst vzdálených

od vody je výborný důvod předpokládat, že by tam lokalita neměla existovat.

Vždy opatrně uvažujte, zda data poskytují pravdivý důkaz na podporu hypotézy nebo

pouze podporují uvěřitelnost (tedy nemožnost popřít danou možnost).

2. Při zadávání nedůvěry indikujete, že důkaz podporuje kolekci všech hypotéz, které

nezahrnují sledovanou hypotézu. Podle příkladu - jestliže budeme podporovat nedůvěru

pro A, znamená to, že podporujeme důvěru pro [B,C].

3. Pro každou linii důkazů začleněných v BELIEF si ověřte, že jste zadali všechny hypotézy,

v nichž působí určitá část důkazu. Důvod - BELIEF potřebuje provést vnitřní výpočty ve

vztahu k neznalosti a tedy potřebuje vědět také o hypotézách, pro které důkaz nepřidává

podporu. Potřebuje zadat pouze BPA obrazy, jestliže důkaz podporuje hypotézu se

stupněm vyšším než 0. Pro hypotézy, které důkaz nepodporuje, modul přiřazuje nulovou

pravděpodobnost.

4. Pro každou linii evidence BPA obraz musí obsahovat hodnoty z oboru reálných čísel mezi

0 a 1.

Příklad (Eastmann, 2001):

Máme odhadnout, kde se mohou nacházet archeologická místa určité kultury.

Rozhodovací rámec zahrnuje 2 základní prvky: [lokalita] a [nelokalita].

Celkový počet hypotéz, které generuje D-S teorie v plné hierarchii je 2n-1. Implicitně je zde

přítomna vnější hypotéza, která je pravdivá pro nulovou množinu a kterou D-S považuje

automaticky za nepravdivou. Tedy v tomto případě [nelokalita] není prázdnou množinou, ani

to není automaticky předpokládáno D-S. V tomto případě je uvedena jako pozitivní hypotéza

a člen rámce rozlišitelnosti.

Jsou použity čtyři důkazy:

lokalizace známých míst,

četnost povrchových artefaktů (např. střepy keramiky),

blízkost k stálé vodě,

sklon svahu.

První důkaz je považován za přímý důkaz existence archeologické lokality, protože

v blízkosti nebo přímo na známém místě se vyskytují často i další archeologické lokality.

Pokud se v daném místě lokalita nevyskytuje, nemáme žádnou přímou podporu pro hypotézu

„je zde nelokalita“.

Tedy důkaz je většinou nepřímý. Pro oblasti, které jsou blíže k existujícím archeologickým

místům, můžeme předpokládat vyšší pravděpodobnosti hypotézy [lokalita]. Pro transformaci

mapy vzdálenosti od existujících archeologických lokalit na mapu pravděpodobností (BPA

obraz pro podporu hypotézy [lokalita]) může být použita fuzzy funkce příslušnosti.

Četnost povrchových artefaktů je také používána jako další důkaz v podpoře hypotézy

[lokalita].

Vzdálenost od stálé vody a svažitost (ve formě datových vrstev) jsou však použity pro obraz

nedůvěry (disbelief). Důvody jsou zřejmé. Je pravděpodobné, že lokalita nemohla mít příliš

daleko zdroj vody. Nemáme však důvod se domnívat, že každé místo v blízkosti vody má

vyšší pravděpodobnost lokality, naopak – místa, která jsou velmi vzdálená od vody, mají

vysokou pravděpodobnost nelokality. Obdobně u sklonu svahu. Čím příkřejší svah, tím vyšší

pravděpodobnost, že je to „nelokalita“.

Obě datové vrstvy jsou proto přepočteny do rozsahu 0-1 pomocí fuzzy funkce příslušnosti,

aby poskytly podporu hypotézy [nelokalita].

Obrázek 68 Pravděpodobnostní obrazy: hypotéza [lokalita] založená na vzdálenosti od známého místa, hypotéza

[lokalita] založená na četnosti povrchových artefaktů, hypotéza [nelokalita] založená na vzdálenosti od stálé vody a

hypotéza [nelokalita] založená na sklonu svahu. (Eastmann, 2001)

Modul BELIEF kombinuje informace ze všech 4 zdrojů a je použit k vytvoření obrazů

důvěry, uvěřitelnosti a intervalu důvěry pro hypotézu [lokalita].

Obrázek 69 Důvěra (vlevo), uvěřitelnost (uprostřed) a interval důvěry (vpravo) pro přítomnost archeologických

lokalit z D-S kombinace důkazů. (Eastmann, 2001)

Shrnutí:

Podmíněná pravděpodobnost je nejjednodušším způsobem hodnocení kombinace

výroků, což v případě prostorových objektů může být zjištěno z geometrických

pravděpodobností. Bayesova teorie pravděpodobnosti kombinuje primární znalosti

s novou pravděpodobností. Dempster-Shaferova teorie definuje rámec posuzování

jako množinu všech možných řešení a zavádí nové koncepty (přímá statistická

pravděpodobnost, neznalost, důvěra, nedůvěra, uvěřitelnost, interval důvěry), které

se používají pro přesnější popis situace, zejména zohledňují nevědomost a typ

vztahu důkazu k prověřované hypotéze. Pro práci s novými koncepty se používají

speciální agregační operátory.

Kontrolní otázky: 1) Vysvětlete výpočet podmíněné pravděpodobnosti na geometrickém

příkladu 2 tvrzení, které se částečně prostorově překrývají.

2) Vysvětlete princip Bayesova přístupu k výpočtu pravděpodobnosti.

3) Co je hlavní výhodou Dempster-Shafer teorie vůči Bayesově teorii?

4) Co je důvěryhodnost?

5) Co je uvěřitelnost?

6) Co je rámec rozhodování?

7) Jak je konstruována důvěra v určitou hypotézu?

8) Jak se vyjádří nedůvěra v určitou hypotézu?

9) Popište způsob odvození uvěřitelnosti.

10) Jaká je interpretace intervalu důvěry?

11 Validita a objektivnost

Cílem kapitoly je vysvětlit koncept validity a objektivnosti a ukázat druhovou

pestrost typů validity, kterou zpracovatel dat musí zohlednit při práci.


Vnitřní a vnější validita

Validizace

Různé typy validity

Dopady ohrožení validity

Objektivnost


Konceptu validity a objektivnosti

Typech validity

Přístupech k zajištění validity

Budete umět:

Vnímat problémy způsobené omezenou validitou

Navrhnout způsob zpracování se zajištěním objektivní validity celého

procesu

Budete schopni:

Zabránit nedůvěryhodnému a zkreslenému zpracování a vyhodnocení


Validitou rozumíme ověření výsledků z hlediska jejich platnosti.

Validita se zkoumá při procesu měření, zpracování dat, modelování – obecně jakýkoliv proces

může být posuzován z hlediska validity. Validitou procesu rozumíme jeho shodu s reálnou

podstatou jevu, se vzorem, který má reprezentovat, nahrazovat, či formulovat.

Rozlišujeme vnitřní a vnější validitu.

Typicky vnitřní validita znamená prověření pomocí dat, která byla součástí sady dat, použité

pro výpočet. Např. křížová validace u krigování, pokud byla data součástí datové sady použité

pro odvozování parametrů interpolace. Ve výsledku se projevuje např. prostorová konfigurace

známých bodů. Proto výsledky interní validace nelze považovat za zcela objektivní.

Vnější validita je pak ověření výsledků pomocí nezávislých dat, která nebyla použita ve

výpočtu (ani pro odvození parametrů či konfigurace výpočtu).

Podrobněji se zaměříme na validitu měření:

Starší definice validity měření vyžadovala, aby procedura měření skutečně měřila to, co

předpokládáme, že měří. V současnosti se vychází z požadavku, že uživatel má z výsledků

měření odvodit správná rozhodnutí. Validita odkazuje na přiměřenost, smysluplnost

a užitečnost specifických závěrů, jež se provádějí na základě výsledku měření. Validizace

měřící metody je procesem k podpoře takového přesvědčení. Posuzují se provedená

rozhodnutí, ne měřící instrument jako takový (Hendl, 2006).

Bez spolehlivosti (reliability) nelze dosáhnout validity. Avšak ani velká spolehlivost

(reliabilita) není zárukou validity.

Hendl (2006) tvrdí, že „malá reliabilita zakrývá, nedostatečná validita znetvořuje“.

Koncept validity je triviální, když se jedná o měření znaků jako délka těla. Stává se však

komplikovanou záležitostí, jestliže se jedná o osobní charakteristiky (např. v psychologii)

nebo jiné konstruktury sociálních věd. Při přezkušování validity rozlišujeme obsahovou,

kriteriální a konstruktovou validitu (Hendl, 2006).

Obsahová validita – zjišťujeme, do jaké míry měření skutečně reprezentuje dané vlastnosti

nebo kvality. Např. při konstrukci vědomostních testů si všímáme, zda otázky pokrývají celou

problematiku zkoušené látky (Hendl, 2006).

Kriteriální validita – posuzuje se shodou výsledků zaváděné procedury s nějakou jinou

kriteriální proměnnou nebo s jiným měřením, které je již ověřené. Ověřená procedura měření

se někdy nazývá „zlatý standard“. Zahrnuje následující 2 typy, kde hlavním rozdílem mezi

nimi je čas provedení měření (Hendl, 2006).

1. Souběžná kriteriální validita - hodnota kriteriální proměnné existuje v současnosti.

2. Prediktivní kriteriální validita - hodnota kriteriální proměnné se realizuje

v budoucnu. Např. mnoho přijímacích (vstupních) testů škol či personálních agentur

musí být vyhodnoceno ve vztahu k prediktivní validitě.

Kriteriální validita měřícího testu se také měří pomocí korelačního koeficientu. Při hodnocení

kriteriální validity korelujeme hodnoty posuzovaného měření s hodnotami měření

standardem. Při hodnocení prediktivní variability korelujeme hodnoty testových výsledků

s kriteriálními hodnotami získanými po uplynutí určité doby a odhadujeme tak schopnost

predikovat tyto hodnoty hodnoceným testem (Hendl, 2006).

Konstruktová validita se zabývá teoretickými aspekty měřeného konstruktu (proměnné).

Důkazy o konstruktové validitě musí mít konvergentní charakter (test prokazuje vztahy k těm

proměnným, jež podle teorie očekáváme) nebo diskriminační charakter (naopak nemá vztah

k proměnným, když tento vztah neočekáváme). V této etapě přezkušování nové procedury je

důležité, zda výsledky predikují stavy, které podle teorie očekáváme. Např. test výkonnosti by

měl nabývat nízké hodnoty, pokud sportovec nedosahuje dobrých výsledků v soutěžích. Jedna

z konstruktových validit se nazývá zjevná validita (face validity), jež se zjišťuje na základě

prostého úsudku expertů o validitě měření. Konstruktová validita se má vždy ověřovat

v rámci daného teoretického kontextu (Hendl, 2006).

Kromě toho se rozlišuje externí a interní validita.

Externí validita se týká možnosti zobecnit naše výsledky mimo rámec naší studie (Hendl,

2006).

Interní validita znamená stupeň průkaznosti studie z hlediska působení nezávisle

proměnných na závisle proměnné, jež sledujeme. Zabývá se tím, do jaké míry můžeme

usuzovat o příčinných vztazích mezi oběma typy proměnných (Hendl, 2006).

Např. při posuzování účinnosti intervence (např. terapie) chceme vědět, zda zlepšení výsledků

testů u pokusné skupiny jedinců skutečně způsobila intervence, a ne nějaké jiné příčiny.

Externí validita znamená, že se podobný efekt projeví i u jiné skupiny jedinců, u které

uplatníme stejnou intervenci. Obecně platí, že větší interní validitu mají dobře provedené

experimenty, avšak na rozdíl od výběrových studií založených na náhodném výběru mají

menší externí validitu (Hendl, 2006).

Při praktickém uplatňování těchto konceptů se využívá Pearsonův koeficient korelace (Hendl,

2006).

To je ovšem jen jeden z faktorů ovlivňujících interní validitu. Další možnosti uvádí Hendl

(2006, s. 69) ve vztahu k validitě závěrů experimentálních studií.

Efekty interní validity zkreslující výsledky (podle Hendl, 2006):

selekce jedinců do studovaných skupin (použití nevhodného výběru)

maturace – jedna skupina může prodělat změny ve vztahu k předmětu zkoumání

rychleji než druhá

historie – vnější vliv – zásah zvenčí, co změní podmínky 1 skupiny

mortalita – odchod některých jedinců ze skupiny

regrese k průměru – při učení

testování – opakované testy vedou k tréninku a dosahování lepších výsledků

změna procedury měření

Externí validita prověřuje, zda platí závěry i pro jiné situace a pro „realitu“ (Hendl, 2006).

Rozlišuje se populační validita a ekologická validita. Ekologická validita se zabývá tím, zda

platí závěry i pro použití jiného testu, realizace v jiném prostředí nebo např. v kratším čase na

vyplnění testu (Hendl, 2006).

Ohrožení externí validity může nastat z hlediska populační validity nebo z hlediska

ekologické validity (Hendl, 2006).

Ohrožení populační validity (Hendl, 2006):

populace v experimentu a cílová populace se liší (desetiletí školáci x všichni školáci)

interakce mezi ošetřením (programem) a osobnostní charakteristikou. Jedinci

v experimentu mohou mít zvláštní vlastnosti, které v interakci s ošetřením mohou

ovlivnit výsledek testu.

Ohrožení ekologické validity (Hendl, 2006):

definice konstruktorů

interference více ošetření

hawthornský efekt (efekt novosti, rivality, očekávání experimentátora)

senzitivita mezi pre- a posttestem

interakce mezi historií a ošetřením

interakce mezi dobou měření a ošetřením

11.1 Objektivita měření Objektivita měření znamená stupeň toho, jak jsou výsledky nezávislé na výzkumníkovi nebo

měřeném jedinci ve smyslu subjektivního úmyslného či neúmyslného zkreslení (Hendl,

2006). Při měření fyzikálních veličin v laboratoři se tento problém objevuje zřídka, ale při

hodnocení měření v sociologii nebo psychologii se musí objektivita pečlivě přezkušovat.

Objektivitu měřícího prostředku někdy hodnotíme tak, že korelujeme výsledky vyhodnocení

dvěma hodnotiteli (Hendl, 2006, s. 265). Tím dostáváme relativní míru objektivity. Dnes je

tendence používat spíše absolutní míry shody, jako je kappa koeficient.

Shrnutí:

Validitou procesu rozumíme jeho shodu s reálnou podstatou jevu. Uživatel má

z výsledků měření odvodit správná rozhodnutí. Vnitřní validita se ověřuje pomocí

dat, která byla součástí sady dat, použité pro výpočet. Vnější validita používá

nezávislá data, která nebyla použita ve výpočtu. Obsahová validita prověřuje, do

jaké míry měření skutečně reprezentuje dané vlastnosti nebo kvality. Kriteriální

validita ověřuje shodu výsledků zaváděné procedury s nějakou jinou kriteriální

proměnnou nebo s jiným měřením. Konstruktová validita se zabývá teoretickými

aspekty měřeného konstruktu. Kromě toho se rozlišuje externí a interní validita. Je

sledovat ohrožení externí validity, populační validity a ekologické validity.

Objektivitu je možné hodnotit pomocí kappa koeficientu nebo pomocí korelace

výsledků hodnocení dvou hodnotitelů.

Kontrolní otázky: 1) Co rozumíme validitou?

2) Jaký je rozdíl mezi vnitřní a vnější validitou?

3) Co je validizace?

4) Vysvětlete obsahovou validitu?

5) Co je kriteriální validita a jaké typy obsahuje?

6) Co je prediktivní kriteriální validita?

7) Co je konstruktorová validita a jaké typy obsahuje?

8) Proč je důležitá externí validita?

9) V čem spočívá ohrožení populační validity?

10) V čem spočívá ohrožení ekologické validity?

11) Co je hawthornský efekt?

12 Vizualizace neurčitosti

Cílem kapitoly je vysvětlit možnosti vizualizace neurčitosti prostorových dat nebo

vizualizace neurčitých prostorových dat.


Obecné kartografické metody vizualizace neurčitosti

Kartografické vyjadřovací prostředky a grafické proměnné pro vizualizaci

neurčitosti

Aplikační využití kartografických prostředků

Analýza a hodnocení vizualizace

Empirické studie vizualizace neurčitosti

Ke studiu kapitoly jsou potřebné znalosti základů tematické kartografie a základní

principy a rozdělení neurčitosti.


3 základních metodách používaných pro vizualizaci neurčitosti

Vlastnostech vnitřních a vnějších grafických proměnných

Způsobech hodnocení vizualizace neurčitosti

Konkrétních příkladech uplatnění

Budete umět:

Vybrat a aplikovat správnou kartografickou metodu a vhodné konkrétní

grafické prvky pro vizualizaci neurčitosti.

Navrhnout způsob hodnocení vhodnosti použitého zobrazení neurčitosti

Budete schopni:

Navrhnout a aplikovat správnou metodu, která usnadní vnímání a

interpretaci neurčitosti obsažené v prezentaci prostorového problému


Většina této kapitoly byla upravena z habilitační práce P. Kubíčka (Kubíček, 2012).

Zhang a Goodchild (2002, in Kubíček, 2012) zdůrazňují význam kartografie pro zvýšení

obecného povědomí o nejistotě. Bylo prokázáno, že vizualizace může být použita pro zlepšení

komunikace o nejistotě dat v rámci prostorových analýz a rozhodovacích procesů a napomůže

také k lepšímu pochopení modelovaného reálného světa. Nejistota může vykazovat určité

prostorové vzory a vizualizace je může odhalit a sloužit nejenom jako prostředek prezentace

prostorových dat, ale především jako nástroj explorace a vizuální analýzy.

Okasnen (2006, in Kubíček, 2012) si v souladu s názorem Heuvelinka a kol. (2006, in

Kubíček, 2012) klade otázku, jak je možné, že po 20 letech výzkumu prostorové nejistoty

není daná problematika prakticky implementována v jednotlivých GIS programových

produktech. Příčinu vidí ve 4 hlavních oblastech:

1. Chyby ve vstupních datech a použitých modelech je potřeba charakterizovat, což je

záležitost obtížná a často také finančně a časově náročná.

2. Propagace chyb je drahá a není jednoduché ji finančně zdůvodnit (zejména pro velké

tvůrce prostorových dat).

3. Komplexnost modelování chyb vyžaduje specifickou expertízu.

4. Uživatelé geografických dat a informací nemají o vyjádření nejistoty pro své analýzy

zájem, protože jejich výsledkem jsou obvykle jednoznačná vyjádření a vysvětlovat

vliv nejistoty představuje nejenom výzvu, ale zároveň komunikační a argumentační

zátěž.

12.1 Obecné kartografické metody vizualizace nejistoty

MacEachren (1992, in Kubíček, 2012) se systematicky zabýval možnostmi kartografické

vizualizace nejistoty a navrhnul 3 základní metody finální prezentace (Kubíček, 2012):

1. Srovnávací mapy (maps compared, side-by-side images) – jak pro zvolený atribut, tak

pro vyjádření jeho nejistoty jsou vytvořeny samostatné mapy. Vedle sebe jsou zobrazeny

2 mapová okna stejného rozsahu a měřítka, kde v jednom je zobrazen hlavní jev a ve druhém

jeho neurčitost. Doprovodná mapa může hodnotit vyjádření kvality stanovení dat v ploše.

Patří sem např. mapa neurčitosti vyvozené interpolací (jako je třeba krigovací rozptyl), která

doprovází vlastní mapu hodnot (obr. 70).

Obrázek 70 Odhad obsahu Zn pomocí krigování a doprovodná mapa neurčitosti způsobené interpolací (krigovací

rozptyl)

2. Kombinované mapy (maps combined, mergedóverlayed images) – jak zvolený atribut,

tak jeho neurčitost jsou znázorněny na jedné mapě (v 1 mapovém okně) za využití vhodných

grafických proměnných. Jedná se vlastně o bivariační mapy využívající kombinace dvou

proměnných (Ware, 2004, in Brus, 2013). Používá se např. vybělení míst s vysokou

neurčitostí.

Obrázek 71 Kombinovaná mapy hloubky půdy a nejistoty vizualizovaná pomocí metody vybělení – whitening (vlevo)

a odpovídající legenda (vpravo) (Kubíček, 2012, upravil podle Hengel et al.,2004).

3. Využití interaktivního exploračního nástroje, který umožní snadnou manipulaci

způsobů vizualizace jak pro atribut, tak pro jeho neurčitost. Sekvenční mapy (sequenced

images podle MacEachren 1992, 1995 in Kubíček, 2012.), kde se v případě dynamické

vizualizace lze použít sérií obrazů. V sérii se pravidelně střídají mapa jevu a mapa jeho

neurčitosti.

K dalším metodám podle Brus (2013) patří:

4. Animace: pro vizualizaci je využito standardních parametrů – počet změn, změna

polohy, průhlednost, pořadí, datum zobrazení, frekvence, synchronizace (Gerharz a Pebesma,

2009, in Brus, 2013).

5. Interaktivní reprezentace: nejistotu lze například zobrazovat pomocí interakce myši

(Van der Wel et al., 1998, in Brus, 2013)

6. Sonifikace a psycho-vizuální vizualizace: vnesení akustických proměnných pro

vizualizaci nejistoty (změna rytmu, hlasitosti, vibrací nebo pomocí blikajících textových

zpráv. Zásadní problém při využití zvuku je skutečnost, že zvuk je většinou spojen pouze

s konkrétními body, zatímco grafické metody umožňují globální pohled na danou situaci.

Obrázek 72 Interaktivní vizualizační nástroj pro posouzení nejistoty pomocí střídající se sekvence indexu rizika a

jeho nejistoty (Kubíček, 2012, upravil podle MacEachren 1992).

12.2 Kartografické vyjadřovací prostředky a grafické proměnné pro vizualizaci

nejistoty

Vyjadřovací prostředky jsou základním elementem znázorňovacích metod (Kubíček, 2012).

Koncepce vyjadřovacích prostředků vychází z teorie kartografických znaků, jejímž rozvojem

a užíváním se zabývá kartografická sémiologie. Za jejího zakladatele je považován

francouzský kartograf Bertin (1967, in Kubíček, 2012), který při studiu grafické sémiologie

dospěl k názoru, že kartografické znaky tvoří specifický grafický systém. Za základní

grafický prostředek považuje skvrnu, u které definoval šest proměnných (základních

optických vlastností – tvar, velikost, barvu, intenzitu, hustotu, orientaci) a přiřadil jim pět

charakteristik – asociaci, disasociaci, selekci, ordinalitu a proporcionalitu. Jeho návrh byl

rozšířen o návrhy MacEachrena (1994, in Kubíček, 2012) a Wilkinsona (1999, in Kubíček,

2012). Kombinací grafických proměnných a jejich charakteristik lze dosáhnout až šedesáti

devíti variant grafických prostředků, které je možné uplatnit při kartografickém vyjadřování

(Voženílek a kol 2010, in Kubíček, 2012).

Z konceptuálního hlediska MacEachren (1992, in Kubíček, 2012) upozornil na skutečnost, že

způsob vizualizace nejistoty a využité kartografické metody pro její vizualizaci jsou

proměnlivé v závislosti na účelu a funkci mapy podle DiBiaseho (1990, in Kubíček, 2012)

křivky.

Pro kombinované mapy se používají 2 skupiny grafických proměnných pro vizualizaci

nejistoty (Gershon, 1998, in Kubíček, 2012):

Vnitřní (intrinsic) grafické proměnné mění svoji hodnotu v souvislosti s měnící se

nejistotou – například sytost barvy (colour saturation). V tomto případě se jedná

o použití barev v podstatě stejným způsobem, jako u konvenčních tematických map

(Tyner 2010, in Brus, 2013). Běžné vnitřní metody při tomto postupu kombinují data a

nejistotu společně pomocí dvojrozměrné reprezentace (MacEachren et al., 2005, in

Brus, 2013).

Vnější (extrinsic) grafické proměnné znamenají, že k standardnímu kartografickému

vyjádření jsou přidány další objekty, jako jsou šipky, sloupcové grafy a další objekty

různých tvarů.

Z analýzy literatury je zřejmé, že většina volených přístupů spadá to kategorie vnitřních

grafických proměnných (Slocum et al., 2005, in Kubíček, 2012).

12.2.1 Přístupy založené na vnitřních grafických proměnných

Podle Kubíčka (2012) je třeba si položit otázku, jak jednotlivé grafické proměnné (s možnými

doplňky a modifikacemi) lze logicky provázat s různými druhy datové nejistoty. Mezi

nejdůležitější přístupy patří využití vizuálních proměnných jako barvy, velikosti, pozice,

ostrosti, jasnosti, „fuzziness“, saturace, průhlednosti a ostrosti hran. Lze také nalézt případy

využití jiných barevných modelů nebo aplikaci různých textur nebo Perlínova šumu (Conninx

et al., 2011, in Brus, 2013).

Vhodnost využití jednotlivých proměnných navrhnul a utřídil MacEachren (1992, in Kubíček,

2012) a zároveň upozornil na možná úskalí při nesprávném použití grafické proměnné. Hlavní

rozdíl tkví zejména v logické asociaci vhodných grafických proměnných s odpovídající

kvantitativním a kvalitativním typem vizualizovaných datových proměnných. Velikost

a odstín jsou nejvhodnější pro vizualizaci nejistoty kvantitativních proměnných. Na druhé

straně barva, tvar a částečně orientace je využitelná pro nejistotu v kvalitativních

proměnných. Textura, navzdory tomu, že ji lze kvantifikovat, je nejvhodnější pro binární

klasifikaci „jistý“ x „nejistý“, jíž lze použít pro ve zvláštních případech pro oba typy dat

(Kubíček, 2012).

Obrázek 73 Přehled základních grafických proměnných podle Bertiny doplněných o návrhy MacEachrena (1994) a

Wilkinsona (1999). (Kubíček, 2012, upravil podle Kunz, 2011).

Vysvětlivky: color hue – barevný odstín, color value – intenzita, color saturation – nasycení, shape – tvar, size –

velikost, orientation – orientace, texture – textura, transparency – průhlednost, clarity - zřetelnost

Ačkoliv měla Bertinova typologie obrovský vliv na kartografické myšlení, nelze ji přijímat

jako dogma (Kubíček, 2012). Bertinovy závěry o vhodnosti či nevhodnosti grafických

proměnných pro konstrukce mapy jsou zde prezentovány jako fakt. Řada autorů se přitom

shoduje, že se jedná o konceptuální teorii, jak by mapy a grafické znaky měly být vytvářeny,

avšak ta je podepřena pouze omezenými empirickými zkušenostmi a prakticky žádnými testy.

Mezi hlavní kritické připomínky také patří fakt, že typologie není kompletní a objevila se řada

možných rozšíření. Mezi hlavními lze uvést (Kubíček, 2012):

Morrison (1974) – přidává uspořádání prvků (arrangement) a třetí potenciální rozměr

barvy – nasycení (saturation).

Caivano (1990) – rozšířil pojem textura o další rozměry, kdy rozlišuje v rámci textury

samotné také směr (směrování), velikost vzorku a jeho hustotu. Dokumentuje tak

složitost celého konceptu a také vztah mezi základními proměnnými a složenými,

k nimž patří právě textura.

MacEachren (2004) navrhuje použití termínu vzor (pattern) pro vizuální proměnnou

vyšší úrovně, která představuje jednotku s určitým tvarem, velikostí, orientací,

texturou (v Bertinově smyslu) a uspořádáním.

MacEachren (1992) doporučoval zejména sytost barvy (saturation) jako ideální pro

vyjádření míry nejistoty, a to zejména jako „syté barvy pro velmi jistou informaci

a méně syté pro nejistou informaci“. MacEachren (1992 navrhnul dokonce další

grafickou proměnnou s názvem zaostření (focus), kterou lze dělit na 3 další grafické

proměnné – ostrost hranic (contour crispness), rozlišení (resolution) a průhlednost (fog

transparency).

Obrázek 74 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty (Kubíček, 2012, podle MacEachrena

1992).

Obrázek 75 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty - rozlišení (Kubíček, 2012, podle

MacEachrena 1992).

Obrázek 76 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty - průhlednost (Kubíček, 2012, podle

MacEachrena 1992).

Při zkoumání jednotlivých znaků a jejich vizualizace hovoří MacEachren (2004, in Kubíček,

2012) zejména o barevném nasycení a zaostření (clarity), jako o vhodných kandidátech pro

vizualizaci nejistoty.

Proměnnou zaostření lze dělit na 3 další grafické proměnné (Kubíček, 2012) – ostrost hranic

(contour crispness), rozlišení (resolution) a průhlednost (fog transparency). Ostrost má vztah

ke způsobu vymezení hranic datového prvku – zatímco ostré hranice vymezují jistá data,

neostré přechody signalizují nejistá data. Rozlišení se vztahuje k úrovni detailu prostorových

dat s daným atributem – s úrovní nejistoty klesá prostorové rozlišení (velikost gridu) rastrové

databáze. Průhlednost znamená, jak snadno jsou daná data viditelná přes vrstvu „mlhy“

umístěné jako krycí vrstva. Čím je vyšší nejistota, tím je krycí vrstva hustší a méně průhledná.

Zatímco první dvě subkategorie jsou vhodné k reprezentaci primární informace

o znázorněných jevech, je průhlednost, respektive využití „mlhy“, vhodná k propojení na

metadata – tedy data o mírách kvality a s ní související nejistoty datové sady. Může být

například použita k omezení přístupu (rozuměj vizuálního využití při čtení mapy) k více

nejistým datům (Kubíček, 2012).

V tabulce 13 jsou dokumentovány rozšíření grafických proměnných podle MacEachrena pro

výběr a zhodnocení vhodnosti grafické proměnné ve vztahu k mapovaným jevům a jejich

podstatě (Kubíček, 2012).

Tradiční tištěné mapy mají pouze omezené možnosti, jak informovat uživatele o měřítcích

jejich pravdivosti. MacEachren předpokládá, že užití barevného nasycení, stejně jako

zaostření, budou komplikovat celkovou čitelnost mapy a poukazuje na nutnost využití

dynamických mapových výstupů (Kubíček, 2012).

Schweizer a Goodchild (1992, in Kubíček, 2012) doporučují pro mapování jevu využít

barevné škály (value) zatímco pro kategorie nejistoty využít sytost barvy. Autoři při testování

komplexní škály 15 kategorií hodnot jevu a 15 kategorií nejistoty prokázali, že uvedený

přístup je příliš komplexní pro intuitivní čtení mapy bez užití legendy. MacEachren (2004, in

Kubíček, 2012) doporučuje maximálně 3 kategorie pro úrovně obou proměnných pro

efektivní čtení, případně využití dynamického prostředí s možností změny úrovně zobrazené

nejistoty pomocí interaktivní legendy.

Tabulka 13 Přehled statických vizuálních proměnných a jejich vhodnost pro reprezentaci různých typů geografických

dat (upraveno podle MacEachren 2004, in Kubíček, 2012).

Poměrové (ratio) Pořadové (ordinální) Výčtové (nominální)

Pozice vhodné vhodné Vhodné

Velikost vhodné vhodné vhodné

Jas barvy málo vhodné vhodné nevhodné

Sytost barvy málo vhodné vhodné nevhodné

Barevný odstín málo vhodné málo vhodné vhodné

Ostrost nevhodné vhodné nevhodné

Rozlišení nevhodné vhodné nevhodné

Průhlednost nevhodné vhodné málo vhodné

Textura málo vhodné málo vhodné vhodné

Orientace málo vhodné málo vhodné vhodné

Uspořádání nevhodné nevhodné málo vhodné

tvar nevhodné nevhodné vhodné

Davis a Keller (1997, in Kubíček, 2012) doporučili barevný odstín, barvu a texturu jako

nejvhodnější kandidáty pro vyjádření nejisté informace při použití statických metod. Jiang

a kol. (1995, in Kubíček, 2012) a následně Hengel (2003, in Kubíček, 2012) pracovali

s pojmem světlost (lightness) a doporučili pro vyjádření nejistoty právě intenzitu zesvětlení.

Metodu nazvali „vybělení“ (whitening).

Dalšího vývoje se dočkala také vizualizace pomocí průhlednosti (transparency) (Kubíček,

2012). Původní návrh od MacEachrena předpokládal, že průhledné popředí sdělí uživateli

mapy, že danou oblast lze považovat za jistou, zatímco „zatažené“ popředí, ve kterém je

obtížné vidět data reprezentovaná na pozadí, bude indikovat nejistou informaci. Drecki (2002,

in Kubíček, 2012) používá termín neprůhlednost (opacity), kdy pro klasifikace družicových

snímků doporučil používat neprůhledné objekty za jisté. Uvedená alternativa může být

vhodná ve spojení s izolovanými znaky. V případě bodového symbolu můžeme tak vysoce

průhledný objekt považovat za nejistý, zatímco neprůhledný objekt za jistý. V tomto případě

vysoká průhlednost ponechává skutečnou podstatu objektu na představě uživatele mapy. Oba

případy jsou dokumentovány na obrázku 58. Zatímco pro první (průhlednost) lze považovat

za jistý spodní symbol ve sloupci c), tak pro druhou metodu (neprůhlednost) je jistý horní

symbol, který dává vnitřnímu kruhu jasnou podobu (Kubíček, 2012).

12.2.2 Přístupy založené na vnějších grafických proměnných

Pro vnější grafické proměnné je klíčovou prací publikace PANG (2001, in Kubíček, 2012),

který popisuje využití glyfů (glyph) v podobě složených bodových symbolů pro vyjádření

nejistoty. Glyfy jsou grafické objekty, které pomocí více grafických proměnných (velikost,

barva, tvar, směr…) mohou vyjadřovat současně více aspektů dat včetně jejich nejistoty.

Autor navrhoval užití glyfů s ohledem na možnost vyjádření více druhů nejistoty současně,

ale také upozornil na jejich vizuální komplikovanost. Problém většiny technik založených na

glyfech je, že vnímání velikosti glyfů uživatelem může být také ovlivněno okolní scénou,

která může vytvářet iluzi změny velikosti (Sterzer, Rees, 2006, in Brus 2013).

Drecki (2002, in Kubíček, 2012) zkoumal metody vyjádření nejistoty pro klasifikované

družicové snímky a navrhnul pět odlišným metod pro vyjádření výsledků a jejich nejistoty.

Zajímavá je metoda nazývaná „čtverce“ (squares), při níž je pomocí velikosti čtvercového

glyfu v mřížce reprezentována nejistota klasifikace, zatímco hodnota klasifikace je vyjádřena

barvou na pozadí). Na základě testů byla tato metoda vyhodnocena jako nejvíce efektivní

a překonala výsledky metody neprůhlednosti, či barevného nasycení. Zajímavý je fakt, že

objektivní výsledky nejsou zcela v souladu se subjektivním hodnocením uživatelů, kteří sice

považovali metodu čtverců za „dobrou“, ale měli také silné preference pro vyjádření pomocí

barevné sytosti. Právě vizualizace pomocí sytosti barvy skončila v objektivním hodnocení na

posledním místě a vykázala nejhorší výsledky (Kubíček, 2012).

Obrázek 77 Bodové znaky znázorňující nejistotu pomocí (a) sytost barvy, (b) ostrost hranic, (c) průhlednost (Kubíček,

2012, upravil podle Drecki, 2002).

Drecki (2009, in Kubíček, 2012) se ve své rozsáhlé studii o kartografických metodách

vizualizace a současných výzvách v oblasti vizualizace nejistoty vrátil také k tradičním

metodám vyjadřování kvality dat a s nimi související nejistoty. Zmiňuje zejména diagramy

spolehlivosti, popisy znaků a využití specifických znaků pro vyjádření nejistoty. Diagramy

spolehlivosti (obr. 59) byly obvykle umístěny jako mimorámový údaj a obsahovaly informace

o období sběru data a původního mapování, použitých postupech, podkladových datech

a případně o procesu revize mapy, či rozdílných zdrojích využitých k tvorbě mapy samotné

(Kubíček, 2012).

Diagramy spolehlivosti mohou vyjadřovat různé typy nejistoty geografických dat a obvykle

souvisí pouze s polohovou nejistotou. McGranaghan (1993, in Kubíček, 2012) dokumentoval

příklad komplexních diagramů spolehlivosti, na nichž byla uvedena také historie mapy

(lineage) a tematická nejistota (Kubíček, 2012).

Diagram spolehlivosti ukazuje dělení celého sledovaného území do dílčích celků, které se liší

některými prvky kvality dat. Např. mapový list obsahuje území s různými zdroji dat, s různým

autorským kolektivem apod.

Obrázek 78 Diagram spolehlivosti ukazující zdrojová data a datum jejich vzniku (stáří). (Kubíček, 2012, upravil

podle Drecki,2009).

Nejistota spojená s jednotlivými prvky mapy v podobě bodů, linií a ploch může být také

vyjádřena pomocí popisu, a to jak na úrovni polohové nejistoty, tak případně i pro nejistotu

tematickou (Kubíček, 2012).

Obrázek 79 Vizualizace nejistých geologických hranic a zlomových linií. (Kubíček, 2012, upravil podle Drecki, 2009).

V případě vizualizace neurčitého (nejistého) jevu areálového typu chápe Voženílek a kol

(2010, in Kubíček, 2012) jeho zákres jako přibližný a neurčitý, přičemž obrysem lze naznačit

míru přibližnosti či neurčitosti, např. čárkovanou nebo tečkovanou linií. Pro obrys areálu

samotného – tedy jeho hranici – pak doporučují hierarchická pravidla, která souvisí s mírou

nejistoty areálu. Míra neurčitosti výskytu jevu v areálu se vyjadřuje strukturou obrysové linie,

a to následovně (Kubíček, 2012):

plná linie vyjadřuje nejvyšší jistotu výskytu jevu a určuje rozsah území definovaný

podle přesného výskytu, např. průběh hranice katastrálního území

čárkovaná linie vyjadřuje přibližný výskyt jevu, nebo slouží k vymezení území, které

nelze s velkou jistotou přesně určit, např. oblast černozemě, rozšíření rostlinného

druhu, bramborářská oblast, jezero s nestálým břehem aj.

tečkovaná linie vymezuje areál s nejistým či velmi přibližným až neurčitým výskytem

jevu, např. předpokládaný dosah pevninského ledovce, nejzazší hranice plujícího ledu,

rozšíření živočišného druhu aj.

Ukázka aplikace různě jistých hranic a areálů je na obr. 61.

Pro případné varianty bodových či liniových znaků nejsou uvedena žádná explicitní

doporučení (Kubíček, 2012).

Obrázek 80 Dnešní rozšíření a hlavní sedimentační prostory žacléřského souvrství (Tásler et al.)

Vysvětlivky:

1 .. hranice dnešního rozšíření žacléřského souvrství: a – zjištěná, b – předpokládaná;

2 .. tektonická hranice: a – zjištěná, b – předpokládaná;

3 .. hlavní sedimentační deprese lampertických vrstev (předpokládaná)

4... optimální uhlonosnost lampertických vrstev: a – zjištěná, b – předpokládaná;

5..elevace v době ukládání dolsko-žďáreckých vrstev: a – zjištěné, b – předpokládané;

6.. předpokládaný hlavní sedimentační prostor petrovických vrstev v české části pánve

7.. zjištěná maximální mocnost petrovických vrstev

8..zjištěné směry přínosu – lampertické vrstvy

9..zjištěné směry přínosu – petrovické vrstvy

10..státní hranice

12.3 Aplikační využití základních metod vizualizace nejistoty

V oblasti přírodních hazardů jsou podle Kunz (2011, in Kubíček, 2012) nejčastěji

využívaným přístupem srovnávací mapy, kterým říká „bivariate representations“, ve kterých

jsou na jedné mapě znázorněny tematická mapa odpovídajícího přírodního hazardu a na druhé

s nimi spojená nejistota (Trau a Hurni, 2007, in Kubíček, 2012). Vizuální proměnné

a vizualizační techniky vhodné pro vyjádření nejistoty v přírodních hazardech jsou vyjádřeny

v tabulce 14.

Tabulka 14 Grafické proměnné a vizualizační techniky vhodné pro vyjádření nejistoty při hodnocení přírodních

hazardů podle Trau a Hurni (2007, in Kubíček, 2012)) a Pang (2008 in Kubíček, 2012).

Kunz (2011, in Kubíček, 2012) aplikovala vybrané metody vizualizace nejistoty na konkrétní

data lavinového nebezpečí v oblasti Stampach (Švýcarsko) s cílem konkrétně posoudit

vhodnost jejich využití. Rozlišuje přitom základní přístupy odpovídající kombinovaným

a srovnávacím mapám a v rámci kombinovaných map dále používá jak vnitřní (intrinsic), tak

vnější (extrinsic) vyjadřovací prostředky. Její komentáře k užití vnitřních grafických

proměnných pro vizualizaci nejistoty jsou v tab. 15.

Tabulka 15 Komentáře k užití vnitřních grafických proměnných pro vizualizaci nejistoty (Kubíček, 2012, upravil

podle Kunz, 2011).

Grafické proměnné Komentáře

Barva Zatímco jev je mapován v jedné barvě, pro vyjádření nejistoty je

použito jiné. Vzniká tak kombinace dvou barevných schémat

(škál). Je vhodné pro 2D a 3D mapy.

Vhodné pro vyjádření kvalitativních dat.

Sytost Vyšší nejistota je zvýrazněna vyšší sytostí. Alternativně je možný

i opačný přístup.

Vhodné pro vyjádření kvantitativních dat.

Vizualizační techniky

Šipky, glyfy, sloupce a další

izolinie

Rozlišení, šum

Alternativní pokrytí základní mřížky (gridu)

3D

stínování

Ozdobné prvky (např. měnící se jas nebo přerušení

izolinií)

osvícení

Rozdělení na řezy

Animace (blikání, pohyb, zvětšování, posun)

Grafické proměnné

barva

jas

sytost

průhlednost

textura/vzor

rozostření

Jas Nejistota je zdůrazněna tmavším odstínem (jako tmavší oblast

přitahuje pozornost uživatelů). Je vhodné užít, pokud vysoká

nejistota je důležitá. Alternativní řešení přitáhne pozornost naopak

k jistým oblastem.

Vhodné pro vyjádření kvantitativních dat.

Průhlednost Data s malou nejistotou jsou zvýrazněna.

Vhodné pouze pro 2D mapy

Textura Pro data s velkou variabilitou může být problém příliš velké krytí

podkladu.

Rozostření

(nejasnost)

Velmi intuitivní a široce používané.

Nevhodné pro datové sady obsahující malé plochy a data s

vysokou variabilitou.

Přístupy zahrnující vnitřní proměnné mají společnou nevýhodu, a to že malé změny nejistoty

je obtížné identifikovat, zejména pokud se jedná o datové sady s velkou proměnlivostí

(Kubíček, 2012).

Pro vnější proměnné využila Kunz (2011, in Kubíček, 2012) tři odlišné přístupy – velikost

bodu, hustotu bodů a vyjádření pomocí izolinií (obr.81 a-c).

Obrázek 81 Vizualizace nejistoty lavinového nebezpečí, která využívá pro intenzitu tlaku na podloží odstíny modře a

pro vyjádření nejistoty velikost znaku (a), hustotu bodů (b) a izolinie (c) (Kubíček, 2012, upravil podle Kunz, 2011).

Zatímco vizualizace nejistoty pomocí vnitřních proměnných je realizována pomocí variace

jedné grafické proměnné, vizuální techniky pro vnější proměnné zahrnují kombinace více

proměnných. V tabulce 16 je uveden přehled vizualizačních technik a komentovány hlavní

výhody a nevýhody.

Návaznost vizualizací vytvořených Kunz (2011, in Kubíček, 2012) na teoretické koncepce

vizualizace (kombinované mapy a využití konkrétního typu vnitřních a vnějších grafických

proměnných) je zde uváděna záměrně.

Tabulka 16 Komentáře k metodám vizualizace za využití vnější grafické proměnné (Kubíček, 2012, upravil podle

Kunz, 2011).

Vizualizační techniky Komentář

Šipky, glyfy, sloupce a další Vhodné pro 2D a 3D mapy

Nevhodné pro data s velkou proměnlivostí.

Může dojít k nadměrnému krytí podkladu.

Izolinie Nevhodné pro data s velkou proměnlivostí

(krytí).

Kvantitativní analýza je problematická.

Mohou být zaměněny s vrstevnicemi a přiřazeny

k hodnotám nadmořské výšky.

Rozlišení, šum Data s vysokou mírou nejistoty mohou vytvářet

matoucí a nečitelné mapy.

Alternativní pokrytí základní mřížky

(gridu)

Vhodné pro 2D a 3D.

Nebezpečí nadměrného krytí podkladu.

3D Může dojít k překrytu.

Ve 3D zobrazení může být problematické

vyjádření výšky (například při umístění sloupců

vyjadřujících nejistotu na 3D terénní model).

Stínování Může dojít k překrytu.

Ozdobné prvky (např. měnící se jas

nebo přerušení izoliní)

Nevhodné pro datové sady obsahující malé

plochy a data s velkou variabilitou.

Osvícení Může způsobit matoucí obraz a ztížit

interpretaci.

Rozdělení na řezy Nejistota je vyjádřena pouze relativně

k určitému prahu (větší než/menší než).

Animace (blikání, pohyb, zvětšování,

posun)

Efektivní pro velké datové sady.

Vhodné pro spojitě se měnící data; netříděná

data mohou vytvářet chaotické vzory.

Blikání – přitahuje pozornost, může však být

únavné a dokonce rušivé. Je vhodné jej využít

pouze občasně a po časové omezenou dobu

(například pro upozornění na určitou úroveň

nejistoty).

12.4 Návrh taxonomie vizualizace nejistoty

Podle Kubíčka (2012) se na Bertinova odkazuje ve své práci také Buttenfield (2000, in

Kubíček, 2012), která se zabývala specifiky mapování ekologické nejistoty (mapping

ecological uncertainty) a navrhla taxonomii pro řízení vizualizace nejistoty v ekologických

datech. Systém základních znakových (grafických) proměnných, který byl původně vytvořený

Bertinem, je v návrhu prezentováno pouze 6 typy proměnných (tvar, barva, orientace, odstín,

textura a velikost) v kombinaci s možným vyjádřením pro body, linie a plochy (obr. 63).

Bertinův druhý argument, že existuje hierarchie vizuálních rozdílů, byl potvrzen řadou

empirických studií (viz MacEachren, 1995, in Kubíček, 2012). Vizuálně slabé jsou symboly

v horní části obr. 63. Většina uživatelů není schopna rozlišit symboly s měnícím se tvarem

a orientací.

Barva (včetně sytosti) společně s texturou představují silnější grafické proměnné a poskytuje

nominální i kategorické vizuální odlišení. Tyto proměnné nejsou obecně spojovány s rozdíly

ve velikosti. Nárůst a datové sekvence je nejlépe ilustrovat pomocí nejsilnějších grafických

proměnných – odstín (tmavost) a velikost. Využití sekvence světlý tmavý a postupně se

zvětšující znaky (graduated symbols) bylo potvrzeno empirickými studiemi (viz MacEachern

1995, in Kubíček, 2012).

Obrázek 82 Bertinův systém vizuálních proměnných modifikovaný podle Buttenfield (2000) (Kubíček, 2012)

Navržená taxonomie je modifikací práce Buttenfield a Weibel (1988, in Kubíček, 2012)

a používá kombinaci kartografických vyjádření nejistoty a statistických datových typů. Buňky

tabulky obsahují návrh grafické syntaxe pro mapování nejistoty ve všech možných

kombinacích. Jednotlivé vizualizační techniky jsou popsány a dokumentovány v tabulce 17

společně se způsobem ekologického mapování nejistoty. Buňky psané kurzívou představují

problematické oblasti, v nichž není metrika nejistoty smysluplně definována, nebo kde se

grafická syntaxe rozpadá.

Tabulka 17 Taxonomie pro mapování ekologické nejistoty (Kubíček, 2012, upravil podle Buttenfield a Weibel 1988 a

Buttenfield 2001).

Typ dat/typ

nejistoty

Polohová nejistota Tematická nejistota Aktuálnost

(currentness)

Diskrétní Velikost

tvar

Textura

Barevné nasycení

Barevné

(ne)nasycení

Barevné vyblednutí

Kategorické

(celoplošné)

Textura

Barevné nasycení

Barevné míchání Texturní kryt

Kategorické

(částečné)

Nemá smysl textura Textová informace

(mimorámové údaje)

Souvislé Není rozdíl mezi

polohovou a

tematickou nejistotou

Není jasný rozdíl

Barevné nasycení

Bodové gradienty

Barevné nasycení

Plošné gradienty

Davis a Kelner (1997, in Kubíček, 2012) pracovali s Bertinovou teorií a navrhli sadu

nejvhodnějších proměnných pro vizualizaci nejistoty složenou z odstínu, barvy a textury (hue,

value, and texture). Stejně jako většina ostatních se však jedná pouze o jednorozměrnou

klasifikaci, která bere do úvahy pouze vizuální vlastnosti pro samotné vyjádření nejistoty

(Kubíček, 2012).

Aipperspach (2006, in Kubíček, 2012) navrhnul obecný systém pro vizualizaci nejistoty

založený na Bertinově přístupu, který zohledňoval kódování jak proměnných, jejichž nejistotu

vyjadřujeme, tak proměnných, které pomáhají nejistotu vyjádřit (…“the encoding both of

variables about which there is uncertainty and of variables that represent uncertainty“).

Systém napomáhá klasifikovat existující vizualizace a vytvářet nové. Pro klasifikaci

vizualizace nejistoty využívá celkem 7 grafických proměnných – 6 základních a umístění –

podotýká však, že systém lze rozšířit (Kubíček, 2012).

Základem přístupu je vizualizační prostor definovaný základními parametry – tedy

proměnnými, jejichž nejistotu vyjadřujeme a proměnnými, které jsou pro vyjádření použity

(Kubíček, 2012). Prostor dovoluje, aby kterákoliv z obou typů proměnných byl znázorněn

libovolným typem ze 7 výše jmenovaných proměnných. Vzniká tak potenciální matice

proměnných o rozměrech 7x7 (obr. 83) s příklady experimentálních vizualizací a jejich

zařazení do klasifikační matice. Matice ukazuje, že takto vymezený prostor není stejnoměrně

zaplněn, ale jsou oblasti, které jsou pro vizualizaci nejistoty používány častěji (první řádek

matice využívající pozici - umístění) a naproti tomu jsou oblasti využívané pouze výjimečně

(řádky 6 a 7 využívající k vizualizaci texturu, respektive orientaci) (Kubíček, 2012).

Obrázek 83 Příklady experimentálních vizualizací a jejich zařazení do klasifikační matice (Kubíček, 2012, upravil

podle Aipperspach, 2006).

Vysvětlivky: variable whose value is uncertain – proměnná jejíž hodnota je neurčitá, variable encoding

uncertainty – proměnná kódující neurčitost, position - pozice, color . barva, shape – tvar, size – velikost, value –

hodnota, texture – textura, orientation - orientace

Příkladem užití navrhovaného systému je obr. 65, kde proměnná „využití země“ (v tomto

případě les) je zobrazena pomocí tvaru (strom) a pravděpodobnost jejího výskytu (nejistota) je

zobrazena pomocí 5 různých metod (výchozí je rozostření obrazu – blurring) (Kubíček,

2012).

Navrhovaný vizualizační prostor má svá omezení. Jak uvádí autor, jedním z problémů je

například oddělená vizualizace proměnných na dvou mapách. Z pohledu původní klasifikace

vizualizace nejistoty (MacEachren 1992, in Kubíček, 2012) se vlastně jedná o rozšířenou

modifikaci kombinovaných map (maps combined) s využitím původních rozšíření grafických

proměnných například o rozostření (Kubíček, 2012).

Thomson a kol. (2005, in Kubíček, 2012) navrhují typologii pro geografická data, respektive

pro vizualizaci jejich nejistoty, která by měla poskytnout uživatelům přehled o vizuálních

i výpočetních reprezentacích odlišných typu nejistoty. Přichází také s názorem, že určité

reprezentační techniky, jak výpočetní, tak vizuální, by měly fungovat obzvláště efektně pro

reprezentaci specifického typu nejistoty. Typologie může sloužit pro výběr vhodné vizuální

strategie, a to jak pro samotnou informaci, tak s ní spojenou nejistotu (Kubíček, 2012).

Tvůrci typologie považují za významné dva hlavní rozdíly oproti předchozím iniciativám

v typologii nejistoty (Kubíček, 2012):

1. Typologie se zaměřuje na konkrétní úkol, aby byl analytik schopen se zaměřit na

konkrétní typ nejistoty, se kterým musí pracovat.

2. Jedná se o obecnou typologii, kterou je potřeba přizpůsobit konkrétním podmínkám

(úloze), aby bylo možné definovat konkrétní typy vizualizace.

Obrázek 84 Ukázka využití vizualizačního prostoru - původní vizualizace využívající umístění znaku a jeho rozostření

(pro nejistotu) lze modifikovat pomocí proměnných umístění (a), odstín (b), směr (c), velikost (c) (Kubíček, 2012,

upravil podle Aipperspach, 2006).

Drecki a Maciejewska (2005, in Kubíček, 2012) využili tuto topologii a pokusili se

o praktický přístup k vizualizaci nejistoty pomocí propojení typologie vizualizace nejistoty

s kategoriemi jakosti (kvality dat) na příkladu map velkých měřítek. Autoři se snaží prakticky

přiřadit ke všem výše uvedeným kategoriím odpovídající způsob vizualizace. Jako základ

experimentu sloužila vybraná oblast mapovaná v měřítku 1:10000. Vzhledem k tomu, že

vizualizace nejistoty byla primárně určena novým uživatelům z prostředí veřejné správy, bylo

rozhodnuto použít snadno pochopitelnou, kompaktní a relevantní vizualizaci. Ze stejného

důvodu se autoři rozhodli použít srovnávací mapy, kdy mapy nejistoty jsou doplňkové

k základním mapám jevu, které zůstávají v původní podobě. Pro vizualizaci nejistoty byla

zvolena pěti stupňová kvalitativní škála používající modifikovanou barevnou škálu

dopravního semaforu (obr. 85) (Kubíček, 2012).

Obrázek 85 Ukázka kvalitativní škály pro vyjádření jednotlivých prvků kvality datových sad (Kubíček, 2012)

Škála pak nabývá hodnot od zelené pro velmi dobrou kvalitu dat, přes žluto-zelenou pro

dobrou kvalitu, žlutou pro průměrnou kvalitu, oranžovou pro špatnou kvalitu a konečně

červenou pro velmi špatnou kvalitu. Uvedená klasifikace včetně odpovídajícího popisu

klasifikace je potom přiřazena všem kategoriím kvality na úrovni jednotlivých mapových

listů. Vizuálně dostupná informace tak vlastně odpovídá metadatovému popisu kvality na

úrovni mapových listů, či datových souborů které jsou k dispozici pro jednotlivé mapové listy

(Kubíček, 2012).

Obrázek 86 Ukázka vizualizace nejistoty metadat pro jednotlivé ukazatele kvality na úrovni mapových listů (Kubíček,

2012, upravil podle Drecki a Maciejewska, 2005).

Jako nadstavbu nad jednotlivými kategoriemi kvality navrhují autoři globální vizuální

indikátor nejistoty (global visual uncertainity indicator – G-VisUl), který uživatele informuje

o celkové úrovni nejistoty dané datové sady a upozorňuje je na možné problematické oblasti

(hot spots).

Obrázek 87 Příklady vizualizace celkové nejistoty pomocí globální vizuální indikátor nejistoty (G-VisUl). Vlevo

konzervativní přístup, vpravo liberální přístup (Kubíček, 2012, upravil podle Drecki a Maciejewska, 2005).

Konzervativní přístup určení G-VisUl bere za základ indikátoru tu kategorii kvality, která má

nejnižší kategorii (tedy největší nejistotu) (obr. 87 vlevo). Více liberální přístup volí jako

kategorii kvality průměrnou hodnotu všech kategorií, kterým je přiřazena stejná váha (obr. 87

vpravo). V případě specifických nároků na vybrané kategorie kvality s ohledem na užití dat

lze odpovídajícím kategoriím přiřadit odpovídající váhu a výslednou vizualizaci upravit

(Kubíček, 2012).

Zvolený přístup je důležitý zejména svou relativní jednoduchostí, rychlou pochopitelností

a tím pádem využitelností i pro nové uživatele a dále návazností na existující kategorie kvality

(Kubíček, 2012).

Přes existující omezení se jeví jako potenciálně přínosný s ohledem na zavádění

metadatových popisů kvality v souvislosti se směrnicí INSPIRE (Kubíček, 2012).

12.4.1 Vizualizace nejistoty v přírodních hazardech

Podle Kubíčka (2012) je oblast vizualizace nejistoty v přírodních hazardech případem

aplikační oblasti, která se zaměřuje pouze na efektivitu vizualizace samotné, za předpokladu,

že samotné zavedení a šíření nejistoty je již vyřešeno. Klíčovou oblastí je následná

komunikace s koncovým uživatelem (rozhodovatelem), který musí dostat „správné informace

ve srozumitelné formě (čitelnost mapových výstupů) na správném místě a ve správný čas“.

Pang (2008, in Kubíček, 2012) zdůrazňuje nutnost nejenom percepčního pohledu na

vizualizovaná data, ale také kognitivních aspektů ve smyslu toho, jak uživatelé rozumí

vizualizaci a jak vizualizace ovlivňuje jejich rozhodování a činnosti. Poukazuje na úzkou

vazbu na výzkumy v oblasti kognitivní psychologie, od níž se kartografická, respektive

obecně vizualizační komunita může učit správné a špatné způsoby prezentace informací.

Rozhodovatelé jsou především schopni zpracovat pouze omezený počet grafických

proměnných, a to zejména tehdy, pokud jsou pod časovým tlakem. Je proto nezbytné, aby

vizualizace byly zachovány v co nejjednodušší podobě a obsahovaly pouze kritické informace

nutné pro proces rozhodování. Selektivní předzpracování grafické informace může snížit

kognitivní nápor tím, že umožní uživateli se soustředit důležité aspekty dat (=důležité pro

danou úlohu). Způsob, jakým jsou informace prezentovány, může ovlivnit výsledné

rozhodnutí (Kubíček, 2012).

V oblasti krizového managementu (řízení) je řada osob vstupujících do celého cyklu řízení

v různých okamžicích což má za důsledek, že se výrazně liší typ informací a forma jejich

prezentace, kterou potřebují pro své rozhodování. Způsob „jedna velikost stačí pro všechny“

není zjevně v takovém případě správným řešením. Jako alternativa se nabízí identifikovat

(Kubíček, 2012):

třídy uživatelů,

typy úkolů,

typy a komplexnost dat (datové typy, rozměry dat, typy dat – ordinální, kardinální,

kategorické…)

a pokusit se vytvořit rámec, který odpovídá jedné nebo více vizualizačním metodám a je

nejefektivnější z hlediska „best practices“. Koncepce, kterou PANG (2001, 2008, in Kubíček,

2012) naznačuje, odpovídá zásadám kontextové kartografické vizualizace.

12.5 Analýza a hodnocení vizualizace

Následující část textu se zabývá využitím teorie kognice pro analýzu vizualizace nejistoty.

Poskytuje základní rámec pro analýzu vizualizačních metod a následně také pohled na silné

a slabé stránky odlišných aspektů vizualizace.

12.5.1 Kognitivní aspekty vizualizace nejistoty a vizualizace reprezentace nejistoty

Zuk (2008, in Kubíček, 2012) analyzuje odlišné teoretické přístupy k percepci na základě

prací Bertin (1973, in Kubíček, 2012), Tufte (2001, in Kubíček, 2012) a Ware (2004, in

Kubíček, 2012), které jsou nejčastěji citovány v odlišných vědeckých komunitách

a představují dobrý výchozí bod pro následující srovnání metod vizualizace nejistoty. Každý

z uvedeného tria vědců (Bertin, Tufte, Ware) založil své teoretické přístupy na rozsáhlé sadě

principů, avšak pro další srovnání byly vybrány pouze principy se vztahem k percepci

(Kubíček, 2012).

Asociativní grafické proměnné – jak jsou definovány Bertinem – hrají důležitou roli při

vizualizaci nejistoty (Kubíček, 2012). Jak uvádí Ware (2004, in Kubíček, 2012) jedná se

zejména o charakteristiku oddělených (separable) a integrovaných grafických proměnných

s ohledem na to, zda uživatel potřebuje brát do úvahy data a nejistoty samostatně (pro

separované proměnné), nebo je musí uvažovat v jednotném kontextu (pro integrální

proměnné). Mac Eachren a kol. (1998, in Kubíček, 2012) uvádí, že společné (integrální)

kódování dat a nejistoty mělo negativní vliv na výkon testovaných osob při odhalování shluků

v datech (Kubíček, 2012).

Podle Kubíčka (2012) se s příchodem digitálního zobrazení ocitají původní Bertinovy

grafického proměnné v odlišném prostředí. Zuk (2008, in Kubíček, 2012) navrhuje pro

digitální prostředí nahradit stránkou a srovnávat ji v případě digitálního prostředí s rozsahem

označeným jako „obrazovka“. První rozdíl je v rozsahu informací – současný plošný rozsah

obrazovky (i přes značný rozvoj právě v této oblasti) je menší, než původní rozsah stránky,

takže je potřeba počítat s omezenou možností prezentací původní informace. V samotném

důsledku to znamená, že pro percepci stejného množství informací na obrazovce musí oko

vykonat více pohybů, aby pokrylo větší oblast. Velké tištěné mapy obsahují více informací,

než většina velkých elektronických displejů, které vyžadují pro zobrazení stejné informace

například interakci s uživatelem v podobě posunu stránky (scrolling). Také další Bertinovy

proměnné jsou podobně ovlivněny výše uvedenou redukcí jejich rozsahu (velikosti).

Zvláštním případem je barva (value) – obrazovky prozatím nedosahují ani rozsahu, ani

rozlišení původní tištěné stránky. Leitner a Buttenfield (2000, in Kubíček, 2012) navíc

upozornili na fakt, že světlé a tmavé odstíny barev se mohou chovat odlišně v digitálním

a analogovém prostředí díky odlišnému způsobu vytváření barev (odrazivost x vyzařování).

Hlavním přínosem (změnou) digitálního prostředí je vznik nových vizuálních proměnných,

jak uvádí MacEachren (1995, in Kubíček, 2012) a Ware (2004, in Kubíček, 2012).

V analogovém prostředí není možné například uvažovat o tak silných proměnných, jakými

jsou pohyb a blikání. Naopak některé nově uvedené (rozostření – blur, stín), které původně

Bertin neuvažoval, lze zpětně převést do analogového prostředí a vyjádřit je na nejenom na

obrazovce, ale také v podobě stránky. Bertinovy proměnné jsou relevantní jako sada pro

dvourozměrné vizualizace. Pokud překročíme uvedený limit dvou rozměrů tištěné stránky,

pak lze uvažovat o dalších vizuálních proměnných v souvislosti s hloubkou (3D) a časem

(4D). Zuk (2008, in Kubíček, 2012) poukazuje na fakt, že pokud je 3D vizualizace zobrazena

v 2D, tak lze k její implementaci přistupovat jako k plošné a tím pádem ji analyzovat pomocí

původního Bertinova rámce.

Vizuální reprezentace nejistoty zesiluje kognitivní procesy (Card a kol. 1999, in Kubíček,

2012) a lze tedy předpokládat, že vizuální reprezentace bude přínosem pro rozhodování

s přítomností nejistoty. V oblasti geoinformatiky, která stojí na špici vizualizace nejistoty, byl

navržen rámec doporučující určitou vizuální reprezentaci s ohledem na typ geografických data

a typ nejistoty (MacEachren a kol. 2005, in Kubíček, 2012). Přestože tento rámec definoval

obecné problémy, nebyly prozatím vytvořeny a především přijaty žádné obecné standardy.

Pro obecnou vizualizaci zahrnující rozhodování je potřeba vždy brát do úvahy konkrétní

uživatele a úlohu, kterou je potřeba řešit. Některé typy vizualizace mohou být vhodné

a vypadat přirozeně pro vyjádření nejistoty na metaúrovni – například průhlednost, fuzziness,

barevná sytost (MacEachren a kol., 2005, in Kubíček, 2012), avšak pro rozlišení různých typů

nejistoty či pro integraci s více proměnnými nebudou vhodné.

V ideálním případě by měla vizualizace umožnit celou sadu metod a případně činností

umožňujících uživateli dospět k řešení. Možnost interakce s uživatelem při výběru

reprezentace automaticky sděluje koncovému uživateli, že i v optimální vizualizaci je

přítomna určitá míra nejistoty (viz KUNZ, 2011, in Kubíček, 2012).

12.5.2 Obecný rámec pro podporu vizualizace nejistoty

Zuk (2008, in Kubíček, 2012) vytvořila kategorizaci kognitivní nejistoty a jednoduchý

a snadno aplikovatelný rámec redukující komplexnost kognitivních úkolů souvisejících

s nejistotou. Nejdříve rozdělila rozhodnutí podle vyjádření nejistoty na (Kubíček, 2012):

1. rozhodnutí, pro které není určen limit nejistoty pro konečné rozhodnutí

2. rozhodnutí, která jsou založena na jednom limitu (prahu) nejistoty)

3. rozhodnutí založená na více limitních hodnotách, případně na souvislé škále nejistoty

(funkce).

Rozhodnutí, která využívají nějaký typ limitu (typ 2 a 3) jsou z pohledu kognice jednodušší.

Příkladem jednotné hranice je například 95% interval spolehlivosti (typ 2), pro souvislou

změnu je uváděn příklad pravděpodobnostní distribuční funkce (Kubíček, 2012).

Zuk a Carpendale (2006, in Kubíček, 2012) formulovali sedm doporučení zaměřujících se na

různé fáze rozhodovacího procesu. Vybraná doporučení nejsou rozhodně vyčerpávajícím

návodem pro tvorbu a ohodnocení vizualizace, ale lze je považovat za důležité body, kterými

je potřeba se zabývat pro kategorizaci kognitivní nejistoty a vizualizaci nejistoty obecně

(Kubíček, 2012):

1. Podporujte zjednodušení kognitivních úkolů – zjednodušení je důležité pro redukci

množství informací a tím pádem zvýšení efektivity. Nejistota potenciálně dodává

řešeným úlohám komplexitu, a tak jejich celkové zjednodušení může být důležité.

2. Zajistěte zvýraznění či potlačení nejisté informace – pro rozhodování založené na

jednom limitu nejistoty mohou být důležité obě strany limitu. V případě kognitivního

úkolu, kdy chceme vyloučit určitá data z rozhodnutí, může být kritériem vysoká

nejistota, kterou je potřeba graficky zvýraznit. V případě opačném, kdy je potřeba

přijmout data, je potřeba oblasti vysoké nejistoty vizualizovat tak, aby nepřitahovaly

pozornost. V případě interaktivní vizualizace lze brát do úvahy jeden či více limitů

nejistoty a zvýraznit (potlačit) data s nejistotou nad (pod) limit.

3. Umožněte vizualizaci nejistoty na úrovni metadat i na úrovni dat.

4. Dovolte uživatelům si vybrat vlastní výsledek výpočtu nejistoty pro vizualizaci -

souvisí s pravděpodobnostním výpočtem nejistoty, respektive odpovídající

„reprezentativností“ daného výpočtu. Pro interaktivní nástroje je možné

implementovat výslednou vizualizaci v podobě animace možných výsledků

(realizací), případně jako uživatelský dotaz na možné výsledky.

5. Zjednodušte kognitivní heuristiku – jedná se o způsoby uvažování, které lidé

k interpretaci reality využívají. Se zavedením nejistoty je doporučeno využít

rozšířeného vizuálního vyhledávání - extrakce vybraných dat, detailní pohledy,

interaktivní prohlížení (brushing).

6. Pro vytváření znalostí je potřeba poskytnout interakci – všechny předchozí faktory

počítají s alternativním návrhem a realizací vizualizace. Interaktivní vizualizace je

klíčem k vytvoření vizualizace podle požadavků uživatelů a specifických úloh.

Howard a MacEachren (1996, in Kubíček, 2012) diskutovali tvorbu rozhraní pro

interakci s vizualizací geografické nejistoty a doporučili analyzovat rozhraní na

konceptuální, operativní a implementační úrovni.

7. Zhodnoťte následky špatně interpretované nejistoty – ne vždy přidání nejistoty

přinese lepší výsledky, než původní data bez vyjádření nejistoty. Tento bod má úzký

vztah k jedné z výzkumných výzev v oblasti nejistoty, jak je definovali MacEachren

a kol. (2005, in Kubíček, 2012): „understanding how (or whether) uncertainty

visualization aids exploratory analysis.“ Porozumění jak a zda vůbec vizualizace

nejistoty napomůže vizuální analýze dat, je klíčovým problémem, kterému se

budeme věnovat i v dalších částech práce.

Uvedené kroky mohou sloužit jako obecný návod pro vytváření vizuálních reprezentaci

nejistoty, ale opět nejsou ověřeny rozsáhlejším empirickým výzkumem (Kubíček, 2012).

12.6 Empirické studie vizualizace nejistoty

12.6.1 testování polohové nejistoty

Mezi ojedinělé práce v dané problematice patří studie HOPE A HUNTER, (2007, in Kubíček,

2012), která se zabývá statickým a dynamickým testováním polohové nejistoty. Testování

polohové nejistoty bylo rozděleno na dvě části (Kubíček, 2012):

1. Testování dynamické reprezentace polohové nejistoty – testovány byly celkem čtyři

odlišné způsoby vizualizace (reprezentace) a jejich partikulární vliv na rozhodování.

2. Testování statické reprezentace polohové nejistoty – celkové pochopení vizualizace

nejistoty koncovými uživateli a jejich preference jednotlivých vizualizací

(reprezentací).

Dynamické testování požadovalo od účastníků testování reakce na plavidlo pohybující se ze

zóny A do zóny B. Animaci simulovala rozhraní mobilního zařízení a změna polohy byla

pravidelně obnovována. Uživatelé měli za úkol, jako kapitán lodi, otočit loď tak, aby

nevstoupila do zóny B, která je zakázána (Kubíček, 2012).

Subjektům byly nabídnuty 4 odlišné vizualizace znázorňující polohovou nejistota pracovně

nazvané jako Limity, Měřítko, Pravděpodobnost a Postupná vizualizace (obr. 69-70)

(Kubíček, 2012).

Limity používají tečkované linie pro znázornění oblasti s 99% pravděpodobností výskytu

hranic mezi zónami A a B a lokalizací plavidla (obr. 88) (Kubíček, 2012).

Obrázek 88 Ukázka vizualizace Limity a Měřítko (Kubíček, 2012, upravil podle Hope a Hunter, 2007)

Měřítko obsahuje pouze písemnou informaci o polohové nejistoty umístěnou v legendě, což

do určité míry odpovídá informaci obsažené potenciálně již v metadatech, kterou si

v konečném důsledku musí uživatelé graficky (vizuálně) interpretovat (Kubíček, 2012).

Pravděpodobnost obsahuje na obrazovce informaci o tom, s jakou pravděpodobností (v %) je

plavidlo v zóně B. Hodnota je aktualizována v reálném čase tak, jak se plavidlo pohybuje

směrem k hranicím mezi zónami (Kubíček, 2012).

Obrázek 89 Ukázka vizualizace Pravděpodobnost a Postupná vizualizace (Kubíček, 2012, upravil podle Hope a

Hunter, 2007)

Postupná vizualizace zobrazuje poziční (polohovou) nejistotu hranice mezi zónami pomocí

postupné změny odstínu, směrem k zóně B barva postupně tmavne (Kubíček, 2012).

Pro každé ze 4 možných typů vizualizace bylo vytvořeno při statickém testu 5 odlišných

reprezentací zobrazujících plavidlo v následujících typických situacích (Kubíček, 2012):

a) Jistě v zóně A

b) Pravděpodobně v zóně A

c) Stejná možnost výskytu v obou zónách

d) Pravděpodobně v zóně B

e) Jistě v zóně B

Pro všechny varianty byla také možná odpověď f) nerozumím vizualizaci.

Účastníci testu měli následně vybrat, jaké tvrzení odpovídá obrázku nejlépe. Testy byly

sestavené tak, aby umožnily maximálně objektivizovat výsledky a odstranit potenciální

zvykové zatížení či rychlejší naučení metody a ovlivnění předchozím snímkem (Kubíček,

2012).

Žádná odpověď neobsahovala měření rychlosti.

Na základě testu byly vyhodnoceny celkem 3 typy výsledků (Kubíček, 2012):

1. Identifikace okamžiku, kdy se loď otočila, pro dynamické testy

2. odpověď pro umístění na statickém testu

3. odpověď na osobní preference konkrétního typu vizualizace

Obrázek 90 Ukázka postupné vizualizace s očekávanou odpovědí c)Stejná možnost výskytu v obou zónách (Kubíček,

2012, upravil podle Hope a Hunter, 2007).

12.6.1.1 Testování vizualizace polohové nejistoty

Testování vizualizace polohové nejistoty prováděl také Kubíček se svým kolektivem (2012).

Při testování byla použita mapa katastrálního území, kde jsou hranice parcel vyjádřeny

pomocí dvou barev indikujících odlišnou kvalitu dat (polohovou nejistotu):

Zelená hranice (přesná hranice) - Kód charakteristiky kvality bodu 1, 2 a 3 (body

určené se střední souřadnicovou chybou lepší než 0.14 m).

Červená hranice (méně přesná) - Kód charakteristiky kvality bodu 4, 5, 6, 7 a 8 (bod

určený se střední souřadnicovou chybou 0.26 m, bod určený se střední souřadnicovou

chybou 0.50 m, bod digitalizovaný z mapy měřítka 1:1000 se střední souřadnicovou

chybou 0.21 m, bod digitalizovaný z mapy měřítka 1:2000 se střední souřadnicovou

chybou 0.42 m a bod digitalizovaný z mapy měřítka 1:2880 a jiné (kromě 1000

a 2000).

Parcelní číslo

Kódem charakteristiky kvality bodu (třída přesnosti bodu): 1-8

Kód kvality výměry - Kód kvality výměry je číselný kód, který v SPI (Soubor

Popisných Informací) označuje způsob určení výměry parcely. Kód 2 reprezentuje

výměru parcely určenou ze souřadnic S-JTSK. Kód 1 reprezentuje výměru parcely

určenou jiným číselným systémem a kód 0 reprezentuje výměru parcely určenou

graficky.

Zelená hranice spojuje body s třídou přesnosti <1,3>. Navíc k těmto bodům jsou řazeny body

s třídou přesnosti 8, pokud jsou tyto body též součástí parcely s kódem kvality výměry 2

a body s přesností <4,8> ležící na přímce mezi dvěma body <1,3> (bod je pak součástí zelené

hranice jen ve směru této přímky, nikoliv ve všech směrech).

Červená hranice spojuje navzájem body o přesnosti <4,8> a tyto body s body s přesností

<1,3>

Takovýto přístup k vizualizaci katastrálních hranic v závislosti na jejich kvalitě přímo souvisí

s vizualizací nejistoty a v konkrétním případě také s případnou schopností uživatelů dat

katastru s takto odlišně zobrazenou informací efektivně pracovat.

Následně byly zvoleny 2 typy vizualizace nejistoty (Kubíček, 2012) – první podával

informaci o nejistotě textovou informací o nejistotě a byl vybaven měřítkem pro zjištění

rozsahu nejistoty hranice (kódové označení Hranice), druhý typ byl vizuálně výraznější

(pomocí barevného přechodu hranice, kódové označení Přechod) a přímo graficky vymezoval

rozsah nejistoty s klesající sytostí barvy od hranice směrem do parcel na obou jejich stranách.

Obě metody mají oporu v práci Hope a Hunter (2007) a odpovídají metodám označeným jako

„měřítko“ respektive „přechodná vizualizace“. Volba byla provedena s ohledem na obvykle

používanou reprezentaci katastrálních dat, jejichž jakost respektive nejistota není explicitně

graficky odlišována a lze na ni tudíž usuzovat pouze na základě známého měřítka.

Pro každý jednotlivý typ vizualizace byla vytvořena vizualizace znázorňující 2 sousední

parcely (A a B) a v nich zobrazený zákres budovy (obr. 91), jejíž roh bude postupně ležet

(Kubíček, 2012):

A. Jistě v parcele A

B. Spíše v parcele A

C. Stejně v parcele A i v parcele B

D. Spíše v parcele B

E. Jistě v parcele B

Obrázek 91 Dvě metody vizualizace nejistoty (vlevo hranicí s měřítkem, vpravo kořenovou zeleninu (Kubíček, 2012)

Porovnání reakčních časů uživatelů ukázalo, že ve většině případů respondenti potřebovali k

označení odpovědi více času v případě vizualizace „přechod“ než v případě vizualizace

„hranice“. Uvedená skutečnost se projevila u obou testovaných skupin a v obou případech byl

čas potřebný k nalezení (správné) odpovědi téměř dvojnásobný (Kubíček, 2012)

Odborníci dosahují lepších časů než laici v obou případech vizualizace. Stejně tak se rychleji

zlepšuje jejich reakční doba při opakované vizualizaci a změně polohy budovy (obr. 91). Na

základě testování významnosti (párový t-test), kdy byl testován průměrný čas jednotlivých

respondentů obou skupin, byl prokázán významný rozdíl (p=0,0497) s výrazně lepším

průměrným časem odborníků. Rozdíl byl významný pouze pro celkové průměry, pro

samostatné porovnání vizualizace „hranice“ či vizualizace „přechod“ nebylo významnosti

dosaženo, ačkoliv v obou případech si skupina odborníci počínala lépe. Vzhledem k tomu, že

testy probíhaly u skupiny laiků individuálně, nelze však tuto informaci přeceňovat (Kubíček,

2012).

12.6.1.2 Testování vizualizace polohové nejistoty II

V dalším příkladu Kubíček a kolektiv testovali vizualizaci polohové nejistoty na příkladu

katastrální mapy.

Na obrázcích jsou katastrální parcely s budovami a katastrální hranice zobrazeny pomocí

dvou odlišných metod s určitou mírou přesnosti resp. nejistoty, která se pohybuje v rozsahu

vyznačeným dvěma odlišnými typy vizualizace (Kubíček, 2012).

První z nich je barevný přechod, kde jistota hranice narůstá od okrajů přechodu směrem ke

středu (čím tmavší barva, tím větší jistota hranice mezi parcelami).

V druhém případě – měřítko – je hranice vyznačená linií s určitou přesností resp. nejistotou,

která pohybuje v rozsahu ± 2metry (délka 2 metrů je graficky označena měřítkem v pravém

dolním rohu obrázku).

Obrázek 92 Dva typy vizualizace hranic parcel při 2. pokusu (Kubíček, 2012)

Změnil se také způsob sestavení a provedení testu, a to ze statického na dynamický –

interaktivní. Jednotlivé úlohy byly konstruovány tak, že účastníci testu byli nuceni aktivně

zakreslit linii končící v definovaných částech parcely. Tato lomená čára měla být ukončena

co nejblíže hranici parcel, ale zároveň má splnit jednu z níže uvedených podmínek

(Kubíček, 2012):

Čára je ukončena jistě (na 100%) v parcele A

Čára je ukončena spíše (na ˃ 50%)v parcele A

Čára je ukončena stejně jistě (na 50%) v parcele A či v parcele B

Čára je ukončena spíše (na ˃ 50%) v parcele B

Čára je ukončena jistě (na 100%) v parcele B

Kromě samotné vizualizace nejistoty v reálných podmínkách byla změněna i grafická náplň

mapy. Pro jednotlivé případy byly na rozdíl od prvního testu zvoleny reálné ukázky parcelní

kresby z katastrálního území Prahy, kterým byly pozměněny katastrální čísla pro zachování

anonymity. Všechny vystavené scény tak navozovaly dojem skutečné katastrální mapy

zahrnující zjednodušenou parcelní kresbu, parcelní číslo a obrysy budov v případě základního

pozadí a navíc také barvu a texturu podle využití v případě komplexního pozadí (Kubíček,

2012).

Po provedení cvičných úloh byli účastníci upozorněni, že začíná „ostrá“ část testu a

zopakováno obecné zadání.

Testovací mapové podklady se následně pravidelně střídaly v typu vizualizace – tedy všechny

liché (1,3,5,7,9) byly reprezentovány typem vizualizace „hranice“ a všechny sudé (2,4,6,8,10)

pak typem vizualizace „přechod“. Nejdříve byly testovány vizualizace pro jednoduchou

podkladovou kresbu, které zahrnovala pouze katastrální hranice, budovy podbarvené hnědou

barvou a parcelní čísla. Následně byla změněna podkladová mapa a na jednotlivé parcely byla

přidána textura v podobě barevné výplně a značky vyjadřující druh využití dané plochy

(Kubíček, 2012).

Do vyhodnocení rozdílů přesnosti ukončení linií pro jednotlivé úlohy byly uvažovány pouze

správné odpovědi. Z výsledných grafů je zřejmé, že mezi jednotlivými typy vizualizace

existují jenom malé rozdíly a nelze určit nějaký jednoznačný trend. V případě vizualizace

„přechod“ měli účastníci testu při ukončování v zónách „spíše A, spíše B“ tendenci končit

linii blíže fyzicky vyznačené hranice (Kubíček, 2012).

Pro zbývající typy úloh (jistě A i B, 50:50) se oba typy vizualizace významně neliší.

V případě vizualizace 50:50 (obr. 100) došlo k zajímavému efektu, kdy pro vizualizaci

„hranice“ dochází spíše k překročení středové linie, zatímco u vizualizace „přechod“ byla

tažená linie ukončována ještě před hranicí obou parcel (Kubíček, 2012).

12.6.2 Empirické testování tematické nejistoty

Leitner a Buttenfield (2000, in Kubíček, 2012)) specificky zkoumali, jak je ovlivněno

rozhodování uživatelů, pokud do mapy je přidána informace o nejistotě. Testovali jak

samotnou přítomnost či nepřítomnost informace o nejistotě, tak odlišné způsoby vyjádření

nejistoty prostřednictvím vnitřních grafických proměnných – tmavší vs. světlejší barva, hrubší

vs. jemnější textura (výplň) a sytá vs. světlá barva. Zároveň testovali jak správnost výsledku,

tak rychlost jeho dosažení (Kubíček, 2012).

Významného zlepšení bylo dosaženo při znázornění nejistoty pomocí světlejší barvy

a jemnější textury, což sami autoři označili za překvapivé, protože obvykle tmavší barvy jsou

považovány za více graficky dominantní (Leitner a Buttenfield, 2000, s.13, in Kubíček,

2012). Je třeba také brát do úvahy vliv znázornění kartografické vizualizace na počítačovém

monitoru namísto tradičního tištěného formátu. Z hlediska rychlost dosažení cíle vykazovaly

mapy s vyjádřením nejistoty lepší výsledky, což bylo z určitého hlediska překvapující,

protože měly větší grafické naplnění a tím pádem i vyšší informační obsah. Samotní autoři to

přisuzovali faktu, že informace o nejistotě je uživateli vnímána spíše jako upřesnění, než jako

zvýšení komplexnosti (= složitosti) mapy (Kubíček, 2012).

Práce samotná poukazuje na nedostatečný empirický výzkum v dané oblasti zejména

v souvislosti s nutností testování, avšak neobsahuje žádné ukázky mapových výstupů

(Kubíček, 2012).

Autoři poukazují na nejčastější způsoby vizualizace a existující doporučení ohledně využití

Bertinových grafických proměnných pro vizualizaci nejistoty a mimo jiné zmiňují sytost

barvy – od čisté barvy pro velmi jisté informace až po nenasycenou šedou pro nejisté

informace (Kubíček, 2012).

Experiment byl zaměřen na podporu rozhodování a užití vizualizace nejistoty při této

podpoře. Účastníci testu byli požádáni, aby umístili park a následně letiště a bylo sledováno,

jak obě rozhodnutí provedli, z hlediska 3 různých pohledů (Kubíček, 2012):

1. Jak správně bylo rozhodnutí učiněno?

2. Jak rychle bylo rozhodnutí učiněno?

3. Jak jistě bylo rozhodnutí učiněno?

Využito bylo celkem 8 map (Kubíček, 2012). Zatímco první dvě neobsahovaly žádnou

nejistotu a lišily se pouze počtem tematických kategorií pro znázorněnou problematiku,

dalších 6 map zobrazovalo tematickou nejistotu pomocí dvou tříd (více a méně jisté)

a prostřednictvím odlišných grafických proměnných. Jeden pár map použil odlišnou texturu,

druhý pár odlišnou barvu a třetí pár odlišné barevné nasycení pro vyjádření nejistoty jevu.

Jisté oblasti byly přitom vyjádřeny jemnější texturou, tmavší barvou a více nasycenou barvou

v jednom případě, zatímco v druhém případě byly vytvoření obrácené typy vizualizace. Testu

se zúčastnilo celkem 68 uživatelů (Kubíček, 2012)

Pro každou oblast byly provedeny testy statistické významnosti. Hlavní závěry lze shrnout do

tří oblastí podle výše uvedených pohledů (Kubíček, 2012)

Pro správnost rozhodnutí (výsledky jsou statisticky významné na hladině 0,05):

Jsou-li k dispozici data pro rozdělení výsledků do více tříd, je potřeba je na mapě

znázornit;

Barva (value) se jeví jako nejvhodnější pro vyjádření nejistoty;

Jisté informace by měly být reprezentovány světlejší barvou;

Při použití textury je pro nejisté informace lepší použít hrubší texturu.

Pro rychlé rozhodnutí (symbolizační schéma – výsledky nejsou statisticky významné):

Při větším počtu tematických tříd potřebují subjekty delší čas k rozhodnutí;

Pokud další tematické třídy obsahují informaci o nejistotě, pak je doba odezvy stejná,

nebo dokonce kratší, než u mapy s jedinou tematickou třídou;

Zdá se, že informace o nejistotě je chápána spíše jako vysvětlující, než jako

komplikující;

Pro urychlení rozhodování je nejlepší použít sytost, nebo texturu pro vyjádření

nejistoty;

V případě použití nasycení barvy je potřeba využít pastelových tónů pro více jisté

informace.

Pro jistotu rozhodnutí (symbolizační schéma – výsledky nejsou statisticky významné):

Rozhodnutí byla učiněna se stejnou jistotou bez ohledu na počet tematických tříd;

Srovnání mezi užitím barvy a textury prokázalo rozdíly v jistotě rozhodnutí

sledovaných subjektů. Subjekty jsou si mnohem více jisté, pokud je použito světlé či

tmavé barvy pro nejistotu, než tomu je pro vizualizaci pomocí textury.

Na závěr doporučují zavedení testovaných symbolizačních schémat do oblasti geografických

informačních systémů a systémů podporujících rozhodování.

12.6.2.1 Testování vizualizace tematické nejistoty na příkladu mapování půd

Kubíček a kol. (2012) se zabývali pro tento účel dvěma statickými přístupy vizualizace

nejistoty interpolovaných hodnot, a to srovnávacími a kombinovanými mapami.

Pro srovnávací mapy byla zvolena kombinace interpolovaného povrchu vzniklého krigováním

(zřejmě krigovací chyba) pro hodnotu hloubky půdy a vypočtená hodnota směrodatné

odchylky v jednotlivých místech povrchu posloužila jako mapa nejistoty. Obě proměnné

(hloubka půdy a její nejistota) byly vizualizovány do samostatných map za pomocí stejné

grafické proměnné, a to sytosti barvy. Světlejší tóny byly využity pro vyšší nejistotu

(Kubíček, 2012).

Vedle srovnání byla vytvořena i kombinovaná mapa. U ní byla vytvořena speciální legenda,

která napomáhá čtení a porozumění použitého HSI modelu (Kubíček, 2012).

Obě výše zmíněné metody vizualizace byly testovány na dvou odlišných úrovních (Kubíček,

2012). Na první úrovni byla zjišťována zmíněná intuitivnost metody vybělení v podobě

kombinované mapy, o které hovoří řada autorů (např. Jiang 1996 in Kubíček, 2012), avšak

bez odpovídajících důkazů. Uživatelé byli při testu požádáni, aby označili oblast, která má

podle nich nejvyšší nejistotu. V legendě byl proto vyznačen pouze typ zobrazované proměnné

(hloubka půdy a nejistota), ale nikoliv způsob změny (nárůst x pokles) (Kubíček, 2012).

V testu tematické nejistoty byly díky použitému postupu ověřovány zejména následující

schopnosti uživatelů pro obě základní metody vizualizace nejistoty (Kubíček, 2012):

schopnost dekódovat hodnotu jevu (hloubka půdy) a jejího prostorového vývoje

schopnost dekódovat nejistotu jevu (krigovací chyby) a její prostorový vývoj

dekódování a srovnání obou hodnot ve stejném prostoru

Pro oba typy vizualizace byly zvoleny shodné hodnoty obou jevů pro dekódování, avšak

umístění cvičných polygonů se měnilo, aby se zamezilo efektu zaučení uživatelů. Na základě

výsledků bylo možné konstatovat, že existují významné rozdíly mezi metodami v případě, že

chceme dekódovat úroveň nejistoty a hodnotu s nejistotou dohromady. Hlavní závěry lze

shrnout následovně (Kubíček, 2012):

Testování intuitivnosti vizualizace nejistoty prokázalo, že nejisté informace by měly

být znázorněny světlejšími odstíny. Více účastníků testu (63%) označilo světlejší

hodnotu jako více nejistou a zároveň ke svému rozhodnutí potřebovali méně času

a dosáhli výrazně menšího skupinového časového rozptylu. Výsledky však nebyly

potvrzeny jako statisticky významné, a to ani pro homogenní, ani pro heterogenní

skupinu.

Výsledky na druhé úrovni testování lze rozdělit podle testovaných proměnných,

respektive jejich kombinace. Pro zjednodušení a statistické vyhodnocení rychlosti byly

brány do úvahy pouze správné odpovědi tak, aby bylo možné párové srovnání obou

metod. Pro dekódování míry nejistoty bylo významně lepších výsledků dosaženo

pomocí kombinovaných map, než pro mapy srovnávací. Uvedený výsledek platí jako

pro homogenní skupiny (studenti), tak pro heterogenní skupinu (odborná veřejnost).

Pro dekódování hodnoty jevu (hloubka půdy) byly výsledky pro kombinované mapy

jenom lepší bez statistické významnosti. Opět toto tvrzení platí pro všechny skupiny

účastníků testu. Je otázka, zda v tomto případě nebyl výsledek ovlivněn faktem, že

uživatelé měli možnost se seznámit s metodou kombinované mapy, respektive

vybělení, již na první úrovni testu.

Správnost odpovědí je nižší při komplexnějších úkolech – tedy při dekódovaní obou

proměnných (hodnota a nejistota) společně. Srovnávací mapy dosáhly v tomto případě

signifikantně lepších výsledků, než kombinované mapy. Uvedená část patřila mezi

nejvíce kontroverzní, protože zde byla dosažena pouze 43% správnost odpovědí pro

obě metody zároveň. 64% správných odpovědí bylo pro metodu srovnávacích map,

56% správných odpovědí pro metodu map kombinovaných. V případě

kombinovaných map byli účastníci nejenom rychlejší, ale také jejich směrodatná

odchylka v dosažených časech byla pouze poloviční ve srovnání s druhým typem

vizualizace.

12.6.3 Interaktivní prostředí pro vizualizaci nejistoty

Kunz (2011 in Kubíček, 2012) nabízí interaktivní nástroj pro vizualizaci nejistoty s volitelnou

formou vizualizace v podobě srovnávacích i kombinovaných map a využitím více vnějších

vyjadřovacích prostředků (obr. 93). Alternativně je dokonce nabízen 3D pohled a užití tzv.

prizmatických map, které nejsou dále diskutovány.

Na základě dotazníku konstatuje Kunz (2011 in Kubíček, 2012) následující závěry:

Všechny navržené metody vizualizace nejistoty jsou interpretovatelné – pochopitelné

koncovými uživateli.

Za pochopitelné jsou považovány i kombinované mapy využívající vnitřní grafické

proměnné, a to s následujícími preferencemi:

o Pokud je potřeba nejistotu zdůraznit, pak dávají přednost narůstajícímu

barevnému nasycení, které přitahuje vizuální pozornost k nejistým oblastem,

v nichž jsou jednotlivé buňky rastru tmavší.

o Zvýšení světlosti (průsvitnosti) naopak přitahuje pozornost k jistým hodnotám

a vede k ignoraci (přehlížení) nejistých buněk rastru.

Jinými slovy – v závislosti na tom, co chceme zdůraznit (zda jsou k rozhodování

důležitější jisté/nejisté oblasti), tak je vhodné volit odlišné metody vizualizace.

Zatímco některé metody vizualizace jsou vhodné pro kvantitativní analýzu míry

nejistoty (srovnávací mapy, vnitřní vyjadřovací metody a užití proporciálních kruhů),

jiné jsou vhodnější pro vyjádření celkového prostorového rozmístění nejistoty (hustota

teček, texturní překryv).

Uvedené závěry nejsou podloženy konkrétní kvantifikací odpovědí, jedná se o kvalitativní

závěry získané pomocí interview (Kubíček, 2012). Výsledky lze využít obecně pro vizualizaci

nejistoty libovolných skalárních veličin.

Obrázek 93 Aplikovaná vizualizace nejistoty: a) srovnávací mapy, b) kombinované mapy za využití vnějších

grafických proměnných (hustota bodů), c) kombinované mapy za využití vnitřních grafických proměnných (barevný

odstín) (Kubíček, 2012, upravil podle Kunz, 2011).

Vysvětlivky: impact pressure – tlak při dopadu, uncertainty – neurčitost, increasing intensity – rostoucí intenzita,

increasing uncertainty – rostoucí neurčitost

Výsledky získané Kunz (2011 in Kubíček, 2012) byly dále testovány a rozvíjeny Kubíčkem

a kolektivem. Ten s využitím stejných map sledoval následující cíle:

Zjistit intuitivnost konstrukce stupnic pro zvolené vnitřní a vnější grafické proměnné.

Srovnat schopnost uživatelů efektivně pracovat s vizualizace jevu a nejistoty

přírodního rizika pomocí vnitřních a vnějších grafických proměnných.

Zjistit schopnost uživatelů rozhodnout se na základě přítomné nejistoty jevu.

První mapový podklad využívá vytvoření tematické vrstvy lavinového nebezpečí modré barvy

a její sytosti a pro vyjádření nejistoty pak velikost teček ve třech odlišných kvalitativních

kategoriích.

Druhý typ mapového výstupu byl vytvořen za využití vnitřní proměnné odstín, kdy jednotlivé

kategorie tematického jevu jsou odlišeny barvou a jejich nejistota světlostí odstínu, vše opět

v podobě 3 kategorií.

U tohoto příkladu byly na rozdíl od jiných testů na MU připraveny dva oddělené testy pro

každou metodu vizualizace zvlášť, aby se zabránilo případnému efektu zácviku při

opakovaném čtení stejné vizualizace a přechodu na jinou vizualizaci.

V obr. 74 byla zkoumána intuitivnost legendy pro vizualizaci nejistoty. Byly zde uvedeny jak

vnější grafické proměnné (velikost bodů), tak vnitřní grafické proměnné (odstín) a uživatelé

byli dotázáni na směr, kterým nejistota narůstá či klesá. Vzhledem ke statisticky významným

výsledkům, které podporovaly nárůst nejistoty s narůstající světlostí při metodě vybělení, byl

opětovně zařazen tento krátký test pro případné potvrzení či vyvrácení závěrů.

Teprve potom byla vysvětlena použitá legenda a ukázány příklady, jak číst odpovídající mapy

nejistoty. Následně byla testována schopnost uživatelů dekódovat nejprve jev, následně

nejistotu a konečně nejistotu a jev dohromady. Po každé scéně byla navíc zařazena

samostatná negrafická scéna s otázkou, nakolik si byli uživatelé jisti správností své odpovědi

na dekódování hodnoty jevu, nejistoty a obojího dohromady.

Odpověď bylo třeba následně označit na stupnici 1-5 (1=zcela jistí – 5=zcela nejistí). Tímto

způsobem byla zároveň sledována subjektivní jistota testovaných osob s jejich odpovědí.

V další části testu uživatelé řešili praktickou úlohu, kdy na základě zhodnocení nejistoty

lavinového nebezpečí měli označit část komunikace, která bude nejméně pravděpodobně

zasažena lavinou. Jednalo se o praktické dekódování hodnoty jevu a nejistoty, ale

s konkrétním aplikačním podtextem, kdy se uživatel musí rozhodnout mezi třemi možnostmi.

V tomto závěrečném případě navíc nebyla k dispozici legenda a účastníci testu byli nuceni

prokázat nejenom schopnost řešit konkrétní úlohu, ale také míru pochopení konkrétní

vizualizační metody a hlubší kognici nutnou pro vyřešení úlohy (Kubíček, 2012).

Pro závěrečný test použili kombinaci experimentu s korelační studií v podobě

psychologického testu (Kubíček, 2012). V případě experimentu se obvykle obě zkoumané

skupiny (znaků, proměnných, výstupů) liší pouze v jednom aspektu (velikost bodu, odstín

barev). Zkoumané kartografické výstupy jsou však v tomto ohledu zvláštní v tom, že mapa

představuje komplexní výstup a nelze měnit pouze její části bez ohledu na celek. Obě zvolené

metody (vnitřní x vnější grafické proměnné) se tudíž liší nejenom vyjadřovacími prostředky,

ale také například legendou (3x3 vs. 3x2) a zároveň hodnotami vyjádřenými přímo na

mapovém podkladu. Je tedy obtížně odlišitelné, zda jsou naměřené rozdíly ve výkonu

účastníků testu způsobeny právě odlišnou legendou, nebo rozdíly způsobenými mapovým

vyjádřením. Z tohoto důvodu byly srovnávány obě metody jako celek, tedy o úroveň výše.

Výsledky jsou následně interpretovány o úroveň níže, kde se pokoušíme vyvodit závěry

vycházející s uvedených kognitivních předpokladů (Kubíček, 2012).

První výsledky poskytnul test intuitivnosti legendy vizualizace nejistoty, kde většina

dotázaných upřednostnila v obou případech škálu A, tedy od malého k velkému bodu,

respektive od světlejšího odstínu k sytějšímu pro nárůst nejistoty. V prvním případě tuto škálu

upřednostnilo 74% (55 případů) z dotázaných, ve druhém případě 66% (49 případů)

(Kubíček, 2012).

V obou případech se osoby, které zvolily odpověď A, rozhodovaly významně rychleji a také

jejich časy potřebné k rozhodnutí vykázaly menší celkový rozptyl (Kubíček, 2012).

Pro vyhodnocení rozdílů obou typů vizualizací byly srovnány percepční schopnosti účastníků

v podobě průměrné rychlosti dekódování jedné proměnné (jev, nejistota) a dvou proměnných

(jev+nejistota) a celkové průměrné časy pro oba typy úloh. Výsledky byly poté testovány

pomocí t-testu pro nezávislé proměnné. Ve všech třech případech se ukázaly jako rychlejší

výsledky pro vizualizaci pomocí vnitřních proměnných, tedy kombinace barvy a barevného

odstínu. Osoby testující tento typ vizualizace byly nejenom rychlejší, ale také prokázaly

schopnost se celkově rozhodovat v kratším časovém intervalu (Kubíček, 2012). Rozdíly mezi

metodami však nebyly významné.

V závěrečné praktické úloze měli účastníci testu za úkol označit část komunikace, která bude

nejméně pravděpodobně zasažena lavinou. Jednalo se o složitější úlohu, kde se očekávala

nutnost zapojení vědomého vnímání. Zjišťovány byly jak správnosti odpovědí, tak časy

potřebné k dokončení úlohy. Pro obě úlohy se liší počty správných odpovědí. V případě užití

vnitřních proměnných bylo pouze 14 ze 36 odpovědí správných (39%), zatímco při

vizualizaci pomocí vnějších proměnných bylo správných 30 z 37 možných odpovědí (81%),

tedy více, jak dvakrát tolik (Kubíček, 2012).

Časy správných odpovědí v obou případech vykázaly v testu nevýznamné rozdíly (p=0,0704),

avšak pro vnější proměnnou byly dosažené časy rychlejší, všechny se vešly do rozmezí

4 vteřin.

Poslední sledovaný jev bylo zařazení druhého typu vizualizace, se kterým neměli uživatelé

žádnou zkušenost. V úloze měli za úkol dekódovat dvojici proměnných (jev+nejistota).

Dosažené časy pro správné úlohy byly srovnány s průměrným časem, pro stejný typ úlohy,

který byl dosažen při znalosti dané vizualizace. Vždy byly porovnány průměrné časy pro

stejné typy vizualizace, avšak jednou bez dřívější znalosti a podruhé po zácviku a praktické

zkušenosti. Výsledky byly podle očekávání vždy významně odlišné. V případě, kdy test byl

zaměřen na vnější proměnnou, dosahovali účastníci testu při přechodu na novou vizualizaci

třikrát pomalejšího času. Správně se podařilo odpovědět v 26 případech z 37 (70%). U testu

využívajícího vnitřní proměnnou byli při přechodu na novou vizualizaci uživatelé pouze

dvakrát pomalejší a dosáhli úspěšnosti 81 % (31 správných odpovědí z 36). Uvedené

výsledky podporují názor, že je snazší a intuitivnější se u jednoduchých percepčních úloh

zvyknout na vizualizaci pomocí vnitřní proměnné, konkrétně na kombinaci barva a odstín

(Kubíček, 2012).

12.6.4 Principy testování vizualizace nejistoty

Z výše uvedených empirických studií vyplývá, že v současnosti neexistuje ustálená metodika

pro empirické testování kartografických výstupů obecně a tím méně pro specifickou oblast

vizualizace nejistoty (Kubíček, 2012). Přesto je možné se odkázat na existující návrhy či

obecné metodiky využitelné i v případě vizualizace nejistoty.

Olson (2009 in Kubíček, 2012) se zabývala aspekty testování uživatelů v kartografii

a upozornila na hlavní úskalí, které je nutné brát do úvahy při přípravě, realizaci, hodnocení

a prezentaci takovýchto testů:

přístupnost testovacího prostředí i pro čtenáře a další vědecké pracovníky – bez

možnosti si prohlédnout testovací prostředí je toto zdrojem možných chyb

a nedokonalostí.

dostupnost testovacích materiálů a výsledků – je důležité jak pro posouzení testů

samotných, tak pro případné opakování testů v odlišném kulturním či

socioekonomickém prostředí, hraje také důležitou roli pro opakovatelnost a tím pádem

i potvrditelnost experimentu.

Tvorba dotazníku a struktura otázek představuje klíčový problém při testování uživatelů.

Zatímco psychologové mají k dispozici celou řadu standardizovaných dotazníků či dokonce

testů pro výzkum kognitivních vlastností jedince, kartografové nedisponují ani návodem pro

objektivní kognitivní testování a nezbývá, než hledat inspiraci právě v oblasti psychologie.

Vytváření více variantních metod (kvalitativních i kvantitativních) pro srovnatelnost může

významně napomoci objektivitě výsledků testu (Kubíček, 2012).

Shrnutí:

Hlavními kartografickými metodami vizualizace nejistoty jsou srovnávací mapy,

kombinované mapy a využití interaktivního exploračního nástroje. Pro

kombinované mapy se používají vnitřní grafické proměnné, které mění svoji

hodnotu podle nejistoty, a vnější grafické proměnné, kdy jsou do mapy přidány

další objekty jako šipky, sloupcové grafy apod. Mezi vnitřními se nejvíce uplatňují

změna barvy, velikosti, pozice, ostrosti, jasnosti, „fuzziness“, saturace,

průhlednosti a ostrosti hran (obecněji zaostření). Z vnějších se uplatňují zejména

glyfy. Hodnocení vizualizace je založeno na teorii kognice (percepce). Základní

doporučení zaměřující se na různé fáze rozhodovacího procesu jsou zjednodušení

kognitivních úkolů, zvýraznění či potlačení nejisté informace, vizualizace nejistoty

na úrovni metadat i na úrovni dat, umožnit vybrat vlastní výsledek výpočtu

nejistoty, zjednodušte kognitivní heuristiku, využívejte interakci a zhodnoťte

následky špatně interpretované nejistoty.

Kontrolní otázky: 1) Proč se v GIS produktech zatím neprosazují nástroje vizualizace

neurčitosti?

2) Co to jsou srovnávací mapy?

3) Co jsou kombinované mapy?

4) Popište využití interaktivního exploračního nástroje.

5) Vysvětlete význam sonifikace a psycho-vizuální vizualizace pro neurčitost.

6) Vysvětlete vnitřní a vnější grafické proměnné pro vizualizaci neurčitosti.

7) Vyjmenujte nejdůležitější vizuální grafické proměnné pro vizualizaci

neurčitosti.

8) Jak lze realizovat zaostření?

9) Které z vnitřních proměnných se nejvíce doporučují?

10) Jaké jsou zkušenosti s vybělením?

11) Jak se realizuje metoda glyfů?

12) Seřaďte podle klesající jistoty určení geologické hranice vykreslené jako

čárkovaná, plná a tečkovaná čára.

13) Jaké nové vizuální proměnné vznikly s příchodem digitálního prostředí?

14) Proč se má podpořit zjednodušení kognitivních úkolů?

15) Proč je důležité hodnotit následky špatně interpretované nejistoty?

16) Uveďte příklad zobrazení a možného testování polohové nejistoty linie.

Seznam literatury

Adamčík J. (2009): Sofe2 wiki. On-line:

http://sofe2.pepiino.cz/wiki/doku.php?id=fuzzy_logika. Citováno dne 15.6.2014.

Aronoff, S. (1989): Geographic Information Systems: A Management Perspective, Ottawa,

WDL Publicatios, 1989.

Bernhardsen, T. (1993): Geographic Information Systems (translated into English from the

„En larebok i Geografiske Informasjonssystemer“), DTU Lyngby 1993.

Brus, J. (2013): Vizualizace nejistoty v environmentálních studiích. Disertační práce. UP

Olomouc.

Caers J. (2011): Modeling uncertainty in the Earth Sciences. Wiley-Blackwell. 2011. ISBN

978-1-119-99263-9

Caha, J. (2011): Neurčitost v prostorových operacích. Studie. UP Olomouc.

Caha, J. (2014): Uncertainty Propagation in Fuzzy Surface Analysis. PhD thesis, Palacky

University in Olomouc, 2014.

Caha J. (2018). Přednáška.

Caha, J., Marek, L., Dvorský, J. (2015): Predicting PM10 Concentrations Using Fuzzy

Kriging. In: Onieva, E., Santos, I., Osaba, E., Quintian, H., Corchado, E. (Eds.), Hybrid

Artificial Intelligent Systems SE - 31, s. 371–381. Springer International Publishing, 2015

Comber A., Wadsworth R., Fisher P. (2006): Reasoning Methos for Handling Uncertain

Information in Land Cover Mapping. In Devillers R., Jeansoulin (eds): Fundamentals of

Spatial Data Quality. ISTE, 2006.

Čepička D., Apfelböck H., Kroschel A., LÖ Ch. (2005): Zmatená hlášení Windows.

PCWorld, 1.2.2005. Citováno 18.6. 2014. On-line http://pcworld.cz/software/zmatena-

hlaseni-windows-12164

Dragicevič, S.: Multi-Dimensional Interpolations with Fuzzy Sets. In: Petry, F., Robinson, V.

B., Cobb, M. A. (Eds.), Fuzzy modeling with spatial information for geographic problems,

s. 143–. Berlin : Springer, 2005.

Dudek I. (1999): Poznání a neurčitost základní racionální přístupy a praktické metody. E-

LOGOS. ELECTRONIC JOURNAL FOR PHILOSOPHY/99. ISSN 1211-0442

Ďuračiová R., Lieskovský T., Stopková E., Kročková K. (2013): The benefit of fuzzy logic to

protection of cultural andhistorical heritage. In proceedings of GIS Ostrava 2013 -

Geoinformatics for City Transformation. Ostrava, VŠB-TUO, 2013. 12 stran.

Eastmann J.R. (2001): Idrisi 32. Release 2. Guide to GIS and Image Processing. Volume 2.

2001. Worcester: Clark Labs. p.151.

Eastman, J.R., Kyem, P.A.K., Toledano, J. and Jin, W., (1993). GIS and Decision Making,

Explorations in Geographic Information System Technology, 4, UNITAR, Geneva.

Fisher P., Comber A., Wadsworth R.: Approaches to Uncertainty in Spatial Data (2006). In

Devillers R., Jeansoulin R. (Eds) „Fundamentals of spatial data quality“, 2006, London:

ISTE.

Fonte, C. C., Lodwick, W. A.: Modelling the Fuzzy Spatial Extent of Geographical Entities.

In: Petry, F., Robinson, V. B., Cobb, M. A. (Eds.), Fuzzy modeling with spatial

information for geographic problems, s. 120–142. Berlin : Springer, 2005. ISBN

3540237135.

http://sofe2.pepiino.cz/wiki/doku.php?id=fuzzy_logika

http://pcworld.cz/software/zmatena-hlaseni-windows-12164

http://pcworld.cz/software/zmatena-hlaseni-windows-12164

Harding J. (2006): Vector Data Quality: A Data Provider’s Perspective. In Devillers R.,

Jeansoulin (eds): Fundamentals of Spatial Data Quality. ISTE, 2006.

Hendl J. (2006): Přehled statistických metod zpracování dat: analýza a metaanalýza dat.

Portál, 2006. 583 s. 80-7367-123-9

Horák, J. (2013b): Zpracování dat v GIS. Skripta VŠB-TU Ostrava, Ostrava, 2013.

Horák, J. (2013a): Prostorová analýza dat. Skripta VŠB-TU Ostrava, Ostrava, 2013.

Horáková B.; Horák J.; Růžička J.; Duchoslav T. (2003): MIDAS - katalog geodat veřejné

správy do praxe. Učební text. Ostrava: VŠB-TU, 2003.

Hwang, S., Thill, J.-C. (2005): Modeling Localities with Fuzzy Sets and GIS. In: Petry, F.,

Robinson, V. B., Cobb, M. A. (Eds.), Fuzzy modeling with spatial information for

geographic problems, s. 73–104. Berlin: Springer, 2005.

Inspektor T. (2011): Metody agregace a adjustace geodat pro sledování prostorové segregace

na příkladu Ostravy (2011)

Krivoruchko K., Crawford C.A.G.: Assesing the Uncertainity Resulting from Geoprocessing

Operations (2005). In Maguire, DJ, Batty M, Goodchild MF: GIS, Spatial Analysis and

Modeling. ESRI 2005. s. 68-92 (i dále až 129)

Kubíček P. (2012): Vybrané aspekty vizualizace nejistoty geografických dat. Habilitační

práce. Univerzita obrany Brno.

Lampart M., Horák J., Ivan I. (2013). Úvod do dynamických systémů: teorie a praxe v

geoinformatice. VŠB-TU Ostrava. 200 s. ISBN 978-80-248-3185-5.

Longley, P.A., Goodchild M.F., Maguire D.J., Rhind D.W. (2005): Geographical Information

Systems and Science. Wiley, 2005 (kap. 6 Uncertainty, 127-153 s.)

Maguire, DJ, Batty M, Goodchild MF (2005): GIS, Spatial Analysis and Modeling. ESRI

2005.

Morris, A., Jankowski, P.: Spatial Decision Making Using Fuzzy GIS. In: Petry, F.,

ROBINSON, V. B., COBB, M. A. (Eds.), Fuzzy modeling with spatial information for

geographic problems, s. 275–298. 2005. ISBN 3540237135.

Murgante B., Borruso G., Lapucci A. (2009): Geocomputation & Urban Planning, SCI 176,

(Geocomputation and Urban Planning.pdf)

Novák V. (1989): Fuzzy množiny a jejich aplikace. SNTL. ISBN 80-03-00325-3.

Novák, V. (2000): Základy fuzzy modelování. BEN – technická literatura, Praha, 2000. 176

str.

Paclíková, L. (2012): Evaluace výsledků vybraných prostorových analýz při využití fuzzy

teorie množin a fuzzy logiky. Bakalářská práce, Univerzita Palackého v Olomouci, 2012.

Rapant, P. (2006): Geoinformační technologie. Ostrava.

Rapant, P. (2002): Úvod do GIS. Skripta PGS. Ostrava.

Tomlin, C. D. (1990): Geographic Information Systems and Cartographic Modelling, Prentice

Hall 1990.

Servigne S., LeSage N., Libourel T. (2006): Approaches to Uncertainty in Spatial Data. In

Devillers R., Jeansoulin (eds): Fundamentals of Spatial Data Quality. ISTE, 2006.

Shi W. (2010): Principles of modeling Uncertainties in Spatial Data and Spatial Analysis.

CRC press. 2010.

Schovánek P., Havránek V. (2012): Chyby a nejistoty měření

http://fyzika.upol.cz/cs/system/files/download/vujtek/texty/pext2-nejistoty.pdf

Swoboda H. (1997): Moderní statistika. Praha: Svoboda.

Škrabánek P. (2014): Teorie fuzzy množin a její aplikace. VUT Brno, 2014.

https://www.researchgate.net/profile/Pavel_Skrabanek/publication/309010508_Teorie_fuz

zy_mnozin_a_jeji_aplikace/links/57fdcca508ae49db47554278/Teorie-fuzzy-mnozin-a-jeji-

aplikace.pdf

Worboys M., Duckham M. (2004): Geographic Information Systems: A Computing

Perspective (2nd Edition), CRC Press, Boca Raton, Florida, 2004. ISBN: 0415283752.

http://fyzika.upol.cz/cs/system/files/download/vujtek/texty/pext2-nejistoty.pdf

Příloha 1 Kvalita dat a její míry podle norem ISO Cíle standardizace je zajistit interoperabilitu, sdílení a využitelnost dat a služeb. Základní

nástrojem standardizace jsou technické normy, případně jiné standardizační dokumenty.

Bohužel současné české překlady norem řady ISO 191xx neumožňují bezprostřední použití a

uživatel musí nahlížet i do anglických originálů těchto norem a výklad adekvátně přizpůsobit.

ISO 19104 obsahuje definici základní termínů v oblasti geografické informace, tedy i prvků

neurčitosti a kvality dat.

ISO 19113 stanoví zásady pro popis kvality geografických dat a specifikuje komponenty pro

vykazování informace o kvalitě.

ISO 19114 obsahuje postupy pro vyhodnocení kvality geografických dat.

ISO 19138 obsahuje specifikaci doporučených měr kvality dat pro vykazování kvality dat.

Kvalita dat vyžaduje, aby byla vykazována producentem a vyhodnocována uživatelem ve

srovnání s jeho požadavky vůči různým kritériím a mírám kvality dat. Výsledky výkazů

kvality musí být vyjádřeny porovnatelným způsobem a je potřebné, aby existovalo společné

chápání měr kvality dat, které byly použity. Je nutné, aby kvalita vykázaná pro datovou sadu

obsahovala míry kvality, které mohou být pro potenciálního uživatele této sady dat zajímavé,

a aby metrika použitá k určení kvality byla vykázána a byla uživateli k dispozici (ISO 19138).

2. Termíny použité v normách řady ISO 191xx

správnost (correctness) (ISO 19138)

soulad s univerzem diskurzu

základní míra kvality dat (data quality basic measure) (ISO 19138)

generická míra kvality dat použitá jako základ pro vytváření konkrétních měr kvality dat

POZNÁMKA Základní míry kvality dat jsou abstraktní datové typy. Nemohou být použity

přímo při vykazování kvality dat.

rozsah kvality dat (data quality scope) (ISO 19113)

rozsah nebo charakteristika (charakteristiky) dat, pro které se vykazuje informace o kvalitě

POZNÁMKA Rozsah kvality dat pro sadu dat může zahrnovat řadu datových sad, k níž daná datová sada

přináleží, vlastní sadu dat nebo menší uskupení dat fyzicky umístěných v sadě dat, kde sdílejí společné

charakteristiky. Společnými charakteristikami mohou být identifikovaný typ vzhledu, atribut vzhledu nebo vztah

vzhledů; kritéria sběru dat; původní zdroj; nebo specifikovaný geografický či časový rozsah.

chyba (error) (ISO 19138)

rozpor s univerzem diskurzu

3. Prvky kvality podle ISO 19113

Následující tabulka byla upravena, protože některé české překlady a výklad jsou

nekonzistentní nebo neodpovídají významu a bylo potřebné doplnit další vysvětlení.

Tabulka P1 Prvky kvality dat a podprvky kvality dat s definicemi (upraveno z ISO 19113)

Prvek kvality dat Podprvek kvality dat Definice dle ISO 19113 Výklad

úplnost (completeness) přidání (commission) excess data present in a dataset nadbytečná data v datové

sadě (chyby II.druhu)

vynechání (omission) data absent from a dataset chybějící data v datové sadě

(chyby I.druhu)

logická konzistence

(bezespornost) (logical

consistency)

konceptuální konzistence

(conceptual consistency)

adherence to rules of the

conceptual schema

dodržení pravidel

konceptuálního schématu

doménová konzistence

(domain consistency)

adherence of values to the value

domains

dodržení příslušnosti hodnot

do domén hodnot

formátová konzistence

(format consistency)

degree to which data is stored in

accordance with the physical

structure of the dataset

dodržení souladu formátu

uložené sady dat

s požadovanou strukturou

sady dat

topologická konzistence

(topological consistency)

correctness of the explicitly

encoded topological

characteristics of a dataset

dodržení explicitně

evidovaných topologických

charakteristik datové sady

polohová přesnost

(positional accuracy)

absolutní nebo vnější

přesnost (absolute or

external accuracy)

closeness of reported coordinate

values to values accepted as or

being true

míra shody vykazovaných

hodnot souřadnic ke

skutečným hodnotám

relativní nebo vnitřní

přesnost (relative or

internal accuracy)

closeness of the relative positions

of features in a dataset to their

respective relative positions

accepted as or being true

míra shody relativních poloh

geoprvků v sadě dat k jejich

příslušným relativním

skutečným polohám

polohová přesnost

rastrových dat (gridded

data position accuracy)

closeness of gridded data

position values to values

accepted as or being true

míra shody hodnot polohy

(buněk) rastrových dat

ke skutečným hodnotám

časová přesnost (temporal

accuracy)

přesnost měření času

(accuracy of a time

measurement)

correctness of the temporal

references of an item (reporting

of error in time measurement)

míra shody časového údaje se

skutečností

časová konzistence

(temporal consistency)

correctness of ordered events or

sequences, if reported dodržení pořadí

uspořádaných událostí nebo

posloupností, pokud se

pořadí vykazuje

časová platnost (temporal

validity)

validity of data with respect to

time

platnost dat s ohledem na čas

tematická přesnost

(thematic accuracy)

správnost klasifikace

(classification correctness)

comparison of the classes

assigned to features or their

attributes to a universe of

discourse (e.g. ground truth or

reference dataset)

porovnání tříd, použitých ke

klasifikaci geoprvků nebo

jejich atributů, s univerzem

diskurzu (např. s referenční

sadou dat)

správnost nekvantitativních

atributů (non-quantitative

attribute correctness)

correctness of non-quantitative

attribute

správnost nekvantitativních

atributů

přesnost kvantitativních

atributů (quantitative

attribute accuracy)

accuracy of quantitative

attributes

míra shody kvantitativních

atributů ke skutečným

hodnotám

V tabulce se používá termín „skutečné“ hodnoty (či polohy), což jsou hodnoty, které jsou

poklá-dány za skutečné nebo jsou skutečné. Pravou hodnotu údaje zpravidla neznáme, za

skutečnou hodnotu je pak považováno nejlepší možné zjištění.

Není jasný rozdíl mezi správností klasifikace a správností nekvantitativních atributů.

4. Struktura měr kvality dat podle ISO 19113

Pro specifikaci měr kvality je použita následující tabulka.

Tabulka P2 Komponenty definující míru kvality dat (ISO 19138)

Řádek Komponenta Popis Povinnost/podmínka

1 Jméno (Name) Jméno míry kvality dat aplikované na data M

2 Přezdívka (Alias) a Jiné oficiálně přijaté jméno, zkratka nebo krátké

jméno pro tutéž míru kvality dat

O

3 Prvek kvality dat (Data

quality element)

Jméno prvku kvality dat, pro nějž se vykazuje kvalita M

4 Podprvek kvality dat (Data

quality subelement)

Jméno podprvku kvality dat, pro nějž se vykazuje

kvalita

M

5 Základní míra kvality dat

(Data quality basic measure)

Jméno základní míry kvality dat, z níž je odvozena

míra kvality dat

C/pokud je odvozena ze základní

míry

6 Definice (Definition) Definice základního pojmu pro míru kvality dat M

7 Popis (Description) Popis míry kvality dat včetně všech vzorců a/nebo

ilustrací potřebných pro zjištění výsledku aplikování

míry

C/pokud není definice postačující

pro pochopení pojmu míry kvality

dat

8 Parametr (Parameter) a Pomocná proměnná použitá mírou kvality dat včetně

jejího jména, definice a volitelně jejího popisu

C/pokud je zapotřebí

9 Typ hodnoty kvality dat

(Data quality value type) a

Typ hodnoty pro vykázání výsledku kvality dat M

10 Struktura hodnot kvality dat

(Data quality value

structure)

Struktura pro vykázání složitého výsledku kvality dat O

11 Odkaz na zdroj (Source

reference) a

Odkaz na zdroj položky, která byla převzata z

externího zdroje

C/pokud nějaký externí zdroj

existuje

12 Příklad (Example) a Ukázka použití míry kvality dat O

13 Identifikátor (Identifier) Celé číslo jednoznačně identifikující míru kvality dat C/pokud jsou míry kvality dat

spravovány v nějakém registru

a Připouští se více záznamů. Kdykoliv se hodnoty pro volitelné a podmíněné prvky nevyskytují, mělo by to být indikováno přiřazením znaku "—" k příslušné komponentě.

Obrázek P1 Specifikace míry kvality dat (ISO 19138)

5. Základní míry kvality dat související s neurčitostí podle ISO 19113

Statistické metody používané pro definování měr kvality dat souvisejících s neurčitostí jsou

založeny na jistých předpokladech:

neurčitosti jsou pro všechny pozorované hodnoty homogenní;

pozorované hodnoty nejsou korelované;

pozorované hodnoty mají normální rozdělení.

Jednorozměrná náhodná proměnná Z(one-dimensional random variable)

Pro spojitou měřenou veličinu (tj. doménou hodnot měřených veličin jsou reálná čísla) je

nemožné udat pravděpodobnost jednotlivé hodnoty, která má být skutečnou hodnotou. Je ale

možné udat pravděpodobnost pro skutečnou hodnotu, že je v určitém intervalu. Tento interval

se nazývá intervalem spolehlivosti. Je dán pravděpodobností P, že se skutečná hodnota

nachází mezi dolní a horní mezí.

P(dolní mez ≤ skutečná hodnota ≤ horní mez) = P

Jestliže je známa směrodatná odchylka , jsou meze dány kvantily u normálního rozdělení

t tP z u z u skutečná hodnota P .

Pokud je směrodatná odchylka známa a priori, použije se následující tabulka, pokud je

směrodatná odchylka odhadována z nadbytečných pozorování, může být interval spolehlivosti

odvozen ze Studentova rozdělení t (viz další tabulka).

Tabulka P3 Vztah základních měr kvality dat ke kvantilům normálního rozdělení a pravděpodobnosti (podle ISO

19138)

Pravděpodobnost

P Kvantil

Základní míra

kvality dat

Zkratka (označení)

základní míry kvality

P = 68,3 % , %68 3u = 1 , %68 3 Zu LE68.3

P = 50 % %50u = 0,6745 %50 Zu LE50

P = 90 % %90u = 1,645 %90 Zu LE90

P = 95 % %95u = 1,960 %95 Zu LE95

P = 99 % %99u = 2,576 %99 Zu LE99

P = 99,8 % , %99 8u = 3 , %99 8 Zu LE99.8

Jestliže směrodatná odchylka není známa, ale jednorozměrná náhodná proměnná je

změřena nadbytečně nezávislými pozorováními, je možné odhadnout směrodatnou

odchylku z pozorování.

miz reprezentuje ité měření hodnoty. Jestliže je známa skutečná hodnota zt pro , lze

odhadnout směrodatnou odchylku podle vztahu

( )2

1

1N

Z mi t

i

s z zr

s nadbytečností r, která je počtem pozorování r = N. Jestliže skutečná hodnota není známa,

může být odhadnuta jako aritmetický průměr pozorování 1

N

t mi

i

z z

.

Směrodatná odchylka pak může být odhadnuta s použitím téhož vzorce pro r = N 1.

Interval spolehlivosti je odvozen ze Studentova rozdělení t s parametrem r (r je počet

nadbytečných měření):

z t zP t s Z z t s P s ( ) / ~ ( )t zZ z s t r

Tabulka P4 Vztah mezi kvantily Studentova rozdělení t a pravděpodobnosti pro různých počet nadbytečných hodnot

(r) (podle ISO 19138)

Pravděpodobnost P Kvantil

pro r = 10

Kvantil

pro r = 5

Kvantil

pro r = 4

Kvantil

pro r = 3

Kvantil

pro r = 2

Kvantil

pro r = 1

P = 50 % t = 1,221 t = 1,301 t = 1,344 t = 1,423 t = 1,604 t = 2,414

P = 68,3 % t = 1,524 t = 1,657 t = 1,731 t = 1,868 t = 2,203 t = 3,933

P = 90 % t = 2,228 t = 2,571 t = 2,776 t = 3,182 t = 4,303 t = 12,706

P = 95 % t = 2,634 t = 3,163 t = 3,495 t = 4,177 t = 6,205 t = 25,452

P = 99 % t = 3,581 t = 4,773 t = 5,598 t = 7,453 t = 14,089 t = 127,321

P = 99,8 % t = 4,587 t = 6,869 t = 8,610 t = 12,924 t = 31,599 t = 636,619

Tabulka P5 Vztah základních měr kvality dat ke kvantilům Studentova rozdělení a pravděpodobnosti (podle ISO

19138)

Pravděpodobnost P Základní míra kvality dat Zkratka (označení) základní míry

kvality

P = 50,0 % %( )50 Zt r s LE50(r)

P = 68,3 % , %( )68 3 Zt r s LE68.3(r)

P = 90,0 % %( )90 Zt r s LE90(r)

P = 95,0 % %( )95 Zt r s LE95(r)

P = 99,0 % %( )99 Zt r s LE99(r)

P = 99,8 % , %( )99 8 Zt r s LE99.8(r)

POZNÁMKA Hodnoty t pro počet nadbytečných hodnot r lze získat z předchozí tabulky.

Dvojrozměrná náhodná proměnná X a Y (two-dimensional random variable)

Případ jednorozměrné náhodné proměnné Z lze rozšířit na dva rozměry, kde je měřená

veličina vždy pozorována dvěma hodnotami. Měřená veličina je dána dvojicí X a Y. Platí zde

stejné předpoklady jako v případě jednorozměrné náhodné proměnné.

Pozorování jsou xmi a ymi. Ekvivalence intervalů spolehlivosti ze všech rozměrů do jednoho

dává oblast spolehlivosti, která se obvykle popisuje jako kruh kolem nejlepšího odhadu pro

skutečnou hodnotu. Pravděpodobnost pro skutečnou hodnotu, že leží v této oblasti, se vypočte

plošnou integrací přes dvojrozměrnou hustotu pravděpodobnosti normálního rozdělení.

Kruhová oblast je charakterizována svým poloměrem. Tento poloměr R se používá jako míra

pro přesnost dvojrozměrných náhodných proměnných:

( ) ( )

( ) ( )

( , , )

2 212 2 2

2 2 2

1e d d

2

t t

X Y

t t

x x y y

X YX Y

x x y y R

P R x y

Pro některé konkrétní pravděpodobnosti může být tento poloměr vypočten v závislosti na

směrodatných odchylkách x a y.

Tabulka P6 Vztah mezi pravděpodobností P a odpovídajícím poloměrem kruhové oblasti

Pravděpodobnost P Základní míra kvality dat Zkratka (označení) základní míry kvality

P = 39,4 % 2 21

2x y CE39.4

P = 50 % , 2 211774

2x y CE50

P = 90 % , 2 22 146

2x y CE90

P = 95 % , 2 22 4477

2x y CE95

P = 99,8 % , 2 23 5

2x y CE99.8

Trojrozměrná náhodná proměnná X, Y, Z(three-dimensional random variable)

Případ jednorozměrné náhodné proměnné Z lze rozšířit na tři rozměry, kde je měřená veličina

vždy pozorována třemi hodnotami. Měřená veličina je dána trojicí X, Y, Z. Platí zde stejné

předpoklady jako v případě jednorozměrné náhodné proměnné.

Pozorování jsou xmi, ymi a zmi. Ekvivalence intervalů spolehlivosti ze všech rozměrů do

jednoho dává objem spolehlivosti, který se obvykle popisuje jako koule kolem nejlepšího

odhadu pro skutečnou hodnotu. Pravděpodobnost pro skutečnou hodnotu, že leží v tomto

objemu, se vypočte objemovou integrací přes trojrozměrnou hustotu pravděpodobnosti

normálního rozdělení. Objem koule je charakterizován jejím poloměrem. Poloměr koule se

používá jako míra pro přesnost trojrozměrných náhodných proměnných (uvedené míry se

označují jako radiální).

Tabulka P7 Vztah mezi pravděpodobností P a odpovídajícím poloměrem kulového objemu

Pravděpodobnost P Základní míra

kvality dat Jméno podle ČSN ISO Opravené jméno

P = 50 % ,0 51 x y z pravděpodobnost kulové

chyby (SEP)

Pravděpodobná trojrozměrná

chyba pro pravděpodobnost 50%

(SEP)

P = 61 % 2 2 2x y z

střední radiální kulová

chyba (MRSE)

střední radiální trojrozměrná

chyba (MRSE)

P = 90 % ,0 833 x y z norma 90% kulové

přesnosti



P = 99 % ,1122 x y z norma 99% kulové

přesnosti



6. Přehled jednotlivých měr kvality dat dle ISO 19138

6.1 úplnost (completeness)

6.1.1 Přidání (Commission)

Míra kvality: nadbytečná položka (Excess item)

Vysvětlení: indikace, že je položka v datech uvedena nesprávně.

Výsledkem je seznam položek, které jsou v datové sadě uvedeny nadbytečně (chyba II.druhu,

chyba beta).

Míra kvality: počet nadbytečných položek (Number of excess items)

Vysvětlení: počet položek v datové sadě, které by v datové sadě neměly být.

Míra kvality: podíl nadbytečných položek (Rate of excess items)

Vysvětlení: poměr počtu nadbytečných položek v datové sadě ku počtu položek, které by v

datové sadě měly být.

Míra kvality: Počet zdvojených instancí geoprvků (Number of duplicate feature

instances)

Vysvětlení: počet geoprvků, které mají vícenásobný záznam v datové sadě (s identickou

polohou, identickými atributy)

6.1.2 Vynechání (Omission)

Míra kvality: chybějící položka (Missing item)

Vysvětlení: indikátor, který ukazuje, že konkrétní položka v datech chybí.

Výsledkem je seznam položek, které v datové sadě chybí (chyba I.druhu, chyba alfa)

Míra kvality: Počet chybějících položek (Number of missing items)

Vysvětlení: počet všech položek, které by měly být v datové sadě a chybějí.

Míra kvality: podíl chybějících položek (Rate of missing items)

Vysvětlení: poměr počtu chybějících položek v datové sadě ku počtu položek, které by v

datové sadě měly být.

6.2 Logická konzistence (Logical consistency)

6.2.1 Konceptuální konzistence (Conceptual consistency)

Příkladem porušení konceptuální konzistence je např. umístění geoprvků porušující

definovanou toleranci, vícenásobný výskyt geoprvků a neplatný překryt geoprvků.

Příklady (ISO 19138):

Příklad 1: Věže s identickými atributy a v rámci vyhledávací tolerance (vyhledávací

tolerance = 10 m)

Příklad 2: Most má přiřazenu neplatnou kategorii Doprava. Použít kategorii Dráha.

Příklad 3: Neplatné umístění Letiště dovnitř Jezera

Příklad 4: Neplatný překryt geoprvku Jezero s liniovým geoprvkem Dráha

Vysvětlivky

1 Most

2 Dráha

3 Jezero

4 Letiště

Míra kvality: nesouhlas s konceptuálním schématem (Conceptual schema

noncompliance)

Vysvětlení: indikace, že položka nesouhlasí s pravidly příslušného konceptuálního schématu.

Výsledkem je seznam případů porušení konzistence konceptuálního schématu.

Míra kvality: počet neplatných překrytů ploch (Number of invalid overlaps of surfaces)

Vysvětlení: celkový počet chybných překrytí v datové sadě.

Příklad: Výsledkem překrytí je 1 chybná oblast překrytí. Daná míra kvality bude mít hodnotu

1.

Vysvětlivky

1 Plocha 1

2 Plocha 2

3 Oblast překrytí

Míra kvality: podíl nesouhlasů s ohledem na pravidla konceptuálního schématu

(Noncompliance rate with respect to the rules of the conceptual schema)

Vysvětlení: poměr počtu položek v datové sadě, které nesouhlasí s pravidly konceptuálního

schématu, k počtu očekávaných položek (položek, o nichž se předpokládá, že v datové sadě

mají být)

Míra kvality: podíl souhlasů s ohledem na pravidla konceptuálního schématu

(Compliance rate with the rules of the conceptual schema)

Vysvětlení: poměr počtu položek v datové sadě, které souhlasí s pravidly konceptuálního

schématu, k počtu očekávaných položek (položek, o nichž se předpokládá, že v datové sadě

mají být)

6.2.2 Doménová konzistence (Domain consistency)

Míry kvantifikují případy porušení doménové integrity (viz databázová integritní omezení).

Míra kvality: neshoda s doménou hodnot (Value domain nonconformance)

Vysvětlení: indikace toho, jestli položka není ve shodě se svou doménou hodnot.

Výsledkem je seznam položek, které mají chybnou doménu hodnot.

Míra kvality: shoda s doménou hodnot (Value domain conformance)

Vysvětlení: indikace toho, že položka je ve shodě se svou doménou hodnot.

Výsledkem je seznam položek, které mají správnou doménu hodnot.

Míra kvality: Počet položek v neshodě se svou doménou hodnot (Number of items not in

conformance with their value domain)

Vysvětlení: počet všech položek v datové sadě, které nejsou ve shodě se svou doménou

hodnot.

Míra kvality: podíl shody s doménou hodnot (Value domain conformance rate)

Vysvětlení: poměr počtu položek v datové sadě, které jsou ve shodě se svou doménou hodnot,

k celkovému počtu položek v datové sadě

Míra kvality: podíl neshody s doménou hodnot (Value domain nonconformance rate)

Vysvětlení: poměr počtu položek v datové sadě, které nejsou ve shodě se svou doménou

hodnot, k celkovému počtu položek v datové sadě

6.2.3 Formátová konzistence (Format consistency)

Míra kvality: Počet neshod fyzické struktury (Physical structure conflicts)

Označení dle ČSN ISO: rozpory fyzické struktury

Vysvětlení: počet všech položek v datové sadě, které jsou uchovávány v rozporu s

požadovanou fyzickou strukturou datové sady

Míra kvality: Podíl neshod fyzické struktury (Physical structure conflict rate)

Označení dle ČSN ISO: podíl rozporů fyzické struktury

Vysvětlení: poměr počtu položek v datové sadě, které jsou uchovávány v rozporu s

požadovanou fyzickou strukturou datové sady, k celkovému počtu položek.

6.2.4 Topologická konzistence (Topological consistency)

Míra kvality: Počet chybných spojení bod-křivka (Number of faulty point-curve

connections)

Vysvětlení: počet chybných spojení bod-křivka v datové sadě

Příklad: Existují dvě spojení bod-křivka tam, kde by se mělo vyskytovat pouze jedno.

Křižovatka dvou ulic by měla být v průsečíku 1.

Míra kvality: Podíl chybných spojení bod-křivka (Rate of faulty point-curve

connections)

Vysvětlení: poměr počtu chybných spojení bod-křivka v datové sadě k počtu předpokláda-

ných spojení bod-křivka

Míra kvality: Počet chybějících spojení v důsledku nedotahů (Number of missing

connections due to undershoots)

Vysvětlení: počet položek v datové sadě, které nejsou v důsledku nedotahů vůči toleranci

parametru správně spojeny

Příklad: Silnice je ukončena před druhou silnicí dále než požadovaná tolerance 3 m (kruh 1),

konec není ukotven. Do míry se připočte hodnota 1.

Míra kvality: Počet chybějících spojení v důsledku přetahů (Number of missing

connections due to overshoots)

Vysvětlení: počet položek v datové sadě, které nejsou v důsledku přetahů vůči toleranci

parametru správně spojeny.

Příklad: Silnice je ukončena za druhou silnicí dále než požadovaná tolerance 3 m (kruh 1),

konec není ukotven.

Do míry se připočte hodnota 1.

Míra kvality: Počet neplatných fiktivních areálů (Number of invalid slivers)

Vysvětlení: počet všech položek v datové sadě, které jsou neplatnými fiktivními areály

Fiktivní areál je neúmyslně vzniklý areál, který se objeví v místech nedodržení horizontální

topologické konzistence (horizontální konflace), např. v důsledků nenávaznosti hranic

polygonů při digitalizaci. Hranice sousedních polygonů pak vytvářejí mezery nebo překryty

malých rozsahů, které jsou charakteristické relativně malou plochu vůči obvodu (tzv. třísky),

proto se pro jejich detekci používají vhodné tvarové koeficienty.

K určení neplatných fiktivních ploch dle ISO 19138 se používají 2 ukazatelé (parametry):

maximální velikost plochy fiktivního areálu

koeficient tloušťky (thickness ratio)

Koeficient tloušťky musí být reálné číslo mezi 0 a 1. Tento koeficient je určen následujícím

vzorcem:

T je koeficient tloušťky

T = 4 [plocha]/[obvod]2

Tento výpočet je shodný s běžně uváděným koeficientem tenkosti (thinness ratio). Ještě lepší

je však jeho vyjádření pomocí zakulacenosti, která má sice mírně jiný vztah, ale prakticky

vede ke stejným výsledkům a má logičtější pojmenování.

T = 1 hodnota odpovídá kruhu, který má největší hodnotu poměru plocha/obvod2.

T = 0 hodnota odpovídá linii, která má nejmenší hodnotu poměru plocha/obvod2.

Koeficient tenkosti tloušťky je nezávislý na velikosti plochy, a čím je hodnota blíže 0, tím

jsou fiktivní areály tenčí.

Maximální plocha určuje horní hranici velikosti fiktivního areálu. Tím se zajistí, aby nebyly

areály s křivolakými obvody a velkými plochami mylně považovány za fiktivní areály (viz

následující obrázky).

Obrázek P2 Řeka je zčásti reprezentována linií (1) a ve střední části polygonem (2). Polygon není vyhodnocen jako

fiktivní areál, protože má plochu větší než stanovený limit.

Obrázek P3 Vedle řeky reprezentované polygonem (3) je digitalizován polygon břehového písku (1) a mezi nimi vznikl

fiktivní areál (2), správně indikovaný protože má odpovídající koeficient tloušťky a malou (podlimitní) plochu.

Míra kvality: Počet chyb neplatných sebeprůseků (Number of invalid self-intersect

errors)

Vysvětlení: počet všech položek v datech, které nepřípustně protínají samy sebe

Obrázek P4 Stavba (1) a nepřípustný průsek (2) (ISO 19138)

Míra kvality: Počet chyb neplatných sebepřekrytů (Number of invalid self-overlap

errors)

Vysvětlení: počet všech položek v datech, které nepřípustně překrývají samy sebe

Obrázek P5 Přehozené pořadí lomových bodů 2 a 3 způsobuje nepřípustný překryt části linie, což je naznačeno

šipkami nad linií.

6.3 Polohová přesnost (Positional accuracy)

6.3.1 Absolutní nebo vnější přesnost (Absolute or external accuracy)

Míra kvality: průměrná chyba polohy (Mean value of positional uncertainties)

Míra kvality dle ČSN ISO: střední hodnota polohových neurčitostí

Vysvětlení: aritmetický průměr vzdáleností mezi měřenými polohami bodů a těmi, které jsou

považovány za odpovídající skutečné polohy

Pro počet bodů (N), jsou dány měřené polohy jako souřadnice xmi, ymi a zmi v závislosti na

rozměru, v němž se poloha bodu měří. Přiřazená množina souřadnic, xti, yti a zti, je pokládána

za reprezentaci skutečných poloh.

Chyby se vypočtou takto:

1D: i mi tie x x

2D: ( ) ( )2 2

i mi ti mi tie x x y y

3D: ( ) ( ) ( )2 2 2

i mi ti mi ti mi tie x x y y z z

Průměrná chyba absolutních nebo vnějších poloh se pak vypočte:

ē = 1

1N

i

i

eN

Mělo by také být stanoveno kritérium pro určení správné korespondující skutečné polohy

(např. korespondence s nejblíže se nacházející polohou, korespondence ve vrcholech podél

linií). Kritérium/kritéria pro nalezení přiřazovaných bodů musí být vykázána s výsledkem

vyhodnocení kvality dat.

Míra kvality: průměrná chyba polohy s vyloučením odlehlých hodnot (Mean value of

positional uncertainties excluding outliers)

Míra kvality dle ČSN ISO: střední hodnota polohových neurčitostí s vyloučením odlehlých

hodnot

Vysvětlení: aritmetický průměr vzdáleností mezi měřenými polohami bodů a těmi, které jsou

považovány za odpovídající skutečné polohy, s vyloučením těch vzdáleností, které překračují

definovaný práh

Míra kvality se vypočte obdobně jako u předchozí míry, pouze s uplatněním kritéria:

i ii

i

e e ee

e e

max

max

, jestliže

0, jestliže

kde emax je práh pro přijetí polohové chyby.





Míra kvality: počet chyb polohy překračujících daný práh (Number of positional

uncertainties above a given threshold)

Míra kvality dle ČSN ISO: počet polohových neurčitostí překračujících daný práh

Vysvětlení: Chyby jsou definovány jako vzdálenost mezi měřenou polohou a tou, která je

pokládána za odpovídající skutečnou polohu. Sleduje se počet chyb, které překročili zvolený

práh emax.





Míra kvality: podíl chyb polohy překračujících daný práh (Rate of positional errors

above a given threshold)

Míra kvality dle ČSN ISO: podíl polohových neurčitostí překračujících daný práh

Vysvětlení: Poměr počtu chyb, které překročili zvolený práh emax, k celkovému počtu chyb (tj.

počtu měřených bodů).





Míra kvality: kovarianční matice (Covariance matrix)

Vysvětlení: symetrická čtvercová matice s rozptyly souřadnic bodů na hlavní diagonále a

kovariancemi mezi těmito souřadnicemi jako nediagonálními prvky.

Kovarianční matice zobecňuje pojem rozptylu z jednoho do n rozměrů, tj. ze skalárních

náhodných proměnných na vektorové náhodné proměnné (ntice skalárních náhodných

proměnných).

(1) Souřadnice 1D (např. výšková data)

Vektorová náhodná proměnná: 1

1n

x

x

x

Její kovarianční matice:

21 1

21

x x xn

xx

xnx xn

, s 1 1x xn xnx

21x označuje rozptyl prvku 1x , jeho druhá odmocnina udává směrodatnou odchylku tohoto

prvku 21 1x x .

Korelace mezi 2 prvky může být vypočtena takto:

xixjxixj

xi xj

. Jestliže jsou souřadnice nekorelované, mají nediagonální prvky hodnotu 0.

(2) Souřadnice 2D

Vektorová náhodná proměnná:

1

1

n

x

yx

y


21 1 1 1

21 1 1 1

21 1

x x y x yn

y x y y ynxx

ynx yny yn

,

(3) Souřadnice 3D


1

1

1

n

n

x

y

zx

y

z


21 1 1 1 1 1 1

21 1 1 1 1 1 1

21 1 1 1 1 1 1

21 1 1

21 1 1

x x y x z x yn x zn

x y y y z y yn y zn

x z y z z z yn z znxx

x yn y yn z yn yn ynzn

x zn y zn z zn ynzn zn

,

(4) Libovolné pozorovatelné veličiny:


a

bx

z


2

2

2

a ba za

ab ba b zbxx

az za bz zb z

6.3.2 Výškové polohové chyby (Vertical positional uncertainties)

Míra kvality: Očekávaná jednorozměrná chyba s pravděpodobností 50% (Linear error

probable)

Míra kvality dle ČSN ISO: pravděpodobnost lineární chyby (LEP)

Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí, kde se skutečná

hodnota nachází s pravděpodobností 50 %. Pro stanovení intervalu se aplikuje LE50 nebo

LE50(r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.

Míra kvality: Očekávaná jednorozměrná chyba s pravděpodobností 68,3% (Standard

linear error)

Míra kvality dle ČSN ISO: směrodatná lineární chyba (SD)

Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí ve vzdálenosti +/- 1

směrodatné odchylky, kde se skutečná hodnota nachází s pravděpodobností 68,3 %. Pro

stanovení intervalu se aplikuje LE68.3 nebo LE68.3 (r) (viz tabulka P3 nebo P5) v závislosti

na postupu vyhodnocení.

Míra kvality: Očekávaná jednorozměrná chyba s pravděpodobností 90 % (Linear map

accuracy at 90 % significance level)

Míra kvality dle ČSN ISO: lineární mapová přesnost na 90% hladině významnosti (LMAS 90

%)



LE90 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.




%)







%)




Míra kvality: Očekávaná jednorozměrná chyba s pravděpodobností 99.8 % (Near

certainty linear error)

Míra kvality dle ČSN ISO: lineární chyba kvazijistoty


směrodatné odchylky, kde se skutečná hodnota nachází s pravděpodobností 99,8 %. Pro



Míra kvality: střední (jednorozměrná) chyba (Root mean square error)

Míra kvality dle ČSN ISO: směrodatná chyba (RMSE)

Vysvětlení: standardně zjišťovaná střední chyba RMSE pro jednorozměrná data.

Míra kvality: absolutní jednorozměrná chyba s pravděpodobností 90% (alternativa 1)

(Absolute linear error at 90 % significance level of biased vertical data (Alternative 1))

Míra kvality dle ČSN ISO: absolutní lineární chyba na 90% hladině významnosti

vychýlených výškových dat (alternativa 1)

Vysvětlení: absolutní chyba

Způsob výpočtu dle ISO 19138 (tato alternativa převzata z NATO STANAG):

Porovnání dat (zdroje) a kontroly (reference) se vypočte následujícím způsobem:

1. Vypočítat absolutní chybu ve výškovém rozměru v každém bodu:

i i iV V V zdrojová referenční pro i = 1 … N

2. Vypočítat absolutní hodnotu průměrné výškové chyby:

1

1N

i

i

V VN

3. Vypočítat střední chybu pro rozdíly mezi zkoušeným produktem a referenčním

zdrojem:

2M

1

1

1

N

i

i

VN

= RMSE

4. Vypočítat lineární směrodatnou odchylku chyb v referenčním zdroji:

R

5. Vypočítat lineární směrodatnou odchylku chyb ve zkoušeném produktu:

2 2M R

6. Vypočítat poměr absolutní hodnoty průměrné chyby ke směrodatné odchylce:

V

V

poměr

7. Jestliže je ,poměr 1 4 , pak ,V LMAS 1 282 poměr

8. Jestliže je ,poměr 1 4 , pak vypočítat k na základě poměru absolutní hodnotu průměrné

výškové chyby ke směrodatné odchylce výšek podle vztahu

V

2 3LMAS 1,6435 0,92 poměr 0,28 poměr

Rozsah výběru: obvykle se použije minimálně 30 bodů, ale v závislosti na identifikovatelných

kontrolních bodech to nemusí být vždy možné.

Míra kvality: absolutní jednorozměrná chyba s pravděpodobností 90% (alternativa 2)

(Absolute linear error at 90 % significance level of biased vertical data)

Míra kvality dle ČSN ISO: absolutní lineární chyba na 90% hladině významnosti

vychýlených výškových dat (alternativa 2)

Vysvětlení: absolutní chyba

Způsob výpočtu dle ISO 19138:


1. Vypočítat absolutní chybu ve výškovém rozměru v každém bodu:

i i iV V V zdrojová referenční pro i = 1 … N

2. Vypočítat průměrnou výškovou chybu v absolutní hodnotě :

1

1N

i

i

V VN

3. Vypočítat střední chybu pro rozdíly mezi zkoušeným produktem a referenčním

zdrojem:

2

1

1

1

N

V i

i

VN


/ VV poměr

5. Jestliže je ,poměr 1 4 , pak ,1 2815k

6. Jestliže je ,poměr 1 4 , pak vypočítat k na základě poměru výškového vychýlení ke

směrodatné odchylce výšek s využitím kubického polynomického vyrovnání prostřednictvím

tabelárních hodnot dle definice v Handbook of Tables for Probability and Statistics (odkaz

[5]).

, , , ,k 2 31 643 5 0 999 556 poměr 0 923 237 poměr 0 282 533 poměr

7. Vypočítat LE90 pro zdroj:

VV k zdrojLE90

8. Vypočítat absolutní LE90:

2 2abs reference zdrojLE90 LE90 LE90



6.3.2 Dvourozměrné (horizontální) polohové chyby (Horizontal positional uncertainties)

Míra kvality: Očekávaná dvourozměrná chyba s pravděpodobností 39.4% (Circular

standard deviation)

Míra kvality dle ČSN ISO: kruhová směrodatná odchylka (Helmertova chyba bodu, CSE)

Vysvětlení: poloměr kruhu, v němž se nachází skutečné místo bodu s pravděpodobností

39,4%.

Míra kvality: Očekávaná dvourozměrná chyba s pravděpodobností 50 % (Circular

error probable)

Míra kvality dle ČSN ISO: pravděpodobnost kruhové chyby (CEP)

Vysvětlení: poloměr popisující kruh, v němž se nachází skutečné místo bodu s

pravděpodobností 50%.

Míra kvality: Očekávaná dvourozměrná chyba s pravděpodobností 90 % (Circular map

accuracy standard)

Míra kvality dle ČSN ISO: norma kruhové přesnosti mapy (CMAS)



Míra kvality: Očekávaná dvourozměrná chyba s pravděpodobností 95 % (Circular

error at 95 % significance level)

Míra kvality dle ČSN ISO: kruhová chyba na 95% hladině významnosti (přesnost navigace)



Míra kvality: Očekávaná dvourozměrná chyba s pravděpodobností 99.8 % (Circular

near certainty error)

Míra kvality dle ČSN ISO: kruhová chyba kvazijistoty (CNCE)


pravděpodobností 99.8% (3 směrodatné odchylky).

Míra kvality: Střední dvourozměrná chyba (Root mean square error of planimetry)

Míra kvality dle ČSN ISO: směrodatná chyba polohopisu (RMSEP)

Vysvětlení: poloměr kruhu kolem daného bodu ve vzdálenosti 1 směrodatné odchylky

(nachází se v něm skutečná poloha bodu s pravděpodobností 68.3%).

Skutečné hodnoty pozorovaných souřadnic X a Y jsou známy jako xt a yt. Odtud odhad

( ) ( )2 2

1

1 n

mi t mi tix x y y

n

Míra kvality: absolutní dvourozměrná chyba s pravděpodobností 90% (alternativa 1)

(Absolute circular error at 90 % significance level of biased data (Alternative 1))

Míra kvality dle ČSN ISO: absolutní kruhová chyba na 90% hladině významnosti

vychýlených dat (alternativa 1) (CMAS)

Vysvětlení: absolutní horizontální polohová chyba souřadnic s 90% pravděpodobnosti

s ohledem na vychýlení



1. Vypočítat absolutní chybu v každém bodu pro každou souřadnici Xi a Yi:

i i i i iX X X Yi Y Y zdroj reference a zdroj reference pro

i = 1…N

2. Vypočítat střední vodorovnou chybu každé souřadnice:

N N

X Xi Y YiN N

1 1

1 1 a

3. Vypočítat kruhovou směrodatnou odchylku naměřených rozdílů mezi zkoušeným

produktem a referenčním zdrojem:

( )

2 2

CM

1 1

1

2 1

N N

i i

Xi X Xi XN

4. Vypočítat kruhovou směrodatnou odchylku chyb v referenčním zdroji: CR

5. Vypočítat kruhovou směrodatnou odchylku chyb ve zkoušeném produktu:

2 2C CM CR

6. Vypočítat absolutní kruhovou chybu na 90% hladině významnosti vychýlených dat

(CMAS):

, ,

2 2

CC

CMAS 1 294 3 0 725 4X Y

Míra kvality: absolutní dvourozměrná chyba s pravděpodobností 90% (alternativa 2)

(Absolute circular error at 90 % significance level of biased data (Alternative 2))

Míra kvality dle ČSN ISO: absolutní kruhová chyba na 90% hladině významnosti

vychýlených dat (alternativa 2) (ACE)

Vysvětlení: absolutní horizontální polohová chyba souřadnic s 90% pravděpodobnosti

s ohledem na vychýlení



1. Vypočítat absolutní chybu ve vodorovném rozměru v každém bodu:

i i i i iH X X Y Y 2 2

zdroj reference zdroj reference pro i = 1…N

2. Vypočítat průměrnou vodorovnou chybu:

HiH

N

3. Vypočítat směrodatnou odchylku vodorovných chyb:

2H

H 1iH

N


/H H poměr

5. Jestliže je ,poměr 1 4 , pak ,1 2815k

6. Jestliže je ,poměr 1 4 , pak vypočítat k, poměr průměru ke směrodatné odchylce, s

použitím kubického polynomického vyrovnání prostřednictvím tabelárních hodnot dle

definice v CRC Handbook of Tables for Probability and Statistics

, , , ,k 2 31 643 5 0 999 556 poměr 0 923 237 poměr 0 282 533 poměr

7. Vypočítat CE90 pro zdroj:

k zdroj H HCE90

8. Vypočítat absolutní CE90:

2 2abs reference zdrojCE90 CE90 CE90



Míra kvality: elipsa neurčitosti (Uncertainty ellipse)

Míra kvality dle ČSN ISO: elipsa neurčitosti, elipsa směrodatných bodových chyb

Vysvětlení: 2D elipsa s hlavní a vedlejší osou indikujícími směr a velikost chyb bodů ve 2D.

Určitou analogii je možné vidět u elipsy standardizované odchylky (standard deviation

ellipse), která slouží k vyjádření směrové odchylky pro případy výrazná anizotropie

v distribuci bodů (Horák, 2013).


Z dané kovarianční matice (míra kvality dat tabulka D.32) souřadnic 2D bodu lze určit prvky

popisující elipsu neurčitosti jejími vlastními hodnotami.

Pro jednotlivý bod k je kovarianční matice dána takto: 2

2

k xk xkyk

xxykxk yk

, s xkyk = ykxk

Směr α (směrník) hlavní poloosy elipsy je možno vypočítat následovně:

arctan2 2

21

2

xkyk

xk yk

a délky poloos:

2

2 2 2 2 214

2xk yk xk yk xkyka

2

2 2 2 2 214

2xk yk xk yk xkykb

Míra kvality: elipsa spolehlivosti (Confidence ellipse)

Míra kvality dle ČSN ISO: elipsa spolehlivosti, elipsa spolehlivosti chyby bodu

Vysvětlení: 2D elipsa se hlavní a vedlejší osou indikujícími směr a velikost chyb 2D bodů.

Má stejnou orientaci jako elipsa neurčitosti, ale její osy jsou větší (přibližně 3x). Obě poloosy

se vynásobí odmocninou ( )21 2

, které mají (bez druhé odmocniny) velikost:

P = 1 = 95 % 5,99

P = 1 = 99 % 9,21

6.3.3 Relativní nebo vnitřní přesnost (Relative or internal accuracy)

Míra kvality: relativní výšková chyba (Rel LE90) (Relative vertical error)

Vysvětlení: Vyhodnocení náhodných chyb jednoho geoprvku vůči jinému v téže sadě dat

nebo na téže mapě.

Je to funkce náhodných chyb ve dvou výškách se společným výškovým datem.


Porovnání (měřených) dat a kontroly (skutečnost) se vypočte následujícím způsobem:

1. Určit všechny možné kombinace dvojic bodů:

Kombinace dvojic bodů = m = n(n1) / 2

2. Vypočítat absolutní výškovou chybu v každém bodu:

Zi = Měřená výškai Skutečná výškai pro i = 1…n

3. Vypočítat relativní výškovou chybu pro všechny kombinace dvojic bodů:

Zrel kj = Zk Zj pro k = 1…m 1, j = k + 1, … m

4. Vypočítat relativní výškovou směrodatnou odchylku:

2

relrel

1Z

Z

m

5. Vypočítat relativní chybu pro pravděpodobnost 90%:

Rel LE90 = 1,645 Z rel

Míra kvality: relativní horizontální chyba (Relative horizontal error)

Míra kvality dle ČSN ISO: relativní vodorovná chyba (Rel CE90)

Vysvětlení: Vyhodnocení náhodných chyb v horizontální poloze jednoho geoprvku vůči

jinému v téže sadě dat nebo na téže mapě.

Je to funkce náhodných chyb ve dvou výškách se společným výškovým datem.


Porovnání (měřených) dat a kontroly (skutečnost) se vypočte následujícím způsobem:

1. Určit všechny možné kombinace dvojic bodů:

Kombinace dvojic bodů = m = n(n1)/2

2. Vypočítat absolutní chybu v rozměrech X a Y v každém bodu:

Xi = Měřená Xi Skutečná Xi pro i = 1…n

Yi = Měřená Yi Skutečná Yi pro i = 1…n

3. Vypočítat relativní chybu v X a Y pro všechny kombinace dvojic bodů:

Xrel kj = Xk Xj pro k = 1…m1, j = k+1, … m

Yrel kj = Yk Yj pro k = 1…m1, j = k+1, … m

4. Vypočítat relativní směrodatné odchylky v každé ose:

2

relrel

1X

X

m

2

relrel

1Y

Y

m

5. Vypočítat relativní vodorovnou směrodatnou odchylku:

2 2

rel relH rel

2

X Y

6. Vypočítat relativní chybu pro pravděpodobnost 90%:

Rel CE90 = 2,146 H rel

6.4 Časová přesnost (Temporal accuracy)

6.4.1 Přesnost měření času (Accuracy of a time measurement)

Míra kvality: očekávaná chyba času s pravděpodobností 68,3% (Time accuracy at 68,3

% significance level)

Míra kvality dle ČSN ISO: přesnost času na 68,3% hladině významnosti


směrodatné odchylky, kde se skutečná hodnota času nachází s pravděpodobností 68,3 %. Pro



Míra kvality: očekávaná chyba času s pravděpodobností 50% (Time accuracy at 50 %

significance level)

Míra kvality dle ČSN ISO: přesnost času na 50% hladině významnosti


hodnota času nachází s pravděpodobností 50 %. Pro stanovení intervalu se aplikuje LE50

nebo LE50 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.


significance level)






significance level)






significance level)





Míra kvality: očekávaná chyba času s pravděpodobností 99.8% (Time accuracy at 99,8

% significance level)

Míra kvality dle ČSN ISO: přesnost času na 99.8% hladině významnosti


hodnota času nachází s pravděpodobností 99.8 %. Pro stanovení intervalu se aplikuje LE99.8

nebo LE99.8 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.

6.4.2 Časová konzistence (Temporal consistency)

Pro tento podprvek kvality dat nejsou stanoveny žádné míry kvality dat.

6.4.3 Časová platnost (Temporal validity)

Časová platnost může být pojednána se stejnými mírami kvality dat, jaké platí pro hodnoty

atributů specifických pro jiné domény.

6.5 Tematická přesnost (Thematic accuracy)

6.5.1 Správnost klasifikace (Classification correctness)

Míra kvality: Počet nesprávně klasifikovaných geoprvků (Number of incorrectly

classified features)

Míra kvality dle ČSN ISO: Počet nesprávně klasifikovaných vzhledů

Vysvětlení: Počet špatně klasifikovaných geoprvků.

Míra kvality: podíl chybných klasifikací (Misclassification rate)

Vysvětlení: poměr počtu nesprávně klasifikovaných geoprvků k počtu geoprvků, o nichž se

předpokládá, že tu mají být

Míra kvality: matice počtu chybných klasifikací (Misclassification matrix)

Míra kvality dle ČSN ISO: matice chybných klasifikací (MCM)

Vysvětlení: matice, která indikuje počet položek třídy (i) klasifikovaných špatně jako třída (j).

Matice chybných klasifikaci je čtvercová matice s n sloupci a n řádky, kde n znamená počet

uvažovaných tříd.

MCM (i, j) = [# položky třídy (i) klasifikované jako třída ( j)]

Diagonální prvky matice chybných klasifikaci obsahují správně klasifikované položky

a nediagonální prvky obsahují počet chyb chybné klasifikace.

Míra kvality: matice relativního počtu chybných klasifikací (Relative misclassification

matrix)

Míra kvality dle ČSN ISO: matice relativních chybných klasifikací (RMCM)

Vysvětlení: matice, která indikuje počet položek třídy (i) klasifikovaných špatně jako třída (j),

dělený počtem položek třídy (i)

Matice chybných klasifikaci je čtvercová matice s n sloupci a n řádky, kde n znamená počet

uvažovaných tříd.

RMCM (i, j) = [# položky třídy (i) klasifikované jako třída ( j)] / (# položky třídy (i)] 100 %

Diagonální prvky matice obsahují správně klasifikované položky a nediagonální prvky

obsahují relativní počet chyb chybné klasifikace.

Míra kvality: koeficient kappa (Kappa coefficient)

Vysvětlení: koeficient, který hodnotí provedenou klasifikaci s klasifikací čistě náhodnou.

Běžný způsob výpočtu:

PO

POPP

1

kde PP je pozorovaná přesnost (z chybové matice) a PO je přesnost dosažitelná náhodnou

klasifikací.


S prvky matice chybných klasifikací MCM(i, j) uvedené jako míra kvality dat výše, může být

koeficient () vypočten takto:

( , ) ( , ) ( , )

( , ) ( , )

1 1 1 1

2

1 1 1

MCM MCM MCM

MCM MCM

r r r r

i i j j

r r r

i j j

N i i i j j i

N i j j i

N je počet klasifikovaných položek

6.5.2 Správnost nekvantitativních atributů (Non-quantitative attribute correctness)

Míra kvality: Počet nesprávných hodnot atributů (Number of incorrect attribute values)

Vysvětlení: celkový počet chybných hodnot atributů v příslušné části sady dat.

Míra kvality: podíl správných hodnot atributů (Rate of correct attribute values)

Vysvětlení: poměr počtu správných hodnot atributů k celkovému počtu hodnot atributů

Míra kvality: podíl nesprávných hodnot atributů (Rate of incorrect attribute values)

Vysvětlení: poměr počtu nesprávných hodnot atributů k celkovému počtu hodnot atributů

6.5.3 Přesnost kvantitativních atributů (Quantitative attribute accuracy)

Míra kvality: očekávaná chyba kvantitativního atributu s pravděpodobností 68.3%

(Attribute value uncertainty at 68,3 % significance level)

Míra kvality dle ČSN ISO: neurčitost hodnot atributů na 68,3% hladině významnosti

Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí ve vzdálenosti

±1 směrodatné odchylky, kde se skutečná hodnota kvantitativního atributu nachází

s pravděpodobností 68,3 %. Pro stanovení intervalu se aplikuje LE68.3 nebo LE68.3 (r) (viz

tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.

Míra kvality: očekávaná chyba kvantitativního atributu s pravděpodobností 50 %

(Attribute value uncertainty at 50 % significance level)

Míra kvality dle ČSN ISO: neurčitost hodnot atributů na 50 % hladině významnosti


hodnota kvantitativního atributu nachází s pravděpodobností 50 %. Pro stanovení intervalu se

aplikuje LE50 nebo LE50 (r) (viz tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.



















Míra kvality: očekávaná chyba kvantitativního atributu s pravděpodobností 99.8%

(Attribute value uncertainty at 99,8 % significance level)

Míra kvality dle ČSN ISO: neurčitost hodnot atributů na 99,8% hladině významnosti

Vysvětlení: poloviční délka intervalu definovaného horní a dolní mezí ve vzdálenosti

±3 směrodatné odchylky, kde se skutečná hodnota kvantitativního atributu nachází

s pravděpodobností 99,8 %. Pro stanovení intervalu se aplikuje LE99.8 nebo LE99.8 (r) (viz

tabulka P3 nebo P5) v závislosti na postupu vyhodnocení.

Autor Doc. Dr. Ing. Jiří Horák

Název Neurčitost v geoinformatice

Vydavatel VŠB-TU Ostrava

Vydání druhé

Rozsah 226 stran

Rok 2018

Copyright © Jiří Horák, 2018

Zdroj financování 1.vydání bylo financováno z projektu CZ.1.07/2.2.00/28.0308 Inovace

bakalářských a magisterských studijních oborů na Hornicko-geologické

fakultě VŠB-TUO, spolufinancovaného Evropským sociálním fondem a

státním rozpočtem České republiky

Date post:	17-Jan-2020
Category:	Documents
Upload:	others
View:	0 times
Download:	0 times

NEURČITOST V GEOINFORMATICEhomel.vsb.cz/~hor10/Vyuka/Neurcitost/Neurcitost_vysvetl.pdf · Vysoká...

Documents