Date post: | 01-Jul-2015 |
Category: |
Education |
Upload: | kohovoliteu |
View: | 235 times |
Download: | 4 times |
Hierarchický bayesovský model ekologické inference
Kamil Gregor
Otázka: Kolik procent podnikatelů volí TOP09?
To je snadné!
5
10
15
20
25
30
10 15 20 25 30
OSVČ v ORP (%)
TO
P0
9 v
PS
P 2
01
0 (
%)
Odpověď: (Asi) hodně.
Otázka: Kolik procent Romů volí DSSS?
Taky asi hodně…
WTF?
Ekologický klam
černoši běloši celkem
1000600 400
? ? 400 voliči
? ? 600 nevoliči
Ekologický klam
černoši běloši celkem
1000600 400
? ? 400 voliči
? ? 600 nevoliči
černoši běloši celkem
1000600 400
0 400 400 voliči
0 0 600 nevoliči
Ekologický klam
černoši běloši celkem
1000600 400
? ? 400 voliči
? ? 600 nevoliči
černoši běloši celkem
1000600 400
0 400 400 voliči
0 0 600 nevoliči
černoši běloši celkem
1000600 400
400 0 400 voliči
200 400 600 nevoliči
černoši běloši celkem
1000600 400
200 200 400 voliči
400 200 600 nevoliči
Základní statistická neurčitelnost
Pi = AiDi + Bi(1 – Di)
černoši bělošiCelkem
1Pi 1 – Pi
Ai Di – Ai Di voliči
Bi(1 – Di) – Bi 1 – Di nevoliči
Jak řešit neřešitelný problém?
1. Dotazníková šetření
Jak řešit neřešitelný problém?
1. Dotazníková šetření
2. Statistické modelování
Předpoklady modelů
• Populace obou pozorovaných proměnných je totožná
• Neexistuje prostorová autokorelace nepozorovaných proměnných
• Rozdělení nepozorovaných proměnných odpovídá námi zvolenému rozdělení
Dvourozměrné normální rozdělení
Bayesovské modelování
Bayesovské modelování
• Na začátku velmi obecné apriorní rozdělení hodnot nepozorovaných proměnných
• Podmíněné rozdělení je rozdělení hodnot pozorovaných proměnných
• Aposteriorní rozdělení se použije
K čemu je to dobré?
• Pokaždé, když máme agregovaná data, ale ne individuální data
• Tedy když známe hodnoty dvou proměnných v populaci, ale ne hodnoty v jejich kontingenční tabulce
A B C
? ? ? α
? ? ? β
? ? ? γ
Například
• Sociální složení elektorátu (například podíl katolíků versus podíl voličů strany)
• Voličské přesuny (podíl voličů strany ve dvou volbách)
• Ticket-splitting
• Sociální složení populace (například národnost versus náboženské vyznání, nezaměstnanost versus vzdělání)
Nebo
• V řadě vědních oborů, jako je– Sociologie– Historie– Ekonomie– Marketing– Geografie– Epidemiologie– Ekologie
Jak přesné jsou tyto výsledky?
• Pořád čekáme na ekvivalent testu statistické signifikance
• Řešením je (zdá se) vyšetření robustnosti použitých rozdělení a výpočetních algoritmů
• Ještě si nikdo nedal tu práci s modelováním milionů simulovaných datových setů
• Ale existují rozsáhlé empirické studie (např. 113 švýcarských referend)
Jak přesné jsou tyto výsledky?
• Přesnost lze zatím měřit srovnáním s výsledky exit pollu
• Příklad: Voličské přesuny v rakouských parlamentních volbách mezi lety 2006 a 2008 (exit poll SORA)
Jak přesné jsou tyto výsledky?
model minus exit poll
SPÖ_08 FPÖ_08 ÖVP_08 G_08 BZÖ_08 ost._08 nev._08
SPÖ_06 2,31% 0,18% -0,47% -0,38% -0,54% -0,58% -0,54%
ÖVP_06 -0,80% 1,23% 1,29% -0,57% -1,89% 0,88% 2,26%
G_06 -0,29% -0,09% -0,28% 1,21% -0,08% -0,24% -0,46%
FPÖ_06 -0,35% 0,11% -0,09% 0,08% -0,14% -0,07% 0,06%
BZÖ_06 -0,14% -0,38% -0,09% -0,05% 1,44% -0,03% -0,11%
ost._06 -0,31% -0,61% -0,04% 0,13% -0,32% 0,42% 0,71%
nev._06 -0,42% -0,44% -0,29% -0,44% 1,53% -0,38% -1,92%
Zelená – model „přeceňuje“ voličské přesunyČervená – model „podceňuje“ voličské přesunyZávěr: Model je „konzervativnější“ než exit poll, vytváření falešný dojem stability
Jak přesné jsou tyto výsledky?
• P – přesnost, mi – výsledek model, ei – výsledek exit pollu
• Udává podíl voličů, které model „správně zařadil“
21 ii em
P
Jak přesné jsou tyto výsledky?
• Voličské přesuny při volbách do rakouského parlamentu:– 1999 → 2002: P = 82,84%– 2002 → 2006: P = 83,33%– 2006 → 2008: P = 86,15%
Jak přesné jsou tyto výsledky?
• Voličské přesuny při volbách do Poslanecké sněmovny Parlamentu ČR:– 2006 → 2010: P = 87,89%
• Je to hodně nebo málo?
• Neví někdo, jaká je statistická odchylka hodnot v buňkách kontingenční tabulky voličských přesunů při exit pollu?
Děkuji za pozornost