Marketingový výzkum v praxi
část 3A: od Od datové matice k závěrečné zprávě
Martin ZaplatílekFOCUS, Centrum pro sociální a marketingovou analýzu
PŘÍPRAVA DAT, ANALÝZY A ZÁVĚREČNÁ ZPRÁVA• Máme:
Zadání a definované cíle výzkumu Data zapsaná v datové matici
• Co nás čeká: Kontrola dat – kvóty, kódování variant a záznam otevřených otázek atd. Konstrukce kategorizovaných, „dummy“ a agregovaných proměnných,
definování nezávislých proměnných, které budete používat v celé zprávě Volba analytických přístupů – frekvence, volba nezávislých proměnných,
další analýzy (cluster analysis, rozhodovací stromy, factor analysis atp.) Vypracování osnovy zprávy Analýza a grafické zpracování výstupů Kompletace a editace výzkumné zprávy
2
PROCES PRÁCE S DATY V AGENTUŘE
3
KONTROLA DATOVÉ MATICE• Kontrola datové matice je základem pro další práci – princip „waste in,
waste out“… „Pokud vaše nová data obsahují více než 30 čísel, tak je v nich skoro jistě
nějaká chyba.“ (Spoustův teorém…) Čištění a příprava dat zabírá obvykle okolo 80 % analytikova času, věnuje
se mu jako hlavnímu tématu méně než 1 % článků ve statistických a podobných časopisech.
Čištění dat je často komplikované, nezřídka nudné a naprosto vždy zásadně důležité…
• Základní zásadou je přípravu dat nepodcenit a pod tlakem (termínu, zvědavosti, šéfa, klienta…) se nepustit do zpracování výstupů, dokud nemáte data připravená.
4
KONTROLA DATOVÉ MATICE zkontrolovat úplnost datové matice (vytřídit neúplně vyplněné dotazníky /
cases – zejména případy, kde chybí kvótní znaky nebo většina proměnných) „olabelovat“ proměnné a varianty proměnných
zkontrolovat, zda odpovídají variantám v dotazníku ověřit ID (čísla dotazníků, záznamy o respondentech atp. – první eliminace
duplicit) ověřit duplicitní data (lze procedurou v SPSS, případně náhodná kontrola) zkontrolovat, zda jsou u všech kvótních proměnných data kompletní
pokud ne, zvážit, zda je lze možno data doplnit na základě jiných vyplněných proměnných (příjem možno doplnit na základě lineární regrese - pracnost a časová náročnost; přitom např. variantu čistý měsíční příjem do jisté míry supluje např. agregovaná proměnná socioekonoický status…)
zkontrolovat, zda jsou uvedeny jen platné varianty proměnné (př. zda u věku v matici 18let + nejsou 16-letí, u pohlaví 3 varianty odpovědí atd.)
ověřit, zda varianty kvótních proměnných odpovídají kvótě (zda jsou stejné věkové kategorie, velikosti obce, kategorie u vzdělání) – viz dále vážení
5
KONTROLA DATOVÉ MATICE u volných / otevřených otázek
zda odpovídají jen ti, kteří odpovídat mají (např. „varianta jiné – uveďte:“) doplnit chybějící odpovědi variantou „neodpověděl/a“ kódování a kategorizace – definovat obecnější kategorie a do nich varianty
odpovědí rekódovat (např. ot 13 jiné - kategorie klid, ticho do níž sdružit varianty klidné prostředí, únik před hlukem města, oáza ticha, místo, kde mám klid na rozhovor… )
o respondenti při odpovědích i tazatelé při zápisu jsou často nesnesitelně kreativní….
zkontrolovat orientaci škál v dotazníku a v datové matici pozor na dlouhodobé / longitudinální výzkumy a zásahy do dotazníků v
jejich průběhu – „vylepšení“ (mírné přeformulování otázky, redukce či otočení škály…) často znásobí požadavky na práci analytika…
6
KONTROLA DATOVÉ MATICE první pohled na data – třídění prvního stupně
pomocí frequencies si udělat základní přehled o proměnných a distribuci dat
zda nejsou v některých případech uváděny extrémní hodnoty (zejm. kardinální proměnné, např. cena/ks)
zda nejsou uváděny hodnoty mimo definovaný rámec („out of range“) kontrola použitých jednotek - kódování času (roky, měsíce, hodiny, minuty)
kontrola vazeb mezi proměnnými – třídění druhého stupně crosstabs – vazby mezi dvěma proměnnými; odhalení nelogických odpovědí
(samostatná osoba v domácnosti x počet dětí v domácnosti 3; Zlín, kraj Karlovarský; Praha, velikost obce do 4999 ….) – odhalí často chyby v kódování i „nepoctivé tazatele“
první analytický pohled – můžeme při té příležitosti najít či ověřit korelace mezi proměnnými
7
VÁŽENÍ DAT – postratifikační váhy• Při nesouladu kvóty a dat je vhodné zvážit možnost data upravit
vážením váhy vyrovnají charakteristiky vzorku s distribucí znaků v populaci vážením tedy eliminuje odchylky od kvóty v rámci datového souboru a
„napravujeme“ jeho reprezentativitu vážení kompenzuje zejména non-response apod. – je to „z nouze
ctnost“, nelze na něj a priori spoléhat při sběru dat a dodržování kvót…
je možné/vhodné jen v případě dostatečně velkého vzorku musíme mít co vážit = v dané kategorii musí být data – u velkých
odchylek od kvóty hrozí i w=3 a více, tzn. že daný případ je ve zpracování zahrnut 3x …
má i další omezení – řada analýz s vahami nepracuje (rozhodovací stromy, clusterová analýza atp.)
8
VÁŽENÍ DAT poststratifikační váhy• Vždy vážíme dle kvótních znaků a na úrovni, z níž budeme
zpracovávat výstupy tzn. při výzkumu reprezentativní na populaci ČR 18 let a více a kvótách
pro jednotlivé kraje = konstrukce vah pro jednotlivé kraje zvlášť• Při práci se souborem musíme mít na paměti, že vážící proměnná
musí být zapnuta („weight on“ v dolním stavovém řádku)
váha = očekávaný podíl / zjištěný podíl př. máme-li 25 % žen a v populaci jich má být 50 %, bude váha 50/25 = 2,0
(strata jsou dána pohlavím) agregovaná váha – pro daný případ na základě dílčích vah pro
jednotlivé kvótní znaky (w1 – pohlaví, w2 – věk, w3 – vzdělání, w4 – velikost obce)w = w1*w2*w3*w4
9
VÁŽENÍ DAT
10
w = w1*w2*w3*w4
Rel. četnosti obyvatelstva 18+ podle krajů. Praha
Doporučený počet tazatelů:N=160 Taz.= 11
Vzdělání % nzákladní 11,39% 18vyučen 30,08% 48maturita 34,81% 56VŠ 22,19% 35celkem 98,46% 158
157,54
23
Sex % nmuži 47,41% 76ženy 52,59% 84
celkem 100,00% 160 160
Věk % n18 - 24 12,07% 1925 - 34 17,99% 2935 - 44 15,75% 2545 - 54 20,17% 3255 - 64 14,51% 2365 + 19,51% 31
celkem 100,00% 160 160
kraj = Praha
Countpohlaví muž 63
žena 68věk 18-24 15
25-34 2535-44 2245-54 2655-64 1965+ 24
vzdělání základní 15sš bez maturity 41
sš s maturitou 46
vysokoškolské 29
velikost obce
do 4999 5000-19999
20000-99999
100000+ 131kraj Praha 131
ČESKÁ REPUBLIKA - uprava pro jednotlivé kraje Praha
VZOREK 160 očekávané dosažené
počet % STARÉ váhaW1 POHLAVÍ 160 100,0 131
muži 76 47,41 63 1,20ženy 84 52,59 68 1,24
W2 VĚK 160 100,0 131 18 - 24 let 19 12,07 15 1,2925 - 34 let 29 17,99 25 1,1535 - 44 let 25 15,75 22 1,1545 - 54 let 32 20,17 26 1,2455 - 64 let 23 14,51 19 1,2265 a více let 31 19,51 24 1,30
W3 VZDĚLÁNÍ 160 100,0 131 základné 18 11,39 15 1,22bez maturity 50 31,00 41 1,21s maturitou 57 35,42 46 1,23vysokoškolské 35 22,19 29 1,22
W4VELIKOST OBCE 160 100,0 134 do 4 999 0 0 #DIV/0!5 000 - 19 999 0 0 #DIV/0!20 000 - 99 999 0 0,0 #DIV/0!100 000 + 160 100 134 1,19
KVÓ
TA
KVÓTNÍ ZNAKY V DATECH
KONSTRUKCE VAH
VÁŽENÍ DAT
11
w = w1*w2*w3*w4
compute w1=1.compute w2=1.compute w3=1.compute w4=1.execute. if (pohlavi=1) w1=1.02.if (pohlavi=2) w1=1.09. if (vek=1) w2=1.01.if (vek=2) w2=1.06.if (vek=3) w2=1.02.if (vek=4) w2=1.01.if (vek=5) w2=0.92.if (vek=6) w2=1.18. if (vzdelani=1) w3=1.08.if (vzdelani=2) w3=1.03.if (vzdelani=3) w3=1.07.if (vzdelani=4) w3=0.99. if (velobce=1) w4=1.08.if (velobce=2) w4=1.55.if (velobce=3) w4=0.84.if (velobce=4) w4=0.99.execute. compute w=w1*w2*w3*w4.weigh by w.
FREQUENCIES VARIABLES=kraj pohlavi vek vzdelani velobce /ORDER= ANALYSIS
SYNTAX WEIGHT CASES BY …
POMOCNÉ A AGREGOVANÉ PROMĚNNÉ• Při zpracování zprávy si zřídkakdy vystačíme s proměnnými, které
máme ve výchozí datové matici při zpracování často využijeme kategorizované proměnné s menším
počtem variant zejména u třídících / nezávislých proměnných používaných při analýze jako
univerzální třídící znaky v celé zprávě při kategorizaci zvažujme praktičnost vs hrozící ztrátu informací a detailů př. věk – z kardinální proměnné věk v letech vytvoříme ordinální s
kategoriemi věk 18-25let, 26-35let atd.; obdobně u např. frekvence návštěv restaurací, délky pobytu v Olomouci týdně apod. (viz dotazník vašeho projektu)
proměnné typu dummy využijeme pro rychlé rozdělení souboru - případy, kdy daný znak je / není
přítomen; například nová proměnná „obed“ s variantami „obědvá pravidelně“, „neobědvá pravidelně“
12
POMOCNÉ A AGREGOVANÉ PROMĚNNÉ agregované proměnné – nově vytvořená proměnná za základě
specifických kritérií a hodnot několika jiných proměnných
příklady: socioekonomický status – stratifikuje respondenty podle délky vzdělání,
pozice v zaměstnání a vybavení domácnosti
segmenty – typologie respondentů na základě distinktivních znaků, které je spojují, resp. rozdělují
o nejčastěji na základě behaviorálních znaků (spotřebitelské chování a zvyklosti), mediálního chování (vnímání jednotlivých typů médií) a psychografie (sebepercepce , souhlas s výroky atp.)
13
ZPRÁVA Z VÝZKUMU Prvním krokem je zpracování osnovy
pořadí otázek v dotazníku není zavazující pro zpracování zprávyo pořadí otázek je dáno dramaturgií dotazníku, která má jiné priority než závěrečná
zpráva na základě zadání / projektu stanovíme obsah a pořadí kapitol, následně
vytvoříme podkapitoly s přiřazením otázek z dotazníku, které se ke kapitole vážío hlavní zásadou je nevynechat v analýze některou z proměnných… přesto se vám to
určitě dříve či později stane
počítejte vždy s čtenářem jako naprostým laikem, v lepším případě poučeným laikem…
na úvod zprávy jej seznamte s cíli výzkumu, metodou sběru a zpracování dat, případně i používanou terminologií
u pokročilejších analýz alespoň stručně objasněte, jak pracují a čeho jejich použitím chcete dosáhnout
14
ZPRÁVA Z VÝZKUMU
15
TITULNÍ STRANA měla by odpovídat corporate identity
(tzn. vizuálně být navázána na firemní grafiku) – logo, logotyp, použité fonty
jednoznačně referovat o obsahu zprávy – název, specifikace typu výzkumu, datum zpracování
název a logo klienta
přehledná, jednoduchá, srozumitelná, distinktivní
o téma i zpracovatel zprávy by měli být jasní na první pohled…
ZPRÁVA Z VÝZKUMU
16
OBSAH
METODA VÝZKUMU přehledný a detailní popis použitých metod na jakou skupinu výsledky vztahujeme
(cílová populace) specifikace výběrového souboru a způsob
výběru metodika sběru dat popis kontroly sběru dat
o „záruka věrohodnosti výsledků“ je vhodné doplnit údaj o intervalu
spolehlivosti o známe-li velikost cílové populaceo http://www.surveysystem.com/sscalc.htm
ZPRÁVA Z VÝZKUMU
17
CÍLE VÝZKUMU stručné shrnutí hlavních cílů na
základě projektu výzkumu
HLAVNÍ ZÁVĚRY shrnutí nejdůležitějších výsledků z
analýzy provázání poznatků z dílčích kapitol doporučení pro klienta pro účely další publikace je možné je
psát stylem tiskové zprávy; tzn. vyhnout se čast. použ. zkr. apod., podíly psát slovně spíše než %
o text je celistvý, lépe se čte, detailní informace nalezne čtenář na úvodu jednotlivých kapitol
ZPRÁVA Z VÝZKUMU
18
PROFIL VÝBĚROVÉHO SOUBORU prezentuje rozložení dat v rámci
kvótních proměnných v grafu pro ilustraci dodržení kvóty
můžeme zobrazit rozložení znaku v cílové populaci
je vhodné jej doplnit i o další nezávislé proměnné, které budou ve zprávě používány
POZN. POPISKY U GRAFŮ jednoznačně specifikovat zda jde o %, průměry či absolutní četnosti specifikovat cílovou populaci, k níž se graf vztahuje včetně počtu respondentů, kteří na otázku
odpovídali v případě bar chart grafů možno vedle každého sloupce vypsat počet respondentů v dané
kategorii, kteří byli do grafu zahrnuti graf musí být srozumitelný a jasný bez dalších poznámek, doplnění a vysvětlení (oceníte při
zpracování prezentace)
$$
ZPRÁVA Z VÝZKUMU
19
ZÁKLADNÍ OBECNÁ DOPORUČENÍ PRO TVORBU ZPRÁVY od obecného k detailnímu
vždy začít s tématy (otázkami), ke kterým se vyjadřovali všichni respondenti
detailní výstupy zobrazit v rámci zvolených nezávislých proměnných (zejména tedy sociodemografické charakteristiky respondentů + další vybrané nezávislé proměnné)
zaměřit se na rozdíly ve výsledcích pro jednotlivé varianty nezávislých proměnných a interpretovat je; ověřit statistickou významnost zaznamenaných rozdílů
o nástroj AnswerTree v SPSS – třídění závislé proměnné na základě statistické významnosti vztahů s nezávislými proměnnými (procedura CHAID)
o v případě nedostatku času vždy posuzovat alespoň rozdíly na základě velikosti vzorku v podkategorii a ve výstupech upozornit / být opatrní při interpretaci (př. v rámci celku (N = 1000) preferuje výrobek 36 % dotázaných, mezi trojgeneračními domácnostmi 65 % - počet respondentů je však jen 22 …)
ZPRÁVA Z VÝZKUMU
20
ZÁKLADNÍ OBECNÁ DOPORUČENÍ PRO TVORBU ZPRÁVY
od podstatného k méně podstatnému pohlížejte na zprávu očima zadavatele výzkumu
o co je pro něj podstatné, o co bude mít při čtení zprávy největší zájem - podpořená a spontánní znalost značky XY , zaznamenání reklamy, zkušenost s výrobkem, hodnocení značky a konkurence… nebo spíše profil zákazníků, potencionálně oslovitelných spotřebitelů… nebo velikost populace s vyšší afinitou k některým výrobkům
text sdružujte do větších logických celků pro orientaci ve výsledcích a celkový přehled o zjištěních z výzkumu je lepší
interpretovat grafy a tabulky na úvod kapitoly než přímo u jednotlivých grafů preferujte zobrazení grafy před tabulkami
grafy umožní rychlejší orientaci ve výsledcích; tabulky jsou vhodnější dát do přílohy v excelových listech
o k metodám zobrazení více viz Hendl „Přehled statistických metod…“, kap. 3.1
ZPRÁVA Z VÝZKUMU
21
VOLBA NEZÁVISLÝCH PROMĚNNÝCH (TŘÍDÍCÍCH ZNAKŮ)
v případě vašeho výzkumu omezení malým vzorkem (N = 100) demografické charakteristiky (pohlaví, věk) délka pobytu v Olomouc týdně
o kategorizovat např. na tři kategorie „1 den/týdně“; „2-4 dny/týdně“; „více dnů v týdnu“
další? kuřák /nekuřák?
o lze očekávat, že (ne)kuřáci budou preferovat odlišné typy restaurací a kaváren, rovněž jejich spokojenost s nabídkou (ne)kuřáckých restaurací se bude lišit
kategorizace q20 – konzumace v restauraci ?o např. „častý/á konzument/ka alkoholu“, „častý/á konzument/ka nealko nápojů“,
„ častý/á konzument/ka kávy / čaje“o lze očekávat, že tyto skupiny spotřebitelů budou mít odlišné preference, jinou
frekvenci návštěv restaurací –
ZPRÁVA Z VÝZKUMU
22
VOLBA NEZÁVISLÝCH PROMĚNNÝCH (TŘÍDÍCÍCH ZNAKŮ)
studijní charakteristiky (fakulta, ročník)?o zvážit na základě dat, zda se stravovací návyky a preference liší mezi studenty
různých fakulto bude v jednotlivých kategoriích proměnných dostatečný počet respondentů?o totéž u ročníku – opravdu se liší? a pokud ano, je to v rámci jednotlivých
ročníků a nebo se liší „prváci“ (neznají město, mají jiný životní styl ovlivněný místem, kde dosud bydleli apod.) od zbytku? a nebo je to úplně jinak…?
ZPRÁVA Z VÝZKUMU
23
NÁVRH OSNOVY (nezávazný, hrubý náčrt pro inspiraci…)
NÁZEV VÝZKUMU: …………………..1. CÍLE VÝZKUMU2. METODA VÝZKUMU3. HLAVNÍ ZÁVĚRY4. PROFIL VÝBĚROVÉHO SOUBORU5. STRAVOVACÍ ZVYKLOSTI STUDENTŮ OLOMOUCKÝCH VŠ
1. Preferovaný typ stravy2. Snídaně3. Obědy4. Večeře
6. PREFERENCE PŘI NÁVŠTĚVE RESTAURACÍ A KAVÁREN1. Konzumace jednotlivých typů nápojů
1. frekvence konzumace, oblíbená značka piva
2. Cenová citlivost (promyslet, zahrnout i výstup „obvykle vydaná cena - večeře…)“ vs „ochota vydat za večeři v restauraci“)
1. menu2. nápoje
7. OBLÍBENÝ PODNIK A HODNOCENÍ AKTUÁLNÍ NABÍDKY STRAVOVACÍCH ZAŘÍZENÍ8. HODNOCENÍ ZÁMĚRU NOVÉ RESTAURACE A JEJÍCH CHARAKTERISTIK
ZPRÁVA Z VÝZKUMU
24
• STRUKTURACE VÝSTUPŮ shrnutí na úvod kapitoly
zahrnuje interpretaci všech následujících grafů a vybraných výstupů pro třídění druhého stupně (tedy výstupy v rámci třídění podle nezávislých proměnných pohlaví, věk, ?,?,?)
graf z výstupu pro celou zkoumanou populaci
koláčový graf v případě proměnné s jednou možností odpovědi
ZPRÁVA Z VÝZKUMU
25
• STRUKTURACE VÝSTUPŮ
sloupcový u „multiple response“ (např. q13) nebo proměnných s velkým počte variant, případně chceme-li zdůraznit pořadí a odstup jednotlivých variant
slopucový graf v případě baterie výroků s hodnocením na škále
ZPRÁVA Z VÝZKUMU
26
• STRUKTURACE VÝSTUPŮ
spojnicový graf u kardinálních a ordinálních znaků – vhodný pro zobrazení cenové citlivosti atp.
ZPRÁVA Z VÝZKUMU
27
• STRUKTURACE VÝSTUPŮ graf s výstupy na základě třídění dle
nezávislých proměnných řádková % pro každou nezávislou
proměnnou
v případě baterie výroků s hodnocením na škále je vhodné zobrazení průměrů v každé kategorii nezávislé proměnné
o tedy rozdíly dle věku, pohlaví atd.o pozor na var. „neví“ – označována
kódy 9 či 99; nezahrnout do výpočtu průměrů! (klasická chyba…)
ZPRÁVA Z VÝZKUMU
28
• STRUKTURACE VÝSTUPŮ graf s výstupy na základě třídění dle nezávislých proměnných
možnost použít AnswerTree – procedura CHAID; rozděluje soubor podle odpovědí na otázku dle statisticky významných rozdílů v rámci nezávislých proměnných
zobrazí jen statisticky významné rozdíly
SPSS nabídka: Analyze/Classify/Tree
logo
LITERATURA• HENDL, J., 2006: Přehled statistických metod zpracování dat, Portál; kap. 2, 3, 15• BÁRTOVÁ, H., BÁRTA, V., KOUDELKA, J. . 2004: Chování spotřebitele a výzkum trhu. 2. přepr. vyd. Praha :
VŠ• DISMAN, M, 1993: Jak se vyrábí sociologická znalost, Karolinum, Praha• PŘIBOVÁ, M., 1998: Analýza konkurence a trhu, Grada• KOUDELKA, J., 2005: Segmentujeme spotřební trhy, Professional Publishing• KALKA, J., ALLGAYER, F., 2008: Marketing podle cílových skupin, Computer Press• AJAN S GAUR, SANJAYA S GAUR, 2005: Statistical Methods for Practice and Research, SAGE• HAUGE, P., 2003: Průzkum trhu, Computer Press (kap. 12 a 13)• SILVERMAN, D., 2005: Ako robiť kvalitatívny výskum, 2005 (kap. 10 – 21) • DENZIN, N.K., LINCOLN, Y., 2005: Handbook of Qualitative Research, SAGE
• MEDIA GURU, Mediální slovník, http://www.mediaguru.cz/medialni-slovnik.html (leden ´10)• ŘEZANKOVÁ, H, MAREK, L, VRABEC, M., 2000: IASTAT - Internetová učebnice statistiky
http://iastat.vse.cz/ (leden ´10)• STATSOFT: Elektronická učebnice statistiky http://www.statistica.cz/podpora/elektronicka-ucebnice-
statistiky/ (leden ´10)• SAMPLE SIZE CALCULATOR, http://www.surveysystem.com/sscalc.htm (leden ´10)
29
TÝMOVÁ PRÁCE V NÁSLEDUJÍCÍCH DNECH
30
Práce v týmech• Zkontrolujte si datovou matici
• Zkontrolujte, zda data odpovídají kvótě
• Připravte si proměnné k analýze
• Vytvořte si osnovu zprávy a promyslete postup zpracování
• Rozdělte si práci na zprávě
• Vytvořte závěrečnou zprávu z připravených dat v PowerPointu DO PÁTKU 7.5.2010 a odešlete ji na adresu [email protected]
31
Co nás čeká příště?
• Další setkání: 11.5.2010• S dotazy a připomínkami se obracejte na adresu:
• Na dalším setkání se budeme věnovat hodnocení vašich zpráv a zaměříme se na zpracování prezentace.
32
POMŮCKA PRO PRVNÍ KONTAKT S SPSS
více viz uživatelská příručka SPSS (odkaz v sekci „užitečné odkazy – SPSS“)
33
OTEVŘENÍ DATOVÉHO SOUBORU
VYTVOŘENÍ NOVÉ KATEGORIZOVANÉ PROMĚNNÉ
VYTVOŘENÍ PROMĚNNÉ PRO MULTIPLE RESPONSE
UŽITEČNÉ ODKAZY - SPSS• www.spsstools.net• www.spss.cz• http://diplodocs.cz/annexe_BASE%20USERS%20GUIDE_SPSS_SPSS
%2013-_E.htm – uživatelská příručka SPSS 13
Na viděnou!
Martin ZAPLATÍLEKFOCUS, Centrum pro sociální a marketingovou analýzu
[email protected] www.focus-agency.cz