Testování a hodnocení

Post on 12-Feb-2016

78 views 0 download

description

Testování a hodnocení. Martina Hulešová (AJAT) 16. května 2014. Téma 1: Základní pojmy a principy jazykového testování (validita, reliabilita, spravedlivost) Téma 2: Vývoj testu Účel; význam a smysl specifikace, specifikační tabulka Téma 3 : - PowerPoint PPT Presentation

transcript

1

Testování a hodnocení

Martina Hulešová (AJAT)16. května 2014

2Téma 1: Základní pojmy a principy jazykového testování(validita, reliabilita, spravedlivost)

Téma 2: Vývoj testuÚčel; význam a smysl specifikace, specifikační tabulka

Téma 3: Referenční úrovně A1, A2, B1 dle SERRJ

Téma 4: Tvorba úloh a sestavení testuTvorba úloh obecně; typy úloh a doporučení pro jejich tvorbu

Téma 5: Administrace, bezpečnost

Téma 6: Skórování, vyhodnocení, interpretace výsledků

Téma 7: Monitorování a revize

3

Cíle vs. omezeníCo zvládneme:

• Ukázat kroky, které vedou k vývoji testu, se kterým budou uživatelé spokojeni

• Ukázat základní zásady platné pro tvorbu a revizi úloh

• Naznačit, jak lze/je třeba sestavit test

Co se nestihne do hloubky, ačkoli je třeba vědět/dodržet:

• Dodat hlubší teoretický vhled do tématu „kvality“ testů

• Dát podrobnou zpětnou vazbu k úlohám a testu z pohledu revidenta

• Zabývat se teoreticky validitou, spolehlivostí, opakovatelností, spravedlivostí evaluačního nástroje - testu

4

Test je dobrý sluha, ale špatný pán.

5

Téma 1: Principy jazykového testování

6ReliabilitaSouvisí s přesností, důvěryhodností a

konzistentnostíTaké se spravedlivostí skórů Je mých 35 bodů v maturitě z ČJ stejných jako tvých 35

bodů?Dnes jsem dostala z testu 20 bodů, předevčírem 30 ze stejného testu.

Možné ovlivňující faktory:- Studenti Hodnotitelé Administrace Test sám- podvádění, motivace, hádání, únava, stres, nepohodlí- Inter- a intra-rater reliabilita; nezájem; záměr, nevhodná

kritéria…- Nedostatečně vyškolený personál, nestejné podmínky,

nevhodné prostory, kopírování…- Neznámý obsah, formulace úloh, konstruktově irelevantní

nebo nerezprezentativní, čas…

7Validita (interní a externí)

Není vlastností testu nebo úloh, nýbrž se vztahuje ke smysluplné interpretaci výsledků

Měřím skutečně (a jen) to, co chci měřit?

Mohu na základě skórů učinit smysluplná a spravedlivá rozhodnutí?

8Validita (interní a externí)

Konstruktová (int.)Test je podložen teorií nebo existuje definovaný konstrukt měření (důkazy)Obsahová (int.)Reprezentativnost a relevance obsahu vzhledem k účelu testování, testovaní dělají skutečně to, co je předmětem měřeníValidita odpovědí (int.) – do jaké míry testovaní odpovídají dle očekávání Souběžná validita (ext.) – korelace skórů s jiným testem (shoda konstruktů)Predikční validita (ext.) – do jaké míry skóry v testu predikují schopnost testovaného dělat/konat…. V jiné oblasti (př. OSP)Face validita (int./ext.) – do jaké míry se „zdá“ test jako adekvátní danému účelu, použití, obsahu…

9

Autenticita

Přirozenost/Propojenost s mimotestovou situací

Tematická relevance a smysluplnost úkolů

Situační autenticita

Interakční autenticita (testová úloha – strategie – dovednosti – znalosti – úkol…)Washback

Vliv testu na výuku, přípravu, společnost…

10

Praktičnost

NárokyFinančníLidské zdroje (kolik, dostupnost…)Časové (vývoj, realizace – logistika, hodnocení, sdělování výsledků)

VyužitelnostUdržitelnostHodnota zjištěných informací

SpravedlivostSoučástí validitySpolečenské (žádoucí i nežádoucí) dopady testuZměny priorit, výuky, učení se…

Code of Ethics, Good Practice…

11

Některé faktory ovlivňující validitu, reliabilitu…Kvalita a počet úlohObtížnost a diskriminační schopnost úlohPoužité testovací techniky a jejich počet

ČasKvalita instrukcíPoužití testuDefinice a výběr obsahuDefinice a uchopení konstruktu

Obeznámenost testovaných s použitými test. TechnikamiÚroveň dovedností testovanýchPostoj k testu (motivace, zájem, duševní rozpoloženíPostoj k hádání

12

Některé faktory ovlivňující validitu, reliabilitu…

Konzistentnost při administraciKvalita pokynů pro zadavateleMíra interakce mezi zadavateli a testovanýmiNačasování administraceProstředí a vybavení pro testování

Přesnost a úplnost klíčeinter- a intra-rater reliabilita OMR nebo ruční vytěžování ZA

13

Téma 2: Vývoj testuÚčel; význam a smysl specifikace, specifikační tabulka

14

Účel testu

- Každý test musí mít jasně stanovený účel – nemá smysl testovat „bezúčelně“.

151. Druhy testů podle účelua způsobu využití výsledkůhttp://www.teachers-corner.co.uk/four-types-of-tests/

Placement – Rozřazovací Pro zařazení do skupiny, třídy podle úrovněObsah testu = potřeby nebo obsah výukyMohou, ale nemusí být postaveny na základě sylabůKlíčové jevy následné výukyInterpretace výsledků:- podle ranku (percentilu) – př. nejlepších 10 % dostane, zařadí se… ,- podle dosažené úrovně v jednotlivých dovednostech (různé kurzy) - bodyhttp://jalt.org/pansig/2007/HTML/Nakamura.htm

Diagnostic – DiagnostickéSilné a slabé stránky, oblasti, kde je problémRůzná míra podrobnosti (Která ze čtyř dovedností je nejslabší /Co z mluvení dělá problémy? Obecně za třídu vs. Jednotlivci…)- Test musí obsahovat dostatečný počet položek na pozorovaný jev – „nepraktické“ - jen málo testů je čistě diagnostických- vyžaduje vysokou míru specificity, což ohrožuje validitu interpretace výsledků

162. Druhy testů podle účelu a způsobu využití výsledkůProficiency – test schopností, zjišťování úrovně výkonubez vazby na konkrétní výukový program/sylabus; často založeny na analýze potřeb (LSP testy, EAP, testy FCE); lze využít pro diagnostikuOrientován na predikci, výkon mimo test – kritérium

Achievement – měření úrovně výkonu; Vázány na vzdělávací procesna konci vzdělávacího cyklu (maturita) nebo v průběhu (progress tests portfolio assessment, observation); lze využít též pro diagnostiku a formativní hodnoceníRůzné přístupy ke kritériu: a) Obsah založen pouze na sylabu, na obsahu kurzub) Postaven na vzdělávacích cílech, očekávaných výstupech

Maturita ? PET,FCEcíle vzdělávání (a) obecné, využívají can do statements ze SERRJ (b), zároveň sylabus je vázán na externí standard a ten na mimotestové situace, není tedy možné říci, zda proficiency, či achievement.Je ALE rozdíl ve formě/formátu, v administraci, vyhodnocení, vážení, skórování, interpretaci. Jak porovnat skóry?

173. Druhy testů podle způsobu administrace

Papír-tužka

Computer-based

Computer-adaptive

Školní vs. standardizované

Časově ne/omezené

184. Druhy testů podle využití procesu testování

Formativní – ověření pokroku, stupně zvládnutí a vyvození důsledků pro další vzdělávací kroky

Sumativní – výstupní zhodnocení dosažených výstupů, i to lze využít jako formativní

Test minimální úrovně – negativa: náhodnost v tom, co je minimum a jak stanovit cut score.

Sebehodnocení

Alternativní metody – portfolio, hodnocení v páru, rozhovory, pozorování (v podstatě další z forem achievement testů)

195. Druhy testů podle metody testování

Přímé – obvykle pro psaní, mluvení+: přímočaré, snáze se vytvoří podmínky pro ověření dovednostiPřímočaré hodnocení, nácvik na test = nácvik dovedností-: čas, zdroje, rozsah možných úloh a situací

Nepřímé – obvykle pro čtení, poslech, lze i psaní, výslovnost apod. (př. Correction, pairing…)-: obtížný výběr reprezentativních úloh zastupujících dobře ověřovanou dovednost, testových formátů-: obtížný transfer z nepřímého ověřování na skutečný výkon mimo testovou situaci+: čas, zdroje, standardizace, objektivita, variabilita

206. Druhy testů podle skórování a typů úloh

Objektivně skórované

Subjektivně skórované

Jednotlivé úlohy

Integrované úlohy kombinující více dovedností

217. Druhy testů podle dopadu na testovaného

Podle míry, do jaké výsledky testů ovlivní „život“ testovaných

High-stakes testsLow-stakes tests

22

 NR CRBez hodnoticích prvků – prostý střed

Odlišnosti v obsahu, v hloubce, v interpretaci výkonu, v obtížnosti úloh a v očekávaném výkonuU stejného testu: Vliv kohorty (NR) - Porovnatelné výsledky (CR)

Porovnání s průměrným výkonem – medián = 50. percentil)(IQ, SAT, přijímačky)

překonání/dosažení stanovené hranice, úrovně(řidičák, medicína, FCE, ANO-NE rozhodování)

8. Druhy testů podle způsobu interpretace

23

SPECIFIKACE testu a její zásadní význam

  explicitní popis testu- Proč- Co- Jak- K čemu

Informace pro všechny uživatele výsledků testů

Základ pro vývoj paralelních forem testů

Podklad pro validaci testů a s nimi souvisejících procesů

24

Specifikace testu

Stanovují společný standard pro všechny verze zkoušky, případně podklad pro porovnání výsledků, pokud se zkouška změní

Řídí vývoj testu a interpretaci výsledků

Popisují, jak má být test použit /pro koho, kdy a proč) a jak mají být interpretovány jeho výsledky

Jsou užitečné pro „validátory“ testu – externí posuzovatele

Ředitelé škol mohou využívat informace, pokud budou na základě testů činěna rozhodnutí

Čím přesnější, tím méně prostoru pro nežádoucí kreativitu

25Co má specifikace testu obsahovatSpecifikace + spec. tabulkaInformace o testu, jeho účelu, použití a interpretaci výsledků

Různá míra podrobnosti (často interní, pro autory a hodnotitelům)

Komu je specifikace určenaZjednodušený dokument pro učitele, žáky, rodičeDokument pro uživatele výsledků zkoušekOdborný materiál dokumentující zkoušku (výzkumníci)Specifikační tabulka pro autory přípravných materiálů apod.Ne vždy veřejný materiál!

26

Specifikační tabulka

oblast váha

cíle

27

Charakteristika testovanýchNutně ovlivňuje obsah, formu a další charakteristiky testu

1. Věk2. Pohlaví3. Stávající úroveň znalostí a dovedností4. Relevantní demografické údaje, sociální statut, předchozí vzdělání

5. Proč se testování účastní6. Zájmy apod.,

Otázka:Jaká je populace u vašich zkoušek?Jaká je např. populace maturantů?

Pozn.: Do budoucna: etnický a jazykový původ, SVP apod.

28

Konstrukt testu

Vymezení toho, co je přesně testem ověřováno1. Úroveň2. Obsah3. Teoretické vydefinování4. Intepretace výsledků

Př. Konstrukt : Test ověřuje psaní na úrovni B1, což je úroveň, které má žák dosáhnout v prvním cizím jazyce na SOŠ. Měl by umět… Podle dosaženého skóre bude… Skór 65 % je dolní hranicí B1 úrovně v tomto testu.

29

Struktura, obsah a administrace testu

1. Zastoupené dovednosti (+úroveň, očekávané operace, komunikační situace, témata, typy a rozsah textů)

2. Jejich váha3. Počet částí4. Formáty úloh5. Jazyk instrukcí a pokynů6. Typy a zdroje textů, jejich délka7. Bodování – body za úlohu, za část; jak probíhá vyhodnocení8. Čas vymezený na řešení9. Způsob administrace

30

Hodnocení testu

1. Hraniční skóre či popis použité škály, očekávaný výkon

2. Hodnotitelé a požadavky na ně kladené3. Ukázky testů4. Ukázky výkonů5. Ukázky hodnocení

31

Pretesty (školní test)

1. KolegovéKlíčNejasnostiInstrukce…

2. Skupina žáků s podobnými charakteristikamiadministracečas, instrukce, jazykpřesnost a úplnost klíčefunkčnost hodnoticí škály

Nelze odhadovat obtížnost testu a položek!

32

Tvorba paralelních verzí

- Postavena na základě shodné specifikace

- Obsahová analýza

- Stejný průměr, SD, rozptyl, chyba…

- Pretest na stejných studentech- Kotvicí úlohy a IRT analýzy- Banka úloh

33

Téma 3: Referenční úrovně A1, A2, B1 de SERRJ

34

Téma 4: Vlastní tvorba testu/úlohTvorba testu vs. tvorba úloh

Celek je víc než součet částí

Tvorba a moderace úloh

Specifikace testu – a specifikační tabulka

Proč a k čemu je test potřebný?

Školní běžné testy vs. přijímačky, srovnávací a výstupní testy…

Try-out a pretest

Školení hodnotitelůAnalýza úloh a testu a zpětná vazbaInformační a podpůrné materiály

35

Jaký formát úloh potřebuji?

Otevřené úlohy Uzavřené úlohyse stručnou odpovědí dichotomické

s výběrem odpovědi (m-ch)se širokou odpovědí (ÚZ a PP) uspořádací

přiřazovacís vícenásobným přiřazením (m-m)Přenos informacíOprava chybGap-fillingCloze

Binárně skórované Částečně skórovanéObjektivně skórované Subjektivně skórované

Samostatné úlohy Svazky podúloh Části

36

Jak budu úlohy a celý test hodnotit?

Co vyjadřuje bodování úloh? Jaký má význam různé bodové

ohodnocení úloh? Úloha vs. test? Je každá úloha „novým startem“?

37

Jak by měla vypadat testová úloha?

Instrukce Výchozí text

je-li nutný pro řešení Kmen úlohy (otázka, tvrzení, nedokončené tvrzení)

relevantní informace, jednoduchý jazyk Alternativy (správná odpověď a distraktory)

struktura, uspořádání, vnitřní jednota, smysluplnost, atraktivita pro skupiny žáků

Správné řešení, klíčStandardizace, pretest, posouzení ostatními…

38

Dichotomické úlohyKmenem úlohy je tvrzení, které žák (zpravidla na základě přečteného textu) posuzuje ze 2 hledisek (pravda – nepravda)

úlohy by měly mířit ke stejnému specifickému cíli Neměly by to být „falešné“ mutiple-choice úlohy

Riziko 50% uhádnutí správné odpovědiJejich tvorba je rychlá a snadná jen zdánlivě!

39

Dichotomické úlohy - bodováníSvazek 4 podúloh: 3-2-1-0; 3-2-0; 2-1-0…Svazek 3 podúloh: 2-0; 2-1-0; 1-0…

Nebo samostatné úlohy10 úloh v části: 1 úloha = 1 bod (všechny úlohy po 1

bodu)

40

Dichotomické úlohy1. Děti s vysokým IQ mají vždy ve škole lepší známky. vždy, nikdy, všichni, (pouze) – tendence být NEPRAVDA odhadnutelnost odpovědí 2. Pokud letadlo spadne na mexicko-americké hranici, polovina

pozůstalých bude pohřbena v M, polovina v USA.• Tricky, možná kritické čtení, ne test3. Petr neříká, že nemá peníze. Kdo nepřijde včas, nedostane

výplatu.• Mnoho negací, zajícova smrt.4. Paní R. tvrdí, že dosud nepoznala člověka, se kterým by si upřímně

popovídala. Snad ok, pokud s textem.5. Děti by měly chodit do školy včas. Názor nebo fakt?6. Testování se začalo rozvíjet po roce 1960 v USA a v současné době se

od něj ustupuje. Mnoho informací, mnoho zajíců. A kdo to tvrdí?7. Září má v přestupném roce jeden den navíc. Varianta (dopsat správnou info Únor nebo odkázat na text)

41Dichotomické úlohy – diskuse

42

Přiřazovací úlohy Přiřazovací úlohy jsou tvořeny 2 skupinami

jevů/textů: úlohami (X) a alternativami (Y). Přiřazujeme Y k X, přičemž Y je o ?? více než X. 5:7; 4:5; 3:4; 6:8 Bodování? Srovnatelnost? Přiřazujeme-li Y několikrát k X = úlohy

s vícenásobným přiřazením (multiple-matching: 12 úloh:5 textů; alternativ je méně než úloh)

43

Přiřazovací úlohy - bodování

Při počtu 5:7; 4:5; 3:4; 6:8Bodování: (n)_n-1_n-2_n-3…

Svazek 4 podúloh: 3-2-1-0; 3-2-0; 2-1-0…Svazek 3 podúloh: 2-0; 2-1-0; 1-0…

6:8; 5:7; 5:12; úloha = 1 bod (všechny úlohy po 1 bodu)Problém vzájemné podmíněnosti řešení u přiřazovacích úloh?

44

Přiřazovací úlohy – co je špatně?Přiřaď A a B:1. Lincoln2. Nixon3. Whitney4. Ford5. Bell6. King7.

Washington8. Roosevelt

a)Prezident ve 20. stoletíb)Vynalezl telefon.c)Vyhlásil zrušení otroctví.d)Poslední prezident, který

rezignoval na svůj úřad.e)Bojovník za lidská práva.f) Vynalezl čističku bavlny.g)Náš první prezident.h)Jediný prezident zvolený pro

více než dvě období.

45

Přiřazovací úlohy – co je špatně? Porušená homogenita (snazší eliminace, jiné

než požadované dovednosti a strategie řešení: prezidenti, vynálezci, bojovník…)

Prohozené sloupce (ztráta času) Snadné hádání (8:8; 3 navíc – 1:4 nebo

vícenásobné přiřazení) Instrukce nicneříkající (Sloupec A obsahuje…,

sloupec B obsahuje…. Přiřaďte k .x. .y. tak, že napíšete/spojíte…)

Více správných řešení: a) = Nixon, Ford (Gerald), Roosevelt

Dvojznačné seznamy: Franklin nebo Teddy Roosevelt? Henry nebo Gerald Ford?

46

Uspořádací úlohyÚkolem žáka je uspořádat rozdělený text,

fakta, informace, pojmy podle explicitně řečeného pravidla.

Musí existovat právě jedna správná možnost uspořádání.

Doporučení pro tvorbu jsou v podstatě stejná jako u předchozích formátů úloh.

Nevýhoda pro některé oblasti - náročné na analytické vyhodnocení, pokud nás zajímá vztah dvojic, trojic, první a poslední pozice apod.

47Uspořádací úlohy - bodování

5:7; 4:5; 3:4; 6:8Bodování: (n)_n-1_n-2_n-3…

Svazek 4 podúloh: 3-2-1-0; 3-2-0; 2-1-0…Svazek 3 podúloh: 2-0; 2-1-0; 1-0…

Problém vzájemné podmíněnosti řešení uspořádacích úloh

48

Uspořádací ulohy

49

Úlohy s výběrem odpovědiPočet alternativ se pohybuje od 3 do 5.Dle některých výzkumů je učitelé často

hodnotí jako obtížnější, než jak je ve skutečnosti řeší (jejich) studenti.

50

Úlohy s výběrem odpovědi

51

Příklady úloh s výběrem odpovědiVzdělávací/Výukový cíl:

Student rozliší mezi prezidenty USA, kteří byli ve funkci těsně před, během a po Občanské válce.

52

Příklady úloh s výběrem odpovědiÚlohy se stimuly nutí studenty pracovat na vyšších kognitivních úrovních (tedy pokud jsou stimuly skutečně potřeba pro řešení!)

53Přečti si text a vyřeš následující úkoly.

Dear Peter, My Grandpa´s house is in the country. I stay there during the school holidays. There aren´t many cars, and I ride my bike a lot. I go for long walks with Grandpa´s dog. I like Grandpa´s country home. During the school term, I live with Mum and Dad in a flat in Liverpool. It´s a big city. When I´m there, I go shopping with Mum. I go to the cinema with Dad. There are lots of cars so I don´t ride my bike in the city. I play computer games.  Please write soon. Love, Amy

1. Vyhledej v textu, s kým chodí Amy na procházku. Vyznač vhodný obrázek. 

A □ B □ C □

2. Označ, čemu se Amy věnuje ve volném čase.A □ She goes for long walks with Grandpa´s dog.B □ She plays the piano.C □ She draws pictures.D □ She plays computer games.

Řešení: 1C; 2A, D;

54

+Eliminace hádání, podvádění Není třeba distraktorů - poněkud snazší tvorba-Problém s úplností a přesností klíčeMíchání produkce do receptivních dovednostíPokud je třeba posuzovat správnost odpovědí, pak je ohrožena spolehlivost či validita hodnoceníHodnocení trvá déleVíce hodnotitelů

Úlohy typu Short answer (gap fill),Summary, Information Transfer, Cloze…

55

U všech:Text nebo jednotlivé úlohy?Odpověď česky nebo anglicky?Jedno slovo nebo věta?Jak hodnotit? (počet bodů, částečně správné odpovědi, pravopis…) – jedinečnost správné odpovědi

Pravidla pro tvorbu jsou v podstatě stejná jako u ostatních.

Pozor na úroveň

56

While they were watching television, there was a sudden bang outside.a) wereb) watchingc) were watching

Vyloučí se alternativní struktury, které by pravděpodobně testovaný mohl/chtěl použít; nápověda je velmi silná – co to testuje? – spíše SZ?

57

A: What will he do? B. I think he ___ resign.A: I wonder who that is. B: It __ be the doctor.

Mnoho možností (will, might, may, could…)Možná by částečně pomohlo – v některých případech - dodat kontext, který omezí množství řešení: How can you be so certain?

58

Information transfer

Slyšený či psaný text + tabulka, nekompletní shrnutí, obrázky, k nimž se doplňují informace, apod.

Ko tōku whānau 1Kia ora. Ko Tama tōku ingoa. He kōrero poto tēnei mō tōku whānau. Ko au te tama a Hēmi rāua ko Maria. Tokotoru ā rāua tamariki. Kotahi te tamāhine, tokorua ngā tama tāne. Ko au te tuatahi o ā rāua tamariki, arā, ko au te mātāmua o te whānau. Ko Hine taku tuahine. Ko ia te tamaiti tuarua. Ko Hōne te pōtiki o te whānau. Ko ia taku teina.

Ko tōku whānau 1 – ngā whakautu

Hēmi Maria

Tama Hine Hōne

59

Cloze a C-tests (a případné modifikace)

Založeny na teorii o podvědomé rekonstrukci textuMechanické vymazání slov (s nabídkou nebo bez nabídky) – na rozdíl od gap-fill (většinou u izol. vět)

Skórování – a) přesné slovo nebo b) Přibližné slovo+Lze vytvořit velké množství úlohSnadná tvorba a snadné skórování (metoda a)-Obtížné vybrat text vhodný pro danou úroveň obtížnosti.Metoda b je zdlouhavá.Srovnatelnost verzí je zpochybnitelná.

60

Cloze tests (s případnými modifikacemi)

61

C-tests

Každé druhé slovo je v textu jen poloviční

Representativnější; více úloh, přitom časově méně náročnýmetoda a) - objektivnější

62

Přímé testování

Psaní:„Travel broadens the mind.“ Discuss the topic.

Mluvení:Pohovořte o vzdělávacím systému USA a porovnejte jej s českým.

63Xtero pro tvůrce úloh/testů nebo pro kritické posouzení testůNezapomínejte si sestavit specifikaci testu (cíl/účel testu a jeho propojení s výukou; co chci testem zjistit; co do testu dám za obsah; jaké formáty úloh použiju; co mi budou říkat výsledky; jak budu skórovat…)Na co si dát pozor při tvorbě úloh/testu:1. Ptejte se, co se z testu dozvíte o schopnostech testovaného.2. Poskytujte dostatek kontextu pro řešení.3. Omezte „svobodu“ řešení kvalitními instrukcemi a jasným cílem

úlohy.4. Jasné a kvalitní instrukce mohu přispět k větší spolehlivosti testu.5. Nepoužívejte v testu neznámé formáty6. Zkuste si test vyřešit bez výchozích textů.7. Ověřte si, že jazyk a formulace úloh není těžší než text samotný.8. Omezte příliš dlouhé a složité pokyny.

64Xtero pro tvůrce úloh/testů nebo pro kritické posouzení testů1. Úlohy formulujte stručně, srozumitelně a jednoznačně; bez

nadbytečných či zavádějících informací a formulací apod.2. Zvažte (v CJ), zda a do jaké míry využívat mateřský jazyk.3. Pokud musíte použít zápor, zvýrazněte ho.4. Ověřujte pouze dovednosti, které odpovídají dané úrovni a které

mohli žáci získat ve škole. Odpověď nesmí být (pouze) postavena na mimooborové nebo životní zkušenosti žáka.

5. Pamatujte na vyváženost a přiměřenost úloh (gender, kultura, obor, věk…).

6. Úlohy musí být z pohledu řešení nezávislé.7. Formulujte úlohy tak, aby bylo možné jen jedno správné řešení. 8. Zkontrolujte, že jsou alternativy konstrukčně jednotné.9. Vyhýbejte se zavádějícím slovům, např. často, zřídka, málokdy,

někdy, několik, občas, lepší, málo…10. Kritéria hodnocení/skórování by měla být jasná předem.11. NIKDO NENÍ PERFEKTNÍ AUTOR - NECHTE SI SVÉ ÚLOHY STRHAT

NĚKÝM, KDO TYTO ÚLOHY NETVOŘIL!

65

Než test zadáte žákům:1. Musí projít revizí a ideálně i pretestem2. Revidenti by měli zkusit i říci, co úloha ověřuje3. Porovnejte to se specifikací4. Ptejte se, zda v testu něco důležitého nechybí5. Udělejte si test jako žák (kromě svých vlastních úloh).6. Dejte test kolegům k posouzení a buďte připraven na jejich kritiku.7. Máte-li možnost, zeptejte se pár žáků (před nebo po ostrém

testování), proč volili tu kterou odpověď a jak k ní došli. Vytipujte si žáky dobře.

Když máte v ruce výsledky, čtěte je kriticky

66Téma 6: Skórování, vyhodnocení, interpretace výsledků

67

Jak jsou výsledky testu reportovány

Percentily: 50. percentil: průměr v kohortě nebo předem

stanovený průměr 80. percentil: tento student je lepší než 80 % ostatních

v dané kohortě nebo populaci (scaled test results) pořadí, ne skóry; o schopnostech nevíme nic

Úspěšnost, procentuální úspěšnost

Body

Umístění na škále

68

Porovnávání a inference Do jaké míry popisné statistiky popisují populaci nebo jiný

soubor dat? Do jaké míry jsou zjištěné rozdíly náhodné a do jaké míry

jsou dány nějakým systematickým faktorem?

Porovnávání - průměrů- četností- korelačních koeficientů vůči nule.

Statisticky významný rozdíl a významnost (na hladině .001, .01, .05) – statisticky významný výsledek = pravděpodobnost, že je to náhodné, je .1%; 1%, 5%.Reálný nebo náhodný rozdíl, výsledek… Platí pro vzorek, nikoli pro celou populaci!

69

studentID 73 28 48 66 76 90 120 99 101 115totscore

totscore%

8 0 1 0 1 1 0 0 0 0 0 2 0,220 1 0 1 0 0 0 0 0 0 0 2 0,2

5 1 0 1 0 0 0 1 0 0 0 3 0,311 1 1 0 1 1 0 0 0 0 0 3 0,312 1 1 0 0 0 1 0 0 0 0 3 0,313 1 1 0 0 0 0 0 0 0 0 3 0,317 0 0 0 1 0 1 0 1 0 0 3 0,3

2 1 1 0 0 0 1 0 1 0 0 4 0,43 1 1 1 0 1 0 0 0 0 0 4 0,46 0 0 1 1 0 1 0 1 0 1 4 0,4

14 1 1 1 0 0 0 0 0 0 0 4 0,418 1 0 0 0 1 1 0 0 0 0 4 0,419 0 0 1 1 1 1 0 0 1 0 4 0,4

4 1 1 1 1 0 0 1 0 0 0 5 0,57 1 1 0 1 0 1 1 0 0 0 5 0,59 1 1 1 1 1 0 0 0 1 0 5 0,51 1 1 1 1 1 0 0 1 0 0 6 0,6

10 1 1 1 1 1 1 0 0 0 0 6 0,615 1 1 0 0 1 1 1 0 0 0 6 0,616 0 0 1 0 1 1 1 0 1 0 6 0,6

FV 0,75 0,65 0,55 0,5 0,5 0,5 0,25 0,2 0,15 0,0520 20 20 20 20 20 20 20 20 2015 13 11 10 10 10 5 4 3 1

Úspěšnost studentů, obtížnost úloh, vzorce odpovědí

70

Funkčnost alternativ, diskriminace úloh

ANSWER OPTION

ITEM

A B C D blank check total

FV DI

  T 1 1 0 4 0 6    28 M 0 0 0 8 0 8 65% 0.5  B 3 1 1 1 0 6      T 0 5 1 0 0 6    

48 M 2 3 2 1 0 8 55% 0.33  B 1 3 1 1 0 6      T 1 2 3 0 0 6 50% -0.33

66 M 1 4 3 0 0 8      B 1 4 1 0 0 6      T 1 0 5 0 0 6 75% 0.33

73 M 0 0 7 1 0 8      B 0 2 3 1 0 6    

DI: rozdíl mezi počtem správných odpovědí u nejlepších (T) a u nejslabších (B) ku celkovému počtu osob ve skupině nejlepšíchDI Item 28 = (Tcorrect – Bcorrect)/Ttotalnumber = (4-1)/6 = 0.5

Diskriminace (jedna z možností)

71Co by měl sdělovat poskytovatel standardizovaných testů (údaje z pretestů a/nebo ostré analýzy)Pokud budete test opakovaně používat, bude se vám hodit:Počet účastníků: 59    Kvalita vzorku – směrodatnost údajůPočet úloh: 22     Souvislost s reliabilitouMax. možné skóre: 44.0 Min. možné skóre: 0.0 Max. dosažené skóre: 38.0 Min. dosažené skóre: 6.0 Čistá úspěšnost: 52.7%     (Min. = 0; pak ČÚ = prům. skóre/max. možné skóre)Hrubá úspěšnost: 52.7%     Bin. skór. úlohy = čistá a hrubá je totéž (úloha i test) Průměrné skóre: 23.2      Medián skóre: 24.0  Směr. odchylka skóre: 5.7 indikátor variability skórů, míra rozptylu skórů od průměru (prům. odchylka od

průměru). Při normálním rozdělení je 68 % populace +-1 SD od průměru.Průměrná diskriminace: 35.2%   Průměrná vynechanost: 5.1%      Průměrná nečtenost: 0.7%  nedosaženostReliabilita:   Cronb. alfa: 0.547    KR-20: 0.556  vnitřní konsistence/ homogenita testu (nad. .80)

72

Šikmost a špičatost – volba vhodných analýz

73

Histogramy, grafy apod.

74

Diskriminace vs. úspěšnost

90:10080:9070:8060:70 09 08

50:60 03 05 01 12

40:50 02 13 17a 07

30:40 11c

15a,15b,17b,17d

10 16c,16d

20:30

14a,14c 06 04 ,1

5d 16b 17c

10:20

11a,16a 15c 14b

0:10 11b

0:10 10:20

20:30

30:40

40:50

50:60

60:70

70:80

80:90

90:100

75

Různé přístupy k interpretaci výsledků

Test složený z více částí – kombinovaný skór nebo jedno číslo…

Příklad můj TOEFL a hypoteticky NSZ

Chyba měřeníhttp://www.ets.org/Media/Tests/TOEFL/pdf/TOEFL_iBT_Score_Reliability_Generalizability.pdf

76

Co o mně víte?Jak ale můžu být pro každého jinak zajímavá…

http://www.italki.com/p/oet.htm

http://www.ets.org/s/toefl/pdf/supplementary_comparison_tables.pdf

http://www.ets.org/toefl/institutions/scores/compare/

Můj výsledek TOEFL 2010: 93 bodů

Reading Listening Speaking Writing0

5

10

15

20

25

30

77

78http://www.britishcouncil-ieltsforusa.com/sg-en/compare_IELTS_and_TOEFL.html

IELTSOverall Band

Score

CommonEuropean

FrameworkLevel Descriptor

© Council of Europe TOEFL IBT

8.5 – 9.0

8.0C2

Can understand with ease virtually everything heard or read. Can summarise information from different spoken

and written sources, reconstructing arguments and accounts in a coherent presentation. Can express

him/herself spontaneously, very fluently and precisely.

Cannotmeasure

at C2 level

7.0 – 7.56.5 C1

Can understand a wide range of demanding, longer texts, and recognise implicit meaning. Can express him/herself

fluently and spontaneously without much obvious searching for expressions. Can use language flexibly and

effectively for social, academic and professional purposes. Can produce clear, well-structured, detailed text on

complex subjects.

110 - 120

5.5 – 6.05.0 B2

Can understand the main ideas of complex text on both concrete and abstract topics, including technical

discussions in his/her field of specialisation. Can interact with a degree of fluency and spontaneity that makes

regular interaction with native speakers quite possible without strain for either party. Can produce clear, detailed

text on a wide range of subjects.87 - 109

4.0 – 4.5 B1Can understand the main points of clear standard input on

familiar matters regularly encountered in work, school, leisure, etc. Can deal with most situations likely to arise

whilst in an area where the language is spoken. Can produce simple connected text on topics, which are

familiar, or of personal interest.57 - 86

3.0 A2

Can understand sentences and frequently used expressions related to areas of most immediate relevance (e.g. very basic personal and family information, shopping,

local geography, employment). Can communicate in simple and routine tasks requiring a simple and direct

exchange of information on familiar and routine matters. 40 - 56

2.0 A1

Can understand and use familiar everyday expressions and very basic phrases aimed at the satisfaction of needs of a concrete type. Can introduce him/herself and others and can ask and answer questions about personal details

such as where he/she lives, people he/she knows and things he/she has. Can interact in a simple way provided the other person talks slowly and clearly and is prepared

to help

No data availab

79

Test z matiky měl 48% úspěšnost, takže 52 % žáků neuspělo! No to je hrůza!

Test z matiky byl těžší než test z češtiny

Z matiky propadlo 50 % žáků, z češtiny 20 %, celkem na naší škole neuspěla polovina žáků!

Test měl 40% úspěšnost, takže ho 60% žáků neudělalo!

Je tam cut-off score 44%, ale test z češtiny měl úspěšnost jen 40%, takže neuspěl nikdo!

Často se objevující výroky

80

Hodnocení široce otevřených úloh je subjektivní

Je třeba akceptovat fakt, že hodnotitelé se lišíNení pravda, že učitelé hodnotí lépe než centrální hodnotitelé

Holistická vs. Analytická kritéria – výhody a nevýhody

Je ale třeba a možné odlišnosti do určité míry eliminovat nebo objektivizovat

ŠkoleníŠkály a deskriptoryMonitoringAnalýzy (korelace, inter- a intra- rater reliability/consistency; decision consistency)Úpravy hodnoceníPřísnost nebo mírnost vs. Nekonzistentnost

81

Dosud zveřejňované výsledky analýzCTT: Vše doposud řečené = Klasická teorie testů

IRTMěření skryté proměnnéStejná škála pro měřenou proměnnou (jazykové dovednosti) a úlohy, pomocí nichž je proměnná měřena-pozorována (obtížnost)

Schopnost Beta a obtížnost Theta

Pravděpodobnost správné odpovědi na položku dané obtížnosti Theta při schopnostech testovaného Beta.Logits

82

K plošnému hodnocení vzdělávacího systému a efektivity vzdělávání

Výsledné skóry ovlivněny:(1) Obsahem a způsobem výuky(2) Přirozenými intelektuálními schopnostmi (různé typy inteligence)(3) Mimoškolními aktivitami(4) Často zmiňovanou přidanou hodnotou školy(5) Praktickými omezeními (jen selekce úloh z celku, typ analýz,

kvalita pretestů)… Relativní efektivita úloh: psychometrika vs. obsah vs. Účel, NR vs.

CR…

Co (standardizované) testy naopak umí: Porovnávat žáky vzájemně Porovnávat míru zvládnutí vymezeného obsahu/vůči kritériu Diagnostikovat slabé a silné stránky (vzhledem k vymez. kritériu) Měřit pokrok v čase Rozřadit podle úrovně

K čemu je dobré testovat? A k čemu (standardizované testy) neslouží?

83

POUŽITÁ A DOPORUČENÁ LITERATURA: American Educational Research Association (AERA), American Psychological Association (APA), & National Council on Measurement in Education (NCME). (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.

Bachman, L. F., & Palmer, A. S. (1996). Language testing in practice: Designing and developing useful language tests. Oxford: OUP.

Cizek, H. J. (ed) (2001). Setting performance standards. Concepts, methods, perspectives. NJ. Lawrence Erlbaum Associates, Inc., Publishers.

Brown, J. D. (1988). Understanding research in second language learning: A teacher's guide to statistics and research design. Cambridge: Cambridge University Press.

Cizek, G. J. & Bunch, M. B. (2007) Standard setting. A guide to establishing and evaluating performance standards on tests. Thousand oaks, CA: Sage Publications, Ltd.

84

POUŽITÁ A DOPORUČENÁ LITERATURA:

ALTE (1998). Multilingual glossary of language testing terms. Cambridge: Cambridge University Press.

Kubiszyn, T., & Borich, G. (2000). Educational testing and measurement. Classroom Application and Practice. New York: John Wiley & Sons, Inc.

Alderson, J.C., Clapham, C. and Wall, D. (1995). Language test construction and evaluation. Cambridge: Cambridge University Press. Bachman, L. F. (2004). Statistical analyses for language assessment. Cambridge: Cambridge University Press.  Brown, J.D. & Hudson, T. (2002). Criterion-referenced language testing. Cambridge: Cambridge University Press. Chapelle, C. (2012). Validity argument for language assessment: The framework is simple... Language Testing 29, 19-27.

85

POUŽITÁ A DOPORUČENÁ LITERATURA:

Council of Europe. (2001). Common european framework of reference for languages: learning, teaching, assessment. Cambridge: Cambridge University Press.  De Veaux, R.D., Velleman, P.F. & Bock, D.E. (2008), Stats. Data and models. Pearson Education. Downing, S. M. & Haladyna, T. M. (eds) (2006). Handbook of test development. NJ. Lawrence Erlbaum Associates, Inc., Publishers.

Ebel, R. L. & Frisbie, D. A. (1991). Essentials of educational measurement. New Jersey: Prentice Hall. Jenkinson, C. (1991). Why are we weighting? Critical examination of the use of item weights in a health status measure. Social Science & Medicine 32, 1413-1416.  Khalifa, H. & Weir, C. (2009). Examining reading. Cambridge: Cambridge University Press.

86POUŽITÁ A DOPORUČENÁ LITERATURA:

Khan, A. & Rayner, G.D. (2003). Robustness to non-normality of common tests for the many-sample location problem. Journal of Applied Mathematics and Decision Sciences 7(4): 187–206.

Pallant, J. (2007). SPSS survival manual - 3th edition. McGraw-Hill Education.  Pižorn, K. & Nagy, E. (2009). The politics of examination reform in Central Europe. In Alderson, J. Ch. (Ed.). The Politics of Language Education: Individuals and Institutions. Bristol: Multilingual Matters. Rotou, O., Headrick, T.C & Elmore, P.B. (2002). A proposed number correct scoring procedure based on classical true-score theory and multidimensional item response theory. International Journal of Testing 2(2), 131-141. Sim, J. & Wright, Ch.C. (2005). The Kappa statistic in reliability studies: use, interpretation, and sample size requirements. Physical Therapy 85, 257-268.

87

POUŽITÁ A DOPORUČENÁ LITERATURA:

 Standards for educational and psychological testing. (2001). (Klimusová, H. Trans.). AERA, APA & NCME. (Original work published in 1999). Verhelst, N. & Hulešová, M. (2011). Standard setting in the national examination of English in the Czech Republic. Retrieved November, 13, 2012, from www.promz.cz/download/1404034454/?at=1 Xi, X. (2007). Methods of test validation. In E. Shohamy & Hornberger, N. H. (Eds.), Encyclopedia of Language and Education, 2nd Edition, Volume 7: Language Testing and Assessment (pp. 177-196). Springer Science & Business Media LLC. Zieky, M. (2006). Fairness reviews in assessment. In Downing, S. M. & Haladyna, T. M. (Eds.), Handbook of test development (pp. 359-376). Mahwah, N.J.: Lawrence Erlbaum 

88POUŽITÁ A DOPORUČENÁ LITERATURA:

 Kunnan, A. J. (2008). Large-scale language assessments. In E. Shohamy & N. H. Hornberger (Eds.), Encyclopedia of Language and Education, 2nd Edition, Volume 7: Language Testing and Assessment (pp. 135–155). Springer Science & Business Media LLC. Kunnan, A. J. (2010). Test fairness and Toulmin's argument structure. Language Testing 27(2), 183-189.  Manual for language test development and examining. (2011). Council of Europe. Retrieved December 12, 2012, from http://www.coe.int/t/dg4/linguistic/ManualtLangageTest-Alte2011_EN.pdf McCornack, R. L. (1956). A criticism of studies comparing item-weighting methods. The Journal of Applied Psychology 40(5), 343- 344.  Messick, S. (1995). Validity of Psychological Assessment. Validation of inferences from persons' responses and performances as scientific inquiry into score meaning. American Psychologist 50(9), 741-749.