+ All Categories
Home > Documents > Testování a hodnocení

Testování a hodnocení

Date post: 12-Feb-2016
Category:
Upload: chiko
View: 78 times
Download: 0 times
Share this document with a friend
Description:
Testování a hodnocení. Martina Hulešová (AJAT) 16. května 2014. Téma 1: Základní pojmy a principy jazykového testování (validita, reliabilita, spravedlivost) Téma 2: Vývoj testu Účel; význam a smysl specifikace, specifikační tabulka Téma 3 : - PowerPoint PPT Presentation
88
Testování a hodnocení Martina Hulešová (AJAT) 16. května 2014 1
Transcript
Page 1: Testování  a hodnocení

1

Testování a hodnocení

Martina Hulešová (AJAT)16. května 2014

Page 2: Testování  a hodnocení

2Téma 1: Základní pojmy a principy jazykového testování(validita, reliabilita, spravedlivost)

Téma 2: Vývoj testuÚčel; význam a smysl specifikace, specifikační tabulka

Téma 3: Referenční úrovně A1, A2, B1 dle SERRJ

Téma 4: Tvorba úloh a sestavení testuTvorba úloh obecně; typy úloh a doporučení pro jejich tvorbu

Téma 5: Administrace, bezpečnost

Téma 6: Skórování, vyhodnocení, interpretace výsledků

Téma 7: Monitorování a revize

Page 3: Testování  a hodnocení

3

Cíle vs. omezeníCo zvládneme:

• Ukázat kroky, které vedou k vývoji testu, se kterým budou uživatelé spokojeni

• Ukázat základní zásady platné pro tvorbu a revizi úloh

• Naznačit, jak lze/je třeba sestavit test

Co se nestihne do hloubky, ačkoli je třeba vědět/dodržet:

• Dodat hlubší teoretický vhled do tématu „kvality“ testů

• Dát podrobnou zpětnou vazbu k úlohám a testu z pohledu revidenta

• Zabývat se teoreticky validitou, spolehlivostí, opakovatelností, spravedlivostí evaluačního nástroje - testu

Page 4: Testování  a hodnocení

4

Test je dobrý sluha, ale špatný pán.

Page 5: Testování  a hodnocení

5

Téma 1: Principy jazykového testování

Page 6: Testování  a hodnocení

6ReliabilitaSouvisí s přesností, důvěryhodností a

konzistentnostíTaké se spravedlivostí skórů Je mých 35 bodů v maturitě z ČJ stejných jako tvých 35

bodů?Dnes jsem dostala z testu 20 bodů, předevčírem 30 ze stejného testu.

Možné ovlivňující faktory:- Studenti Hodnotitelé Administrace Test sám- podvádění, motivace, hádání, únava, stres, nepohodlí- Inter- a intra-rater reliabilita; nezájem; záměr, nevhodná

kritéria…- Nedostatečně vyškolený personál, nestejné podmínky,

nevhodné prostory, kopírování…- Neznámý obsah, formulace úloh, konstruktově irelevantní

nebo nerezprezentativní, čas…

Page 7: Testování  a hodnocení

7Validita (interní a externí)

Není vlastností testu nebo úloh, nýbrž se vztahuje ke smysluplné interpretaci výsledků

Měřím skutečně (a jen) to, co chci měřit?

Mohu na základě skórů učinit smysluplná a spravedlivá rozhodnutí?

Page 8: Testování  a hodnocení

8Validita (interní a externí)

Konstruktová (int.)Test je podložen teorií nebo existuje definovaný konstrukt měření (důkazy)Obsahová (int.)Reprezentativnost a relevance obsahu vzhledem k účelu testování, testovaní dělají skutečně to, co je předmětem měřeníValidita odpovědí (int.) – do jaké míry testovaní odpovídají dle očekávání Souběžná validita (ext.) – korelace skórů s jiným testem (shoda konstruktů)Predikční validita (ext.) – do jaké míry skóry v testu predikují schopnost testovaného dělat/konat…. V jiné oblasti (př. OSP)Face validita (int./ext.) – do jaké míry se „zdá“ test jako adekvátní danému účelu, použití, obsahu…

Page 9: Testování  a hodnocení

9

Autenticita

Přirozenost/Propojenost s mimotestovou situací

Tematická relevance a smysluplnost úkolů

Situační autenticita

Interakční autenticita (testová úloha – strategie – dovednosti – znalosti – úkol…)Washback

Vliv testu na výuku, přípravu, společnost…

Page 10: Testování  a hodnocení

10

Praktičnost

NárokyFinančníLidské zdroje (kolik, dostupnost…)Časové (vývoj, realizace – logistika, hodnocení, sdělování výsledků)

VyužitelnostUdržitelnostHodnota zjištěných informací

SpravedlivostSoučástí validitySpolečenské (žádoucí i nežádoucí) dopady testuZměny priorit, výuky, učení se…

Code of Ethics, Good Practice…

Page 11: Testování  a hodnocení

11

Některé faktory ovlivňující validitu, reliabilitu…Kvalita a počet úlohObtížnost a diskriminační schopnost úlohPoužité testovací techniky a jejich počet

ČasKvalita instrukcíPoužití testuDefinice a výběr obsahuDefinice a uchopení konstruktu

Obeznámenost testovaných s použitými test. TechnikamiÚroveň dovedností testovanýchPostoj k testu (motivace, zájem, duševní rozpoloženíPostoj k hádání

Page 12: Testování  a hodnocení

12

Některé faktory ovlivňující validitu, reliabilitu…

Konzistentnost při administraciKvalita pokynů pro zadavateleMíra interakce mezi zadavateli a testovanýmiNačasování administraceProstředí a vybavení pro testování

Přesnost a úplnost klíčeinter- a intra-rater reliabilita OMR nebo ruční vytěžování ZA

Page 13: Testování  a hodnocení

13

Téma 2: Vývoj testuÚčel; význam a smysl specifikace, specifikační tabulka

Page 14: Testování  a hodnocení

14

Účel testu

- Každý test musí mít jasně stanovený účel – nemá smysl testovat „bezúčelně“.

Page 15: Testování  a hodnocení

151. Druhy testů podle účelua způsobu využití výsledkůhttp://www.teachers-corner.co.uk/four-types-of-tests/

Placement – Rozřazovací Pro zařazení do skupiny, třídy podle úrovněObsah testu = potřeby nebo obsah výukyMohou, ale nemusí být postaveny na základě sylabůKlíčové jevy následné výukyInterpretace výsledků:- podle ranku (percentilu) – př. nejlepších 10 % dostane, zařadí se… ,- podle dosažené úrovně v jednotlivých dovednostech (různé kurzy) - bodyhttp://jalt.org/pansig/2007/HTML/Nakamura.htm

Diagnostic – DiagnostickéSilné a slabé stránky, oblasti, kde je problémRůzná míra podrobnosti (Která ze čtyř dovedností je nejslabší /Co z mluvení dělá problémy? Obecně za třídu vs. Jednotlivci…)- Test musí obsahovat dostatečný počet položek na pozorovaný jev – „nepraktické“ - jen málo testů je čistě diagnostických- vyžaduje vysokou míru specificity, což ohrožuje validitu interpretace výsledků

Page 16: Testování  a hodnocení

162. Druhy testů podle účelu a způsobu využití výsledkůProficiency – test schopností, zjišťování úrovně výkonubez vazby na konkrétní výukový program/sylabus; často založeny na analýze potřeb (LSP testy, EAP, testy FCE); lze využít pro diagnostikuOrientován na predikci, výkon mimo test – kritérium

Achievement – měření úrovně výkonu; Vázány na vzdělávací procesna konci vzdělávacího cyklu (maturita) nebo v průběhu (progress tests portfolio assessment, observation); lze využít též pro diagnostiku a formativní hodnoceníRůzné přístupy ke kritériu: a) Obsah založen pouze na sylabu, na obsahu kurzub) Postaven na vzdělávacích cílech, očekávaných výstupech

Maturita ? PET,FCEcíle vzdělávání (a) obecné, využívají can do statements ze SERRJ (b), zároveň sylabus je vázán na externí standard a ten na mimotestové situace, není tedy možné říci, zda proficiency, či achievement.Je ALE rozdíl ve formě/formátu, v administraci, vyhodnocení, vážení, skórování, interpretaci. Jak porovnat skóry?

Page 17: Testování  a hodnocení

173. Druhy testů podle způsobu administrace

Papír-tužka

Computer-based

Computer-adaptive

Školní vs. standardizované

Časově ne/omezené

Page 18: Testování  a hodnocení

184. Druhy testů podle využití procesu testování

Formativní – ověření pokroku, stupně zvládnutí a vyvození důsledků pro další vzdělávací kroky

Sumativní – výstupní zhodnocení dosažených výstupů, i to lze využít jako formativní

Test minimální úrovně – negativa: náhodnost v tom, co je minimum a jak stanovit cut score.

Sebehodnocení

Alternativní metody – portfolio, hodnocení v páru, rozhovory, pozorování (v podstatě další z forem achievement testů)

Page 19: Testování  a hodnocení

195. Druhy testů podle metody testování

Přímé – obvykle pro psaní, mluvení+: přímočaré, snáze se vytvoří podmínky pro ověření dovednostiPřímočaré hodnocení, nácvik na test = nácvik dovedností-: čas, zdroje, rozsah možných úloh a situací

Nepřímé – obvykle pro čtení, poslech, lze i psaní, výslovnost apod. (př. Correction, pairing…)-: obtížný výběr reprezentativních úloh zastupujících dobře ověřovanou dovednost, testových formátů-: obtížný transfer z nepřímého ověřování na skutečný výkon mimo testovou situaci+: čas, zdroje, standardizace, objektivita, variabilita

Page 20: Testování  a hodnocení

206. Druhy testů podle skórování a typů úloh

Objektivně skórované

Subjektivně skórované

Jednotlivé úlohy

Integrované úlohy kombinující více dovedností

Page 21: Testování  a hodnocení

217. Druhy testů podle dopadu na testovaného

Podle míry, do jaké výsledky testů ovlivní „život“ testovaných

High-stakes testsLow-stakes tests

Page 22: Testování  a hodnocení

22

 NR CRBez hodnoticích prvků – prostý střed

Odlišnosti v obsahu, v hloubce, v interpretaci výkonu, v obtížnosti úloh a v očekávaném výkonuU stejného testu: Vliv kohorty (NR) - Porovnatelné výsledky (CR)

Porovnání s průměrným výkonem – medián = 50. percentil)(IQ, SAT, přijímačky)

překonání/dosažení stanovené hranice, úrovně(řidičák, medicína, FCE, ANO-NE rozhodování)

8. Druhy testů podle způsobu interpretace

Page 23: Testování  a hodnocení

23

SPECIFIKACE testu a její zásadní význam

  explicitní popis testu- Proč- Co- Jak- K čemu

Informace pro všechny uživatele výsledků testů

Základ pro vývoj paralelních forem testů

Podklad pro validaci testů a s nimi souvisejících procesů

Page 24: Testování  a hodnocení

24

Specifikace testu

Stanovují společný standard pro všechny verze zkoušky, případně podklad pro porovnání výsledků, pokud se zkouška změní

Řídí vývoj testu a interpretaci výsledků

Popisují, jak má být test použit /pro koho, kdy a proč) a jak mají být interpretovány jeho výsledky

Jsou užitečné pro „validátory“ testu – externí posuzovatele

Ředitelé škol mohou využívat informace, pokud budou na základě testů činěna rozhodnutí

Čím přesnější, tím méně prostoru pro nežádoucí kreativitu

Page 25: Testování  a hodnocení

25Co má specifikace testu obsahovatSpecifikace + spec. tabulkaInformace o testu, jeho účelu, použití a interpretaci výsledků

Různá míra podrobnosti (často interní, pro autory a hodnotitelům)

Komu je specifikace určenaZjednodušený dokument pro učitele, žáky, rodičeDokument pro uživatele výsledků zkoušekOdborný materiál dokumentující zkoušku (výzkumníci)Specifikační tabulka pro autory přípravných materiálů apod.Ne vždy veřejný materiál!

Page 26: Testování  a hodnocení

26

Specifikační tabulka

oblast váha

cíle

Page 27: Testování  a hodnocení

27

Charakteristika testovanýchNutně ovlivňuje obsah, formu a další charakteristiky testu

1. Věk2. Pohlaví3. Stávající úroveň znalostí a dovedností4. Relevantní demografické údaje, sociální statut, předchozí vzdělání

5. Proč se testování účastní6. Zájmy apod.,

Otázka:Jaká je populace u vašich zkoušek?Jaká je např. populace maturantů?

Pozn.: Do budoucna: etnický a jazykový původ, SVP apod.

Page 28: Testování  a hodnocení

28

Konstrukt testu

Vymezení toho, co je přesně testem ověřováno1. Úroveň2. Obsah3. Teoretické vydefinování4. Intepretace výsledků

Př. Konstrukt : Test ověřuje psaní na úrovni B1, což je úroveň, které má žák dosáhnout v prvním cizím jazyce na SOŠ. Měl by umět… Podle dosaženého skóre bude… Skór 65 % je dolní hranicí B1 úrovně v tomto testu.

Page 29: Testování  a hodnocení

29

Struktura, obsah a administrace testu

1. Zastoupené dovednosti (+úroveň, očekávané operace, komunikační situace, témata, typy a rozsah textů)

2. Jejich váha3. Počet částí4. Formáty úloh5. Jazyk instrukcí a pokynů6. Typy a zdroje textů, jejich délka7. Bodování – body za úlohu, za část; jak probíhá vyhodnocení8. Čas vymezený na řešení9. Způsob administrace

Page 30: Testování  a hodnocení

30

Hodnocení testu

1. Hraniční skóre či popis použité škály, očekávaný výkon

2. Hodnotitelé a požadavky na ně kladené3. Ukázky testů4. Ukázky výkonů5. Ukázky hodnocení

Page 31: Testování  a hodnocení

31

Pretesty (školní test)

1. KolegovéKlíčNejasnostiInstrukce…

2. Skupina žáků s podobnými charakteristikamiadministracečas, instrukce, jazykpřesnost a úplnost klíčefunkčnost hodnoticí škály

Nelze odhadovat obtížnost testu a položek!

Page 32: Testování  a hodnocení

32

Tvorba paralelních verzí

- Postavena na základě shodné specifikace

- Obsahová analýza

- Stejný průměr, SD, rozptyl, chyba…

- Pretest na stejných studentech- Kotvicí úlohy a IRT analýzy- Banka úloh

Page 33: Testování  a hodnocení

33

Téma 3: Referenční úrovně A1, A2, B1 de SERRJ

Page 34: Testování  a hodnocení

34

Téma 4: Vlastní tvorba testu/úlohTvorba testu vs. tvorba úloh

Celek je víc než součet částí

Tvorba a moderace úloh

Specifikace testu – a specifikační tabulka

Proč a k čemu je test potřebný?

Školní běžné testy vs. přijímačky, srovnávací a výstupní testy…

Try-out a pretest

Školení hodnotitelůAnalýza úloh a testu a zpětná vazbaInformační a podpůrné materiály

Page 35: Testování  a hodnocení

35

Jaký formát úloh potřebuji?

Otevřené úlohy Uzavřené úlohyse stručnou odpovědí dichotomické

s výběrem odpovědi (m-ch)se širokou odpovědí (ÚZ a PP) uspořádací

přiřazovacís vícenásobným přiřazením (m-m)Přenos informacíOprava chybGap-fillingCloze

Binárně skórované Částečně skórovanéObjektivně skórované Subjektivně skórované

Samostatné úlohy Svazky podúloh Části

Page 36: Testování  a hodnocení

36

Jak budu úlohy a celý test hodnotit?

Co vyjadřuje bodování úloh? Jaký má význam různé bodové

ohodnocení úloh? Úloha vs. test? Je každá úloha „novým startem“?

Page 37: Testování  a hodnocení

37

Jak by měla vypadat testová úloha?

Instrukce Výchozí text

je-li nutný pro řešení Kmen úlohy (otázka, tvrzení, nedokončené tvrzení)

relevantní informace, jednoduchý jazyk Alternativy (správná odpověď a distraktory)

struktura, uspořádání, vnitřní jednota, smysluplnost, atraktivita pro skupiny žáků

Správné řešení, klíčStandardizace, pretest, posouzení ostatními…

Page 38: Testování  a hodnocení

38

Dichotomické úlohyKmenem úlohy je tvrzení, které žák (zpravidla na základě přečteného textu) posuzuje ze 2 hledisek (pravda – nepravda)

úlohy by měly mířit ke stejnému specifickému cíli Neměly by to být „falešné“ mutiple-choice úlohy

Riziko 50% uhádnutí správné odpovědiJejich tvorba je rychlá a snadná jen zdánlivě!

Page 39: Testování  a hodnocení

39

Dichotomické úlohy - bodováníSvazek 4 podúloh: 3-2-1-0; 3-2-0; 2-1-0…Svazek 3 podúloh: 2-0; 2-1-0; 1-0…

Nebo samostatné úlohy10 úloh v části: 1 úloha = 1 bod (všechny úlohy po 1

bodu)

Page 40: Testování  a hodnocení

40

Dichotomické úlohy1. Děti s vysokým IQ mají vždy ve škole lepší známky. vždy, nikdy, všichni, (pouze) – tendence být NEPRAVDA odhadnutelnost odpovědí 2. Pokud letadlo spadne na mexicko-americké hranici, polovina

pozůstalých bude pohřbena v M, polovina v USA.• Tricky, možná kritické čtení, ne test3. Petr neříká, že nemá peníze. Kdo nepřijde včas, nedostane

výplatu.• Mnoho negací, zajícova smrt.4. Paní R. tvrdí, že dosud nepoznala člověka, se kterým by si upřímně

popovídala. Snad ok, pokud s textem.5. Děti by měly chodit do školy včas. Názor nebo fakt?6. Testování se začalo rozvíjet po roce 1960 v USA a v současné době se

od něj ustupuje. Mnoho informací, mnoho zajíců. A kdo to tvrdí?7. Září má v přestupném roce jeden den navíc. Varianta (dopsat správnou info Únor nebo odkázat na text)

Page 41: Testování  a hodnocení

41Dichotomické úlohy – diskuse

Page 42: Testování  a hodnocení

42

Přiřazovací úlohy Přiřazovací úlohy jsou tvořeny 2 skupinami

jevů/textů: úlohami (X) a alternativami (Y). Přiřazujeme Y k X, přičemž Y je o ?? více než X. 5:7; 4:5; 3:4; 6:8 Bodování? Srovnatelnost? Přiřazujeme-li Y několikrát k X = úlohy

s vícenásobným přiřazením (multiple-matching: 12 úloh:5 textů; alternativ je méně než úloh)

Page 43: Testování  a hodnocení

43

Přiřazovací úlohy - bodování

Při počtu 5:7; 4:5; 3:4; 6:8Bodování: (n)_n-1_n-2_n-3…

Svazek 4 podúloh: 3-2-1-0; 3-2-0; 2-1-0…Svazek 3 podúloh: 2-0; 2-1-0; 1-0…

6:8; 5:7; 5:12; úloha = 1 bod (všechny úlohy po 1 bodu)Problém vzájemné podmíněnosti řešení u přiřazovacích úloh?

Page 44: Testování  a hodnocení

44

Přiřazovací úlohy – co je špatně?Přiřaď A a B:1. Lincoln2. Nixon3. Whitney4. Ford5. Bell6. King7.

Washington8. Roosevelt

a)Prezident ve 20. stoletíb)Vynalezl telefon.c)Vyhlásil zrušení otroctví.d)Poslední prezident, který

rezignoval na svůj úřad.e)Bojovník za lidská práva.f) Vynalezl čističku bavlny.g)Náš první prezident.h)Jediný prezident zvolený pro

více než dvě období.

Page 45: Testování  a hodnocení

45

Přiřazovací úlohy – co je špatně? Porušená homogenita (snazší eliminace, jiné

než požadované dovednosti a strategie řešení: prezidenti, vynálezci, bojovník…)

Prohozené sloupce (ztráta času) Snadné hádání (8:8; 3 navíc – 1:4 nebo

vícenásobné přiřazení) Instrukce nicneříkající (Sloupec A obsahuje…,

sloupec B obsahuje…. Přiřaďte k .x. .y. tak, že napíšete/spojíte…)

Více správných řešení: a) = Nixon, Ford (Gerald), Roosevelt

Dvojznačné seznamy: Franklin nebo Teddy Roosevelt? Henry nebo Gerald Ford?

Page 46: Testování  a hodnocení

46

Uspořádací úlohyÚkolem žáka je uspořádat rozdělený text,

fakta, informace, pojmy podle explicitně řečeného pravidla.

Musí existovat právě jedna správná možnost uspořádání.

Doporučení pro tvorbu jsou v podstatě stejná jako u předchozích formátů úloh.

Nevýhoda pro některé oblasti - náročné na analytické vyhodnocení, pokud nás zajímá vztah dvojic, trojic, první a poslední pozice apod.

Page 47: Testování  a hodnocení

47Uspořádací úlohy - bodování

5:7; 4:5; 3:4; 6:8Bodování: (n)_n-1_n-2_n-3…

Svazek 4 podúloh: 3-2-1-0; 3-2-0; 2-1-0…Svazek 3 podúloh: 2-0; 2-1-0; 1-0…

Problém vzájemné podmíněnosti řešení uspořádacích úloh

Page 48: Testování  a hodnocení

48

Uspořádací ulohy

Page 49: Testování  a hodnocení

49

Úlohy s výběrem odpovědiPočet alternativ se pohybuje od 3 do 5.Dle některých výzkumů je učitelé často

hodnotí jako obtížnější, než jak je ve skutečnosti řeší (jejich) studenti.

Page 50: Testování  a hodnocení

50

Úlohy s výběrem odpovědi

Page 51: Testování  a hodnocení

51

Příklady úloh s výběrem odpovědiVzdělávací/Výukový cíl:

Student rozliší mezi prezidenty USA, kteří byli ve funkci těsně před, během a po Občanské válce.

Page 52: Testování  a hodnocení

52

Příklady úloh s výběrem odpovědiÚlohy se stimuly nutí studenty pracovat na vyšších kognitivních úrovních (tedy pokud jsou stimuly skutečně potřeba pro řešení!)

Page 53: Testování  a hodnocení

53Přečti si text a vyřeš následující úkoly.

Dear Peter, My Grandpa´s house is in the country. I stay there during the school holidays. There aren´t many cars, and I ride my bike a lot. I go for long walks with Grandpa´s dog. I like Grandpa´s country home. During the school term, I live with Mum and Dad in a flat in Liverpool. It´s a big city. When I´m there, I go shopping with Mum. I go to the cinema with Dad. There are lots of cars so I don´t ride my bike in the city. I play computer games.  Please write soon. Love, Amy

1. Vyhledej v textu, s kým chodí Amy na procházku. Vyznač vhodný obrázek. 

A □ B □ C □

2. Označ, čemu se Amy věnuje ve volném čase.A □ She goes for long walks with Grandpa´s dog.B □ She plays the piano.C □ She draws pictures.D □ She plays computer games.

Řešení: 1C; 2A, D;

Page 54: Testování  a hodnocení

54

+Eliminace hádání, podvádění Není třeba distraktorů - poněkud snazší tvorba-Problém s úplností a přesností klíčeMíchání produkce do receptivních dovednostíPokud je třeba posuzovat správnost odpovědí, pak je ohrožena spolehlivost či validita hodnoceníHodnocení trvá déleVíce hodnotitelů

Úlohy typu Short answer (gap fill),Summary, Information Transfer, Cloze…

Page 55: Testování  a hodnocení

55

U všech:Text nebo jednotlivé úlohy?Odpověď česky nebo anglicky?Jedno slovo nebo věta?Jak hodnotit? (počet bodů, částečně správné odpovědi, pravopis…) – jedinečnost správné odpovědi

Pravidla pro tvorbu jsou v podstatě stejná jako u ostatních.

Pozor na úroveň

Page 56: Testování  a hodnocení

56

While they were watching television, there was a sudden bang outside.a) wereb) watchingc) were watching

Vyloučí se alternativní struktury, které by pravděpodobně testovaný mohl/chtěl použít; nápověda je velmi silná – co to testuje? – spíše SZ?

Page 57: Testování  a hodnocení

57

A: What will he do? B. I think he ___ resign.A: I wonder who that is. B: It __ be the doctor.

Mnoho možností (will, might, may, could…)Možná by částečně pomohlo – v některých případech - dodat kontext, který omezí množství řešení: How can you be so certain?

Page 58: Testování  a hodnocení

58

Information transfer

Slyšený či psaný text + tabulka, nekompletní shrnutí, obrázky, k nimž se doplňují informace, apod.

Ko tōku whānau 1Kia ora. Ko Tama tōku ingoa. He kōrero poto tēnei mō tōku whānau. Ko au te tama a Hēmi rāua ko Maria. Tokotoru ā rāua tamariki. Kotahi te tamāhine, tokorua ngā tama tāne. Ko au te tuatahi o ā rāua tamariki, arā, ko au te mātāmua o te whānau. Ko Hine taku tuahine. Ko ia te tamaiti tuarua. Ko Hōne te pōtiki o te whānau. Ko ia taku teina.

Ko tōku whānau 1 – ngā whakautu

Hēmi Maria

Tama Hine Hōne

Page 59: Testování  a hodnocení

59

Cloze a C-tests (a případné modifikace)

Založeny na teorii o podvědomé rekonstrukci textuMechanické vymazání slov (s nabídkou nebo bez nabídky) – na rozdíl od gap-fill (většinou u izol. vět)

Skórování – a) přesné slovo nebo b) Přibližné slovo+Lze vytvořit velké množství úlohSnadná tvorba a snadné skórování (metoda a)-Obtížné vybrat text vhodný pro danou úroveň obtížnosti.Metoda b je zdlouhavá.Srovnatelnost verzí je zpochybnitelná.

Page 60: Testování  a hodnocení

60

Cloze tests (s případnými modifikacemi)

Page 61: Testování  a hodnocení

61

C-tests

Každé druhé slovo je v textu jen poloviční

Representativnější; více úloh, přitom časově méně náročnýmetoda a) - objektivnější

Page 62: Testování  a hodnocení

62

Přímé testování

Psaní:„Travel broadens the mind.“ Discuss the topic.

Mluvení:Pohovořte o vzdělávacím systému USA a porovnejte jej s českým.

Page 63: Testování  a hodnocení

63Xtero pro tvůrce úloh/testů nebo pro kritické posouzení testůNezapomínejte si sestavit specifikaci testu (cíl/účel testu a jeho propojení s výukou; co chci testem zjistit; co do testu dám za obsah; jaké formáty úloh použiju; co mi budou říkat výsledky; jak budu skórovat…)Na co si dát pozor při tvorbě úloh/testu:1. Ptejte se, co se z testu dozvíte o schopnostech testovaného.2. Poskytujte dostatek kontextu pro řešení.3. Omezte „svobodu“ řešení kvalitními instrukcemi a jasným cílem

úlohy.4. Jasné a kvalitní instrukce mohu přispět k větší spolehlivosti testu.5. Nepoužívejte v testu neznámé formáty6. Zkuste si test vyřešit bez výchozích textů.7. Ověřte si, že jazyk a formulace úloh není těžší než text samotný.8. Omezte příliš dlouhé a složité pokyny.

Page 64: Testování  a hodnocení

64Xtero pro tvůrce úloh/testů nebo pro kritické posouzení testů1. Úlohy formulujte stručně, srozumitelně a jednoznačně; bez

nadbytečných či zavádějících informací a formulací apod.2. Zvažte (v CJ), zda a do jaké míry využívat mateřský jazyk.3. Pokud musíte použít zápor, zvýrazněte ho.4. Ověřujte pouze dovednosti, které odpovídají dané úrovni a které

mohli žáci získat ve škole. Odpověď nesmí být (pouze) postavena na mimooborové nebo životní zkušenosti žáka.

5. Pamatujte na vyváženost a přiměřenost úloh (gender, kultura, obor, věk…).

6. Úlohy musí být z pohledu řešení nezávislé.7. Formulujte úlohy tak, aby bylo možné jen jedno správné řešení. 8. Zkontrolujte, že jsou alternativy konstrukčně jednotné.9. Vyhýbejte se zavádějícím slovům, např. často, zřídka, málokdy,

někdy, několik, občas, lepší, málo…10. Kritéria hodnocení/skórování by měla být jasná předem.11. NIKDO NENÍ PERFEKTNÍ AUTOR - NECHTE SI SVÉ ÚLOHY STRHAT

NĚKÝM, KDO TYTO ÚLOHY NETVOŘIL!

Page 65: Testování  a hodnocení

65

Než test zadáte žákům:1. Musí projít revizí a ideálně i pretestem2. Revidenti by měli zkusit i říci, co úloha ověřuje3. Porovnejte to se specifikací4. Ptejte se, zda v testu něco důležitého nechybí5. Udělejte si test jako žák (kromě svých vlastních úloh).6. Dejte test kolegům k posouzení a buďte připraven na jejich kritiku.7. Máte-li možnost, zeptejte se pár žáků (před nebo po ostrém

testování), proč volili tu kterou odpověď a jak k ní došli. Vytipujte si žáky dobře.

Když máte v ruce výsledky, čtěte je kriticky

Page 66: Testování  a hodnocení

66Téma 6: Skórování, vyhodnocení, interpretace výsledků

Page 67: Testování  a hodnocení

67

Jak jsou výsledky testu reportovány

Percentily: 50. percentil: průměr v kohortě nebo předem

stanovený průměr 80. percentil: tento student je lepší než 80 % ostatních

v dané kohortě nebo populaci (scaled test results) pořadí, ne skóry; o schopnostech nevíme nic

Úspěšnost, procentuální úspěšnost

Body

Umístění na škále

Page 68: Testování  a hodnocení

68

Porovnávání a inference Do jaké míry popisné statistiky popisují populaci nebo jiný

soubor dat? Do jaké míry jsou zjištěné rozdíly náhodné a do jaké míry

jsou dány nějakým systematickým faktorem?

Porovnávání - průměrů- četností- korelačních koeficientů vůči nule.

Statisticky významný rozdíl a významnost (na hladině .001, .01, .05) – statisticky významný výsledek = pravděpodobnost, že je to náhodné, je .1%; 1%, 5%.Reálný nebo náhodný rozdíl, výsledek… Platí pro vzorek, nikoli pro celou populaci!

Page 69: Testování  a hodnocení

69

studentID 73 28 48 66 76 90 120 99 101 115totscore

totscore%

8 0 1 0 1 1 0 0 0 0 0 2 0,220 1 0 1 0 0 0 0 0 0 0 2 0,2

5 1 0 1 0 0 0 1 0 0 0 3 0,311 1 1 0 1 1 0 0 0 0 0 3 0,312 1 1 0 0 0 1 0 0 0 0 3 0,313 1 1 0 0 0 0 0 0 0 0 3 0,317 0 0 0 1 0 1 0 1 0 0 3 0,3

2 1 1 0 0 0 1 0 1 0 0 4 0,43 1 1 1 0 1 0 0 0 0 0 4 0,46 0 0 1 1 0 1 0 1 0 1 4 0,4

14 1 1 1 0 0 0 0 0 0 0 4 0,418 1 0 0 0 1 1 0 0 0 0 4 0,419 0 0 1 1 1 1 0 0 1 0 4 0,4

4 1 1 1 1 0 0 1 0 0 0 5 0,57 1 1 0 1 0 1 1 0 0 0 5 0,59 1 1 1 1 1 0 0 0 1 0 5 0,51 1 1 1 1 1 0 0 1 0 0 6 0,6

10 1 1 1 1 1 1 0 0 0 0 6 0,615 1 1 0 0 1 1 1 0 0 0 6 0,616 0 0 1 0 1 1 1 0 1 0 6 0,6

FV 0,75 0,65 0,55 0,5 0,5 0,5 0,25 0,2 0,15 0,0520 20 20 20 20 20 20 20 20 2015 13 11 10 10 10 5 4 3 1

Úspěšnost studentů, obtížnost úloh, vzorce odpovědí

Page 70: Testování  a hodnocení

70

Funkčnost alternativ, diskriminace úloh

ANSWER OPTION

ITEM

A B C D blank check total

FV DI

  T 1 1 0 4 0 6    28 M 0 0 0 8 0 8 65% 0.5  B 3 1 1 1 0 6      T 0 5 1 0 0 6    

48 M 2 3 2 1 0 8 55% 0.33  B 1 3 1 1 0 6      T 1 2 3 0 0 6 50% -0.33

66 M 1 4 3 0 0 8      B 1 4 1 0 0 6      T 1 0 5 0 0 6 75% 0.33

73 M 0 0 7 1 0 8      B 0 2 3 1 0 6    

DI: rozdíl mezi počtem správných odpovědí u nejlepších (T) a u nejslabších (B) ku celkovému počtu osob ve skupině nejlepšíchDI Item 28 = (Tcorrect – Bcorrect)/Ttotalnumber = (4-1)/6 = 0.5

Diskriminace (jedna z možností)

Page 71: Testování  a hodnocení

71Co by měl sdělovat poskytovatel standardizovaných testů (údaje z pretestů a/nebo ostré analýzy)Pokud budete test opakovaně používat, bude se vám hodit:Počet účastníků: 59    Kvalita vzorku – směrodatnost údajůPočet úloh: 22     Souvislost s reliabilitouMax. možné skóre: 44.0 Min. možné skóre: 0.0 Max. dosažené skóre: 38.0 Min. dosažené skóre: 6.0 Čistá úspěšnost: 52.7%     (Min. = 0; pak ČÚ = prům. skóre/max. možné skóre)Hrubá úspěšnost: 52.7%     Bin. skór. úlohy = čistá a hrubá je totéž (úloha i test) Průměrné skóre: 23.2      Medián skóre: 24.0  Směr. odchylka skóre: 5.7 indikátor variability skórů, míra rozptylu skórů od průměru (prům. odchylka od

průměru). Při normálním rozdělení je 68 % populace +-1 SD od průměru.Průměrná diskriminace: 35.2%   Průměrná vynechanost: 5.1%      Průměrná nečtenost: 0.7%  nedosaženostReliabilita:   Cronb. alfa: 0.547    KR-20: 0.556  vnitřní konsistence/ homogenita testu (nad. .80)

Page 72: Testování  a hodnocení

72

Šikmost a špičatost – volba vhodných analýz

Page 73: Testování  a hodnocení

73

Histogramy, grafy apod.

Page 74: Testování  a hodnocení

74

Diskriminace vs. úspěšnost

90:10080:9070:8060:70 09 08

50:60 03 05 01 12

40:50 02 13 17a 07

30:40 11c

15a,15b,17b,17d

10 16c,16d

20:30

14a,14c 06 04 ,1

5d 16b 17c

10:20

11a,16a 15c 14b

0:10 11b

0:10 10:20

20:30

30:40

40:50

50:60

60:70

70:80

80:90

90:100

Page 75: Testování  a hodnocení

75

Různé přístupy k interpretaci výsledků

Test složený z více částí – kombinovaný skór nebo jedno číslo…

Příklad můj TOEFL a hypoteticky NSZ

Chyba měřeníhttp://www.ets.org/Media/Tests/TOEFL/pdf/TOEFL_iBT_Score_Reliability_Generalizability.pdf

Page 76: Testování  a hodnocení

76

Co o mně víte?Jak ale můžu být pro každého jinak zajímavá…

http://www.italki.com/p/oet.htm

http://www.ets.org/s/toefl/pdf/supplementary_comparison_tables.pdf

http://www.ets.org/toefl/institutions/scores/compare/

Můj výsledek TOEFL 2010: 93 bodů

Reading Listening Speaking Writing0

5

10

15

20

25

30

Page 77: Testování  a hodnocení

77

Page 78: Testování  a hodnocení

78http://www.britishcouncil-ieltsforusa.com/sg-en/compare_IELTS_and_TOEFL.html

IELTSOverall Band

Score

CommonEuropean

FrameworkLevel Descriptor

© Council of Europe TOEFL IBT

8.5 – 9.0

8.0C2

Can understand with ease virtually everything heard or read. Can summarise information from different spoken

and written sources, reconstructing arguments and accounts in a coherent presentation. Can express

him/herself spontaneously, very fluently and precisely.

Cannotmeasure

at C2 level

7.0 – 7.56.5 C1

Can understand a wide range of demanding, longer texts, and recognise implicit meaning. Can express him/herself

fluently and spontaneously without much obvious searching for expressions. Can use language flexibly and

effectively for social, academic and professional purposes. Can produce clear, well-structured, detailed text on

complex subjects.

110 - 120

5.5 – 6.05.0 B2

Can understand the main ideas of complex text on both concrete and abstract topics, including technical

discussions in his/her field of specialisation. Can interact with a degree of fluency and spontaneity that makes

regular interaction with native speakers quite possible without strain for either party. Can produce clear, detailed

text on a wide range of subjects.87 - 109

4.0 – 4.5 B1Can understand the main points of clear standard input on

familiar matters regularly encountered in work, school, leisure, etc. Can deal with most situations likely to arise

whilst in an area where the language is spoken. Can produce simple connected text on topics, which are

familiar, or of personal interest.57 - 86

3.0 A2

Can understand sentences and frequently used expressions related to areas of most immediate relevance (e.g. very basic personal and family information, shopping,

local geography, employment). Can communicate in simple and routine tasks requiring a simple and direct

exchange of information on familiar and routine matters. 40 - 56

2.0 A1

Can understand and use familiar everyday expressions and very basic phrases aimed at the satisfaction of needs of a concrete type. Can introduce him/herself and others and can ask and answer questions about personal details

such as where he/she lives, people he/she knows and things he/she has. Can interact in a simple way provided the other person talks slowly and clearly and is prepared

to help

No data availab

Page 79: Testování  a hodnocení

79

Test z matiky měl 48% úspěšnost, takže 52 % žáků neuspělo! No to je hrůza!

Test z matiky byl těžší než test z češtiny

Z matiky propadlo 50 % žáků, z češtiny 20 %, celkem na naší škole neuspěla polovina žáků!

Test měl 40% úspěšnost, takže ho 60% žáků neudělalo!

Je tam cut-off score 44%, ale test z češtiny měl úspěšnost jen 40%, takže neuspěl nikdo!

Často se objevující výroky

Page 80: Testování  a hodnocení

80

Hodnocení široce otevřených úloh je subjektivní

Je třeba akceptovat fakt, že hodnotitelé se lišíNení pravda, že učitelé hodnotí lépe než centrální hodnotitelé

Holistická vs. Analytická kritéria – výhody a nevýhody

Je ale třeba a možné odlišnosti do určité míry eliminovat nebo objektivizovat

ŠkoleníŠkály a deskriptoryMonitoringAnalýzy (korelace, inter- a intra- rater reliability/consistency; decision consistency)Úpravy hodnoceníPřísnost nebo mírnost vs. Nekonzistentnost

Page 81: Testování  a hodnocení

81

Dosud zveřejňované výsledky analýzCTT: Vše doposud řečené = Klasická teorie testů

IRTMěření skryté proměnnéStejná škála pro měřenou proměnnou (jazykové dovednosti) a úlohy, pomocí nichž je proměnná měřena-pozorována (obtížnost)

Schopnost Beta a obtížnost Theta

Pravděpodobnost správné odpovědi na položku dané obtížnosti Theta při schopnostech testovaného Beta.Logits

Page 82: Testování  a hodnocení

82

K plošnému hodnocení vzdělávacího systému a efektivity vzdělávání

Výsledné skóry ovlivněny:(1) Obsahem a způsobem výuky(2) Přirozenými intelektuálními schopnostmi (různé typy inteligence)(3) Mimoškolními aktivitami(4) Často zmiňovanou přidanou hodnotou školy(5) Praktickými omezeními (jen selekce úloh z celku, typ analýz,

kvalita pretestů)… Relativní efektivita úloh: psychometrika vs. obsah vs. Účel, NR vs.

CR…

Co (standardizované) testy naopak umí: Porovnávat žáky vzájemně Porovnávat míru zvládnutí vymezeného obsahu/vůči kritériu Diagnostikovat slabé a silné stránky (vzhledem k vymez. kritériu) Měřit pokrok v čase Rozřadit podle úrovně

K čemu je dobré testovat? A k čemu (standardizované testy) neslouží?

Page 83: Testování  a hodnocení

83

POUŽITÁ A DOPORUČENÁ LITERATURA: American Educational Research Association (AERA), American Psychological Association (APA), & National Council on Measurement in Education (NCME). (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.

Bachman, L. F., & Palmer, A. S. (1996). Language testing in practice: Designing and developing useful language tests. Oxford: OUP.

Cizek, H. J. (ed) (2001). Setting performance standards. Concepts, methods, perspectives. NJ. Lawrence Erlbaum Associates, Inc., Publishers.

Brown, J. D. (1988). Understanding research in second language learning: A teacher's guide to statistics and research design. Cambridge: Cambridge University Press.

Cizek, G. J. & Bunch, M. B. (2007) Standard setting. A guide to establishing and evaluating performance standards on tests. Thousand oaks, CA: Sage Publications, Ltd.

Page 84: Testování  a hodnocení

84

POUŽITÁ A DOPORUČENÁ LITERATURA:

ALTE (1998). Multilingual glossary of language testing terms. Cambridge: Cambridge University Press.

Kubiszyn, T., & Borich, G. (2000). Educational testing and measurement. Classroom Application and Practice. New York: John Wiley & Sons, Inc.

Alderson, J.C., Clapham, C. and Wall, D. (1995). Language test construction and evaluation. Cambridge: Cambridge University Press. Bachman, L. F. (2004). Statistical analyses for language assessment. Cambridge: Cambridge University Press.  Brown, J.D. & Hudson, T. (2002). Criterion-referenced language testing. Cambridge: Cambridge University Press. Chapelle, C. (2012). Validity argument for language assessment: The framework is simple... Language Testing 29, 19-27.

Page 85: Testování  a hodnocení

85

POUŽITÁ A DOPORUČENÁ LITERATURA:

Council of Europe. (2001). Common european framework of reference for languages: learning, teaching, assessment. Cambridge: Cambridge University Press.  De Veaux, R.D., Velleman, P.F. & Bock, D.E. (2008), Stats. Data and models. Pearson Education. Downing, S. M. & Haladyna, T. M. (eds) (2006). Handbook of test development. NJ. Lawrence Erlbaum Associates, Inc., Publishers.

Ebel, R. L. & Frisbie, D. A. (1991). Essentials of educational measurement. New Jersey: Prentice Hall. Jenkinson, C. (1991). Why are we weighting? Critical examination of the use of item weights in a health status measure. Social Science & Medicine 32, 1413-1416.  Khalifa, H. & Weir, C. (2009). Examining reading. Cambridge: Cambridge University Press.

Page 86: Testování  a hodnocení

86POUŽITÁ A DOPORUČENÁ LITERATURA:

Khan, A. & Rayner, G.D. (2003). Robustness to non-normality of common tests for the many-sample location problem. Journal of Applied Mathematics and Decision Sciences 7(4): 187–206.

Pallant, J. (2007). SPSS survival manual - 3th edition. McGraw-Hill Education.  Pižorn, K. & Nagy, E. (2009). The politics of examination reform in Central Europe. In Alderson, J. Ch. (Ed.). The Politics of Language Education: Individuals and Institutions. Bristol: Multilingual Matters. Rotou, O., Headrick, T.C & Elmore, P.B. (2002). A proposed number correct scoring procedure based on classical true-score theory and multidimensional item response theory. International Journal of Testing 2(2), 131-141. Sim, J. & Wright, Ch.C. (2005). The Kappa statistic in reliability studies: use, interpretation, and sample size requirements. Physical Therapy 85, 257-268.

Page 87: Testování  a hodnocení

87

POUŽITÁ A DOPORUČENÁ LITERATURA:

 Standards for educational and psychological testing. (2001). (Klimusová, H. Trans.). AERA, APA & NCME. (Original work published in 1999). Verhelst, N. & Hulešová, M. (2011). Standard setting in the national examination of English in the Czech Republic. Retrieved November, 13, 2012, from www.promz.cz/download/1404034454/?at=1 Xi, X. (2007). Methods of test validation. In E. Shohamy & Hornberger, N. H. (Eds.), Encyclopedia of Language and Education, 2nd Edition, Volume 7: Language Testing and Assessment (pp. 177-196). Springer Science & Business Media LLC. Zieky, M. (2006). Fairness reviews in assessment. In Downing, S. M. & Haladyna, T. M. (Eds.), Handbook of test development (pp. 359-376). Mahwah, N.J.: Lawrence Erlbaum 

Page 88: Testování  a hodnocení

88POUŽITÁ A DOPORUČENÁ LITERATURA:

 Kunnan, A. J. (2008). Large-scale language assessments. In E. Shohamy & N. H. Hornberger (Eds.), Encyclopedia of Language and Education, 2nd Edition, Volume 7: Language Testing and Assessment (pp. 135–155). Springer Science & Business Media LLC. Kunnan, A. J. (2010). Test fairness and Toulmin's argument structure. Language Testing 27(2), 183-189.  Manual for language test development and examining. (2011). Council of Europe. Retrieved December 12, 2012, from http://www.coe.int/t/dg4/linguistic/ManualtLangageTest-Alte2011_EN.pdf McCornack, R. L. (1956). A criticism of studies comparing item-weighting methods. The Journal of Applied Psychology 40(5), 343- 344.  Messick, S. (1995). Validity of Psychological Assessment. Validation of inferences from persons' responses and performances as scientific inquiry into score meaning. American Psychologist 50(9), 741-749. 


Recommended