DOBRÁ ŠKOLA - mesačník
 
Vieme o všetkom Viac
Inšpirujte sa Viac Podporujeme Viac

Zmena hodnotenia testu z matematiky bola zbytočná a odborne pomýlená

pridané 05.04.2011, autor Vlado Burjan pošli na vybrali.sme.sk

Postup NÚCEM-u pri hodnotení matematického testu v tohtoročnom Testovaní 9 vyvolal vlnu nevôle medzi učiteľmi a žiakmi. Pokúsim sa stručne a zrozumiteľne vysvetliť niektoré princípy teórie školských testov, z ktorých vyplýva, že postup NÚCEM-u bol zbytočný, kontraproduktívny a z odborného hľadiska nesprávny. 

Pre tých, čo túto „kauzu“ nezachytili, stručná rekapitulácia: po vyhodnotení tohtoročného Testovania 9 sa ukázalo, že tri úlohy (z dvadsiatich) v matematickom teste mali veľmi nízku úspešnosť. Presné čísla zatiaľ nepoznáme, ale zrejme tieto úlohy zvládlo menej ako 10 % žiakov. Pracovníci NÚCEM-u boli tou­to skutočnosťou zjavne zaskočení (v minulosti sa ešte takéto nízke úspešnosti v Testovaní 9 nevyskytli), videli v tom problém a cítili potrebu ho riešiť. Rozhodli sa preto uvedené tri úlohy anulovať, a to takým spôsobom, že všetkým deviatakom za ne automaticky pripísali po 1 bode. (Všetky úlohy v teste boli jednobodové.) Pedagogická verejnosť na tento krok zareagovala dosť kriticky. Časť učiteľov mala pocit, že vo vyhodnotení sú chyby. (Až dodatočne sa vyjasnilo, že nejde o chybu, ale o zámernú zmenu hodnotenia.) Ďalší namietali, že tí žiaci, ktorí sa s problematickými úlohami počas testovania trápili a vyriešili niektoré z nich správne, sú úpravou hodnotenia znevýhodnení (čo je pravda). No a veľká časť pedagógov podozrieva NÚCEM, že záme­rom tohto kroku bolo umelo zdvihnúť priemernú úspešnosť testu z matematiky, ktorá by inak bola „nežiaduco“ nízka.

V tejto súvislosti sa vynára niekoľko otázok: bola nízka úspešnosť troch otázok naozaj problémom? Bolo potrebné na tento problém reagovať úpravou hodnotenia? Ak áno, aké boli možnosti? Bol zvolený postup správny? Aby sme na tieto otázky mohli odpovedať, musíme si najskôr položiť a zodpove­dať jednu dôležitú otázku ohľadom dotyčného testu: chce byť Testovanie 9 overovacím testom (t. j. testom absolútneho výkonu) alebo rozlišovacím testom (t. j. testom relatívneho výkonu)? Táto skutočnosť má totiž zásadný vplyv na to, ako narábame pri tvorbe a vyhodnocovaní testu s položkami, ktoré majú príliš vysokú alebo príliš nízku úspešnosť.

1. Predpokladajme na chvíľu, že Testovanie 9 chce byť overovacím testom.

Cieľom overovacieho testu je overiť, do akej miery zvládli konkrétni jednotlivci (alebo celá populácia) požiadavky dané kurikulom a štandardmi. Pri tvorbe takéhoto testu sa preto striktne vychádza z kurikula a zahrňuje sa do neho všetko podstatné, čo sa mali žiaci naučiť. Na obťažnosť jednotlivých položiek sa pritom neprihliada – tá vyplýva z obťažnosti jednotlivých častí učiva. Jednoducho povedané: ak kurikulum predpisuje, že sa žiaci niečo mali naučiť, tak to máme testovať. A výsledky ukážu, do akej miery sa to naozaj naučili. Hovoríme, že meriame absolútny výkon respondentov, teda ich výkon vo vzťahu ku štandar­dom a ku kurikulu, nie vo vzťahu k iným respondentom. Tomuto cieľu musí byť prispôsobená aj konštrukcia testu. Jeho autori pri tvorbe testu neriešia náročnosť položiek, ale maximálne sa sústreďujú na to, aby presne odrážali predpísané učivo. Výsledky takéhoto testu slúžia na to, aby sme o konkrétnom žiakovi (alebo o celej populácii) vedeli čo najpresnejšie povedať, čo z učiva zvládol a čo nie. Výsledky sú teda predovšetkým ukazovateľom rozsahu a kvality vedomostí konkrétnych žiakov, ale aj efektívnosti vzdelávacieho systému či primeranosti kurikula. Výsledky takéhoto testu sa však nehodia (z viacerých dôvodov) na porovnávanie žiakov navzájom.

Ako by sa teda bolo malo postupovať s troma príliš ťažkými úlohami v prípade, keby Testovanie 9 bolo overovacím testom? V prvom rade by sa malo preskúmať, či otázky skutočne boli v súlade s kurikulom a s výkonovými štandardmi. Ak neboli, takéto položky nemali v teste čo robiť a bola by to pomerne vážna chyba autorov testu. V takomto prípade by asi bolo zmysluplné položky anulovať. Určite by však bol vhodnejší iný spôsob, než zvolil NÚCEM, a síce vyškrtnúť ich z testu, nikomu za ne nezarátať žiadne body a maximál­ny možný počet bodov znížiť na 17. Nedošlo by tak k umelému „nafúknutiu“ úspešnosti, ktoré sa mnohým (oprávnene) nepozdáva. A počet žiakov, u ktorých sa upravuje skóre, by bol minimálny. Títo žiaci by však neboli vyradením úloh nijako poškodení, pretože pri overovacom teste sa výsledky žiakov navzájom neporovnávajú. Ak by sa však ukázalo, že otázky boli plne v súlade s kurikulom a štandardmi, potom sa s nimi nemalo robiť nič. Jednoducho odhalili isté časti učiva, ktoré sme síce plánovali žiakov naučiť, v praxi sa nám to však nepodarilo. To však rozhodne nie je dôvod na zmenu hodnotenia, ktoré iba objektívne odráža úroveň vedomostí žiakov v daných oblastiach. Malo by sa však niečo urobiť buď s kurikulom, ktoré je príliš ambiciózne a preplnené, alebo s hodinovou dotáciou, ktorá mu nezodpovedá, alebo s metódami vyučovania. Rozhodne však nie so samotnými úlohami. Poslov zlých správ netreba zabíjať, treba im načúvať...

2. Predpokladajme na chvíľu, že Testovanie 9 chce byť rozlišovacím testom.

Cieľom rozlišovacieho testu je zmerať úroveň istých vedomostí či schopností v danej skupine žiakov a čo najviac zvýrazniť rozdiely medzi žiakmi, rozlíšiť ich od seba navzájom. Tento typ testov sa používa najmä na prijímacích skúškach, keď počet uchádzačov prevyšuje počet voľných miest. Cieľom tohto typu testu nie je vypovedať o jednotlivcoch, čo konkrétne z kurikula zvládli a čo nie. Cieľom je vhodným sumárnym údajom (testovým skóre) vyjadriť ich celkovú úroveň, a to tak, aby meranie čo najviac zvýraznilo rozdiely medzi tými s najvyššou úrovňou a tými s najnižšou úrovňou. V tomto prípade meriame relatívny výkon respondentov, teda ich výkon v porovnaní s inými respondentmi, nie vo vzťahu ku štandardom a kurikulu. Tomuto cieľu musí byť prispôsobená aj konštrukcia takéhoto testu. Pri jeho tvorbe sa (na rozdiel od overujúceho testu) kladie veľký dôraz na primeranú obťažnosť položiek. Do rozlišovacieho testu by totiž mali byť zaradené iba stredne náročné položky, s úspeš­nosťou okolo 50 – 60 %. Príliš ľahké a príliš ťažké položky do takéhoto testu nepatria. Prečo? Pretože nepomáhajú rozlíšiť dobrých a slabých. Ak 90 % žiakov zodpovie nejakú otázku nesprávne, skoro nič sa z toho nedozvieme o rozdieloch v ich vedomostiach či schopnostiach. Taká položka zbytočne zabrala vzácne miesto v teste a ni­čím neprispela k jeho rozlišovacej schopnosti. To isté platí o príliš ľahkých položkách. Pri tvorbe kvalitného rozlišovacieho testu by sa preto malo postupovať tak, že sa položky vopred pilotujú (overujú) na vzorkách respondentov, aby sa empiricky zistila ich obťažnosť. Príliš ľahké a príliš ťažké položky sa potom v ostrom teste nepoužijú.

Ako by sa teda bolo malo postupovať s troma príliš ťažkými úlohami v prípade, keby Testovanie 9 bolo rozlišovacím testom? Nuž, v takom prípade by sa v ňom také ťažké otázky vôbec nemali objaviť. Bola by to konštrukčná chyba testu, ktorá padá na hlavy jeho autorov. Ak by sa to však už stalo, rozhodne by bolo naj­rozumnejšie nemeniť ich hodnotenie. Prečo? Pretože aj keď má položka úspešnosť iba 10 %, predsa len aspoň trochu rozlišuje (odlíšila tých 10 % najlepších, ktorí ju vyriešili, aj keď všetkých ostatných „hodila do jedného vreca“). Ak za ňu dáme všetkým bod, vyrobíme tým položku, ktorá nediskriminuje (nerozlišuje) ani trochu, teda z hľadiska rozlišovacieho testu tú najhoršiu možnú položku. Ak by sme sa teda na Testovanie 9 pozerali ako na rozlišovací test, bol krok NÚCEM-u nezmyselný a kontraproduktívny: z troch zle rozlišujúcich položiek vyrobili tri vôbec nerozlišujúce položky a zbytočne tak celkovú rozlišovaciu schopnosť testu ešte viac znížili. Zhoršili tak jeho (aj tak už dosť slabú) použiteľnosť pre účely prijímacích skúšok.

Možno si kladiete otázku, prečo sme zbytočne uvažovali aj o rozlišovacích, aj o overovacích testoch a ne­skúmali iba ten prípad, ktorý sa vzťahuje na Testovanie 9. Odpoveď je jednoduchá: Testovanie 9 je akýmsi čudesným hybridom oboch týchto typov. Na jednej strane sú stredné školy vyzývané, aby ho zohľadňovali v prijímacom konaní, čo je možné iba pri rozlišovacom teste. Na druhej strane sa každý rok na tlačových konferenciách robia z výsledkov Testovania 9 závery o úrovni vzdelávania v SR, čo je možné iba pri overovacom teste. Pri rozlišovacom teste je to nezmyselné, pretože ten musí byť zámerne konštruovaný tak, aby jeho úspešnosť bola okolo 50 – 60 %! A ak si myslíte, že v našich ekonomických podmienkach je rozumným riešením zabiť dve muchy jednou ranou a vytvoriť akýsi univerzálny „overovaco-rozlišovací“ test, musím vás sklamať: z mnohých principiálnych dôvodov nie je možné, aby akýkoľvek školský test bol súčasne dobrým rozlišovacím aj dobrým overovacím testom. Aj z toho mála, čo sme tu uviedli, je zrejmé, že overovací test musí byť konštruovaný a vyhodnocovaný celkom inak ako rozlišovací. Snaha vytvoriť jeden test pre oba účely musí nutne skončiť jediným spôsobom: vytvorením testu nevhodného na oboje, čo je, žiaľ, prípad nášho Testovania 9.

Takže, aby som to zhrnul: v danej situácii bolo jednoznačne najrozumnejšie neurobiť vôbec nič. Ponechať tri úlohy tak, ako dopadli, a nemeniť hodnotenie. Namiesto toho sa otvorene a do hĺbky porozprávať o tom, čo tie tri problematické úlohy tes­tovali, či to naozaj je v súlade s kurikulom a štandardmi, prečo ich asi žiaci nezvládli, čo sa s tým bude do budúcnosti robiť, kto tvoril testy, či autori testu rozumejú princípom tvorby školských testov (a nielen matematike), či boli otázky pilotované, no najmä: či má byť Testovanie 9 do budúcnosti overovacím alebo rozlišovacím testom. To všetko by bolo bývalo omnoho užitočnejšie ako neuvážená zmena hodnotenia, ktorá mnoho učiteľov a žiakov nahnevala a nič pozitívne nepriniesla. A odvolávanie sa na to, že takýto postup používajú aj renomované zahraničné inštitúcie, je celkom zavádzajúce. Príliš ťažké (a príliš ľahké) úlohy sa síce naozaj škrtajú, avšak predovšetkým vo fáze pilotovania a zosta­vo­vania testu. Dodatočné vyraďovanie takýchto úloh počas vyhodnocovania môže mať opodstatnenie jedine vtedy, ak sa používajú celkom iné metódy hodnotenia testov (napr. IRT a iné parametrické modely). Aplikovať takýto postup v rámci tzv. klasického modelu používaného u nás je celkom nenáležité.

RNDr. Vladimír Burjan, EXAM testing, spol. s r. o.

Páči sa vám, čo sme vybrali z nášho časopisu? Staňte sa naším čitateľom.

100011 komentárov k článku: “Zmena hodnotenia testu z matematiky bola zbytočná a odborne pomýlená”

  1. Áno pridal aanka, 05.04.2011
    Veľmi sa mi páči tento rozbor. Sú to vlastne všetko veci, ktoré by mal človek, tvoriaci testy, ovládať. Žiaľ, nie je mi jasné, prečo neustále dochádza ku závažným chybám ako pri testoch pre deviatakov, tak pri maturitných testoch.
  2. Trapasssss pridal Katarína, 05.04.2011
    Nuž... je to riadna hanba! Akí ľudia to vlastne pracujú v NÚCEM-e??! To tam nie je žiaden odborník? Krásne... niekto niečo tvorí a vlastne ani nevie čo. A teraz si vlastne spomínam, že hneď po monitore, keď sa začalo rozprávať, že bol ťažký, tvrdili, že úlohy boli pilotované....
  3. Konečne... pridal ivicagra, 05.04.2011
    ...rozumná analýza, nestranná, bez emócií. Ľudí, ktorí tvoria tieto testy treba zrejme poslať na doškolenie a to sa pripravujú testovať aj piatakov.
  4. Klobúk dole pridal Sopúšik, 06.04.2011
    Zhltol som to jedným nádychom a musím sa priznať, že som sa usmieval popod fúziky. Nie škodoradostne. Takto po lopate by to mali mať napísané aj ľudia v kanceláriách, kde sa tie "testy" tvoria. Ale ešte pred vytvorením toho ich produktu. A potom by už nám učiteľom zostalo len dúfať, že sa to z papiera konečne prenesie aj do praxe.
    Vďaka za článok, veľký palec hore.
  5. Skvelý článok pridal Anna Gottweisova, 06.04.2011
    Dovoľujem si len dodať, že takto vyhodnotené testy nielen zrovnali a deformovali výsledky, ale priamo poškodili žiakov, ktorí príklady vyriešili. To považujem za neakceptovateľné a školy by tieto výsledky mali v prijímacom konaní ingorovať.
  6. súhlas pridal barbora, 06.04.2011
    Veľmi pekne ďakujem, že niekto bez emócií rozobral niečo čo si hádam prečítajú aj kompetentní a začnú konečne pracovať tak ako pracujeme my - pešiaci na základných školách. Teda pracujte s realitou!!!!!!
  7. A navyse monitory a maturity ako prijimacky pridal anti, 07.04.2011
    Velmi dobry clanok, zase som sa nieco nove naucil (ze na porovnavanie sa pouzivaju stredne tazke ulohy).

    Podla mna by taketo testy mali byt hodnotenim toho, co zvladli ziaci podla osnov. To iste aj maturity. A ak by dokazali zaviest nejaku dobru metodiku tento rok na to testovanie a drzali sa toho 10-15 rokov, tak mozme sledovat aj osprostievanie/omudrievanie populacie;-)

    Nechapem preco by mali VS/SS brat ludi na zaklade maturit/monitorov. To, ze to robia, je podla mna ich cista lenivost a nemotivovanost mat skutocne dobrych studentov a dobre vysledky. Ved predsa na kazdy smer/specializaciu, by mali byt ine poziadavky na uchadzaca a neda sa jednym testom zmerat vsetko. Nechapem v ktorej hlave vlastne vznikol takyto chory napad (pouzit to miesto prijimaciek).
  8. Vysvetlenie z NUCEMU pridal inka, 07.04.2011
    Keď som čítala článok na NUCEM http://www.nucem.sk/documents//26/testovanie_9_2011/list_R%C5%A0.pdf, mala som pocit, že som len ja nepochopila o čo tu ide. Som rada, že niekto zrozumiteľne opísal vzniknutý problém. Vďaka za článok.
  9. to anti pridal aanka, 07.04.2011
    To, že sa robí monitor, je pri prijímaní žiakov na SŠ dosť nepodstatné. Vo veľkom množstve stredných škôl totižto príjmu na štúdium takmer každého žiaka, lebo populácia klesla a škola dostáva peniaze na počet žiakov. Takže školy sú radi, že vôbec budú mať dosť žiakov na to, aby dostali dostatočné finančné dotácie na svoj chod. Suma sumárum-nie sú dôležité výsledky, nie je dôležitý monitor, prijmeme každého :(
  10. monitor a prijimacky pridal monika, 08.04.2011
    Veľmi dobrý článok, veľa som sa z neho naučila. Okrem toho som rozčúlená z rozhodnutia NUCEMU, keĎže napríklad môj syn zvládol všetky tri spomínané úlohy a v porovnaní s tými , ktorým sa prilepšilo, jemu neprilepšil nik. Nepáči sa mi, že je Monitor zahrnutý do prijímacieho konania.
  11. ďalší presvedčivý dôkaz pridal js, 29.04.2011
    toho, že NúCEM je ústav profesionálne nekompetentný. A platený zo štátneho rozpočtu!
    Čo môže to domrví - monitor, maturity, testovanie. Ale už tretím minister má pre varovania (ako je toto Burjanovo)zapchaté uši a ponižuje sa, aby ich bludy šíril.

Sorry, you must be logged in to comment. Please login or register to comment.