Fjern tavshedspligten omkring de nationale test i folkeskolen

I folkeskoleloven § 55 bliver skolens ansatte pålagt tavshedspligt i forhold til både testresultater og opgaver i de nationale test. Hvor tavshedspligt i forhold til testresultater er rimeligt og forventeligt, kan tavshedspligt i forhold til testopgaver i yderste konsekvens ødelægge de nationale tests validitet.

Offentlighed om opgavebanken er afgørende, når resultater af de nationale test skal indgå i undervisningspraksis, fordi opgavebanken tegner testresultatets målestok.

Tilmed betyder tavshedspligt i forhold til opgavebanken, at væsentlig debat om opgavernes indhold og relevans forstummer. En offentligt finansieret test med opgaver, der ikke kan udsættes for offentlighed og kritik, er på alle måder en problematisk størrelse.

Den nationale test ligner højdespring

Hvordan skal man forstå og tolke resultater i de nationale test? For at forstå tankerne bag de nationale test kan vi sammenligne med et atletikstævne. Hvor prøver i folkeskolen hidtil har lignet disciplinen hækkeløb, er de nationale test at sammenligne med disciplinen højdespring. De nationale test følger et andet regelsæt end almindelige prøver, og resultatet af de nationale test skal tolkes på en ny måde.

Blyant-og-papir prøven

Den mest almindelige prøveform på skoleområdet er blyant-og-papir prøver, hvor alle elever får samme prøve, uanset deres individuelle forudsætninger. Disse prøver kan sammenlignes med hækkeløb, hvor alle elever løber på samme bane. Hvis en elev svarer korrekt på alle opgaver, bliver alle hække stående. Fejlbesvarede opgaver betyder væltede hække.

For at sikre sammenhæng mellem antallet af korrekt besvarede opgaver og elevens dygtighed er det vigtigt at undgå opgaveformuleringer, hvor dygtige elever misforstår problemstillingen og svarer forkert, mens intetanende elever svarer rigtigt. Ved opgaveudvikling og gennem statistiske analyser, arbejder professionelle testudviklere for et prøvedesign, hvor prøveresultatet afspejler elevens dygtighed.

De nationale test

En velopbygget blyant-og-papir prøve har den egenskab, at elevens dygtighed bliver afspejlet i antallet af rigtige opgaver - ligesom i hækkeløb. De nationale test følger ikke principperne for hækkeløb, men i højere grad principperne for højdespring, hvor resultatet aflæses på overliggerens højde.

Overliggeren i de nationale test er opgavernes sværhedsgrad. Hver enkelt opgave er tildelt en sværhedsgrad fra 1 til 100. Denne sværhedsgrad står i relation til besvarelser ved afprøvning af opgavebanken på en repræsentativ elevgruppe. Opgaver med ganske få rigtige svar har fået tildelt en høj sværhedsgrad.

Det adaptive princip

Det særlige ved de nationale test er, at de er adaptive. For at blive i højdespringsterminologien, kan man forestille sig en opmærksom idrætstræner, der hæver og sænker overliggeren afhængigt af hvordan det sidste spring er forløbet. I praksis ser det adaptive princip dog noget mere kompliceret ud.

Disse autentiske eleveksempler demonstrerer med al tydelighed, hvor lille betydning antallet af rigtige opgaver har for prøvens resultat. Det lave resultat er fremkommet ved 15 rigtige ud af 20 opgaver, hvor det høje resultat er fremkommet ved syv rigtige ud af 19 opgaver.

Umiddelbart ser det ud til, at begge elever har været temmelig uheldige i opgavetildelingen: Den ene elev har fået alt for mange svære opgaver, hvor den anden elev slet ikke har fået lov at prøve svære opgaver. Den adaptive opgavetildeling sker efter matematiske og statistiske principper, der ligger uden for almindelige læsevejlederes formåen at forklare, men skolestyrelsens hjemmeside beskriver principperne således:

"At en test er konstrueret efter det adaptive princip betyder, at opgaverne bliver udvalgt specielt til den enkelte elev. Princippet er enkelt: Eleven starter med en middelsvær opgave. Svarer eleven rigtigt på opgaven, vil næste spørgsmål blive sværere. Svarer eleven forkert, vil næste spørgsmål blive lettere. Efter nogle spørgsmål, der er udvalgt på denne måde, beregnes elevens dygtighed ud fra de besvarede opgaver. Da opgaverne vælges specielt til den enkelte elev afhængig af elevens besvarelse, vil eleven få opgaver, der har en passende sværhedsgrad - uanset hvor stærk eleven er i faget."

Afspejler opgaverne elevernes dygtighed?

Når det adaptive princip ikke udvælger opgaver af passende sværhedsgrad for den enkelte elev, kan årsagen ligge i opgavebanken. Opgaver, hvor opgavebesvarelsen ikke på sikker vis afspejler elevens dygtighed, er uhåndterbare i det adaptive prøveforløb.

Er begge elever tidligt i forløbet er stødt på flere opgaver, hvor opgavetypen i sig selv har betydet, at disse opgaver har været særlig nemme eller vanskelige at besvare for den enkelte elev, har det betydning for det adaptive prøveforløb og dermed det endelige elevresultat.

Som lærer har man adgang til at se alle de opgaver, klassen har besvaret, og her vækker sammenblandingen af forskellige opgavetyper i samme prøveforløb undren.

Sprogforståelse i flere forskellige opgaveformater

I begge forløb er det overordnede emne for opgaverne sprogforståelse. Men opgavebanken indeholder mindst tre forskellige typer af opgaver i sprogforståelse.

Opgaver i talemåder, der udover sprogforståelse kræver afkodningsfærdigheder af sammenhængende tekst. Opgaver i navneord, der udover sprogforståelse kræver billedeafkodning og afkodning af enkeltord. Opgaver i homonymer, der ikke kræver afkodningsfærdigheder, men stiller krav om billedeafkodning og kombínatoriske evner.

Opgavetildelingen sker ved elektronisk udvælgelse af en tilfældig opgave i en passende sværhedsgrad. Så det er muligt, at et prøveforløb alene består af en opgavetype. Fx vil nogle børn kunne klare opgaverne i sprogforståelse uden at bruge afkodningsfærdigheder, hvor andre alene vil møde opgaver, der kræver afkodning.

De illustrerede eksempler er hentet fra den offentligt tilgængelige demotest, men det er værd at bemærke, at opgavebanken indeholder betydelig større variation i opgavetyper, end demotesten giver udtryk for.

Hvorfor tavshedspligt om opgavebanken?

"De opgaver, der indgår i testene, herunder indholdet af opgavebanken, gøres også til fortrolige oplysninger af hensyn til at sikre, at opgaver, som indgår i opgavebanken, ikke bliver alment kendte og dermed mister deres værdi som evalueringsredskab." Sådan står der i lovforslagets bemærkninger om §55b.

At opgaver mister deres værdi som evalueringsredskab ved at blive alment kendt, er ikke et fænomen jeg som læsevejleder kan nikke genkendende til. Nogle af de mest almindelige læseprøver blev udgivet i firserne, og har ikke mistet værdi ved at blive hyppigt brugt.

Tværtimod vil der være meget at vinde for de nationale test ved at ophæve tavshedspligten om opgavebanken. Det vil gøre det muligt at validere opgavernes indhold og udformning igennem offentlige og kvalificerede erfaringsudvekslinger.

Marina Norling er folkeskolelærer og læseinstruktør

Kommentarer (56)

Information indsamlet for offentlige midler bør være offentlig tilgændelig. Med meget få undtagelser. Nationale test er ikke en af dem.

  • 0
  • 0

Der er formentlig tale om en layout fejl.

Udover det er det en god artikel. Det er vel et spørgsmål om at opgavebanken gøres så stor at der ikke er mulighed for at "memoriserer" alle svarene. Hvis der kun er få opgaver kan jeg godt forstå at man ønsker at holde dem hemmeligt.

  • 0
  • 0

Ja, det er mystisk, at hverken elev eller forældre må se elevens besvarelser.
De nationale test er jo et værktøj til den løbende evaluering og testene er et pædagogisk redskab til lærerne, der kan bidrage til den videre tilrettelæggelse af undervisningen og derved bedre målrette undervisningen til den enkelte elevs behov.
Man skulle tro, at det var en rigtig god ide, hvis eleven, læreren og evt. forældrene sammen kunne se på elevens besvarelse.

  • 0
  • 0

En prøve i de nationale test, fx læseprøven i anden klasse, består af en opgavebank på 1000 opgaver. Under testforløbet bliver der udvalgt opgaver til den enkelte elev fra denne opgavebank. Det er derfor ikke realistisk, at en elev lærer samtlige opgaver udenad, og tavshedspligt om opgavebanken er egentlig overflødig.

Der er to officielle grunde for tavshedspligt om opgavebanken:

Undervisningsministeriet og regeringen ønsker, at opgavebanken skal forblive hemmelig, for at opgaverne ikke skal miste værdi ved at blive alment kendt. En opgave koster ca. 15.000 kr. at udvikle og afprøve.

Socialdemokratiet og Danmarks Lærerforening ønsker, at opgavebanken skal forblive hemmelig, for at undgå, at lærerne indskrænker undervisningen til alene at handle om indholdet i de nationale test. Et fænomen, der er velkendt fra England, hvor man laver særlige undervisningsforløb og indkalder ekstra personale op til testen: Teaching to the test.

Men to grupper må gerne se opgaverne: Eleverne og deres lærere ved de to frivillige testgange. Da der typisk ikke er ret mange svære opgaver i opgavebanken, vil mange elever få samme opgaver ved de frivillige testgange som ved de nationale test. Hvis lærerne vil, er der rig mulighed for at indrette undervisningen efter testopgaverne, og man finder mange spor af NT-testopgaver i folkeskolens undervisning.

Hvem må ikke se opgaverne i de nationale test? Pædagogiske forskere og lektorer har ikke adgang til at kritisere opgaverne. Kommunale beslutningstagere, der har adgang til at bruge resultaterne af de nationale test i kommunale skolekontrakter, må heller ikke se opgaverne.

Jeg har brugt lang tid på at arbejde med de nationale test. Som lærer har jeg haft fri adgang til mine elevers opgaver, og der er meget at kritisere ved opgaverne og deres indbyrdes sværhedsgrader. Men tavshedspligten om opgavebanken betyder, at jeg ikke kan ytre min kritik nogen steder. Det er jeg selvsagt ikke tilfreds med.

  • 0
  • 0

Det ser ud som om der er noget galt med den måde opgaverne bliver valgt ud på. Dette er mest tydeligt ved prøven med den lave score. Han svarer forkert på 3 spørgsmål, hvorefter han ryger langt ned i point - det er naturligt nok. Men herefter svare han rigtigt på ni spørgsmål i træk uden at hans score vokser mærkbart. Det tyder på at de ni spørgsmål er alt, alt for nemme og derfor giver for få point til at stige i karakter. Han kan altså ikke nå at komme op igen efter at have snublet på de første spørgsmål.

Når opgaverne skal indstille sig til elevens niveau er der, så vidt jeg kan se, tale om et optimeringsproblem, hvor man for at kende elevens niveau skal finde opgaver med en sværhed sådan at eleven kan svare på en bestemt procentdel af de opgaver. Det vil sige at hældningen af kurverne skal være tæt på nul ved prøvens slutning for at man kan sige at man har fundet det rette niveau. Hvis ikke dette er tilfældet, bliver prøvens resultat afhængig af hvor mange opgaver der stilles.

På de grafer der foreligger kan man tydeligt se at der er en trend eller hældning på kurverne, så man må spørge: Hvad ville resultatet være hvis prøven havde været længere. Det vil være min konklusion at disse to tests ikke har fundet de to elevers niveau.

Jeg vil foreslå at man kæmper for at få udvælgelsesalgoritmen offentliggjort. Den ser umiddelbart ud til at være fejlbehæftet, og eleverne kan ikke "træne" ud fra den - som man åbenbart har dårlige erfaringer med.

  • 0
  • 0

I optimeringsproblemer er det også vigtigt at huske på at man ikke kan vurderer "sværhedsgraden" på forhånd. Det vil sige at man ikke kan "beslutte" hvor svær en opgave er, men man må se på hvor mange elever der kan svare på en given opgave før man kan vide hvor svær den er. Det ser ikke ud som om det er tilfældet her. Hvilket understreger pointen om at "algoritmen" bag udvælgelsen bør offentliggøres.

  • 0
  • 0

Kære Anders
Godt set - du har fanget den præcise årsag til, at min kronik er havnet på ingeniørens hjemmeside. Jeg vil gerne sende en beskrivelse af den adaptive algoritme og termineringspuktet i aften. Problemet er, at den valgte algortime skaber konvergens uafhængigt af elevens svarmønster.

Bedste hilsener
Marina

  • 0
  • 0

Anders skrev: "Når opgaverne skal indstille sig til elevens niveau er der, så vidt jeg kan se, tale om et optimeringsproblem, hvor man for at kende elevens niveau skal finde opgaver med en sværhed sådan at eleven kan svare på en bestemt procentdel af de opgaver. Det vil sige at hældningen af kurverne skal være tæt på nul ved prøvens slutning for at man kan sige at man har fundet det rette niveau. "

Dette er en meget præcis beskrivelse af virkemåden i de nationale test. Elevens dygtighed er defineret som det opgaveniveau, hvor eleven præcis svarer rigtigt på halvdelen af opgaverne. Niveauet er valgt ud fra Georgs Rasch testteori. Det er også Rasch, der danner baggrund for opgavesværheder.

Opgavesværheder er fastlagt ved en ikke-adaptiv test af 500-700 børn. En væsentlig pointe med Rasch er, at sandsynligheden for at en elev svarer rigtigt på en opgave skal afspejle elevens samlede dygtighed på hele opgavesættet, ellers skal opgaven forkastes. Der findes dog ingen dokumentation for Rasch-analysen – man kan fx ikke se diskriminationen i ICC – item characteristic curves.

I en personlig korrespondance beskriver en ansat ved undervisningsministeriet den adaptive algoritme således:
”De første 5 opgaver udvælges således: Første opgave vælges som midteropgaven på skalaen (logitværdien= 0) hvis eleven svarer rigtigt lægges en logit til - svarer eleven galt trækkes en logit fra. Så forløbet R, R, R, F, R vil give opgaver med logitsværhederne 0, 1, 2, 3, 2. Herefter beregnes personparameteren - lad os sige til 2,763. Den 6'te opgave udvælges så sværheden ligge tættest muligt over (fordi det 5'te svar var R) denne værdi. Svarer eleven F på denne ser svarstrengen således ud: R,R,R,F,R,F og på det grundlag beregnes personparameteren igen, og det danne grundlag for hvilken sværhed den 7'ende opgave skal ramme.”

Når SEM er mindre end 0,3 afsluttes prøven, og resultatet er den sidst beregnede personparameter – set i forhold til andre elevers beregnede resultat. Elevens resultat udtrykkes som en elevpercentil, og er set i forhold til elevbesvarelserne i de første uger af den nationale test 2010.

  • 0
  • 0

Først vil jeg gerne sige at jeg ikke er optimeringsekspert, men har arbejdet en smule med det i en anden sammenhæng.
Det er ikke beskrevet hvordan personparametren udregnes og jeg kan ikke gætte det ud fra tallene. Det man kan ser er at vor uheldige ven fra grafen med svarene (FFFRR...) lander på et rundt 0 efter 5 spørgsmål. Nul værdier skal man passe på med, men det kræver en bedre beskrivelse af beregningen at se om det er det.

Jeg ved ikke hvad SEM er, men det ser altså ikke ud som om dine eksempler er konvergeret, og dermed burde prøverne ikke være afsluttet.

  • 0
  • 0

"Der findes dog ingen dokumentation for Rasch-analysen – man kan fx ikke se diskriminationen i ICC – item characteristic curves."

Jeg er heller ikke ekspert, men på nettet har jeg læst en bog med titlen The Basics of Item Response Theory by Frank B. Baker
http://info.worldbank.org/etools/docs/libr...

På side 151står der: ”The principle of the item invariance of an examinee’s ability indicates that an examinee should obtain the same ability estimate regardless of the set of items used.”

Hvis de nationale test er designet efter denne model - IRT, så skulle det adaptive princip vel ikke have nogen indflydelse på målingen af elevens standpunkt.

Så spørgsmålet om det adaptive princip udgør et problem eller ej kan vel afgøres ved at spørge om item (opgaverne) i de nationale test er uafhængige af elevernes ability ("Der findes dog ingen dokumentation for Rasch-analysen – man kan fx ikke se diskriminationen i ICC – item characteristic curves.")

Hvis de ikke er det, så er der vel noget galt med testen og dermed også med det adaptive princip?

  • 0
  • 0

Mellem 300.000 og 500.000 børn, deres familier, og deres lærere bliver berørt af de nationale test hvert år. Det ville være meget enkelt at dokumentere validiteten af de nationale test ved at opstille test-gentest korrelationer mellem resultatet ved frivillige test i efteråret og resultat for de samme elever ved de nationale test.

OECD anbefaler, at der fortløbende forskes i de nationale test, for at skabe tillid til dem. Men undervisningsministeriet fastholder, at det eneste vigtige er, at testene fungerer teknisk.

Jeg er ikke overbevist om, at det nuværende adaptive princip fungerer hensigtsmæssigt. Mine undersøgelser af sammenhængen mellem testresultat og rigtighedsprocent på et stort antal elever viser et nærmest tilfældigt scatter-plot. Det virker helt urimeligt, at nogle elever kan få resultater på op til 90, med under halvdelen af et sæt mutiple-choice opgaver rigtige. Hvor andre elever kun opnår et resultat på 30 med langt over halvdelen af opgaverne rigtigt besvaret.

Det ser ud til, at hvis eleven kommer heldigt fra start, er det tilstrækkeligt at gætte heldigt i resten af prøven.

  • 0
  • 0

Det er en rigtig god debat, og jeg er ked af at der ikke er flere af de, ofte meget vidende, skribenter her på ing.dk der deltager.

Eftersom spørgsmålene er adaptive skal man passe meget på med at vurdere resultaterne ud fra den samlede rigtig/forkert procent. Det som er vigtigt er rigtigt/forkert procenten af de sidste spørgsmål og hældningen i karakterudviklingen. Fordelingen af r/f på de sidste f.eks. 7-10 spørgsmål skal være 50/50 og hældningen af karakteren skal være nær 0, ikke kun i gennemsnit for alle elever, men spredningen i hældningerne skal også være lav.

PS. Jeg sender et link til denne kronik til uddannelsesordføreren hos de radikale: Marianne Jelved, måske hun i folketinget kan få svar på nogle af de spørgsmål der er blevet rejst her.

  • 0
  • 0

Jeg har diskuteret problemet med flere uddannelsespolitikere i folketinget, men desværre strander debatten på, at undervisningsministeriet fastholder, at når opgavebanken er Rasch-analyseret, så er alting i sin bedste orden. Hvis du søger mit navn på folkeskolen.dk, kan du læse dele af ministerens dybt foruroligende svar omkring testenes dokumentation.

De Radikale er desværre ikke en af deltagerne i forliget omkring de nationale test, og derfor er deres indflydelse ret begrænset, når det handler om tavshedspligt og dokumentation. (Hermed ikke sagt, at de Radikale burde have stemt for en national test for at få indflydelse. Der kan siges meget kvalificeret imod at indføre en national test overhovedet. En national test er ikke bare et spørgsmål om at måle temperaturen i bageriet.)

Jeg håber, at journalisterne på ugebladet Ingeniøren får øje på min problemstilling, og måske vil give den plads i avisen. De nationale test er udviklet af en gruppe bl.a. bestående af COWI consult, og rummer mange aspekter, der kunne have interesse for Ingeniørens læsere. Desuden har de nationale test en stor samfundsmæssig betydning.

Jeg arbejder videre med at kortlægge hvordan personparameteren bliver beregnet. Normalt underviser jeg i matematik i indskolingen, men jeg er uddannet i faget på linjefagsniveau, så det burde ikke være umuligt for mig at forstå teorien i Georg Rasch' bog "Probabilistic models for some intelligence and attainment tests" fra 1960, der skulle være lettilgængelig.

Det jeg har fået at vide hos undervisningsministeriet er, at elevens niveau afspejler den beregnede personparameter i det adaptive prøveforløb - og ikke det niveau, hvor eleven viser, at han præcist kan svare korrekt på halvdelen af opgaverne. Jeg vil forsøge at få en biostatistiker i tale omkring problemet.

  • 0
  • 0

Jeg kan ikke lægge to tal sammen uden at få et forkert resultat, men det er dybt forunderligt, at man vil forholde alle viden om og indsigt i, hvordan man vurderer eleverne i folkeskolen. Jeg har altid været af den mening at viden skal deles. Især skal forældrene have al den indsigt de overhovedet kan få om de resultater deres børn opnår - det er en grundlæggende forudsætning for et sund skoledebat. Ved at lade denne viden være skjult - opnås det modsatte, nemlig en ligegyldighed hos forældrene. Når myndighederne skjuler fakta, siger de nemlig samtidig, at vi som forældre da er FOR dumme til at forstå og at vi da bare skal blande os udenom. For lærerstanden kunne indsigt i metoderne bag målingerne også fjerne den mistro der knyttes til sådanne test. (ex Jeg lod min hund tage testen og den klarede sig rigtigt godt!) I stedet kunne en debat forbedre mulighederne for en opkvalificering af testen og ikke mindst pege på åbenlyse mangler i lærernes og elevernes viden og dermed påpege efterudannelsesbehov.

  • 0
  • 0

På denne hjemmeside kan man se en anden adaptiv model: http://luna.cas.usf.edu/~mbrannic/files/pm... .

Man begynder med middel opgave og så går det op eller ned afhængig af elevens svar. Når der er mindst en forkert og en rigtig, så finder man et maximum likelihood estimate. - læs selv.

Tailored testing. You begin the test by picking an item of average difficulty (b about 0). If the person gets it right, select a more difficult item. Keep making them more difficult until the person gets an item wrong. If the person gets the first item wrong, give them an easier item. Keep making the items easier until they get an item right. As soon as at least one item is right and at least one item is wrong, we can get a maximum likelihood estimate of the person's standing on the trait. As soon as we have a point estimate, we can compute a confidence interval, that is, a local standard error of measurement for the person. Now we will choose that item for the person that is expected to provide the maximum information for that person. After administering each item, we can compute their standing on the trait and their confidence interval. When the confidence interval is small enough, we stop testing. This means that each person is likely to get a different test but that the scores will be on the same scale and measured with approximately equal error.

Bruger man også maximum likelihood estimat, når man beregner elevens dygtighed?

  • 0
  • 0

Jeg forsker i statistisk modellering og skulle mene jeg har en nogenlunde forståelse for principperne bag testen, uden dog at være ekspert i adaptive Rasch test. Jeg støtter op om behovet for mere åbenhed, men har lige et par observationer jeg vil kaste ind i debatten:

Angående konvergens, så er det estimatet af personparameteren der skal konvergere, og den adaptive procedure afsluttes når standardafvigelsen af estimatet er tilpas lav. Det kan altså ikke forventes at de viste kurver ved testens afslutning skal have en hældning omkring nul. Det kan heller ikke forventes at antallet af korrekte besvarelser afspejler den estimerede personparameter.

Angående den adaptive procedure, så er der efter min vurdering ikke nogen særlig forskel på den beskrivelse Marina Norling giver af den anvendte metode og den alternative metode Niels Christoffersen beskriver. Princippet er det samme, og er, synes jeg, ganske fornuftigt (rent teknisk).

Jeg ser ingen grund til at tvivle på at testene fungerer rent teknisk. Men det er selvfølgelig ikke ensbetydende med at der ikke er nogen problemer. Et par kunne være:

1) Det som en test forsøger måler, fx. sprogforståelse, modelleres som en en-dimensionel størrelse, selv om emnet indeholder flere dimensioner som beskrevet i artiklen. Det skal sandsynliggøres at den antagelse er fornuftig.

2) Det antages at opgavebesvarelserne er uafhængige, og at det dermed ikke har nogen effekt at nogle elever fx. får stillet rigtig mange svære spørgsmål som de svarer forkert på. Man kunne forestille sig det giver en vis frustration.

Disse og andre kritikpunkter burde være mulige at imødekomme uden at offentliggøre de konkrete spørgsmål. Mest klart og effektivt, efter min mening, ved at teste og gen-teste en gruppe elever og påvise at forskellen mellem resultaterne er ubetydelig.

  • 0
  • 0

I efteråret 2009 deltog 485 skoler i frivillig afprøvning af de nationale test - før den obligatoriske test i foråret 2010. Sandsynligvis har endnu flere skoler deltaget i den frivillige afprøvning i 2010.

Da alle testresultater er elektroniske og knyttet til elevens cpr, ville der ikke være nogen som helst praktiske problemer i at måle test-gentest korrelationen for de elever, der har taget samme test flere gange. Jeg har virkelig svært ved at forestille mig, at det ikke er sket allerede - måske i forbindelse med UNI-C's forskning i en socioøkonomisk reference. Men undervisningsministeriet fastholder, at den eneste statistiske dokumentation de har set for de nationale test, er en opgørelse af opgavesværheder i logit-tal.

Jeg deler fuldt ud betragtningerne omkring opgavernes en-dimensionalitet. Jeg har fået at vide, at Rasch-analysen har været brugt som en kvalitetskontrol af opgaverne. Det har jeg haft svært ved at stemme med den mangfoldighed af opgaver, der findes inden for samme profilområde. En mulig forklaring kan være, at man i første omgang brugte en simpel Rasch-model på opgavebanken - dvs at en gruppe på 500-700 elever havde besvaret samtlige items i opgavebanken der består af flere hundrede opgaver. I 2007 reviewet står der:

"Inden testene blev afviklet i maj-juni 2007, havde de enkelte opgaver gennemgået en omfattende afprøvning, hvorved de blev underkastet en prøve på, om de i deres udformning var psykometrisk (statistisk) holdbare. Afprøvningen afslørede de opgaver, der af den ene eller anden årsag havde problemer – psykometrisk set – og medførte, at ca. halvdelen af opgaverne ikke blev godkendt."

Senere hen gik man over til en generaliseret Rasch-model, som betød, at mange af de forkastede opgaver kunne genindsættes i opgavebanken. Her blev 20-36 opgaver afprøvet af den enkelte elev i testgruppen.

Den teori, jeg kan finde om en generaliseret Rasch-model, er, at den bygger på "relaxed asumptions" dvs at opgaverne ikke nødvendigvis behøver at være en-dimensionelle for at leve op til modellen.

En-dimensionalitet er særlig vigtigt i det adaptive prøveforløb, fordi eleverne får personligt tilpassede prøver. Fx kan man forestille sig, at Per kun ser opgaver, der handler om at benævne figurer i geometri, hvor Poul kun møder forskellige former for flytningsgeometri. Her er det vigtigt, at der er bred enighed om, at færdigheden i at benævne figurer hænger nøje sammen med flytningsgeometrien - ellers er de to drenge blevet prøvet to forskellige ting.

  • 0
  • 0

Prisen for en-dimensionalitet er, at eleven kun bliver testet i et klart afgrænset område for hver af de tre profilområder i testen. Det giver en meget snæver test, der ikke dækker bredden af mål med folkeskolen.

Lavede man i stedet en niveaudelt test, hvor eleverne ud fra en fortest blev anvist en test på et passende niveau, ville man kunne beholde dele af det adaptive element i de nationale test, men kombinere det med den klarhed og gennemskuelighed, der præger en almindelig blyant-og-papir prøve.

Dette ville kræve nyudviklede tests hvert år, men også betyde, at lærere og elever frit kunne diskutere testen efterfølgende - og dermed kunne bruge testen til at målrette elevens læringsindsats.

Samtidig vil nyudviklede årlige tests være en platform for debat om fagenes indhold i forhold til opgavernes udformning. Denne debat foregår allerede i forhold til de skriftlige afgangsprøver, og er med til at inspirere prøveudviklerne hos undervisningsministeriet til yderligere kvalitetssikring og videreudvikling af prøverne.

  • 0
  • 0

Angående konvergens, så er det estimatet af personparameteren der skal konvergere, og den adaptive procedure afsluttes når standardafvigelsen af estimatet er tilpas lav. Det kan altså ikke forventes at de viste kurver ved testens afslutning skal have en hældning omkring nul.

Kan du beskrive dette punkt lidt nærmere? Det er for mig at se tydeligt at der ikke er konvergens i opnåede resultater. Hvilken rolle spiller konvergens i personparameteren i denne sammenhæng?

  • 0
  • 0

Angående konvergens, så har jeg haft flere møder med en statistikprofessor på DPU angående de statistiske principper i de nationale test, og han fastholdt overfor mig, at det centrale er, at eleverne har svaret korrekt på præcis halvdelen af opgaverne i den sidste del af prøven. Jeg har kigget på flere hundrede NT-prøveresultater, og det er ikke mit indtryk fra virkeligheden.

Hvis man skulle bruge konvergens i personparameteret i forbindelse med NT - ville det så have betydning, om personparameteret bliver beregnet på hele prøveforløbet eller bare på de seneste opgaver?

Kunne man lave et adaptivt forløb, der kun så få opgaver tilbage, og dermed i højere grad tilpassede sig ændringer i elevens svarmønster undervejs?

I den nuværende adaptive algoritme indgår personparameterberegningen på de første fem opgaver i samtlige opgavetildelinger, hvilket betyder, at de første fem opgavesvar har afgørende betydning for elevens prøveforløb og resultat. Da mange opgavetyper er ganske ukendte for eleven, og det er tilladt at hjælpe eleverne undervejs i prøveforløbet, er særligt de første opgaver en usikker målestok for elevens egentlige færdigheder.

  • 0
  • 0

Der henvises ofte til Rasch-modellen, når man læser om de nationale test.

I Peter Allerups bog (2005) med titlen - Statistik og test nogle forudsætninger og muligheder – står følgende på side 46-47 (et lidt kort referat)
(Ref. Begynd)
Rasch-modellen -
(sandsynlighed for rigtigt svar) = exp(opgavesværhed + elevdygtighed)/(1+ exp(opgavesværhed + elevdygtighed)) er en velegnet beskrivelse af svarene (korrekt = 1, forkert =0) i en MC test.

Hvis og kun hvis

elever kan sammenlignes "objektivt" (i betydningen uanset hvilke opgaver der, lægges til grund)
opgaver kan sammenlignes "objektivt" (i betydningen uanset hvilke elever der, lægges til grund)

hvis og kun hvis

elevdygtigheder beregnes ved udelukkende at se på elevscoren
opgavesværheden beregnes ved udelukkende at se på procent rigtige.
 (Ref. - slut)

Det adaptive princip kræver, at der er sværhedsgrader når testen afvikles, så man må gå ud fra, at sværhedsgraderne er fastlagt ved afprøvning af opgaverne inden testen begynder.

Man må vel også gå ud fra at "objektiviteten" er sikret i forhold til afprøvningen - opgaver og elever, der ikke kan sammenlignes objektivt er ikke medtaget f. eks.: Item som ingen kan besvare er kasseret, item som alle kan besvare er kasseret, opgaver som virker forskelligt på forskellige grupper (fx. drenge - piger) er kasseret, elever som har alt eller intet rigtigt er ikke medregnet.

Dette princip må vel give en hulens masse item, som er kasseret.

Hvorfor kan disse kasserede item ikke offentliggøres med deres tilhørende ICC kurver (f. eks. ICC - drenge, ICC - piger) som dokumentation?

  • 0
  • 0

Kan der være sket en skrivefejl i din Rasch-formel? De udgaver, jeg kender, har et minus hvor du sætter plus? Det særlige ved formlen er, at når elevdygtighed og opgavesværhed er identiske, så giver formlen ½. Det er derfor, at den adaptive algoritme sigter mod at finde den opgavesværhed, hvor eleven svarer rigtigt på præcist 50 % af opgaverne. Her er elevens dygtighed nemlig lig med opgavernes sværhedsgrad.

I min lange korrespondance med skolestyrelsen i efteråret 2010, var mit første indfald at bede om at se de kasserede opgaver. Jeg havde læst, at halvdelen af opgavebanken var blevet kasseret ved Rasch-analysen i 2007, og det vakte min nysgerrighed.

Men de kasserede opgaver kan ikke offentliggøres af to grunde: For det første blev en stor del af opgaverne genindsat i opgavebanken, ved at man gik over til at bruge en anden måde at lave Rasch-analyse; en generaliseret Rasch-model. For det andet kan en mindre ændring i svarmulighederne i multiple-choice testen betyde, at opgaverne kan bestå en Rasch-analyse, og dermed genindsættes i opgavebanken.
Du kan slet ikke se ICC kurver for nogle opgaver i de nationale test. Rasch-analysen er foretaget med programmet RUMM, der ikke laver icc- item characteristic curves.

I en adaptiv test, hvor opgaver tildeles tilfældigt alene ud fra sværhedsgrad, er det strengt nødvendigt, at opgavebanken lever op til en Rasch-model – for at sikre, at forhold som køn eller geografi ikke spiller nævneværdig rolle for opgavebesvarelsen, og for at sikre, at der generelt er nøje sammenhæng mellem elevdygtighed og sandsynligheden for at svare rigtigt.

Da en adaptiv test også nødvendiggør en meget stor opgavebank, har det sikkert været en ubehagelig overraskelse for COWI Consult, at halvdelen af opgaverne i første omgang blev kasseret af Rasch-analysen.

I mange andre testsituationer er det dog en fordel, at man kan nøjes med færre spørgsmål. Fx bliver Rasch-modellen brugt til at begrænse antallet af spørgsmål i spørgeskemaundersøgelser. Rasch er i det hele taget et godt værktøj til at kvantificere kvalitative målinger.

Men, selv om Rasch er godt for mange ting, er det alligevel nødvendigt, at der fremlægges dokumentation for de nationale tests egenskaber. Fungerer testen på en pålidelig måde? Hvad går opgaverne i de hele taget ud på, og dækker de det, vi ønsker danske børn skal lære i folkeskolen? Uden offentlighed og dokumentation er de nationale test et usikkert måleredskab.

  • 0
  • 0

Niels Christoffesen:
>> Dette princip må vel give en hulens masse item, som er kasseret.
>> Hvorfor kan disse kasserede item ikke offentliggøres med deres
>> tilhørende ICC kurver (f. eks. ICC - drenge, ICC - piger) som
>> dokumentation?"

Jeg er helt enig. Derudover burde alt talmateriale der ligger til grund for beregningen af opgavernes sværhed kunne offentliggøres - også for de opgaver som indgår i testen (uden dog at offentliggøre test-spørgsmålene).

  • 0
  • 0

[quote]
Angående konvergens, så er det estimatet af personparameteren der skal konvergere, og den adaptive procedure afsluttes når standardafvigelsen af estimatet er tilpas lav. Det kan altså ikke forventes at de viste kurver ved testens afslutning skal have en hældning omkring nul.

Kan du beskrive dette punkt lidt nærmere? Det er for mig at se tydeligt at der ikke er konvergens i opnåede resultater. Hvilken rolle spiller konvergens i personparameteren i denne sammenhæng? [/quote]

Jeg må indrømme at jeg også undrer mig, når jeg ser nærmere på graferne. I den første graf, hvor eleven får scoren 71 svarer denne korrekt på 4 spørgsmål der er sværere end 71 men det letteste spørgsmål der svares forkert (det sidste) på har sværhedsgraden ca. 78.

Jeg har intet belæg for at sige at scoren (personparameteren) ikke er konvergeret, men jeg har lidt svært ved at se hvorfor den skulle være konvergeret til værdien 71...

  • 0
  • 0

Ja, det har godt nok også undret mig det med+ og - emmel personparameter og opgaveparameter. Det jeg har skrevet er næste identisk med det der står i bogen. Men er det ikke ligegyldig om der står + eller -? Det er vel bare et spørgsmål at at glasset er halvt tomt eller halvt fuld?

  • 0
  • 0

Det er et åbent spørgsmål, om der overhovedet foreligger velordnet statistisk dokumentation for udviklingsfasen af de nationale test. Jeg har modtaget enkelte brudstykker af RUMM udskrifter i Excel, men der er ingen tegn på, at disse udskrifter indgår i en omfattende dokumentation. Fx savner jeg oplysninger om elevdata i afprøvningsfasen; geografi, klassetrin, prøvetidspunkt mv.

De Nationale test har været et stort og uoverskueligt projekt, der fordrer en omhyggelig plan for dokumentation. Desværre har undervisningsministeriet flere gange over for mig givet udtryk for, at de ikke har ønsket at se dokumentation for Rasch-analysen undervejs, fordi de troede, at Rasch-læsning kræver særlig ekspertise.

Måske kan den manglende interesse fra undervisningsministeriet resulteret i, at fokus alene har været på, at få testene til at fungere. Det er i hvert fald, hvad undervisningsministeriet fortæller på folkeskolen.dk.

Hvis min antagelse om, at der ikke foreligger forståelig og velordnet dokumentation for udviklingsfasen, holder vand, er der flere måder, at dokumentere testenes funktionalitet ud fra testresultater ved de nationale test.

Test-gentest korrelationer – Mine egne uformelle undersøgelser viser en test-gentest korrelation på 0,3 til 0,7 målt med Pearsons inden for flere profilområder. Man kan få en fornemmelse af disse korrelationers størrelse ved at finde samvariansen, der ligger på 9 % til 49 %. Forhåbentlig ville undervisningsministeriet kunne finde større statistisk sammenhæng, ved at kigge på en større elevgruppe.

Svarmønster på enkeltopgaver - Nogle opgaver med samme sværhedsgrad er påfaldende forskellige. Fx har jeg studset over sværhedsgraderne i ordlæsning i anden klasse, hvor opgaver med korte lydrette ord hører til blandt de sværeste opgaver i opgavebanken. Det ville være enkelt at påvise, at opgaverne har fungeret som svære opgaver i praksis ved at se på opgørelser af svarmønster på enkeltopgaver i de nationale test, hvor over 30.000 elever har besvaret opgaverne i de enkelte testområder.

Nye Rasch-analyser – Det må være muligt at tegne ICC kurver ud fra resultaterne i de nationale test. Y-aksen er svarmønsteret på enkeltopgaver og X-aksen dygtighed målt som resultatet i de nationale test.

En af mine læsevejlederkollegaer har opdaget, at en af de sværeste opgaver i et testområde blev besvaret korrekt af samtlige elever i klassen. ICC curver ville kunne vise, om der er sammenhæng mellem opgavernes sværhedsgrad, elevdygtighed og sandsynligheden for at svare rigtigt på en opgave.

  • 0
  • 0

"Jeg har intet belæg for at sige at scoren (personparameteren) ikke er konvergeret, men jeg har lidt svært ved at se hvorfor den skulle være konvergeret til værdien 71"

Jeg er ikke ekspert, men jeg har forstået IRT sådan, at man kan omregne antal rigtige i testen til en såkaldt true score. Det er noget med at eleven får point for de opgaver der ikke er løst eller er løst forkert. De point man får svarer til elevens sandsynlighed for at løse løse ogaven med den pågældende sværhedsgrad. Eksempel: Peter løser 10 opgaver. De 7 er rigtige - 7 point.
Point for forkerte opgaver (beregnet ud fra personparameter og opgaveparametrer) 0,5 + 0,2 + 0,1. True score 7,8.

Tallet 71 er måske elevens true score i % udregnet på alle 1000 item?

  • 0
  • 0

Hvis personparameteren er konvergeret på elevens dygtighedsniveau, vil man kunne se det ved, at eleven kan svare rigtigt på præcist halvdelen af opgaverne i den sidste del af prøven.

Som læsevejleder er jeg ikke ret glad for at vejlede mine kollegaer ud fra et elevresultat, der er fremkommet ved ganske få rigtige opgaver - særligt i betragtning af, at hovedparten af opgaverne i de nationale test er multiple choice, og det ikke er udelukket, at elever kan klare sig med kvalificerede gæt.

Det er rigtigt, at der ikke er nøje sammenhæng mellem opgavesværhed og elevresultat på en 100-skala. Elevresultatet er udtryk for, hvor eleven ligger i forhold til elevgruppen, der deltog i de nationale test i de første uger af de nationale test i 2010.

  • 0
  • 0

Når jeg læser om de nationale test, får jer en opfattelse af at sværhedgraderne er bestemt som den procentdel af eleverne der kan løse opgaven rigtigt.
Eksempel:
90% af elever løser opgave 4 rigtigt - opgaven er let, den får sværhedsgrad 10.
10% af eleverne løser opgave 5 riggtigt - opgaven er svær, den får sværhedsgrad 90.
ETC.

Jeg ved ikke om det er rigtigt, men hvis man bruger ovenstående princip så skal der vel ikke kasseres ret mange opgaver - dem ingen kan løse, dem alle kan løse plus måske et par enkelte dreng/pige opgaver. Jeg mener at problemet med denne fremgangsmåde vil være, at opgave parameterne der skal bruges til at bestemme alle andre elevers dygtighed, så bliver afhængige af afprøvningsgruppen og så der objektiviteten gået fløjten.

  • 0
  • 0

@ Niels: Nej - så enkelt er der ikke at beregne Rasch-sværheder. Man bruger en teknik, der heller maximum likelihood estimation. (Jeg kan ikke forklare begrebet på jævnt dansk endnu, men jeg arbejder på sagen..)

Men før, man kan beregne sværhed, må man undersøge Rasch-homogeniteten. Det er her, opgaverne dumper, fordi de ikke lever op til modellen. For at blive klogere på denne del, vil jeg anbefale Georg Rasch' bog fra 1960 om intelligenstestning, og den charmerende hjemmeside "50 år med intelligensprøven BPP". Som mand har du måske haft æren at deltage i forsvarets intelligensprøve? Så priviligeret er jeg ikke:
http://www.forsvaret.dk/fak/documents/fak/...

  • 0
  • 0

Hvis personparameteren er konvergeret på elevens dygtighedsniveau, vil man kunne se det ved, at eleven kan svare rigtigt på præcist halvdelen af opgaverne i den sidste del af prøven.

Det er jeg ikke enig i. Jeg vil mene a personparameteren godt kan være konvergeret uden at man vil se dette mønster i opgavebesvarelserne. Hvis eleven fx. svarer rigtigt på nogle middel-svære opgaver i starten og derefter forkert på en række meget svære opgaver i slutningen af det adaptive forløb, kan personparameteren godt konvergere. Det er omtrent det der ses i den første kurve i artiklen.

  • 0
  • 0

"Jeg har intet belæg for at sige at scoren (personparameteren) ikke er konvergeret, men jeg har lidt svært ved at se hvorfor den skulle være konvergeret til værdien 71"

Jeg er ikke ekspert, men jeg har forstået IRT sådan, at man kan omregne antal rigtige i testen til en såkaldt true score. Det er noget med at eleven får point for de opgaver der ikke er løst eller er løst forkert. De point man får svarer til elevens sandsynlighed for at løse løse ogaven med den pågældende sværhedsgrad. Eksempel: Peter løser 10 opgaver. De 7 er rigtige - 7 point.
Point for forkerte opgaver (beregnet ud fra personparameter og opgaveparametrer) 0,5 + 0,2 + 0,1. True score 7,8.

Tallet 71 er måske elevens true score i % udregnet på alle 1000 item?

Ja, det er svært at sige uden at have mere viden om hvordan graferne er blevet til og den præcise relation mellem 0-100 aksen og de underliggende logit værdier.

  • 0
  • 0

Hvis eleven fx. svarer rigtigt på nogle middel-svære opgaver i starten og derefter forkert på en række meget svære opgaver i slutningen af det adaptive forløb, kan personparameteren godt konvergere. Det er omtrent det der ses i den første kurve i artiklen.

Underliggende i de nationale test er multiple choice problematikken, der betyder, at eleven kan svare rigtigt ved kvalificerede gæt. Det er klart nemmere at fastlægge entydige sværhedsgrader i opgavetyper, hvor eleven ikke har mulighed for at gætte sig til et rigtigt svar.

Et andet væsentligt aspekt er, at CAT - Computer Adaptive Testing - er udviklet til high stake testning, hvor opgavetyperne er velkendte, fordi de studerende forbereder sig på testen.

I den nuværende adaptive algoritme i de nationale test, har de første opgaver stor vægt. Men mange opgavetyper er ganske ukendte for eleven, og her er der stor risiko for, at eleven misforstår opgaven, eller spørger sin lærer om hjælp.

I begge tilfælde afspejler svarmønsteret på de første opgaver ikke elevens egentlige dygtighed, og dette kan betyde, at den indledende personparameterberegning ligger langt fra elevens egentlige dygtighed. Sådan som det sker i begge eksempler fra kronikken.

Test-gentest korrelationer vil kunne afsløre, om elevresultater i de nationale test er uacceptabelt labile. En god prøve giver kun undtagelsesvis en elev et resultat på 23 i efteråret og et resultat på 98 få måneder senere.

  • 0
  • 0

Underliggende i de nationale test er multiple choice problematikken, der betyder, at eleven kan svare rigtigt ved kvalificerede gæt. Det er klart nemmere at fastlægge entydige sværhedsgrader i opgavetyper, hvor eleven ikke har mulighed for at gætte sig til et rigtigt svar.

Enig.

I den nuværende adaptive algoritme i de nationale test, har de første opgaver stor vægt.

Bare lige en sproglig præcisering :-) De første opgaver har stor indflydelse på forløbet af den adaptive procedure, men har lige vægt i beregningen af personparameteren.

  • 0
  • 0

Tak for rettelsen - det er irriterende at blive misforstået pga sproglig sjusk.

Da jeg første gang hørte om den adaptive algoritme, kom jeg til at tænke på fraktalgeometri, der var virkelig stort, da jeg gik på seminariet. Jeg tænkte på, om det, at de første fem opgaver indgår i beregningen af samtlige opgavetildelinger kunne betyde, at det var umuligt at undslippe vurderingen i den første personparameterberegning, pga det iterative aspekt. Altså, om elevens "skæbne" i store træk lå fast ud fra fem multiple choice opgaver.

  • 0
  • 0

@Marina
Lad mig henvise til følgende link i mit tidligere indlæg

  1. jul 2011 kl 14:20
    Niels Christoffersen
    Adaptiv model
    http://luna.cas.usf.edu/~mbran....htm .
    Tailored testing. You begin the test by picking an item of average difficulty (b about 0). If the person gets it right, select a more difficult item. Keep making them more difficult until the person gets an item wrong. If the person gets the first item wrong, give them an easier item. Keep making the items easier until they get an item right. As soon as at least one item is right and at least one item is wrong, we can get a maximum likelihood estimate of the person's standing on the trait.------

Man vælger et item med middel sværhed – sværhederne er altså kendt.

I kap 5 i Frank B. Bakers bog er gennemgået, hvordan man estimerer en elevs dygtighed. På side 88 er vist et eksempel på estimering af en elevs dygtighed i en 3 item test.

http://info.worldbank.org/etools/docs/libr...

Maximum likelihood estimat fungerer altså fint, hvis man kun skal tilpasse en parameter til en anden.
Når opgave parametrene er kendt og elevparametrene er kendt kan beregne elevens sandsynlighed for at løse en bestemt opgave. Disse sandsynligheder lægges til antal rigtige, så har man true scoren - hvordan kan en elev opnå resultat 30, når vedkommende ikke ser ud til at få opgaver på det niveau?

  • 0
  • 0

Kære Niels

Jeg har været i kontakt med flere forskningscentre omkring de nationale test, og du er i fint selskab, når du udtrykker skepsis om det gældende adaptive princip i de nationale test. Jeg har hørt samme skepsis udtalt på professorniveau. Men officielt er det kun folkeskolelærere, der har adgang til at se samspillet mellem prøveforløb og resultat i de nationale test. Så du må desværre nøjes med at få ret hos en læsevejleder, der godt nok er masterstuderende, men hverken besidder phd eller doktorgrad.

Jeg fik aldrig kommenteret dit Baker-link, om det adaptive prøveforløb, men det forløb, Baker beskriver, adskiller sig på flere områder fra det adaptive prøveforløb i de nationale test. For det første begynder Baker med en opgave i middelområdet, hvor de nationale test begynder med en temmelig let opgave.

I bogen ”Nationale test – og anden evaluering af elevens læsning” af Pøhler og Sørensen, kan man på side 78 se et prøveforløb i sprogforståelse i anden klasse – samme profilområde som mine eksempler.

Det adaptive prøveforløb er designet på en anden måde, hvor eleven begynder med en opgave i middelområdet. Man kan ikke se hele prøveforløbet, men svarmønsteret er ; R F R F R R F F F F. Fra opgave 6 og frem får eleven kun opgaver med 4 stjerner (sværhed 60-80), som hun ikke besvarer korrekt, og hun ender på resultatet 73.

Da der ikke foreligger nogen dokumentation for udviklingsfasen, kan jeg kun gisne om, hvornår denne adaptive algoritme har været brugt. Mit gæt er, at den har været brugt i den frivillige testning i efteråret 2009. Her blev alle resultater slettet efter kort tid, måske fordi denne adaptive algoritme ikke gav tilstrækkelig spredning i elevresultater?

Jeg ved ikke, hvilken betydning det har, at personparameteren beregnes efter 5 opgaver, og ikke i det øjeblik eleven viser, at her er en opgave, han ikke kan svare på. I nogle prøveforløb har jeg set, at en elev svarer forkert på en let opgave blandt de første fem, men klarer alle de svære – hvad mon det siger om elevens dygtighed?

(Nu har jeg tidligere gjort opmærksom på, at sværhederne i opgavebanken ikke ser helt rimelige ud. Det er umuligt at få øje på nogen systematisk forskel mellem lette og svære opgaver.)

  • 0
  • 0

@Marina & Niels m.fl.
Det lader til at der er enighed om at der måske er problemer med de nationale test. Om det er os der ikke læser/forstår tallene korrekt eller der er underliggende problemer i forhold til testen tror jeg ikke vi kan komme nærmere uden mere information og talmateriale.

Mit spørgsmål er så, hvordan vi kommer videre herfra. Kan der søges (er der søgt) aktindsigt, og er der noget at komme efter den vej?

Jeg vil gerne være med til at forsøge at kaste lys over sagen, og er i stand til at forstå de tekniske aspekter (er Ph.D. i statistisk modellering).

  • 0
  • 0

Kære Mikkel - Tusind tak, det er et eget flot tilbud, du kommer med. Jeg vil lige fortælle, hvad jeg har gjort, for at opnå aktindsigt:

Efter en lang og opslidende mailkorrespondance med skolestyrelsen i efteråret 2010, søgte jeg, i december 2010, om aktindsigt i det psykometriske grundlag for de nationale test, og fik tilsendt en opgaveoversigt med sværhedsgrader i logittal.

Jeg har sidenhen kontaktet undervisningsministerne - både Nedergaard og Lund Poulsen - for at gøre dem opmærksomme på, at der ikke foreligger dokumentation for de nationale tests statistiske egenskaber. Svarene fra ministeren har været ordrette gengivelser af dele af de mails, jeg tidligere har modtaget fra skolestyrelsen.

Jeg har efterlyst test-gentest undersøgelser og svarmønstre på enkeltopgaver, men undervisningsminister Lund Poulsen har forsikret mig, at jeg har modtaget den eneste dokumentation, der findes hos undervisningsministeriet.

Jeg har også været i kontakt med uddannelsespolitikerne. Faktisk har jeg modtaget flere mails fra hele fem landskendte politikere, men forligspartierne (og SF) er ikke fri til at kritisere testene, og Jelved, og Schmidt-Nielsen kan ikke stille krav, fordi de står udenfor forliget.

Kritik af statistikken bag de nationale test er en rigtig tabersag: Problemet med testene er for indviklede at forklare, og det lyder usandsynligt, at en test til 110 millioner kroner måske slet ikke måler elevernes dygtighed.

Skolerådet burde vise min sag interesse, da forskningsbaseret undervisning er deres mærkesag. Men når Danmarks førende bio-statistiker kan udtale, at Rasch-analysen betyder, at denne test fungerer meget bedre end andre internationale tests af skolefærdigheder – så er det svært at overbevise skolerådet om, at der alligevel er behov for dokumentation.

Mediemæssig har jeg skrevet en masse om de nationale test på skolekom, og på folkeskolen.dk og jeg har en forespørgsel liggende hos P1. Men jeg er ret udtømt for ideer – Måske ville det være en ide, at skrive om testene i bogform, så andre nemmere kan danne sig et overblik over testene? Jeg ved det ikke.

  • 0
  • 0

Jeg har kontaktet Detektor og Orientering på P1 specifikt, men hvis de allerede er sat ind i sagen så hjælper det måske ikke.

Det jeg ser der mangler er dokumentation. Kan man forestille sig nogen alternative metoder til at indhente nogle flere data i stil med dem vi er blevet præsenteret for. Kunne man annoncerer i blandt lærerene eller noget lignende? Kunne man formulerer et paragraf 20 spørgsmål som man kunne sende direkte til nogen af ordførerene i folketinget?

Jeg er ikke sikker på det er en taberhistorie. Hvis man vil i medierne skal man fokusere på ét aspekt og skære en skarp vinkel. Unødig tavshedpligt koblet med fejl i et allerede fejlramt projekt er en ok vinkel, så vidt jeg kan se.
Jeg kan udmærket se overskrifterne for mig:
"Undervisningsministeriet kan ikke regne!" (eb.dk)
"Ekspert: Test i folkeskolen rammer ved siden af" (pol.dk)
"Nationale test rammes af flere fejl, ministeriet dækker over sig selv" (information) :-)
etc.

  • 0
  • 0

Tusind tak Anders! Jeg kan sagtens vise flere eksempler på, hvordan enkeltresultater er fremkommet, men det er ikke muligt at foretage store undersøgelser på klasser eller skoler, da der er skærpet tavshedspligt om både opgaver og resultater i de nationale test.

Jeg kontaktede P1 midt i juli, så jeg regner med, at de er på sommerferie. I de sidste par år har jeg været studerende ved siden af mit lærerjob, så jeg må indrømme, at jeg ikke har hørt nok P1 til at vide, hvilke programmer kunne være relevante.

  • 0
  • 0

Det var sjovt at deltage i en debat, hvor man faktisk lærte noget, man ikke vidste i forvejen. Udtrykket logit er faktisk interessant.

Så lige et sidste spørgsmål.

Hvad sker der med information, der indeholdt i logitværdierne, hvis man omregner til "normalfordelings værdier" ?

Sæt 1 x
Forsvinder den op i den blå luft _____
Bliver den tværet ud over hele den nye skala_______
Følger den eleven ______
Følger den opgaven_____

  • 0
  • 0

Jeg har kun set opgavesværhed udtrykt i logitværdier - men det må jo også gælde for elevdygtighed.

For mig at se, er det store problem i dit spørgsmål, at nogle items er afprøvet på elever i fjerde klasse - selvom de skulle bruges til testen i anden klasse.

Mit kryds sætter jeg ved - følger eleven.

I de første uger af den nationale test i 2010 satte man alle elevresultater i logittal i rækkefølge - og omsatte dem til percentiltal ud fra en normalfordeling. Nu har man en fast omsætningstabel fra logittal til percentilresultat, som man kan bruge fremover.

  • 0
  • 0

Manual.
Hvordan man tjekker, at resultaterne i de nationale test er brugbare.

Elevens resultat kommer ud som en karakter på skalaen 1-5. Placeringen sker på grundlag af en beregning af true scoren - antal rigtige i testen + summen af sandsynlighederne for at eleven havde løst forkert besvarede opgaver rigtigt + summen af sandsynlighederne for elevens rigtige besvarelse af ikke nåede opgaver f. eks. alle opgaver i opgavebanken eleven ikke har set.

Omsætningstabellen er 1-100 skalaen:

True score - resultat: 0-10% giver karakteren 1
True score - resultat: 11-35% giver karakteren 2
True score - resultat: 36-65% giver karakteren 3
True score - resultat: 66-90% giver karakteren 4
True score - resultat: 91-100% giver karakteren 5

Dette true score -resultat - kan beregnes og elevernes præstation kan sammenlignes, hvis der er målt et dygtighedsniveau i testen i forhold til alle opgaveemner i opgavebanken.

Hvis ikke alle elever er blevet præsenteret for alle opgaveemner og hvis ikke alle elever har fået målt deres dygtighed i forhold til alle opgaveemner så kan elevernes true score ikke sammenlignes - det giver næppe mening at beregne dem.

Eksempel.
I profilområdet sprogforståelse findes følgende opgaveemner:
Ord der lyder ens, faste vendinger, navneord, udsagnsord og tillægsord.

Hvis eleverne ikke har fået tildelt opgaver indenfor alle emner, så kan præstationerne ikke sammenlignes.

Det adaptive princip betyder, at en elev skal have mindst et rigtigt og mindst et forkert svar indenfor hvert emne ellers kan der ikke beregnes et niveau.

Hvis en elev f. eks. har følgende svarmønster i opgaveemnet tillægsord (1,1,1,1), så er niveauet ikke målt, niveauet er heller ikke målt hvis svarmønstret (0,0,0) eller (1) eller (0).
Niveauet på dette opgaveemne er kun målt, hvis der er både 1-taller og 0-er f. eks. (1,0,1,0,0). Dette gælder for alle opgaveemner.

MANUAL
Man tjekker hver elevs besvarelse for det første med hensyn til om alle opgaveemner er repræsenteret, og for det andet, at der både er rigtige og forkerte svar i hvert emne. Hvis man kan besvare begge spørgsål med et ja, så er elevens dygtighed målt i forhold til hele opgavebanken og man kan finde karakteren ved hjælp - true score - resultat og omsætningstabellen.

Hvis man kan svare "nej" på et af spørgsmålene så er elevens karakter nærmest et tilfældigt udfald af kast med terning.

Enkelt og effektivt. Alle med adgang til elevbesvarelserne kan gøre det.

God arbejdslyst.

  • 0
  • 0

Det lyder som en nem metode til testanalyse på elevniveau, men desværre er det ikke så enkelt. Før testene i de nationale test har vist deres funktionalitet gennem test-gentest korrelationer, vil det være nødvendigt at tage andre tests ved siden af de nationale test, hvis man vil have et sikkert indtryk af elevernes kunnen.

I praksis er det også det, lærere gør - både fordi man kan stole på en gennemskuelig blyant og papirprøve, og det er hurtigere at rette en almindelig test, end at foretage en gennemgribende analyse af 24 forskellige adaptive prøveforløb.

Nu fremhæver du opgavernes overskrifter. Men dette er bare overskrifter, der ikke nødvendigvis er dækkende beskrivelser af opgavernes indhold. Fx er jeg stødt på opgaver inden for læsefeltet, der kan løses ved at tælle et antal bogstaver eller ved at lede efter tre ens bogstaver.

Opgaverne i de nationale test skal være endimensionelle, både ud fra en matematisk betragtning og ud fra en skolefaglig betragtning, før at de må indgå i samme adaptive prøveforløb. Hvis man er i tvivl om, hvorvidt opgaverne er endimensionelle, må man få dette fastslået.

Som masterstuderende i læse- skrivedidaktik ved jeg, at det vanskeligt at konstruere valide og reliable tests. Det er bl.a. derfor, at jeg er fortaler for offentlighed om opgavebanken i de nationale test: Kun gennem offentlige drøftelser kan opgavernes relevans og faglighed kvalitetssikres.

  • 0
  • 0

Metoden er ikke beregnet til testanalyse på elevniveau.

Den er beregnet på at analysere om testen måler noget.
Jeg har læst et udenlandsk studie om Rasch modellen og de to andre modeller.

Man havde lavet en test i læsning og matematik. Testen var blevet taget at 6000 personer. Resultaterne -persondygtighed og opgavesværhed - var blevet estimeret med alle tre modeller - altså på de samme data.

Rasch modellen gav 30% misfit, det vil sige, at 30% af personerne ikke kunne få et tal for dygtighed. De to andre moddeller gav 1-2 % misfit.

Rasch-modellen er altså uegnet til til test med mange opgaver og eller personer.

  • 0
  • 0

De nationale test giver alle elever et resultat - faktisk uanset elevens svarmønster. Det eneste nødvendige er, at eleven ikke svarer samtlige opgaver korrekt eller forkert. Systemet virker så sikkert, fordi de tildelte opgaver ligger meget tæt på den estimerede dygtighed.

Hvis målet for en god test alene er at undgå misfit, så virker de nationale test faktisk ganske fint. Men spørgsmålet er, om det resultat elever opnår, faktisk også siger noget om, hvor dygtige eleverne er.

I den undersøgelse, du fortæller om, blev der der målt test-gentest korrelation? Det er nemlig her, at man virkelig kan konstatere en tests funktionalitet.

Har du ikke lyst til at lægge et link til undersøgelsen?

  • 0
  • 0

Link:
http://www2.hawaii.edu/~daniel/irtctt.pdf - side 6-7

"De nationale test giver alle elever et resultat - faktisk uanset elevens svarmønster." Alså kast med en terning, hvor 6 er erstattet med 3.
Nå, et er spøg noget andet alvor.

De fysiske modeller - Newtons, Einsteins mfl.- er matematiske beskrivelser af den fysiske virkelighed. Hvis modellen ikke "fitter" de data vi kan hente hjem, så bliver den erstattet af en anden model.

Målet er ikke at undgå misfit. Målet er få en konsistent og sikker beskrivelse af alle data. Hvis modellen ikke kan beskrive alle data på tilfredsstillende vis, så skifter man modellen ud med en der virker bedre - man nørkler ikke rundt med data for få dem til at ”fitte” modellen.

De nationale test skal jo forestille at være en slags videnskabeligt baseret måleredskab - ikke religion eller politik.

  • 0
  • 0

Nu har jeg kigget på din artikel: Den handler om værdien af at indføre de meget indviklede IRT-metoder - i forhold til bare at bruge en almindelig test med en masse opgaver der hver får 1 point.

Artiklen omtaler ikke adaptive tests - men forsøger at afdække, hvad der sker, når man bruges IRT beregnet sværhedsgrad i beregning af elevernes resultat i en multiple choice test.

Som du nævner, betød Rasch metoden, at 30 % af opgaverne måtte kasseres i 1 parameter IRT beregningen (IRT betegnelsen for Rasch). Alligevel så det ud til, at Rasch-beregnede resultater i høj grad kunne afdække elevens resultat på samme måde som ved den almindelige test.

Jeg vil altså ikke til at kloge mig en hel masse på to og tre parameter IRT modeller, men som jeg fortolker undersøgelsen, belyser den, at i en 2 og 3 parameter model er problemet, at nogle opgaver er for svære for dygtige elever og for lette for usikre elever. 2. og 3 parameter modeller sikrer heller ikke, at nogle opgaver er lettere for piger end for drenge.

Hele fidusen med at smide 30 % af opgaverne væk, hvis man bruger Rasch, er at få en mere sikker test, og samtidig undgå at trætte testpersonerne med en mængde spørgsmål, der ikke bidrager til forståelsen af deres dygtighed.

En sidste ting - der skal læses med et gran salt:
Man kan ikke sammenligne IRT med fysiske love. Jo måske hvis man forestiller sig af ville måle fodboldbaner med forskellige ting, fx bananer, bamser og bukseelastik. Her vil Rasch sandsynligvis forkaste bukseelastikmålingen.

  • 0
  • 0

Item:
"Man kan ikke sammenligne IRT med fysiske love. Jo måske hvis man forestiller sig af ville måle fodboldbaner med forskellige ting, fx bananer, bamser og bukseelastik. Her vil Rasch sandsynligvis forkaste bukseelastikmålingen."

Response:
IRT er ikke en lov - det er en model. Newtons love er ikke love - det er modeller, der beskriver de fænomener man kan måle. Færdselsloven er en lov fordi den er vedtaget i dolketinget. Man skal rette sig efter den. Man behøver ikke rette sig efter Newtons love - men det er klogt at gøre det.

Man kan ikke måle et response, når man kyler en vingummibamse ud på banen. Hvis en mand slår græsset - med en græsslåmaskine ikke med en kæp, så kan man nok måle et response.

Yderligere kommentarer senere.

  • 0
  • 0

Testene skal være et værktøj til at sikre faglige fremskridt for den enkelte elev ved at målrette undervisningen til den enkelte elevs særlige evner, hedder det i regeringsgrundlaget fra 2005.

En IRT test knytter elevdygtigheder sammen med opgavesværheder via en sandsynlighedsfunktion. Hvis lærerne får udleveret et tal for elevens dygtighed og kender nogle opgavers sværhed målt på samme måde i samme enhed - logit - så kan læreren følge elevens faglige udvikling via elevens opgavebesvarelser. Hvis eleven er blevet dygtigere på et bestemt opgaveniveau, så vil han/hun kunne løse mere end 50% af niveauets opgaver rigtigt. Det er kendskab til logitværdierne, som gør IRT testen velegnet som værktøj til at sikre faglige fremskridt for den enkelte elev ved at målrette undervisningen til den enkelte elevs særlige evner - repræsenteret ved logitværdierne.

De nationale test leverer imidlertid IKKE logitværdier ud til lærerne. Eleven får en karakter efter den internationale karakterskala ECTS hvor 1-100 skalaen er omsætningstabellen. Ved at omskrive testens logitværdier til ECTS skalaen bliver informationen, som var repræsenteret i logitværdierne tværet ud over hele skalaen.

Læreren har formentlig lige så meget information om elevens dygtig før testen som efter testen. Testen har IKKE givet ny information, hvilket i øvrigt også fremgår af ministeriets pjece Brug testresultaterne.

Hvad er der galt - hvorfor får lærerne ikke de informationer testen burde levere og som skal bruges til at målrette undervisningen til den enkelte elevs særlige evner?

Svaret er enkelt - testen leverer ikke ret mange logitværdier.

Eksempel: I bogen Nationale test og anden evaluering af elevens læsning (2010) er vist et skærmbillede af en elevs testforløb – side 78-79(?)

(Note (1,0,0,1) betyder 5 opgaver i f.eks. tillægsord R, F, F,R)

Profilområdet afkodning ser sådan her ud
Afkodning - 10 opgaver: ord med betinget udtalelse (1,1,1), hyppige ord (1,1), lydrette ord (1), låneord (1,0,0,0).

Når man bruger reglen om at en estimering KUN kan foregå, når der tale om BÅDE rigtige og forkerte opgavebesvarelser, så er der i profilområdet - afkodning - kun er MÅLT 1 værdi af elevens dygtighed, nemlig i opgaveemnet låneord. De øvrige tre opgaveemner er IKKE målt fordi alt er rigtigt.

Tæller man op på de øvrige profilområder, så får man som resultat, at elevens karakter i læsning stammer fra en måling af dygtighed på 5 af 11 opgaveemner - der er altså 6 opgaveemner der IKKE er målt.

Hvad er der galt?
Svaret står her:

“Den adaptive procedure: Hver gang eleven har besvaret en opgave beregnes et nyt bud på, hvor dygtig eleven er, hvorefter der vælges en opgave med en sværhedsgrad, der ligger så tæt på dygtigheden som muligt”

Citatet stammer fra Svend Kreiner og er fra evalueringen af NAT i 2007

Den procedure Marina beskriver i indlægget med overskriften - En mere detaljeret beskrivelse – svarer til Kreiners beskrivelse.

Hvis man gør som beskrevet, så spiller man med mærkede kort. Elevens niveau på opgaveemnet skal beregnes efter hvert opgaveemne er AFSLUTTET og der skal være både F og R besvarelser ellers udvikler computeren en stærk trang til at finde en endelig værdi på et uendeligt tal (nedbrud 2008, 2009 ?).

Opgaverne skal tildeles efter et tilfældighedsprincip, der giver forskellige sværheder hver gang (jo mere kaos jo bedre) - det mener jeg fremgår af den IRT teori jeg har læst.

Gør man som beskrevet af Svend Kreiner, så bestemmes elevens dygtighed helt tilfældig af udfaldet af den første opgave i emnet - se også diagrammerne - og så er den udmeldte karakter også tilfældig.

NAT producerer altså tilfældige tal til en pris på 150.000.000 kr.

Som lærer bør man se på NAT resultatet - ECTS karaktererne - med skepsis. Hvis det ligner det daglige billede i klassen, så er den pot ude ellers skal man lave en anden test på eleverne. En test man kan stole på - det er absurd, at begynde at analysere på elevernes besvarelser i NAT.

Hm, det var det.

  • 0
  • 0

Trods et års ihærdigt arbejde med at fremskaffe viden og dokumentation om de nationale test, står jeg nu på et grundlag, hvor jeg ikke kan konkludere noget som helst om testenes funktionalitet.

Der er et par unøjagtigheder i Niels’ fremstilling af de nationale tests virkemåde, som jeg ikke synes, er værd at diskutere, når så meget står uafklaret omkring de nationale test – fx er ECTS ikke er målestok for resultater i de nationale test.

Det vigtige er, at folkeskolen ikke kan være tjent med en serie tests med fortrolige opgaver, hvor testenes virkemåde tilmed savner forskningsbaseret dokumentation

  • 0
  • 0

Ang. ETCS skalaen.

Af www.evaluering.uvm.dk/BinaryContentProvide...
(det tager en hules tid at loade filen. Find filen via google - Rasch test - og se den i html.

Af side 16 fremgår følgende:
Standardisering
Indplacering af elever i fem grupper:
10 % svageste
25 % næst-svageste
30 % i midtergruppen
25 % næst-stærkeste
10 % stærkeste

Af http://en.wikipedia.org/wiki/ECTS_grading_...
fremgår følgende grading scale

Grade A best ------ 10 % Definition:
Grade B next best- 25 % Definition:
Grade C ------------ 30 % Definition:
Grade D ------------ 20 % Definition:
Grade E ------------ 10 % Definition:
Grade FX ---------- Fail --Deinition - some more work required before the credit can be awarded
Grade F ------------ Fail – Definition - considerable further work is required

Det er den samme fordeling og i øvrigt den samme som for 7-trin skalaen.

Du har ret i at skalaen i de nationale test ikke er ECTS skalaen. Men det er fordi, der mangler definitioner af hvad eleverne kan på hver trin – men det gør der også i 7-trin skalaen som bruges 8-9 klasse – se rejseholdets anbefalingsrapport side 20 - og 7-trins skalaen blev i sin tid lanceret som ECTS skalaen.

Så i dansk skolekontekst er 1-5 skalaen i de nationale test ECTS – skalaen.

;-)

  • 0
  • 0

De nationale test bygger på komplekse og internationalt anerkendte statistiske modeller bl.a. Rasch-modellen. Min kritik af de nationale test går ikke på, hvorvidt disse modeller er statistisk valide. Det er jeg sikker på, de er.

Det, jeg vil have afklaret er:
- om der er sikker statistisk sammenhæng mellem to testninger af samme elev
- om de beregnede opgavesværheder fungerer i praksis

Disse ting kræver statistisk dokumentation, og det datamæssige grundlag for denne dokumentation kan hentes i de elektroniske resultater af de nationale test, som undervisningsministeriet råder over.

Jeg vil lige slutte af med en kort beskrivelse af Rasch:
Rasch er en måde at vurdere opgavers kvalitet og forkaste de opgaver, der ikke fungerer ret godt ud fra en statistisk betragtning.

Når det beskrives, at 30 % af opgaverne ikke passede med Rasch-modellen, så er dette et eksempel på brug af Rasch i praksis. I en analyse af resultaterne af Texas Assessment of Academic Skills fra 193.000 elever fandt man, at 30 % af opgaverne ikke levede op til Rasch modellen, og at langt flere af opgaverne levede op til andre statistiske modeller for opgavekvalitet – i dette tilfælde to- og tre-parameter IRT-modeller.

Så Rasch stiller store krav til opgaverne: afgørende er det, at elevdygtighed kan bestemmes uafhængigt af hvilke opgaver man bruger, og at opgavesværhed kan bestemmes, uafhængigt af hvilke elever der besvarer dem. Det er dog vigtigt at pointere, at opgaverne skal være relevante i forhold til den egenskab, man undersøger, og at elevgruppen skal være relevant i forhold til, hvem man vil undersøge denne egenskab hos.

Når opgavesværhed skal være uafhængigt af elevgruppen, betyder det, at hvis opgave A er sværere end opgave B i en gruppe på 100 elever, der i øvrigt er blandt de dygtigste målt på besvarelser på hele opgavesættet, så er opgave A også sværere end opgave B i en gruppe på 100 elever, der er blandt de svageste målt på hele opgavesættet.

Med andre ord må opgave A ikke være sværere end opgave B for nogle elever, og opgaver B sværere end opgave A for andre elever – målt på passende store og relevante elevgrupper.

Når elevdygtighed skal være uafhængigt af opgaverne betyder det, at hvis man kigger på enten opgave A eller opgave B, så skal det gælde, at der skal være sammenhæng mellem svarmønsteret på hele opgavesættet, og på sandsynligheden for at svare rigtigt på fx opgave A. Dvs. at 100 dygtige elever skal have større sandsynlighed for at besvare opgave A korrekt end 100 ikke-dygtige elever – og at dette skal gælde for alle opgaver i opgavesættet.

I en adaptiv prøve, hvor alle elever ikke har mulighed for at svare på samme opgaver, er Rasch den mest egnede statistiske analysemetode til kvalitetskontrol af opgaverne, fordi den i videst mulig omfang sikrer, at eleven får en retfærdig bedømmelse, der er uafhængig af hvilke konkrete opgaver, eleven er blevet tilbudt.

I de nationale test er Rasch anvendt som statistisk analysemetode, men tavshedspligten om opgavebanken gør, at der ikke har været mulighed for nævneværdige offentlige drøftelser af, hvorvidt opgaverne i de nationale test er relevante i forhold til de skolefaglige færdigheder, testene har til formål at måle.

Der har heller ikke været offentlige drøftelser af, om elevgruppen i afprøvningsfasen har været relevant i forhold til målgruppen for den aktuelle prøve. Fx er mange testspørgsmål blevet afprøvet på elever, der er flere klassetrin over målgruppen for testene.

Derfor er det irrelevant at argumentere for de nationale tests kvalitet alene ud fra den anvendte Rasch-metode. Det må kunne dokumenteres, at opgavesværhederne har fungeret i praksis.

Link: Her er et link til undersøgelsen i mit indlæg; men der forskes i øvrigt meget i Rasch og IRT. http://www2.hawaii.edu/~daniel/irtctt.pdf

  • 0
  • 0