Computer-censorer får topkarakterer i at rette opgaver

Karaktergivningssoftware bliver brugt på flere universiteter i USA til at rette eksamensopgaver. Nu er softwaren blevet testet, og den er lige så god som en menneskelig censor, viser resultaterne.

En computer er lige så god til at vurdere en skoleopgave og give den en karakter, som en menneskelig censor. Det viser resultaterne af en ny amerikansk undersøgelse.

Computer-censorer har været brugt i flere år på amerikanske universiteter til at rette skriveopgaver i samspil med menneskelige censorer, men deres evner til karaktergivning er ikke tidligere blevet gransket og holdt op mod den menneskelige præstation, skriver New Scientist.

Men nu er menneske og maskine blevet sammenlignet af en dekan ved University of Akron i Ohio. Han indsamlede 16.000 essays fra seks forskellige uddannelsessteder. Essays'ene var skrevet over forskellige emner og var allerede blevet vurderet og havde fået en karakter af en menneskelig censor.

I undersøgelsen blev karaktergivningssoftware fra ni forskellige leverandører, der tilsammen dækker 97 procent af markedet i USA, testet.

Systemerne blev kalibreret ved at sammenholde faktorer, der optræder i et godt essay, sådan som godt og flydende sprog og god grammatik, med karakteren givet af menneske-censoren. Herefter blev softwaren brugt til at give karakterer til et andet sæt essays uden at have adgang til den menneskegivne karakter.

Og karaktererne fra computer-censorerne var statistisk identiske med dem, som de menneskelige censorer gav, viser undersøgelsen.

Computeren kan ikke vurdere tekstindhold

Men kritikere påpeger, at computer-censoren godt nok kan analysere en opgave for, om sætninger er opbygget korrekt, om den er grammatisk korrekt, og om der er stavefejl. Men den kan ikke vurdere tekstens betydning og indhold, og hvis man vil, kan man snyde den ved at skrive nogle korrekt udformede, men meningsløse sætninger.

På Danmarks Tekniske Universitet har man ingen maskiner til at give karakterer, og Christian Westrup Jensen, der er projektleder på Afdelingen for Uddannelse og Studerende ved DTU, har aldrig hørt om computer-censorer, der kan udføre vurderingsopgaver.

»Ved multiple choice-opgaver kan man godt forestille sig at bruge computer-censorer, der er det intet problem at lave en maskine til det, men ved vurderingsspørgsmål har jeg aldrig hørt om det,« siger han.

Og han har da også sine betænkeligheder ved at skulle bruge sådan et system.

»Det lyder interessant med en maskine, der eksempelvis vil kunne læse et speciale. Men hvordan kan en maskine vide, hvor godt det faglige indhold er? Det er jo ikke et skakspil, det drejer sig om, det er netop en vurderingssag. Så jeg skal se det virke, før jeg tror på det,« siger Christian Westrup Jensen.

Han påpeger, at det da heller ikke umiddelbart er noget, de har forestillet sig at tage i anvendelse på DTU.

»Jeg tror, det ligger et godt stykke ude i fremtiden,« siger Christian Westrup Jensen.

Dokumentation

Læs New Scientists artikel her

Kommentarer (3)

Jeg har forgæves prøvet at finde en definition af statistisk identitet.
Det ser ud til at være et udtryk der kun bruges meget sjældent.

Hvis nogen kan finde en reference der kan forklare præcis, hvad det betyder i den sammenhæng det er brugt her, vil det hjælpe utrolig meget i forhold til at forstå, hvad der præcis er de har vist.

Jeg har en snigende mistanke om at de essentielt bare viser at de elektroniske bedømmelser har en tilsvarende fordelingsfunktion med samme gennemsnit og spredning som de menneskelige bedømmelser.

Hvis vi antager at de menneskelige bedømmere er nogenlunde konsistente over tid, vil man kunne lave et program der kan præstere en tilsvarende statistisk identisk bedømmelse helt uden at læse noget som helst - simpelthen ved at give karakterer i et fast mønster der har en fordeling svarende til den menneskelige.

Hvis der i stedet er tale om at der er en korrelation tæt på 1 mellem de menneskelige bedømmelser og de på forhånd givne computerbedømmelser af nye essays (altså dem der ikke var med i det oprindelige træningssæt) er der måske noget at komme efter.

  • 0
  • 0

En computer kan - måske bedre end mennesker - vurdere et elektrisk kredsløb. Den er i stand til at teste om funktionen er korrekt, hvis den har nogle testvektorer der kan afprøves på kredsløbet. Den kan undersøge timing, og den kan undersøge hvor kritisk, eller robust kredsløbet er, i forbindelse med timing, og hvor kort tid den kritiske forsinkelse er, og hvor lang tid, at forsinkelse højst må være en en ledning. Der kan undersøges forhold som strømforbrug, komponentvalg og pris, effektafsætning i komponenter, og mange andre forhold. Og ud fra de målte karakteristika, derved også vurdere konstruktionens kvalitet, og hvor stor anstrengelse, at eleverne har gjort, for at få den til at blive så perfekt som mulig, og evt. på hvilket område, at eleverne har satset.

Jeg ved ikke, om computere kan anvendes tilsvarende, indenfor andre områder end elektro området. Men indenfor elektro området, kan computeranalyser af svar kredsløbene, nemt give informationer, der kan bruges til karaktergivning. Det største problem, er måske hvis kredsløbet ikke funktionelt fungerer. Så kræves et menneske, som kan vurdere, hvor problemet er, og kan vurdere det, som reelt er nået. Det bedste resultat opnås, hvis eleverne får adgang til analysesoftwaren, så de kun afleverer noget som virker, og samtidigt også kender analyseresultaterne, og baggrunden for udregning af karakteren. De har dermed mulighed for, at tilpasse deres besvarelser, til det som ønskes, og karakteren bliver ikke et udtryk for lærens valg, men et resultat af, hvad eleven kan opnå.

  • 0
  • 0

Der er umiddelbart en del mangler i besvarelsen og forståelsen af emnet.

Det valgte kildemateriale er mangelfuldt og ekstraordinære udtalelser fra kildeteksten (såsom overskriften) kopieres ukritisk uden at have researchet yderligere primærkilder såsom http://www.scribd.com/doc/91191010/Mark-d-... .

Nå. Spøg til side.
Hvis man faktisk læser den ovenfor linkede kildetekst, er der et par ting der springer i øjnene.
"Student essays from each state were randomly divided into three sets: a training set (used for modeling the essay prompt responses and consisting of text and ratings from two human raters along with a final or resolved score), a second test set used for a blind test of the vendor-developed model (consisting of text responses only), and a validation set that was not employed in this study".

Med andre ord - computerne blev trænet ved hjælp af bedømmelser af 60% af de essays (stile) der blev skrevet ved 8 eksamener inden for forskellige emner (bundne og frie) og på 3 forskellig klassetrin i 6 forskellige stater.
Hver af de 8 essays blev udelukkende skrevet af elever på 1 klassetrin i 1 stat.
Så langt så godt.

Den efterfølgende test af computernes bedømmelser blev gennemført på 20% as de resterende essays skrevet ved de samme eksamener om de samme emner i samme stat af andre studerende på samme klassetrin!

Hver algoritmevendor har haft op til 4 uger til at fintune deres algoritme til de specifikke tests der skulle vurderes.

Så hvis man er meget optimistisk på computernes vegne kan man vel til nød hævde at de kan trænes af mennesler til at producere nogenlunde menneskelignende bedømmelser af en given stil om et givet emne.

Der er intet i rapporten der kan sige noget som helst om, hvor gode algoritmer er til at bedømme stile generelt uden specifik træning.

Rapportens forfatter er sjovt nok overrasket over at maskinerne klarer sig bedst ved mere bundne stileemner idet han mener at computerne burde klare sig bedst i frie situationer, hvor det ikke så meget er forståelsen af emnet der vægtes ved bedømmelsen.
Det virker ikke som om han har gennemskuet at dette netop skyldes træningsaspektet - Med en mere bunden opgave vil besvarelserne alt andet lige ligge tættere på hinanden i indhold og stil og det er derved nemmere at drage sammenlignelser til referencebedømmelserne end ved et frit emnevalg.

Alt i alt vil jeg sige at rapporten ikke på nogen mådegiver anledning til at give en topkarakter til computerprogrammerne. Rapportens forfatter anbefaler da heller ikke at de tager over i stedet for menneskelige bedømmere - allerhøjst at de måske kan være medbedømmere (men hvem skal så levere de bedømmelser de skal trænes i forhold til)?

Mvh
Claus

P.S.
Methodologiske problemer i den grundlæggende undersøgelse:
Der anvendes statistik over, hvor ofte bedømmelser (menneskelige eller maskinelle) producerer samme karakter - eller inden for 1 karakter af hinanden. Problemet med dette er at karakterskalaerne er vidt forskellige. Der anvendes i flæng skalaer med 4, 5, 6, 12 og 30 trin. Det siger sig selv at sandsynligheden for at 2 karaktergivere vil give en karakter inden for 1 trin fra hinanden er væsentlig større på en 4-trin skala end på en 30 trin-skala, men der er ikke gjort noget for at forsøge at kompensere for dette.

Der refereres konsekvent i rapporten til H1 og H2, som hhv. menneskelig bedømmer 1 og 2. Men H1 er næppe den samme person i hvert tilfælde (bedømmelserne er de officielle bedømmelser fra forskellige stater, så de har næppe de samme personer til at bedømme på tværs af forskellige stater og klassetrin). Det kan ikke en gang udelukkes at der er flere forskellige personer der har været involveret i bedømmelserne, så H1 i virkeligheden er flere forskellige personer regnet sammen som 1. Om dette er signifikant i forhold til resultaterne burde have været kommenteret i raporten.

  • 0
  • 0