Måling af præstationer kvantitativt pa gange online pa gange online

Lærerobservationer har været spild af tid og penge

for at bestemme effektiviteten af ​​brugen af ​​data fra studentestresultater, især i form af værditilvækstforanstaltninger (VAMS), for at evaluere og foretage nøglepersonale beslutninger om klasselærere.

I øjeblikket vedtages en række stater enten eller har vedtaget nye eller fornyede lærerevalueringssystemer, som delvis er baseret på data fra studentestresultater i form af værditilvækstforanstaltninger (VAMS). Nogle stater mandat, at op til 50 procent af lærerevalueringen skal baseres på data fra studentestresultater. Stater og skoledistrikter bruger evalueringssystemerne til at træffe nøglepersonale beslutninger om bevarelse, afskedigelse og kompensation af lærere og principper.

Samtidig lykkes hver elev, der lykkes, at staterne vedtager og gennemfører udfordrende akademiske indholds- og præstationsstandarder. Disse nye standarder er beregnet til at hæve baren fra at have hver elev tjene et gymnasium diplom til det meget mere ambitiøse mål om at have hver elev være på målet for succes på college, karriere og liv.

De vurderinger, der ledsager disse nye standarder, afviger fra de gamle, langt billigere, multiple-choice-test-skiftende til vurderinger med konstruerede svar. Disse nye vurderinger kræver højere orden tænkning og op til en toårig stigning i forventede læsnings- og skrivefærdigheder. Ikke overraskende har nyheden af ​​vurderingen kombineret med øget strenghed resulteret i betydelige dråber i antallet af studerende, der nåede dygtige niveauer på vurderinger, der blev justeret til de nye standarder.

heri ligger udfordringen for principper og skoleledere. Nye lærerevalueringssystemer kræver optagelse af elevdata på et tidspunkt, hvor scorerne på nye vurderinger falder. Frygten, der ledsager ethvert nyt evalueringssystem, er blevet forstørret ved optagelse af data, der bliver værre, før det bliver bedre. Principper er bekymrede over, at de nye evalueringssystemer eroderer tillid og er skadelige for at opbygge en kultur af samarbejde og løbende forbedring, der er nødvendig for at kunne øge studentens ydeevne til college- og karriere-klarniveauer.

Der er opstået specifikke spørgsmål om at bruge VAMS til at bevare, afvise og kompensere lærere. VAMS er statistiske foranstaltninger af elevvækst. De anvender komplekse algoritmer til at finde ud af, hvor meget lærere bidrager til deres elevernes læring, der holder konstante faktorer som demografi. Ved første øjekast synes det at være rimeligt at bruge VAMS til at måle lærer effektivitet. Desværre har politikere handlet på dette indtryk over de konsekvente indvendinger af forskere, der har advaret mod denne uhensigtsmæssige brug af VAMS.

I en 2014-rapport opfordrede den amerikanske statistiske forening stater og skoledistrikter mod at bruge VAM-systemer til at træffe medarbejderbeslutninger. En erklæring, der ledsager rapporten, påpegede følgende:

En anden peer-reviewed undersøgelse finansieret af Gates Foundation og udgivet af American Educational Research Association (AERA) angives udtrykkeligt, "værditilvækstforanstaltninger afspejler ikke indholdet eller kvaliteten af ​​lærernes instruktion." Undersøgelsen fandt ud af, at "statsprøver og disse foranstaltninger af evaluering af lærere ikke rigtig synes at være forbundet med de ting, vi tænker på som at definere god undervisning." Det konstaterede endvidere, at nogle lærere, der blev stærkt vurderet på studentundersøgelser, i instoventationer fra klasseværelset, og gennem andre kvalitetsindikatorer havde studerende, der scorede dårligt på test. Det modsatte var også sandt. "Vi skal sænke eller lette helt for indsatsen for lærere, i hvert fald i de første par år, så vi kan få en følelse af, hvad der gør disse ting, der måler, hvad betyder det," Forskerne advarede. "Vi flytter disse systemer fremad foran videnskaben med hensyn til kvaliteten af ​​foranstaltningerne."

Forsker Bruce Baker Advarsler mod at bruge VAMS, selv når test scores tæller mindre end 50 procent af en lærerens endelige evaluering. Brug af VAM estimater i et parallelt vægtningssystem med andre foranstaltninger som studentundersøgelser og hovedobservationer "kræver, at VAMS overvejes selv i nærværelse af en sandsynlig falsk positiv. New York Lovgivning forbyder en lærer at blive bedømt højt, hvis deres testbaserede effektivitetsoverslag er lavt. Yderligere, hvor VAM estimater varierer mere end andre komponenter, vil de ganske ofte være tippunktet - næsten 100 procent af beslutningen, selvom kun 20 procent af vægten. "

Corcoran, S. P. (2010). Kan lærere evalueres af deres elevernes testresultater? Skal de være? Brugen af ​​værditilvækst foranstaltninger af lærer effektivitet i politik og praksis. Providence, RI: Annenberg Institut for skolereform.

Ehlert, M., Koedel, C., Parsons, E., & Podgursky, M. (2013). Sensitiviteten af ​​værditilvækst estimater til specifikationsjusteringer: Bevis fra skole- og lærer-niveau modeller i Missouri. Statistik og offentlig politik, 1 (1), 19-27. DOI: 10. 080 / 2330443X. 013. 56152

c Kirabo jackson

Det er en dynamisk blanding, en der fanger den brede ladning af en lærer: at lære eleverne de færdigheder, de skal være produktive voksne. Men hvad er netop disse færdigheder? Og hvordan kan vi bestemme, hvilke lærere der er mest effektive til at opbygge dem?

Testresultater er ofte den bedste tilgængelige måling af studentforløb, men de fanger ikke alle færdigheder, der er nødvendige i voksenalderen. En voksende forskningsbase viser, at ikke-kognitive (eller socio-følelsesmæssige) færdigheder som tilpasningsevne, motivation og selvbeherskelse er nøgledeterminanter for voksne resultater. Derfor, hvis vi ønsker at identificere gode lærere, burde vi se på, hvordan lærere påvirker deres elevernes udvikling på tværs af en række færdigheder - både akademiske og ikke-kognitive.

Et robust datasæt på 9. klasse studerende i North Carolina giver mig mulighed for at gøre netop det. For det første skaber jeg en måling af ikke-kognitive færdigheder baseret på elevernes adfærd i gymnasiet, såsom suspensioner og progression på tidsskrifter. Jeg beregner derefter effektivitets ratings baseret på lærernes virkninger på begge testresultater og ikke-kognitive færdigheder og kigger efter forbindelser mellem de to. Endelig undersøger jeg, i hvilket omfang måling af lærerpåvirkninger på adfærd giver os mulighed for bedre at identificere de virkelig fremragende pædagoger, der har langvarige virkninger på deres elever.

Jeg finder, at mens lærere har bemærkelsesværdige virkninger på både testresultater og ikke-kognitive færdigheder, er deres indvirkning på ikke-kognitive færdigheder 10 gange mere forudsigelig for elevernes langsigtede succes i gymnasiet end deres påvirkning af testresultater. Vi kan ikke identificere de lærere, der betyder mest ved at bruge test-score alene, fordi mange lærere, der rejser testresultater, ikke forbedrer ikke-kognitive færdigheder og omvendt.

Disse resultater giver hårde tegn på, at måling af lærers indvirkning gennem deres elevernes testresultater kun fanger en brøkdel af deres samlede effekt på elevens succes. For fuldt ud at vurdere lærerens ydeevne bør politikere overveje foranstaltninger af en bred vifte af elevkompetencer, klasseværelset observationer og lydhørhed til feedback sammen med effektivitets ratings baseret på testresultater.

Individuel lærer effektivitet er blevet et vigtigt fokus på skoleforbedringsindsatser i løbet af det sidste årti, der delvis drives af forskning, der viser, at lærere, der øger elevernes testresultater, også påvirker deres succes som voksne, herunder at være mere sandsynligt For at gå på college, har et job, og spar for pensionering (se "Great undervisning", forskning, sommer 2012). Økonomer og politikere har brugt elevernes standardiserede testresultater til at udvikle læringsforanstaltninger, hovedsagelig gennem en formel kaldet Value-tilføjet. Værditilvækst modeller beregner individuelle lærers indvirkning på elevindlæring ved at kortlægge student fremskridt mod det, de normalt ville forventes at opnå, kontrollere for en række faktorer. Lærere, hvis elever konsekvent slår disse odds anses for at have en høj merværdi, mens de, hvis elever konsekvent ikke gør såvel som forventet, har lav merværdi.

Samtidig er politikere og undervisere fokuseret på vigtigheden af ​​elevkompetencer, der ikke er fanget af standardiserede tests, såsom udholdenhed og samarbejde med andre, for langsigtede voksne resultater. 2015 Federal Hver Student lykkes Act, giver stater mulighed for at overveje, hvor godt skoler gør ved at hjælpe eleverne med at skabe "læringsbevis," eller de ikke-kognitive færdigheder og vaner, der er forbundet med positive resultater i voksenalderen. I et stort eksperiment i Californien sporer en gruppe af store distrikter fremskridt i elevernes ikke-kognitive færdigheder som en del af deres reformindsats.

For at undersøge dette spørgsmål ser jeg til North Carolina, som indsamler data om testresultater og en række studentadfærd. Jeg bruger data på alle public-school 9-klasse studerende mellem 2005 og 2012, herunder demografi, transkriptdata, testresultater i lønklasse 7 til 9, og koder, der forbinder scoringer til den lærer, der administrerede testen. Data dækker omkring 574.000 studerende i 872 gymnasier. Jeg fokuserer på 93 procent af 9. klasse studerende, der tog klasser, hvor lærere også vil have traditionelle testbaserede værditilvækstværdier: Engelsk I og en af ​​tre matematiske klasser (Algebra I, Geometri eller Algebra II).

Jeg bruger disse data til at udforske tre store spørgsmål. For det første, hvordan prædiktiv er elevadfærd i 9. klasse af senere succes i gymnasiet, sammenlignet med studentestresultater? For det andet er lærere, der er bedre til at øge testresultaterne, også bedre til at forbedre elevens adfærd? Og endelig, hvilken måling af lærerens resultater er mere forudsigelig for elevernes langsigtede succes: virkninger på testresultater eller påvirkninger på ikke-kognitive færdigheder?

For at udforske det første spørgsmål skaber jeg et mål for elevernes ikke-kognitive færdigheder ved at bruge oplysningerne om deres adfærd, der er tilgængelige i 9. klasse data, herunder antallet af fravær og suspensioner, Grade Point-gennemsnit og på-time progression til 10. klasse. Jeg henviser til dette vejede gennemsnit som "adfærdsindekset". Den grundlæggende logik af denne tilgang er som følger: På samme måde som en har en studerende, der scorer højere på test, har sandsynligvis højere kognitive færdigheder end en elev, der ikke gør det, kan man konkludere, at en elev, der optræder ud, springer klassen, og undlader at hånde lektier, der sandsynligvis har lavere ikke-kognitive færdigheder end en elev, der ikke gør det. Jeg opretter også et test-score-indeks, der er gennemsnittet af 9. klasse matematik og engelske scoringer.

Jeg ser derefter på, hvordan begge testresultater og adfærdsindekset er relateret til forskellige foranstaltninger af gymnasiale succes ved hjælp af administrative data, der følger elevernes baner over tid. De resultater, jeg anser for, omfatter graduering af gymnasiet i tide, karakter-punkts gennemsnit ved graduering, tager SAT og rapporterede hensigter at tilmelde sig i et fireårigt college. Omkring 82 procent af eleverne blev uddannet, optages 4 procent som at være faldet ud, og resten er enten flyttet ud af staten eller forblev i skole ud over deres forventede gradueringsår. Fordi jeg er interesseret i, hvordan ændringer i disse færdighedsforanstaltninger forudsiger langsigtede resultater, kontrollerer jeg for elevens testresultater og adfærd i 8. klasse. Derudover justerer min analyse for forskelle i forældrenes uddannelse, køn og race / etnicitet.

Mit første sæt resultater viser, at en studerendes adfærdsindeks er en meget stærkere forudsigelse for fremtidig succes end hendes testresultater. Figur 1 Plots, i hvilket omfang der øges testresultater og adfærdsindekset med en standardafvigelse svarende til at flytte en elevs score fra medianen til 85. percentil på hver foranstaltning, forudsiger forbedringer i forskellige resultater. En studerende, hvis 9. klasse adfærdsindeks er på 85. percentil er en betydelig 15. procentpoint, der er mere tilbøjelige til at gå fra gymnasiet i tide end en elev med en median adfærdsindeks score. Jeg finder et svagere forhold til testresultater: En studerende på 85. percentil er kun 1. procentpoint mere tilbøjelige til at uddanne sig fra gymnasiet end en elev, hvis score er på medianen. Adfærdsindekset er også en bedre forudsigelse end 9. klasse testresultater af gymnasiet GPA og sandsynligheden for, at en studerende tager SAT og planlægger at deltage i college.

Mens disse mønstre afslører, at adfærdsindekset er en god forudsigelse for uddannelsesniveau, er de beskrivende. De viser ikke, at lærerne påvirker denne adfærd, og de viser ikke, at lærerpåvirkninger på disse foranstaltninger vil oversætte til forbedret langsigtet succes. Jeg undersøger næste disse mere kausal spørgsmål.

Den prædiktive effekt i adfærdsindekset tyder på, at forbedring af adfærd kan give store fordele, men det efterlader at åbne spørgsmålet om, hvorvidt lærere, der forbedrer elevadfarten, er forskellige fra lærere, der forbedrer testresultaterne. Dette er vigtigt, for hvis lærere, der er mere effektive til at hæve testresultater, også er mere effektive til forbedring af adfærd, så vil vi ikke forbedre vores evne til at identificere lærere, der forbedrer langsigtede studentresultater ved at estimere lærerpåvirkninger på adfærd. I modsætning hertil, hvis gruppen af ​​lærere, der er effektive til forbedring af testresultater, omfatter nogle, der er over gennemsnittet, gennemsnit, eller endda under gennemsnittet til forbedring af adfærd, så at have ikke-kognitive effektivitetsgrader, vil give os mulighed for at identificere virkelig fremragende lærere, der måtte have Den største indvirkning på længere kørte resultater ved at forbedre både testresultater og adfærd.

For at vurdere dette anvender jeg separate værditilvækstmodeller for at evaluere det unikke bidrag fra de enkelte lærere til testresultater og til adfærdsindekset. Jeg grupperer lærere af deres evne til at forbedre adfærd og plotte fordelingen af ​​test-score-værditilvækst blandt lærere i hver gruppe. Hvis lærere, der forbedrer en færdighed, også er dem, der forbedrer den anden, bør den gennemsnitlige test-score-værditilvækst være meget højere i grupper med højere adfærdsværdi, og der skal være lidt overlapning i fordelingen af ​​test-score-værdi- tilføjet på tværs af de adfærdsværdi-tilføjede grupper.

Vi bruger cookies
Vi bruger cookies til at sikre, at vi giver dig den bedste oplevelse på vores hjemmeside. Ved at bruge hjemmesiden accepterer du vores brug af cookies.
Tillad cookies.