Experiment auf dem Streitkultur-Cup: Ergebnisse

Datum: 1. Februar 2017
Redakteur:
Kategorie: Jurieren, Mittwochs-Feature

Nachdem beim Streitkultur-Cup in Tübingen experimentell auf der Basis von Schulnoten juriert wurde, zieht die OPD-Regelkommission nun ein erstes Fazit. Der Bericht ist dabei als erster Eindruck zu verstehen und basiert auf der subjektiven Wahrnehmung der als Juroren anwesenden Kommissionsmitglieder sowie deren Gesprächen mit anderen Anwesenden. 

OPD-Logo1. Anlass

Auf dem Streitkultur-Cup haben wir als Regelkommission gemeinsam mit dem Chefjuror*innenteam, Sabrina Effenberger und Jan Ehlert, den Versuch gestartet, eine Neueichung der Punkteskala vorzunehmen. Als Orientierung diente die Schulnotenskala (von 1 = sehr gut bis 6 = mangelhaft). Juroren wurden gebeten, Leistungen zuerst anhand der den Noten zugeordneten Beschreibungen einzuordnen, und danach erst z.B. eine gut-minus-Leistung in Punkte umzurechnen. Dies diente dem Zweck, nicht von einer bereits bekannten Eichung beeinflusst zu werden. Orientieren sollten sich die Juroren an ihrer Schulzeit, einen durchschnittlich streng benotenden Lehrer annehmend: Kurz gesagt, Einsen gab es nicht geschenkt, mit einer tatsächlich sehr guten Leistung waren sie aber auch erreichbar. Effektiv bedeutete die Vorgabe, sowohl bei Gut- als auch Schlecht-Leistungen stärker als zuvor auch in Punkten zu differenzieren. Angestrebt wurde das Experiment, da wir es als ungenügend ansehen, deutlich stärkere Unterschiede zwischen guten und schlechten Reden oftmals nur mit einem 2-Punkte-Abstand zu versehen. Bei dieser sehr wenig differenzierenden und aktuell angewandten Eichung ist unter anderem problematisch, dass einzelne Ausreißer in Bewertungen oftmals zwischen Platz 1 und Platz 5 unterschieden haben, bzw. zwischen Break und Nicht-Break. Durch generell größere Differenzierungen machen weniger einzelne Ausnahmen sondern stärker die allgemeinen Tendenzen das Ranking eines Teams oder Redners aus.

So viele Punkte könnte es auf dem Streitkultur-Cup geben.

Die punktbeste Rede der Vorrunden lag am Ende bei 67,33 Punkten. Karl der Kaktus trat nicht an.

2. Allgemeine Bewertung

Insgesamt lässt sich das Projekt als gelungen bewerten. Das Turnier lief bei guter Laune ordentlich über die Bühne, wenngleich die Jurierungen besonders zu Beginn aufgrund langer Umrechnungsprozesse der Schulnoten in Punkte sehr zeitaufwendig war. Da jedoch vorsorglich mehr Zeit eingeplant war, ließ sich der Zeitplan halbwegs einhalten. Dieses Problem wurde zu späteren Runden hin besser – sobald die Schulnoten wieder im Kopf auch auswendig Punkten zuordenbar waren.

Die Befürchtung, dass die Punktevergabe willkürlicher werden würde, kann nicht bestätigt werden. Alle Juror*innen, auch unerfahrene, haben soweit wir es mitbekamen in einem ähnlichen Spektrum gepunktet. Unterschiede bei gleicher Wahrnehmung von Redeleistungen gab es auch bei unerfahrenen Juror*innen kaum, bei unterschiedlicher Wahrnehmung wurden sie wie vorgesehen gemittelt. Das ist gerade im Format OPD mehr als gut, schließlich spielen subjektive Eindrücke eine wichtige Rolle.

Die Neueichung hat insbesondere im Bereich der Einzelreden eine große Rolle gespielt. Sehr gute Reden, die vorher eine Punktzahl zwischen 50 und 54 erhalten hätten, wurden nun einem Spektrum von 53-67 Punkten bewertet. Dies zeigt, dass die Binnendifferenzierung wesentlich komplexer ausfiel. Nach Gesprächen mit teilnehmenden Redner*innen zeigte sich, dass es auch für diese vollkommen in Ordnung war, im Schnitt wesentlich weiter von den Besten entfernt zu sein. In einem Gespräch mit einem guten Redner, der nach herkömmlicher Jurierung vielleicht im Durchschnitt 3 Punkte unter der Tabellenführung lag und nun im Durchschnitt 13 Punkte Abstand einnahm, fragten wir beispielsweise, ob die eigene Leistung dadurch anders wahrgenommen würde – dies war nicht der Fall. Insgesamt war unser Eindruck, dass man den anderen Rednern die guten Punkte auch gönnte.

Der gewünschte Effekt, das Spektrum an vergebenen Leistungen extremer zu gestalten, wurde erreicht. Dabei war es explizit nicht das Ziel, einfach den Durchschnitt anzuheben. Im Gegenteil: Nach alter und neuer Eichung sollten 40 Punkte weiterhin 40 Punkte sein. Denn an dem Grundsatz “Stärken und Schwächen gleichen sich aus” sollte nichts geändert werden. Das zeigte sich besonders in den Räumen, in denen viele junger Redner*innen anwesend waren und ihre ersten Turniererfahrungen sammelten. Gleichzeitig konnten dabei aber herausragende Leistungen individuell honoriert werden. Die angestrebte Differenzierung war am Ende durchaus vorhanden, Das Team auf Platz 1 des Tabs hatte z.B. immerhin 16,5% mehr Punkte als das Team auf Platz 4. Alle 21 Teams des Tabs hatten im Durchschnitt einen Abstand von 13,41 Punkten. Wir gehen davon aus, dass sich die Tendenz zu einem differenzierteren Bild auf anderen Turnieren etwas schwächer (da studentischeres Teilnehmerfeld) als Trend ebenfalls feststellen lassen dürfte, würde das Experiment wiederholt. Auch die Einzelreden waren natürlich deutlicher unterschieden – insbesondere im klassisch sehr engen Mittelfeld von klassisch 42-47 Punkten gab es nun weitaus mehr und genauere Differenzierung.

Das Finale des Streitkultur-Cups 2017 in der Tübinger Alten Anatomie - © Titian Gohl

Das Finale des Streitkultur-Cups 2017 in der Tübinger Alten Anatomie – © Titian Gohl

3. Weitere Gedanken…

… zum unteren Ende der Tabelle

Im Einzelfall kann es sicher sehr motivierend sein, nun auch als Anfänger*in 55 Punkte zu erreichen. Die Ausweitung des Spektrums bedeutet allerdings auch, dass der Abstand zu sehr guten Teams deutlich größer wird. Es kann durchaus deprimierend sein, wenn man selbst nur mit ca. 200 Punkten abschneidet, das Top-Team aber 300 Punkte redet. Im Fall eines solchen Experiments ist daher die Kommunikation der Neueichung und die neue Interpretation von Punktergebnissen umso wichtiger, damit Leute, die mit dem Debattieren anfangen und andere Punktespannen aus dem Club kennengelernt haben, nicht verwirrt oder enttäuscht werden.

… zur Gewichtung der Leistungen

Unserer Wahrnehmung nach sind Juroren im Status Quo bei den Teampunkten heute näher an einem breiteren Spektrum als bei den Einzelrednerpunkten. Dies liegt vermutlich daran, dass die Skalen nicht im Kopf als “8 plus minus ein paar Punkte” auswendig abrufbar sind, sondern über die Tabelle auf der letzten Seite des Jurorenbogens verteilt werden, die als Vergleichswert auch die Schulnoten beinhaltet. Stimmt dieser Eindruck – aus welchen Gründen auch immer – so hat die Neuskalierung eine anteilig größere Auswirkung auf die Einzelrede. Die Gewichtung der Teampunkte zu Einzelrednerpunkten verschiebt sich durch die Neueichung also mehr auf die Einzelrednerpunkte.

Gleichzeitig werden allerdings auch Schlechtleistungen eine Rede viel stärker nach unten ziehen. Wo vorher vielleicht 6 oder 7 statt auf der anderen Seite vielleicht 10 Punkte in einer Einzelrednerkategorie standen (bis zu 4 Punkte Unterschied) geht es nun um vielleicht 3 gegenüber 14 Punkten. In Anbetracht der Tatsache, dass Debattanten im Laufe der Zeit sprach- und körpersprachlich zumindest immer durchschnittlich performen, heißt das auch, dass die wesentlich themenabhängigeren rechten Kategorien unter dem neuen System einen größeren Unterschied machen könnten. Insbesondere der Bereich Urteilskraft [Widerlegen und Abwägen wichtiger Argumente der Gegenseite, Fokussierung auf die umstrittenen Punkte, Relevanz der ausgewählten Inhalte] kann hier durch die größere Punktespanne deutlich mehr Differenzierung erfahren (und hat dies auf dem Turnier auch öfters getan).

Zusammengefasst vermuten wir also, dass sowohl Einzelreden als auch die inhaltlichen Unterschiede der Redner und Teams bei einem größeren Spektrum an genutzten Bewertungsmöglichkeiten mehr Gewicht einnehmen können. Das bedeutet auch, dass im Extremfall eine geniale Einzelrede einfacher über Sieg und Niederlage entscheiden kann, als die Kompaktheit eines Teams.

… zur Erlernbarkeit des Jurierens

Einige neue Juroren auf dem Streitkultur-Cup hatten zu Beginn der Runden noch Probleme, Leistungen gemäß der Skala einzuordnen. Wir halten das für in beiden Systemen zutreffend – um eine “sehr gute” Leistung in Sprachkraft einordnen zu können, muss man das “Erwartbare” von studentischen Rednern kennen. Im neuen System ist es allerdings leichter bemerkbar, da sich unerfahrene Juroren nicht einfach hinter 8 oder 9 Punkten, die zuvor schon irgendwie hinkamen, verstecken können. Dies könnte frühzeitig zu klärenden Jurierdiskussionen und somit schnelleren, besseren Jurorenausbildungen beitragen. Ein Juror, der aber eine gewisse Erfahrung – und sei es nur als nie mit Punkten in Kontakt gekommener Redner oder Zuschauer – mit Debatten an sich hat, kann jedoch deutlich einfacher Leistungen als “sehr gut”, “gut” oder auch “ungenügend” bewerten, anstatt mit 11, 9 oder 7 Punkten, zu denen er nie Bezug hatte.

4. Fazit

Bevor die Regelkommission eine offizielle Empfehlung geben wird, wird noch einige Zeit vergehen. Über eure Gedanken sowie weitere Eindrücke der Teilnehmer*innen unter diesem Artikel würden wir uns jedoch sehr freuen.

Außerdem möchten wir noch einmal betonen, dass der Streitkultur-Cup ein Experiment war. Andere Turniere dürfen dieses gerne wiederholen, dies sollte dann allerdings explizit und lange im Voraus kommuniziert werden. Falls dies nicht geschieht, juriert bitte auf jedem Turnier nach wie vor mit der herkömmlichen Punktespanne. Insbesondere auf der ZEIT DEBATTE Tübingen, den Regionalmeisterschaften und der DDM wird nach wie vor klassisch und nicht nach dem neuen Ansatz juriert werden. Eine Empfehlung für ein wie auch immer geartetes System wird frühestens für nach der DDM erfolgen.

Die Regelkommission/lok.

Mittwochs-Feature

Die OPD-Regelkommission ist ein vom Verein Streitkultur e.V., der die Rechte am OPD-Format besitzt, gewähltes fünfköpfiges Gremium, das das Regelwerk pflegt, bei Bedarf aktualisiert und bei Fragen zum Format zur Verfügung steht. Die Regelkommission besteht in der Saison 2016/17 aus Nikos Bosse, Konrad Gütschow, Lennart Lokstein, Christian Strunck und Willy Witthaut. Erreichbar ist sie per Mail an opd [at] streitkultur [dot] net.

Das Mittwochs-Feature: Jeden Mittwoch ab 10.00 Uhr stellt das Mittwochs-Feature eine Idee, Debatte, Buch oder Person in den Mittelpunkt. Wenn du selbst eine Debatte anstoßen möchtest, melde dich mit deinem Themen-Vorschlag per Mail an team [at] achteminute [dot] de.

Print Friendly
Schlagworte: , , , , , , , , ,

21 Kommentare zu “Experiment auf dem Streitkultur-Cup: Ergebnisse”

  1. Nicolas F.(Göttingen) sagt:

    Frage: Wie haben sich denn die Punktausschläge nach unten entwickelt? Gab es auch Durchschnittspunktzahlen im Bereich 20-30 Punkte oder sogar darunter?

    1. Lennart Lokstein sagt:

      Das nicht, aber es gab durchaus einige Leute im Schnittbereich 30-40. Die niedrigst bepunktete Rede lad bei 28 Punkten. Ich denke das deckt sich mit der Vermutung, dass die meisten Leute zumindest präsentativ meist nicht stark unterdurchschnittlich abschneiden. Ob das allerdings tatsächlich so ist, kann ich aus dem Tab natürlich nicht ablesen. 😉

    2. Alexander Osterkorn (Gö/DDL) sagt:

      Kleiner Werbeblock: Im DDL-Bericht zum Streitkultur-Cup gibt es auch eine etwas quantitativere Auswertung zur Ausnutzung des Punktespektrums und dem neuen und alten Mittelwert.
      Einzusehen unter http://freie-debattierliga.blogspot.de/2017/02/von-geschwistern-und-umeichungen-der.html

    3. Christian (MZ) sagt:

      Die Auswertung ist sehr spannend, danke dafür! Könnte man die auch zu den Teampunkten machen? Dort sollte schließlich auch nach Schulnoten bewertet werden. Interessant wäre dabei, ob die Neudifferenzierung bei den Teampunkten mit denen der Einzelrednerpunkte vergleichbar ist oder ob die neue Eichung zu einer Verschiebung der Gewichtung von Einzelrednerkategorien und Teamoinktekategorien führt.

    4. Jan Ehlert sagt:

      Ich habe selbst überlegt eine statistische Auswertung zu machen, daher ein paar Worte dazu.
      Bei dieser Analyse sollte man mit den Ergebnissen äußerst vorsichtig umgehen und zwar aus mehreren Gründen. Erstens sind die Stichproben nicht besonders groß. Während wir bei der DDM zumindest 7 Vorrunden in einer großen Anzahl von Räumen hatten, ist der SKC bei nur 3 VR mit 7 Räumen, wenn ich mich richtig erinnere schon sehr klein für eine repräsentative Stichprobe.
      Dazu muss man die Frage stellen, wie repräsentativ dieser SKC gewesen ist. Wenn man sich das Teilnehmerfeld anguckt, dann wird man feststellen, dass wir im Spitzensegment nun doch einige Leute finden, die seit längerem nicht aktiv debattiert haben und vermeindlich ganz gut sind, was bei den meisten anderen Turnieren so nicht vorkommt.
      Beim Histogramm auf der DDL-Seite könnte das zum Beispiel die kleinen Ausreißer im oberen Punktesegment erklären. Auch scheint die Verteilung zumindest beim ersten Eyeballing eine gewisse Rechtsschiefe aufzuweisen (vielleicht könnte Alex nochmal das dritte Moment berechenen um zu gucken, wie groß dieser Effekt tatsächlich ist). Das würde sehr gut zu Nicolas Frage passen, nämlich wie prävalent Abweichungen vom Mittel nach unten waren.
      Der DDL-Blog erwähnt das schon sehr schön, daher bitte nicht vergessen: Mit einer Auswertung auf so kleiner Stichprobenbasis sehr vorsichtig umgehen!

  2. Benedikt R. (HD) sagt:

    Finde tatsächlich die statistische DDL-Analyse sehr interessant:
    http://freie-debattierliga.blogspot.de/2017/02/von-geschwistern-und-umeichungen-der.html

    Während eine Verbreiterung der Kurve ja explizit gewünscht ist (höhere Standardabweichung), sprechen die höheren Fehler auf die Verteilung / Parameter schon dafür (wobei man hier in der Tat wohl bei mehr Daten stärkere Gewissheit hätte), dass die “Eichung” noch nicht ganz perfekt war und es deshalb etwas weniger gaußförmig wird, d.h. die Vergleichbarkeit vermutlich etwas geringer ist.
    Falls ihr die Daten noch hättet: Interessant wäre der Chi^2-Wert, der ja auch die Abweichung vom Modell beschreibt.

    Wobei sich dies wohl genau wie bei der alten Skala durch die Zeit anpassen würde.

    1. Jan Ehlert sagt:

      Vorsicht, die tatsächliche Verteilung muss keine Normalverteilung sein!

    2. Witthaut sagt:

      Zudem möchte ich auch anmerken, dass eine durchschnittliche Rede nicht gleichzusetzen ist mit Durchschnitt, die auf einem Turnier erreicht werden sollte. Ich glaube hier liegt ein großes Missverständnis vor und habe das schon mit vielen Leuten persönlich besprochen. Das Ziel der OPD-Skala ist nicht, dass am Ende die Durchschnittspunktzahl eines Turnieres bei round about 40 Punkten liegt, das glauben aber viele und ist auch einer der Gründe warum die Eichung sich so verschoben hat, wie sie jetzt ist. Punkte in OPD sind ein externalisierter Maßstab, der immer angwendet werden soll und niemals relativ zu verstehen ist. Wir sind jedoch mal mehr mal weniger geschulte Rhetoriker*innen. Das die Punktzahl auf einem Turnier allem anderen als einer Normalverteilung entspricht kann möglich sein und ist per se nicht abzulehnen. Es sollte zwar nicht unser Ziel sein aber soweit ich weiß wurden auf der ersten OPD-DDM mehrfach im Finale über 90 Punkte vergeben. Das möchte ich auch nicht, erklärt aber vielleicht ein bisschen die Konzeption des Formats. Ein Turnier, dass in OPD mal eine Durchschnittspunktzahl von ca. 30 oder ca. 50 erreicht ist damit nicht gleich schlecht juriert worden. Gleiches gilt für Verschiebung der Normalverteilung.

  3. Benedikt R. (HD) sagt:

    Das Problem, dass eine “durchschnittliche” Rede nicht dem Durchschnitt entspricht, ist mir gerade bei Erklärungen an Anfänger auch aufgefallen – das war aber sowohl vor als auch nach der Neueichung so und wurde glaube ich hier so wie ich das sehe auch nie versucht zu beheben.
    @Jan: Der Vergleich mit der DDM 2015 zeigt ja sehr gut, dass wir – sollten wir die dortige Jurierung mal als einigermaßen verlässlich ansehen – wohl von einer Normalverteilung ausgehen können.
    Zu deiner Anmkerung bzgl. der Stichpunktengröße: Deshalb skaliert ja normalerweise der Messfehler, sollte man keine anderen Fehlerquellen haben, mit Wurzel n, d.h. der relative Fehler wird bei kleinen Datensätzen größer.
    Der (reduzierte) Chi^2-Wert misst nun die Abweichung vom Modell gegeben der Fehler, d.h. er berücksichtigt schon automatisch verschiedene Probengrößen.
    Die Anmerkung, dass der SK-Cup nicht repräsentativ ist, ist natürlich auch wichtig. Geht man davon aus, dass dies über die Jahre ähnlich ist, sollte das aber auch schon in der ja mitgelieferten Analyse von 2016 zu sehen sein, die nicht unbedingt rechtslastig war. Zwecks Verlässlichkeit kann man das natürlich auf Vorjahre ausdehnen.

    1. Jan Ehlert sagt:

      Problem ist folgendes: Wir gucken uns gerade nur die Bepunktung an nicht aber die “wahre” Verteilung der Rednerleistung. Wenn nun eines der Probleme der “alten” Skala ist/war, dass sie gerade normalverteilte Punkte ausgegeben hat, wo die wahre Rednerleistung nicht normalverteilt war, wäre das ein Problem, dass man adressieren müsste. Es gibt ja durchaus theoretische Gründe davon auszugehen, dass die wahre Rednerleistung auf Turnieren eigentlich nicht normalverteilt ist.

      Was die Stichprobengröße angeht: Klar wird sie bei der Standartfehlerermittlung miteinbezogen, dass erlöst uns allerdings nicht von allen statistischen Problemen kleiner Stichproben. Wenn wir allgemeine Aussagen treffen wollen, sollten CLT und LLN schon anwendbar sein. Und da wäre ich bei der derzeitigen Stichprobengröße sehr vorsichtig

  4. Alex R. (Tübingen) sagt:

    Volle Zustimmung!

    Ich selbst habe auf dem SK-Cup juriert und empfand das als deutlich gerechter. Hier konnte ich deutlich mehr differenzieren.
    Das wird zum einen der Leistung der Redner*innen gerechter.
    Zum anderen ist es auch von der Bepunktung gerechter: Früher hatte ich oft das Gefühl, dass eine Leistung irgendwo zwischen zwei Punkten lag. Wenn ich mich dann für eine der beiden Punkte entscheide, macht das einen relativ großen Unterschied, wenn die Gesamtspanne insgesamt nicht so groß ist. Wenn jetzt die Punktespanne deutlich größer ist, fällt die Entscheidung zwischen zwei Punkten nicht so stark ins Gewicht, was das Ergebnis weniger zufällig macht.

  5. Alex (DUS/MZ/DD) sagt:

    Als notorischer “Hochpunkter” (ich sehe mich selber ja eher als Spektrumspunkter, aber Leistungen, die 3 Punkte in einer Kategorie verdienen sind eben seltener als Leistungen, die 12 Punkte verdienen…) und langjähriger Verfechter der Meinung, dass die Kategorien “Nationale bzw. Internationale Spitzenleistung” aufgrund ihrer unklaren Abgrenzung – was ist besser als sehr gut plus? – abgeschafft gehören, begrüße ich diese Art der Neueichung vollumfänglich. Wenn es zu differenzierterem Jurieren führen sollte: umso besser!

  6. Christian (MZ) sagt:

    Wir als Regelkommission würden uns natürlich auch über kritisches Feedback freuen, damit wir wissen, wo man evtl. noch weitere Verbersserungen vornehmen kann 🙂

  7. Jannis Limperg sagt:

    Ich bin nach wie vor der Meinung, dass die Neueichung keine wesentlichen Effekte, weder positive noch negative, haben wird; außerdem stimme ich mit einigen spezifischen Aussagen dieses Artikels nicht überein. Im Einzelnen:

    1. Zur stärkeren Differenzierung der Rednerleistungen[*]: Natürlich können theoretisch bei höherer Auflösung der Skala (d.h. mehr unterschiedlichen Punktestufen, z.B. 35–45 statt 38–42 für eine ‘durchschnittliche’ Rede) mehr Nuancen abgebildet werden. Die Frage ist, wie von Jonathan Scholbach bereits unter dem letzten Artikel zu diesem Thema ausgeführt, ob dadurch mehr ‘Gerechtigkeit’ zustande kommt.

    1.1. Dazu müssten Juroren in der Lage sein, zu begründen, warum sie im neuen System eine 41 statt einer 40 geben, und zwar mit dem Anspruch einer intersubjektiven Vermittlung der Richtigkeit dieser Punktzahl. Ich halte das für illusorisch und würde schon im status quo sagen, dass kaum jemand mir stringent erklären kann, was beispielsweise eine 10 in Sprachkraft (oder auch Sachverstand) von einer 9 unterscheidet.

    1.1.1. Zur Illustration: Derzeit werden regelmäßig Unterschiede von 4 Punkten, in Ausscheidungsrunden auch deutlich mehr, ohne Diskussion gemittelt, d.h. es wird davon ausgegangen, dass man beispielsweise eine 44 und 48 für die gleiche Rede vertreten kann.

    1.2. Selbst wenn einzelne sehr gute Juroren durch die neuen Differenzierungsmöglichkeiten ihre Punktevergabe noch minimal optimieren, wird dieser Effekt mit Sicherheit dominiert von Zufallsfaktoren, die heute bereits sehr großen Einfluss haben

    1.2.1. Beispiele: Welche Juroren trifft man im Laufe des Turniers? (Hoch-/Niedrig-/Varianzpunkter; rhetorische und inhaltliche Vorlieben; Ausbildungsgrad der Nebenjuroren; Spezialwissen zum Thema; etc.) Wie unausgeglichen sind die Themen und auf welcher Seite landet man? In welchen Runden und Räumen ist man als FFR unterwegs?

    1.3. Somit sind auch klarere Breaks ein Scheinvorteil der Neuregelung: Sind künftig zwei Teams auf 900 (A) und 901 (B) Punkten (wären also im alten System beide auf der gleichen Punktzahl gewesen), so würde ich nicht annehmen, dass Team A in was auch immer für einer Metrik besser ist. Es ist vielmehr davon auszugehen, dass beide ungefähr gleich gut sind, und dass nur die Rolle des Münzwurfs im alten Bewertungssystem durch andere Zufallsfaktoren (s. 1.2.1.) im neuen übernommen wird.

    2. Zur Verwendung von Schulnoten: Ich erwarte einen leicht positiven Effekt in der Ausbildung davon, dass die neue Skala an einen bestehenden Bewertungsmaßstab anknüpft. Allerdings gebe ich zu bedenken:

    2.1. Die Notenschnitte sind in den verschiedenen Bundesländern, und vermutlich mehr noch zwischen einzelnen Lehrkräften, deutlich unterschiedlich (2016: 2,18 bis 2,58[1]). Dadurch wird ein unterschiedliches Bild davon vermittelt, was der ‘Wert’ einer 2.0 ist.

    2.2. Auch wenn die Abiturnoten insgesamt erstaunlich schön normalverteilt sind[2], vermute ich, dass die Kurve in der Gruppe der Debattanten sehr deutlich zur 1.0 hin verschoben ist. Dadurch ist es wahrscheinlich, dass bereits eine 2.0 (obwohl deutlich überdurchschnittlich) als wenig schmeichelhaft wahrgenommen wird.

    2.3. Wie im Artikel auch angesprochen, sind die Verbalisierungen der Noten viel zu abstrakt, als dass sie deutliche Rückschlüsse auf eine adäquate Bepunktung zuließen — was bedeutet “gut minus” in Sprachkraft? Dadurch wird für mich sehr fraglich, wie viel Intuition sich aus dem Schulkontext ins Debattieren übertragen lässt. (Zumal dort genau das gleiche Problem auftritt: Wann ist eine 2.0 für eine Texterörterung gerechtfertigt?)

    3. Zur relativen Gewichtung von Redner- und Teampunkten: Als jemand, der auch in den Teamkategorien immer von 8 aus hoch- und runtergegangen ist (und dann umgerechnet hat), wundert mich die Verschiebung, die ihr feststellt. Die Punkteverteilungen in beiden Bereichen wären hierzu interessant zu wissen.

    4. Der Abschnitt ab “Gleichzeitig werden allerdings auch Schlechtleistungen” ist mir etwas rätselhaft. Auch wenn die absoluten Punktzahlen extremer werden, bleiben doch die Relationen idealerweise gleich. Dadurch sollte beispielsweise die Varianz im Inhalt verglichen mit allen anderen Punktzahlen kein höheres Gewicht bekommen.

    5. Zu der Aussage “Im neuen System ist es allerdings leichter bemerkbar, da sich unerfahrene Juroren nicht einfach hinter 8 oder 9 Punkten, die zuvor schon irgendwie hinkamen, verstecken können”: Ich sehe nicht, wie die Reform hier zu einer Änderung führen sollte. Diskutierte man vorher ab 4 Punkten Differenz, so müsste man jetzt ab 6 oder 8 anfangen, um gleiche Effizienz bei der Jurierung zu erreichen, da größere Unterschiede erwartbar sind. Die entscheidende Variable ist in diesem Bereich die zur Jurierung verfügbare Zeit, die die Genauigkeit der Abstimmung zwischen den Juroren bestimmt; nicht die Auflösung der Skala.

    [1] http://www.shz.de/deutschland-welt/politik/so-ungerecht-sind-die-abi-noten-im-bundesvergleich-id14398191.html
    [2] http://www.statistik.baden-wuerttemberg.de/Presse/Pressemitteilungen/2016087
    [*] Weibliche Form mitgemeint. Sorry, es ist spät und Gendern umständlich.

    1. Lara T. sagt:

      Ich stimme Jannis was seine Kritik an der Orientierung am Schulkontext angeht zu, und möchte ein weiteres – vielleicht quantitativ nicht sehr bedeutendes – Problem hinzufügen: es waren nicht alle auf einer deutschen Schule mit einer derartigen Bewertungsskala, d.h. nicht alle können sich an ihren Erfahrungen oder ihrem Gefühl orientieren, was klarere Beschreibungen für die jeweiligen Noten notwendig macht.

    2. Peter G. sagt:

      Zustimmung zu Jannis in allen Punkten.
      Noch ein kleiner Zusatz zu 2:
      Ob das jetzt Schulnoten, Oberstufenbepunktung (0-15p.), UIAA-Skala zur Bewertung der Schwierigkeitsgrade im Klettern oder sonstwas ist, ist mMn. völlig egal und bleibt ohne Effekt. Warum? Es ist doch völlig irrelevant, ob ich die Zahlen- oder Buchstabenreihenfolge der Skala kenne und womit sie sonst so verknüpft ist, wenn ich nicht weiß was die “Güteklassen” der möglichen, erwartbaren, usw. usw. Redeleistungen sind!
      Extrembeispiel: Nur weil jemand in der Lage ist, Steine seiner Größe nach in Kategorien von 1-6 einzusortieren, heißt das nicht, dass er/sie/es auch Reden bewerten kann. Völlig egal, ob er/sie/es bisher “auch immer mit der bekannten Skala 1-6” gearbeitet hat oder nicht. Und angenommen dieser jemand kann die Qualität von Reden grundsätzlich bewerten, so passiert das (Jaaa, liebe OPDler, zu denen auch ich mich gerne zähle) IMMER relativ zu seinem Erfahrungshorizont! Geben wir der Person also nun bspw. die Aufgabe Steine nach ihrem Gewicht in Kategorien von 1-6 einzusortieren, dann kann er/sie/es das sehr wohl relativ zu einander, aber ohne, dass er die gängigen Normen der “Steinenachgewichtsortiererszene” kennt, ist es ihm völlig unmöglich zu entscheiden, ob es sich beim leichtesten Stein um eine 1 und beim schwersten um eine 6 handelt, oder vielleicht alle eine 6 sind und er/sie/es einfach einen (für die “Szene”) sehr schweren (und sehr ähnlichen) Satz Steine zum Sortieren bekommen hat.
      TL;DR: Kenntnis von Schulnoten nützt zum Bewerten von Debatten ähnlich wenig wie zum Bewerten von Steinen, wenn unbekannt ist, was ein “sehr guter Stein” ist.

    3. René G sagt:

      Ich kann euch, Jannis und Peter, leider nicht zustimmen.
      Ja, die von euch genannten Punkte sind nicht falsch.

      Zu 1. Es gibt nicht plötzlich eine perfekte, objektive Bewertung, das stimmt. Zufallsfaktoren dominieren, wie kaum irgendwo anders, weiterhin die Wertung.
      Aber da es keinen Grund gibt, anzunehmen, dass der Einfluss der zufälligen Faktoren größer wird, während gleichzeitig die Möglichkeit zu differenzieren zunimmt, bleibt netto zumindest eine präzisere Bewertung.
      Oder um es statistisch zu sagen: auch bei großem systematischen Fehler habe ich lieber eine hohe als eine niedrige Präzision, jede Fehlerreduktion ist gut.
      Das ist zwar nur Flickschusterei an der wenig perfekten Realität, aber immerhin besser als nichts.

      Zu 2. Auch hier sind alle deine Punkte, Jannis, bedenkenswert. Aber es gilt dasselbe: lieber eine schlechte Referenz als gar keine, die ist nämlich im Zweifellsfall noch ungenauer. Aber das hast du ja letztlich selber auch so gesehen (“einen leicht positiven Effekt in der Ausbildung”).

      Am Ende muss man sagen, das größte Problem, der systematische Fehler, bleibt. Aber damit müssen wir wohl leben und vielleicht sollten wir der Bewertung auch einfach etwas weniger Relevanz beimessen. Denn am Ende geht es bei der ganzen Bepunktung ja doch nur um unsere Egos, da die aber groß genug sind, können es die meisten von uns auch einfach hinnehmen mal “falsch” bepunktet zu werden.

    4. Peter G. sagt:

      Kurzantwort:
      1. Auch bei systematischen Fehlern (die ich aber hier bezweifeln würde, egal), nützt es nichts die Skala zu vergrößern, damit vergrößert man die Fehler stumpf mit. Ist schließlich ne Skalierung.
      2. Jeder der grundsätzlich weiß was eine “Bewertung” ist kann das eins zu eins adaptieren, während der Nutzen aus einer bekannten Skala Null ist, wenn die Skala “dafür” nicht bekannt ist. Ich würde mich bspw. nicht in der Lage sehen, Synchronschwimmerinnen zu bewerten. Weder von 1-6 noch von wie auch immer die bewertet werden (1-10?). Sehr wohl könnte ich aber statt OPD-Punkten auch Schulnoten oder das Alphabet verteilen (Umrechnungsmaßstab vorausgesetzt). Die “Bewertung” des Jurors, ob etwas als gut, schlecht oder dazwischen erkannt wird, findet doch im intuitiven Maßstab des Jurorengeistes statt, während die “Benennung” in Punkten erst hinterher erfolgt, nach welcher Skala auch immer. “Fehler” sind da aber bereits vor der Benennung passiert.

      Es bleibt: Sofern die Differenzierungsmöglichkeiten über der Differenzierungsfähigkeit des Jurors liegen ist alles gut, liegen sie drunter wird’s schlechter, aber durch mitteln immer noch teilweise aufgefangen, liegen sie deutlich drunter (Skala = 1) isses halt doof. Siehe Punkt 1 von Jannis.

    5. Lennart Lokstein sagt:

      Zur Individualität von Bewertungen: Was eine 10 von einer 9 unterscheidet ist erschreckend simpel: Es war eine im Schnitt bessere Leistung. Konkrete Unterschiede können korrekterweise nicht allgemein formuliert werden, da Leistungen in OPD stets situativ Wirkungen, nicht aber Handlungen bewerten. Die gleiche Geste kann je nach Situation vollkommen unterschiedlich ankommen und ist deswegen nicht per se als “so und so gut” oder “so und so schlecht” bewertbar. Wenn ich aber zwei konkrete Reden juriere und einer 9 und einer 10 Punkte in auftreten gebe, kann ich dir auch erklären, was an der einen nun besser war als an der anderen.
      Weiterhin ist das System der OPD-Jurierung intersubjektiv, weswegen einzelne Juroren problemlos 4 oder in seltenen Fällen auch über 10 Punkte Abstand haben können. Dies legt sich durch die Mittelung verschiedener Eindrücke – daher ist es auch im Interesse aller, viele Juroren pro Raum zu haben. 😉

      Zu Unterschieden und Extrempunktern: Wenn ein Team morgen 901 und eines 900 Punkte hat, mag da etwas Glück im Spiel gewesen sein. Heute wäre bei gleichen Punkten dabei aber weitaus mehr Glück im Spiel gewesen, da sich aktuell “Extrempunkter” stärker von der Norm unterscheiden, da sie sich trauen, gute Leistungen auch zu belohnen und schlechte zu strafen – deshalb ist es übrigens auch nicht bloß eine Neuskalierung gedacht und umgesetzt worden, wie von Peter vermutet, sondern tatsächlich auch eine “Neuanwendung”. Morgen sind hoffentlich alle entsprechend differenziert, womit Unterschiede stärker zutrage treten, aber eben auch zurecht. Beim 901:900-Beispiel ist also das neue System aufgrund ausgeglicheneren Juroreneinflusses fairer. Realistischerweise sind es morgen dann aber eben auch viel häufiger (fiktive Zahlen voraus) 920:900 Punkten wo es vorher 801:800 waren.

      Im Wesentlichen würde ich also René zustimmen: Das System an sich mag nicht jedermanns Sache sein, intern wird es aber durch eine größere Differenzierung nur besser. Lara hat, wie auch Peter, im Bezug auf Schulnoten an sich natürlich auch recht: Nicht jeder kann mit Schulnoten etwas anfangen. Aber wer es nicht kann muss wie heute auch schon ein ganzes System neu lernen, alle anderen haben zumindest schonmal den Hauch einer Idee. Schlechter wird es also nicht, für manche aber einfacher. Der einzige vermutete Verlust sind also Umstellungsschwierigkeiten bei bereits geeichten Juroren – weswegen wir vor der DDM auch auf keinen Fall eine Umstellung nahelegen wollen. Die Umstellungsschwierigkeiten an sich hielten sich, zumindest im Rahmen des Experiments, wie oben ausgeführt im ersten Eindruck in Grenzen.

      Ich hoffe, damit etwas

  8. Nicolas F.(Göttingen) sagt:

    Das Problem bei einer größeren Punktespanne ist, dass die einzelnen Juroren diese vermutlich nicht gleich groß ausdifferenzieren. Bedeutet: im alten Status quo wichen Extrempunkter unter den Juroren vllt mal um 7-8 Punkte vom Szeneschnitt für eine gute Rede ab (angenommen Szeneschnitt 50, Extrempunkter gibt 57). Diese 7 Punkte Überschuss bei Extrempunktern, konnte man noch über mehrere Runden auffangen, so dass Teams oder Rede mit solchen Glückszuordnungen von Extrempunktern nicht allzu große Vorteile bekamen. Wenn jetzt allerdings die mögliche Varianz größer wird, so hängt das Breakglück noch viel stärker davon ab, ob man einen Extrempunkter als Juror bekommt, oder nicht. Daher besteht hier die Gefahr, dass Extrempunkter das Feld signifikant verzerren.

    1. Lennart Lokstein sagt:

      Wie unter 7.e kommentiert ist die Neueichung tatsächlich nicht als bloße Skalierung zu verstehen, sondern als Anreiz zur stärkeren Differenzierung. In dem Sinne werden also schlicht alle zu “Extrempunktern”, womit der Einfluss pro Juror sich angleicht. Der Rest liegt bei den Clubs, wenn pro Raum drei Juroren anwesend sind ist das auch intersubjektiv unproblematisch.

Comments are closed.

Folge der Achten Minute





RSS Feed Artikel, RSS Feed Kommentare
Hilfe zur Mobilversion

Credits

Powered by WordPress.

Unsere Sponsoren

Hauptsponsor
Medienpartner