Chop, chop – ran an die Eichung!

Datum: 29. März 2023
Redakteur:
Kategorie: Jurieren, Mittwochs-Feature

Die OPD-Regelkommission 2023 – (c) Sven Jentzsch

Nachdem nach Eindruck der OPD-Regelkommission jüngst wieder Beschwerden über die Eichung zugenommen haben, hat sie sich an eine umfassende Evaluation gesetzt: Was hat sich getan seit der Neueichung 2016/17? Wo steht die Szene bei der Eichung? Und was muss sich ändern? Diese Fragen beantwortet sie im heutigen Mittwochsfeature auf Basis umfassender Tab-Daten der vergangenen Jahre.

Einleitung

Zwischen 2016 (Link) und 2017 (Link) wurde eine Neueichung der Punkteskala der Offenen Parlamentarischen Debatte angegangen. Hintergrund war, dass sich zuvor die Einzelredepunkte trotz der 100er-Skala fast ausschließlich auf ein Niveau von 35-55 Punkten (meistens sogar ausschließlich im 40er-Bereich) eingependelt hatten. Die Neueichung bestand darin, Jurierende dazu anzuhalten, Punkte wieder nach Schulnoten zu vergeben (wie seit langer Zeit im Regelwerk vorgesehen). Demnach werden wie in der Schule Einschätzungen von “ungenügend” bis “sehr gut plus” vergeben; zudem gibt es Extrapunkte für nationale oder gar internationale Spitzenleistungen, um eine bessere Differenzierung zwischen Topteams in KO-Runden zu ermöglichen.

Das ist nunmehr sechs Jahre her. Nachdem jüngst wieder Beschwerden über die Eichung zugenommen haben, haben wir uns an eine umfassende Evaluation gesetzt: Was hat sich getan? Wo stehen wir bei der Eichung? Was muss sich ändern? Anmerkung: Wer keine Zeit für die Analyse hat, der möge direkt zum vorletzten Abschnitt (“Was können wir gegen das Problem unternehmen?”) springen.

Welche Eichung wäre zu erwarten / wünschenswert?

Es ist schwer, die ideale Eichung zu beschreiben. Das ist spekulativ; zudem wollen wir keine normativen Punktegrenzen festlegen. Daher nur ein paar grobe Annäherungen:

Redet unsere Szene im Durchschnitt besser oder schlechter als glatt befriedigend (= 40 Einzelpunkte, 200 Gesamtpunkte als Team), definiert als “Stärken und Schwächen halten sich die Waage”?

  • Was für einen hohen Durchschnitt spricht: Einige von uns argumentieren, dass wir in Bezug auf rhetorische Fähigkeiten im Schnitt geübter und erfahrener als die Restbevölkerung sind, und im Durchschnitt mehr Stärken als Schwächen in einer Rede zeigen sollten.
  • Was für einen niedrigen Durschnitt spricht: Andere von uns wenden ein, dass wir sehr kurze Reden zu fremden Themen mit kurzer Vorbereitungszeit und zugeloster Position halten. Angesichts dessen wäre es schwierig, dass die Stärken die Schwächen klar überwiegen.

Wo liegen die be​​sten und schlec​htesten Leistungen? Wie sieht die Verteilung aus?

  • Was für eine breite Spanne spricht: Punkte in OPD sollen anhand von Noten der gymnasialen Oberstufe vergeben werden (nur nicht korrigiert nach irgendeiner Noteninflation, weswegen das Regelwerk “strenge Benotung” fordert). Einige von uns argumentieren: Genauso wie es in Schulen Schüler*innen mit einem Einser- und einem Vier- bis Fünfer-Schnitt auf dem Zeugnis gibt, sollte das auch im Debattieren vorkommen (sehr gut= 65-75 Einzelpunkte, 325-375 Gesamtpunkte; mangelhaft/ausreichend = 5-30 Einzelpunkte, 25-150 Gesamtpunkte). Deutlich häufiger kämen aber durchschnittliche Leistungen vor; zu erwarten wäre eine Normalverteilung.
  • Was für eine enge Spanne spricht: Andere von uns argumentieren, dass eine konstant sehr gute oder konstant mangelhafte Leistung bei den erwartbaren Schwankungen von Kategorie zu Kategorie und Rede zu Rede unwahrscheinlich sei. Zu erwarten seien Schnitte daher beim Top of the Tab eher im Bereich sehr gut minus bis gut plus (= 60-65 Einzelpunkte, 300-325 Gesamtpunkte) und am Ende des Tabs eher im Bereich ausreichend plus (= 30 Einzelredepunkte, 150 Gesamtpunkte).

Wie sieht die Eichung tatsächlich aus?

Wir haben alle uns verfügbaren Vorrunden-Redetabellen von OPD-Turnieren der Deutschen Debattierliga und der Campus-Debatten-Serie seit 2017 ausgewertet (insgesamt 32 Stück), um Stand und Entwicklung der Eichung nachzuvollziehen. Zudem haben wir Rohdaten des OPD-Tabprogramms (gespeichert seit 2020) ausgelesen. Betrachtet wurden Einzelredepunkte und Gesamtpunkte von Fraktionen:

(1) Entwicklung der Einzelleistungen

Zunächst wurde für alle Turniere geschaut: Welchen Punkteschnitt haben jeweils die Personen an der Spitze (Maximum), bei 25% (oberes Quartil), in der Mitte (Median), bei 75% (unteres Quartil) und am Fuße (Minimum) des Tabs?  Für diese Punkteschnitte wurde wiederum der Jahres- und Gesamtschnitt ermittelt. Im Anhang gehen wir auf einige Messungenauigkeiten ein.

Die Entwicklung des Jahresdurchschnitts von Maximum, Quartilen, Median und Minimum sieht so aus:

Entwicklung von Vorrunden-Punkteschnitten auf OPD-Turnieren – Einzelpunkte

Der Gesamtschnitt über alle Jahre hinweg gestaltet sich so:

Grafik Gesamtauswertung Einzelpunkte

Gesamtauswertung Einzelpunkte

Zudem wurde die Durchschnittspunktzahl aller OPD-Turnierreden im Tabprogramm seit 2020 ausgelesen:

Durchschnittspunktzahl aller OPD-Turnierreden im Tabprogramm seit 2020

Eine deskriptive Zusammenfassung dieser Werte:

  • Im Trend ist zu beobachten: Durch die Neueichung hat sich die effektiv genutzte Skala absolut und vor allem nach oben hin erweitert. Dies ist annähernd stabil geblieben. Während der Coronapandemie kam es jedoch zu einer starken Stauchung der Punktzahlen. Seitdem kam es wieder zu einer Weitung, die aber hinter dem Niveau der Vorjahre (2017-2019) zurückbleibt. Median, oberes und unteres Quartil sind (ausgenommen 2022) annähernd stabil geblieben; die Punktzahl des Top of the Tabs hat sich nach unten (von über 60 auf 57 Punkte), die des Bottom of the Tabs nach oben (von 33 auf 37 Punkte) entwickelt.
  • Absolut ist zu beobachten: Die schwächsten Turnierrredner*innen liegen ziemlich genau im Bereich befriedigend minus (=35 Punkte), die stärksten hingegen nicht einmal bei gut plus (= 60 Punkte). Der Durchschnitt liegt knapp über befriedigend plus (= 45 Punkte). Bemerkenswert: Während einzelne Reden (wahrscheinlich wegen Abzügen) nach unten hin in den 10er-Bereich ausreißen, gab es nach unserem Wissen seit 2017 keine einzige (!) glatt sehr gut oder besser bewertete Rede (= über 70 Punkte).

2) Entwicklung der Gesamtpunkte als Team

Für die Gesamtpunkte als Fraktion wurde ähnlich verfahren. Hierbei sind noch mehr Messungenauigkeiten zu beachten, die im Anhang erläutert werden.

Wieder wurde zunächst der Jahresdurchschnitt der jeweiligen Werte ermittelt…

Entwicklung von Vorrunden-Punkteschnitten auf OPD-Turnieren – Gesamtpunkte als Fraktion

…dann der Gesamtschnitt…:

Gesamtauswertung Gesamtpunkte als Fraktion

…und anschließend wurden die Daten des Tabprogramms hinzugezogen (allerdings nur die Teampunkte):

Durchschnittspunktzahl aller OPD-Teampunkte im Tabprogramm seit 2020

Deskriptiv beschrieben:

  • Genauso wie bei den Einzelpunkten ist zu beobachten: Die Neueichung weitete die genutzte Skala; dieser Effekt ist stabil geblieben. Eine leichte Stauchung während der Pandemie ist zu beobachten. Das Maximum ist leicht gesunken (ca. von 283 auf 273 Punkte). Die übliche Fraktionsleistung liegt ebenfalls knapp über befriedigend plus (= 225 Punkte).
  • Abweichend von den Einzelpunkten ist zu beobachten: Der Verlauf ist unregelmäßiger; Trends sind schwieriger erkennbar. Die Stauchung ist noch größer als bei den Einzelpunkten: Das Minimum liegt zwischen befriedigend minus und voll befriedigend (175-200 Punkte); das Maximum knapp über glatt gut (= 275 Punkte). Es wurde nach unserem Wissen in keiner Turnierdebatte jemals eine Fraktionsleistung von sehr gut minus oder besser (= ab 325 Punkten) ausgezeichnet.

Welche Ursachen hat der Stand der Eichung?

Es wurde betont, dass es schwierig ist, die ideale Eichung abzuschätzen. Wir sind einerseits zufrieden mit der stabilen Veränderung der Skala seit der Neueichung 2017. Wir glauben jedoch andererseits (selbst diejenigen von uns mit konservativerer Einschätzung): Die aktuelle Skala ist noch zu stark gestaucht; wir haben immer noch ein Eichungsproblem.

Folgende Gründe kann es dafür geben:

  • Fehlende Juriererfahrung: Gerade nach Corona gibt es – erfreulicherweise – wieder einen großen Zuwachs an neuen Jurierenden. Diese müssen aber teilweise erst ein Gespür für die Eichung entwickeln. Zudem hat die Erfahrungsweitergabe (auch in Jurierfähigkeiten) während der Pandemie in vielen Clubs gelitten; teilweise werden auch falsche Mythen über OPD-Bepunktungen weitergegeben.
  • Überforderung: OPD ist unbestritten selbst für erfahrene Jurierende ein herausforderndes Format, das viel Multi-Tasking erfordert. Bisweilen hat man eine Kategorie wenig beobachtet und gibt lieber “aus Vorsicht” eine konservative Einschätzung ab. Beobachtet man viele Stärken und Schwächen, fällt es oft schwer, deren prozentuales Verhältnis abzuschätzen– hier scheint befriedigend (= hält sich in Waage) ebenfalls die verlockendste Option. Dies betrifft vor allem die Teamkategorien, was die noch stärkere Stauchung der Gesamtpunkte gegenüber den Einzelredepunkten erklären würde.
  • Fehlender Mut zu extremen Punktzahlen; Neid und Mitleid: (i) Fehlender Mut zu und Neid gegenüber hohen Punktzahlen (“Ich habe noch nie über 60/70 Punkte gegeben!”; “Ich habe selber auch nie eine 60 bekommen; und XY ist doch nicht besser als ich!”); (ii) fehlender Mut zu bzw. Mitleid gegenüber niedrigen Punktzahlen (“Ich will dieser Person nicht noch ein demotivierendes Ergebnis reinwürgen!”); (iii) fehlender Mut zur Abweichung von anderen Jurierenden (“Nachher vergebe ich eine komplett andere Punktzahl als die Hauptjurorin und muss mich dafür rechtfertigen– mit einer durchschnittlichen Punktzahl liege ich nicht so verkehrt.”).
  • Verwirrung um Höchstpunktzahlen: Im Juriermerkblatt ist davon die Rede, eine sehr gute Leistung würde bedeuten, dass “keine Schwächen erkennbar” wären. Eine Leistung ohne jede Schwächen klingt jedoch nach Perfektion– wodurch unklar ist, warum man überhaupt jemals Punkte für nationale oder internationale Spitzenklasse vergeben sollte, wenn sehr gut bereits perfekt entspricht.
  • Fehlende oder falsche Referenzen: Bisweilen weichen Jurierende von Schulnoten als maßgeblicher Orientierung ab und vergeben Punkte nach Referenzpunkten, die so nicht gewollt sind. Zum Beispiel initialisiert man “Eine Toprede liegt knapp über 60“ (dabei entspricht das gut plus), “Die schlechtesten Leistungen landen bei 35” (entspricht befriedigend minus) oder “Ein Topteam erhält etwas rund um 275” (entspricht gut). Das liegt in Teilen auch daran, dass Jurierende nicht vor Augen haben, welche Einzel-, Team- oder Gesamtpunktzahl welcher Schulnote entspricht.

Warum ist die Eichung problematisch?

OPD geht an einer zu engen Eichung nicht zugrunde. Wir sehen aber vor allem drei Nachteile:

  • Fehlende Übereinstimmung von Leistung und Punktzahl: Wer eine Rede hält, deren Leistung der Note A entspricht und wer danach auch Feedback erhält, das der Rede eine Leistung der Note A unterstellt, sollte nicht Punkte der Note B erhalten. Dies ist fair Redenden gegenüber, die eine akkurate Darstellung ihrer Redeleistung wünschen. Außerdem lässt sich eine Skala von 1-100, die aber ausschließlich in einem Bereich von 35-55 Punkten verwendet wird, schwer für Außenstehende erklären.
  • Abhängigkeit vom Panel: Auch im heutigen Status quo gibt es weiter Jurierende, die die Skala breit ausnutzen und nach Schulnoten vorgehen. Wenn die übrigen Jurierenden aber immer enger punkten, werden die Unterschiede zwischen beiden Juriertypen immer weiter zunehmen. Gerade auf aktuellen Turnieren ist daher zu beobachten, dass es wieder ein wesentlicherer Faktor für die eigene Punktzahl wird, von wem man juriert wird.
  • Fehlende Differenzierbarkeit: Stimmen die ersten beiden Punkte zu, dann kommt es nicht nur psychologisch, sondern auch faktisch dazu, dass Leistungen schwerer vergleichbar werden, wenn sie in den Bereich von Punktebruchteilen zusammenschrumpfen.

Was können wir gegen diese Probleme unternehmen?

Was wir als Regelkommission unternehmen wollen und werden:

  • Neue Tabelle auf der letzten Seite des Jurierbogens

    Orientierungshilfen in Juriermaterialien: In diesem Artikel wurde häufig vor Augen geführt, welche Noten eigentlich welcher Punktzahl entsprechen. In der neuen OPD-Version werden die Jurierbögen und Juriermerkblätter entsprechende Referenztabellen enthalten, damit man das eigene Jurierergebnis leichter mit dem eigenen Eindruck (Team war sehr gut / ausreichend…) abgleichen kann.

  • Neudefinition sehr guter Leistungen: Mit der neuen OPD-Version wird die Definition von sehr gut von “keine Schwächen erkennbar” zu “kaum Schwächen erkennbar” geändert, um die Differenzierung zu nationalen und internationalen Spitzenleistungen klarzumachen.
  • Ausbildung und Kommunikation: Wir werden versuchen, das strenge, aber entschlossene Bewerten nach Noten noch stärker in diese Szene zu tragen.

Was Juror*innen unternehmen können:

Was Jurierende tun können, ergibt sich fast 1:1 aus dem Abschnitt “Ursachen für den Stand der Eichung”: Fragt euch: Wie ist es um eure Eichung bestellt? In welchem Bereich vergebt ihr üblicherweise Punkte? Was war euer absolutes Minimum, was euer absolutes Maximum? Ansonsten verfahrt immer nach dem Grundsatz: Wie hat die Rede auf euch (korrigiert um Abweichungen zum interessierten, politisch neutralen Publikum) gewirkt? Welcher Schulnote entspricht diese Wirkung? Kümmert euch nicht um andere Referenzwerte (z.B. was Debattenreden angeblich “üblicherweise” bekommen oder was in diesem Artikel als durchschnittliche Punktzahl ausgewiesen wird)! Und macht euch keine Sorgen, “zu mutig” zu bepunkten (bepunktet aber auch nicht mutig um des Mutes willen)! Orientiert euch einzig und allein an den Schulnoten.

Was die restliche Szene tun kann (insbesondere Erfahrene):

Wozu wir euch ausdrücklich nicht ermuntern wollen: Euch noch häufiger über Jurierende zu beschweren, die vermeintlich falsch geeicht sind und euch zu niedrige Punkte gegeben haben. Dieses Shaming führt am Ende nur dazu, dass Personen nicht besser, sondern weniger jurieren– oder erst recht den Mut verlieren, kontroverse, aber akkurate Einschätzungen zu treffen. Wenn ihr den Eindruck habt, dass die im Feedback beschriebene Redeleistung nicht euer Punktzahl entspricht, vermerkt das nüchtern im Jurierfeedback. Das ist alles. Fragt euch eher (gerade als erfahrene Person): Warum redet ihr gerade auf dem Turnier, statt zu jurieren? Und was könntet ihr in eurem Club tun, um die Jurierausbildung zu verbessern? Verbreitet vor allem die Nachricht, dass nach Noten juriert wird!

Dann steht zu hoffen, dass wir die aktuell noch bestehenden Eichungsprobleme kollektiv gelöst bekommen.

Anhang: Anmerkungen zu den Erhebungen

Diejenigen von euch mit Statistik-Expertise werden wahrscheinlich (und nicht zu unrecht) Aspekte an unseren Messungen auszusetzen haben. Hier gehen wir auf einige Fehler/Ungenauigkeiten/anfechtbare Entscheidungen ein, die uns bewusst sind:

  • Die Datenlage insgesamt (gerade für bestimmte Jahre) ist dünn. Die Ergebnisse wären verlässlicher, wenn jede Debatte und nicht jedes Turnier als ein Datenpunkt behandelt worden wäre.
  • Die Turniere fließen ungewichtet in die Durchschnittsrechnungen ein– d.h., ein kleines DDL-Turnier auf Basis weniger Debatten und Teams zählt genauso viel wie eine große DDM auf Basis vieler Debatten und Teams.
  • Die Teilnehmenden, die Größe, die Themen usw. eines Turniers verzerren die Ergebnisse bzw. stellen intervenierende Variablen dar.
  • Die Punktzahlen wurden auf zwei Nachkommastellen gerundet; Rundungsfehler können auftreten.
  • Oberes und unteres Quartil wurden mit vereinfachter Berechnungsmethode ermittelt. Das heißt, wenn das obere Quartil z.B. für Position 13,75 ausgewiesen wurde, wurde der Tabplatz 14 ausgelesen.
  • Personen, die wegen Abwesenheit in einer Runde 0 Punkte erhalten haben, wurden nicht als Minimum gewertet, wohl aber solche mit Reden, bei denen es mutmaßlich Abzüge und daher sehr geringe Punktzahlen gab.
  • Für die Gesamtpunktzahlen wurden zwar nur die Punktzahlen als Fraktion (nicht die Freier Reden) einberechnet, aber die Quantil-Positionen wurden trotzdem am Gesamt-Team-Tab (inklusive Fraktionsfreier Reden) gebildet.; d.h. die Tabreihenfolge wurde nicht an das Herausrechnen der Freien Reden angepasst.

OPD-Logo

Die OPD-Regelkommission ist ein vom Verein Streitkultur e.V., der die Rechte am OPD-Format besitzt, gewähltes fünfköpfiges Gremium, das das Regelwerk pflegt, bei Bedarf aktualisiert und bei Fragen zum Format zur Verfügung steht. Die Regelkommission besteht in der Saison 2022/23 aus Sven Jentzsch, Chiara Throner, Sven Bake, Lennart Lokstein und Robert Wiebalck. Erreichbar ist sie per Mail an opd [at] streitkultur [dot] net.

OPD-Regelkomission / jgg.

Print Friendly, PDF & Email
Schlagworte: , , , , , , ,

13 Kommentare zu “Chop, chop – ran an die Eichung!”

  1. Johannes Janosovits sagt:

    Man könnte den Juroren auf Turnieren auch mitgeben, dass sie zu eng bepunkten. Wenn sie nach 2 oder 3 Vorrunden immer die kleinste Bandbreite an Punkten im Panel hatten liegt das wahrscheinlich daran, dass sie das generell tun und unwahrscheinlich daran, dass ihre Sicht auf die Debatte anders war. Das Tabprogramm könnte diese Informationen zumindest näherungsweise automatisiert ausgeben und CAs und Juroren direkt anzeigen. Wer immer nur zwischen 38 und 52 Punkte vergibt, obwohl die Debatten starke und schwache Rednerinnen hatte, wird von den CAs darauf aufmerksam gemacht.

    Auf jeden Fall eine krass aufwändige analyse, ich habe den Artikel sofort verschlungen und fand die Information super spannend

  2. Lennart Lokstein sagt:

    Mir scheint auch dieser Punkt humoristisch wie auch inhaltlich nicht zu vernachlässigen zu sein:
    „Fragt euch eher (gerade als erfahrene Person): Warum redet ihr gerade auf dem Turnier, statt zu jurieren?“ =D

  3. Tim R. (Rederei HD) sagt:

    Schöner Artikel. Vielen Dank für die Arbeit und auch toll, dass man aus dem Tabprogramm diese Daten auslesen kann.

    Ich habe an einer Stelle eine Frage/ ein Problem:
    Ihr sagt (wenn ich es richtig verstehe), dass eine Aussage wie “Eine Toprede liegt knapp über 60“ nicht förderlich ist, weil man dadurch von Noten als maßgebliche Orientierung abweicht.
    Mein Problem ist, dass ich mir unter einer Toprede mehr vorstellen kann als unter der Schulnotenbeschreibung „kaum Schwächen erkennbar“.

    Angenommen ich sitze jetzt in einer Debatte als Juror und jemand hält eine der besten Reden, die ich in diesem Jahr gehört habe… Auch nach Jahren des Jurierens weiß ich immer noch nicht wirklich, was das Regelwerk hier eigentlich für ein Punkteniveau von mir haben will.
    Das Problem ist meiner Ansicht nach, dass OPD Jurieren anders funktioniert als Notenvergabe in Schule und Uni. Ich habe keinen klar ausdifferenzierten Erwartungshorizont, sondern eine vage Zuordnung, die besagt: „kaum Schwächen erkennbar“ –> 1 und „Stärken überwiegen“ –> 2.
    Wenn ich jetzt aber keine Referenzwerte habe, ist es schwer zu sagen welcher Kategorie eine Leistung zugeordnet werden sollte.

    Daher denke ich, dass Aussagen zu Referenzwerten/Erwartungswerten tatsächlich helfen würden.
    Zum Beispiel zu einer DDM, wo die Sample Size ja groß genug sein müsste um statistische Aussagen zu treffen.
    Würdet ihr erwarten, dass die beste Rede auf einer DDM eigentlich bei 75+-5 Punkten liegen sollte anstatt bei 60+-5 Punkte. Und das bei einer DDM in ein oder zwei Reden die Situation auftritt, dass in einer Kategorie mal 17 oder 18 Punkte vergeben werden?

    Ich denke ein solcher Erwartungshorizont wäre wichtig den Jurierenden an die Hand zu geben. Zum Beispiel:
    „Nach unserem Verständnis der Schulnotenskala würden wir erwarten, dass bei einer DDM das Tab ungefähr im Bereich 70 bis 30 Punkte liegt, mit einzelnen Reden im Bereich 80 und 25.“

    1. Chiara T. (Sk) sagt:

      Hey Tim,
      erstmal ich antworte hier privat, weil ich meinen Kommentar nicht vorher mit der RK abgestimmt habe.
      Ich glaube meine Einschätzung wäre dass auf eigentlich jedem größeren Turnier (sagen wir mal ab 8 Räumen, mit min 4 Vorrunden) zu erwarten ist, dass mindestens 2 Reden in mindestens einer Kategorie über 15 Punkte scoren. Ich habe persönlich ungefähr 5-10x in meiner Jurierkarriere bei einer Rede in mindestens einer Kategorie über 15 Punkte vergeben. Meistens war das in Finals bei unfassbar lustigen Reden in Kontaktfähigkeit.
      Ich glaube es ist sehr schwer zu sagen, welchen Punkteschnitt der oder die Top of the Tab bei einer DDM haben sollte. Schließlich ist es auch themenabhängig bzw. abhängig davon, dass man mal in einer Runde (auf gut Deutsch) verkackt und ich der nächsten brilliert. Aber ich würde erwarten, dass die Top 10 Redner:innen auf einer DDM im Schnitt zwischen 58 und 65 Punkten bewegen. Die beste Rede des ganzen Turniers (von der es wahrscheinlicher ist, dass sie in den Outrounds gehalten wird) sollte auf einem sehr gut besetzten Turnier an der 70 kratzen oder sie überschreiten.
      (Bitte nehmt diese Einschätzung als Diskussiongrundlage und nicht als „so sei es“)

  4. Jannis Limperg sagt:

    Eure Analyse zeigt doch, dass wir seit 2021 eine hübsche, zumindest im Durchschnitt konsistente Eichung haben. Der relevante Bereich ist dann eben 35 bis 60, da ist ja genug Raum zum Differenzieren.

    Wieso wollt ihr dann jetzt unbedingt diese Schulnoten durchdrücken und damit die Eichung erstmal wieder kaputtmachen? Ich kann in Göttingen schon versuchen, zu interpretieren, was eine „strenge 2+“ ist. (Vielleicht eine 1- in tatsächlichen Schulnoten? Eine 50 in der ganz alten Skala?) Aber davon auszugehen, dass alle das ähnlich interpretieren, halte ich für optimistisch. Das heißt wir kriegen wieder Chaos, bis genügend Leute zusammen Ausscheidungsrunden juriert haben und sich ein Konsens einstellt, welche Redeleistung welche Punktzahl wert ist.

    Alternative: wir lassen die Skala in Ruhe und richten uns alle gemütlich im Bereich 35-60 ein, wie es ein Großteil der Szene ja offensichtlich getan hat.

    1. Jan (SK/DCMS) sagt:

      Das halte ich für groben Unfug. Leider scheint mir die RK den Grund dafür, dass es aktuell alles wieder suboptimal wird, nicht wirklich erkannt zu haben.

      Das Hauptproblem ist doch, dass eine Eichung konsistent sein muss. Und hier hast du mit deinem System ein großes Problem. Jemand, der neu anfängt zu Debattieren, muss jetzt irgendwie eine Intuition entwickeln, was wie viele Punkte sind. Auch jemand wie ich, der zwei Jahre kein OPD juriert hat kommt dann in eine Situation, in der völlig unklar ist, wie man denn bitte Punkte zu vergeben hat.

      Das ist ja gerade der Vorteil am Schulnotensystem, jeder von uns kann damit was anfangen. Natürlich liegt auch unsere Wahrnehmung dessen ein bisschen auseinander, aber diesen Grad an Heterogenität halte ich für verkraftbar (vielleicht sogar befürwortenswert).

      Leider macht die RK meiner Meinung nach schon wieder Kommunikationsfehler:

      1) Die Begrifflichkeiten „Schwächen überwiegen“ etc. sollten nicht angepasst, sondern gestrichen werden. Niemand bewertet doch je nach diesen Sätzen und das sollte auch so bleiben.
      2) Genau definieren zu wollen, wie streng man zu sein hat („strenge 2“) ist genauso ein Fehler. Wichtig wäre, es den Leuten einfach zu machen zu jurieren, in dem man eine anerkannte Skala nimmt, die jedem zugänglich ist.

      Eine solche Skala würde übrigens auch in der Rechtfertigung von Punkten einiges machen. 7 Punkte in einer von Bekanntem völlig losgelösten Skala zu rechtfertigen ist viel einfach, als zu erklären, warum diese Leistung jetzt gerade mal eine 3- gewesen ist.

      Ich plädiere dafür ganz streng bei jedem Turnier auf Schulnoten zu verweisen und an erfahrene Jurierende genau dieses System bei Nebenjurierenden einzufordern. „Völlig egal, was euch irgendein mittelerfahrener Idiot in eurem Club gesagt hat, die Regeln sind Schulnoten und so solltest du auch Punkten“

    2. Jannis Limperg sagt:

      Ich würde auch sagen, wenn Schulnoten, dann richtig. Da stimme ich deiner Analyse ganz zu und das wäre meine zweite Wahl. Warum nur zweite?

      a) Ich finde den Intuitivitätsvorteil selbst mit dieser konsistenteren Variante nicht so groß. Die wesentliche Schwierigkeit beim Jurieren ist, zu lernen, was die Szene für Maßstäbe an schlechte/mittelmäßige/gute/sehr gute Reden anlegt. Das dann auf eine Skala zu übersetzen, ist nicht das Ding. Aber da kann man sicher auch anderer Meinung sein.

      b) Wenn jetzt die Eichung wieder aufgebrochen wird, kriegen wir halt mindestens ein halbes Jahr komische Ergebnisse. Das schließt insbesondere die DDM ein. Ich bin mir nach diesem Beitrag ernsthaft unsicher, wie ich in Göttingen bepunkten soll. Nach Schulnoten ist eine 1 („sehr gut“) ja kein so großes Ding, also gehen wir jetzt auch mal auf 350 für die guten Teams? Nach Chiaras Interpretation wohl nicht, da ist dieses Niveau der besten Rede auf einem sehr gut besetzten Turnier vorbehalten. Man mag sich dann fragen, warum diese Rede immer noch keine nationale oder internationale Spitzenleistung (was ist der Unterschied?) darstellt.

      Das wird sich natürlich mit der Zeit einrenken und wir werden wieder einen Konsens finden, wie was zu bepunkten ist. Aber die Übergangszeit, die 2017 meiner Erinnerung nach ganz schön lang war, könnte man sich auch sparen.

    3. Jan (SK/DCMS) sagt:

      Ich halte eine 350 nicht für eine Punktzahl, die nicht zu erreichen sein sollte, gebe aber insgesamt zu bedenken, dass es schwer ist, in allem sehr gut zu sein. Wenn du es stochastisch verstehst, dann ist die Wahrscheinlichkeit für einzelne sehr gute Leistungen vielleicht bei 15-20%, aber das über drei Reden in allen Kategorien zu schaffen, schon eher unwahrscheinlich.

      Was ich sehr schlecht beurteilen kann, ist, ob es gerade tatsächlich eine so gesetzte Eichung gibt. Haben alle gerade eine ähnliche Intuition über Punkthöhen? Wie du in Heidelberg gemerkt hast, war das mindestens bei mir nicht der Fall und ich weiß von einigen anderen bei denen das ebenfalls so ist (nicht nur Leute, die seit längerem kaum Turniere jurieren). Aber über die Gesamtsituation kann ich wenig sagen. Sollte das der Fall sein, verstehe ich deinen Einwand zur DDM gut. Allerdings stellt sich auch da für mich die Frage, wie du mit den bei DDMs oft vertretenen (und gewünschten) Jurierenden umgehst, die aktuell nicht mehr so aktiv in der Szene sind. Damit muss man nicht Leute meinen, die 12 Jahre raus sind, aber selbst bei 4 Jahren sind das Leute, die keine Einschätzung über heute „korrekte“ Eichung mitbringen können.

    4. Jannis Limperg sagt:

      In der Schule sind 1er ja keine Seltenheit und verlangen keine Perfektion. Die Abiturschnitte lagen 2021/2022 zwischen 2,04 und 2,28; unter Debattanten sicher deutlich höher. In BaWü erhielten 2021 4,8% der Schüler:innen eine 1,0 und 40,7% eine 1,x. Und in unserer Skala liegen, anders als in der Schule, über den 1ern noch zwei ganze Kategorien. Das heißt, es müsste für die Top-Teams schon gut machbar sein, eine rundum „sehr gute“ Leistung abzuliefern. Wenn man diese Schulnoten ernstnimmt, kommt man also zu ganz anderen Ergebnissen als wir sie derzeit haben.

      Zu der Frage, wie die Eichung im Moment ist: Ich habe in letzter Zeit nicht so viel OPD gemacht, kann das also nur mäßig gut beurteilen. Aber mein Eindruck war auf dem SK-Cup als Juror, dass meine Mitjuror:innen sogar noch zögerlicher waren als ich mit meinen Nicht-Schulnoten-Punkten. Und in Heidelberg sind wir als Team über 5 Vorrunden nur einmal in den Genuss schulnotiger Punkte gekommen (oder wir haben in den anderen Runden nichts über 2 verdient, das will ich nicht ausschließen). Die Leute, die mehr oder weniger nach Schulnoten jurieren (und die häufig übrigens sehr gute Juror:innen sind) scheinen mir aufgrund dieser Erfahrungen deutlich in der Minderheit zu sein.

      Zur Integration erfahrener Juror:innen, die aus der Eichung raus sind: ich finde, das kann man im Wesentlichen lösen durch eine kurze Ansage, wie im Moment die Punkte verteilt werden. Oberer Rand ist 65, unterer Rand 30 (25 wenn man fies sein will), Mittelfeld 45, Top-Teams zufrieden ab 55. Das hilft mir (der ich ja auch schon selber in der Situation war) viel mehr als Schulnoten. Daneben glaube ich auch, dass man Juror:innen aus dieser Kategorie auf der DDM wenn möglich nicht sofort als Hauptjuror:innen mit unerfahrenen Wings setzen sollte, genau damit sie zumindest eine oder zwei Runden haben, um sich auf das Punkteniveau einzustellen.

    5. Jannis Limperg sagt:

      (Die Zahlen zum Abitur haben sich übrigens über die letzten Jahre massiv verschoben. Im letzten Jahr zu dem ich Daten finde, 2014, erhielten 1,6% der Abiturient:innen in BaWü eine 1,0 und 25,8% eine 1,x. Tut nicht viel zur Sache, aber fand ich interessant.)

    6. Jan (SK/DCMS) sagt:

      Ich scheine zugegeben ein wenig strenger als übliche Schulnoten zu sein (man beachte aber vielleicht auch einen veränderten Erwartungshorizont bei ausschließlich Studierenden), aber im großen bin ich fine damit. Sollte bei sehr guten Teams regelmäßig mal um die 350 Punkte geben können, wenn wohl auch nicht immer.

      Ich finde die Punkte oberhalb von 15 sollte man zu 99,99 % der Fälle einfach ignorieren. Ich fühle mich hinreichend sicher (lies: arrogant), um sie vereinzelt zuversichtlich geben zu können, aber ich plädiere eigentlich dafür sie abzuschaffen, weil sie Dinge nur sehr kompliziert machen. Ich halte auch Chiaras Ausführungen dazu einfach für falsch (erneut persönliche Arroganz ;-)).

      Eine Frage, die sich mir noch stellt, wenn ich dir folge, Jannis, wäre: Gibt es einen Grund zu glauben, dass die Skala sich in den nächsten Jahren nicht noch weiter verengt? Es scheint mir systemische Gründe dafür zu geben, dass das so sein könnte

  5. Konrad G. (Tü) sagt:

    Wie gut war die Eichung denn jetzt auf der CD Göttingen aus Sicht des CA/Tab Teams?
    Bei uns waren die Punkte eigentlich sehr konstant. Erfahrene Juroren höher als Neuere. Und Feedback klang häufig nach höheren Noten als die Punkte, die es dann gab.
    Das entspricht ungefähr dem, was ich auch vor der neueichung erwartet hätte. Vielleicht war das Punkteniveau etwas höher.

    1. Jan G. (Nürnberg) sagt:

      Ich schau mal ob CAs und Tab am WE eine Auswertung hinbekommen und melde mich dann nochmal 🙂

Kommentare sind geschlossen.

Folge der Achten Minute





RSS Feed Artikel, RSS Feed Kommentare
Hilfe zur Mobilversion

Credits

Powered by WordPress.