Jurorenmanagement 4.0? Lukas Haffert über Chancen und Grenzen digitalisierten Jurorenfeedbacks
Sind gute Redner automatisch gute Juroren? Wie bestimmen Chefjuroren den Break? Und wie sollte man eigentlich Chefjuroren bestimmen? Die Aufmerksamkeit für Fragen des Jurorenmanagements hat in den letzten Jahren deutlich zugenommen. Daran beteiligt war auch die Entscheidung der Chefjuroren der Deutschsprachigen Meisterschaften (DDM) 2014 und 2015, das Jurorenfeedback auf ihren Turnieren zu digitalisieren und statistisch auszuwerten. Nach zwei Jahren Erfahrung mit diesem Verfahren ist es daher Zeit für eine Bestandsaufnahme: Was kann ein quantitatives Feedbacksystem leisten und was nicht?
Worüber reden wir eigentlich?
Vorab ein paar Zahlen, um einordnen zu können, worum es eigentlich geht. Zunächst zur Anzahl der Bögen, dann zu ihrem Inhalt.
Insgesamt war die Datengrundlage der DDM 2014 wesentlich breiter als die der DDM 2015. Zum Teil lag das schlicht daran, dass die Berliner DDM mit 20 Räumen um drei Räume größer war als die Münsteraner DDM. Da es in einem OPD-Raum aber fünf Feedbackbögen für Redner gibt (zwei Teams, drei Freie), wurden auf beiden Turnieren trotzdem fast gleichviele Rednerbögen ausgefüllt. Dagegen erreicht die Zahl der von Juroren ausgefüllten Bögen in Münster nicht einmal 40 Prozent des Berliner Werts. Das ist zum Teil darauf zurückzuführen, dass die Verteilung der Bögen in Münster in den letzten beiden Runden aufgrund technischer Probleme nicht funktionierte, was insbesondere den niedrigen Wert bei den Hauptjurorenbögen erklären dürfte. Vor allem aber sorgt die Rolle des Präsidenten dafür, dass in einer OPD-Debatte nur zwei Bögen von Juroren über Juroren ausgefüllt werden, während es in BPS vier solcher Bögen gibt. Dazu unten noch mehr.
Tabelle 1: Anzahl verteilter und ausgefüllter Feedbackbögen auf den DDMs 2014 und 2015.
Berlin 2014 (BPS) |
Münster 2015 (OPD) |
|
Anzahl der Räume |
20 |
17 |
Anzahl bewerteter Juroren |
67 |
55 |
Anzahl Vorrunden |
5 offen, 2 geschlossen |
5 offen, 2 geschlossen |
Teambögen |
400 |
170 |
…davon ausgefüllt |
367 (91,6%) |
150 (88,2%) |
Rednerbögen |
X |
255 |
…davon ausgefüllt |
X |
214 (83,9%) |
Hauptjurorenbögen |
ca. 300 |
ca. 120 |
…davon ausgefüllt |
246 (82%) |
78 (65%) |
Nebenjurorenbögen |
ca. 300 |
ca. 120 |
…davon ausgefüllt |
240 (80%) |
106 (88,3%) |
Bögen insgesamt |
1000 |
665 |
…davon ausgefüllt |
853 (85,3%) |
548 (82,4%) |
Interessanter als ihre Anzahl ist aber vermutlich der Inhalt der Bögen. Und da sind für einen Vergleich besonders die Fragen interessant, die nicht formatspezifisch sind und daher auf beiden Turnieren gleichermaßen gestellt wurden. So wurden alle Redner und Nebenjuroren auf beiden Turnieren nach der „allgemeinen Kompetenz“ des Hauptjurors sowie nach der „generellen Qualität“ seines Feedbacks“ gefragt (Skala von 1-5). Dabei ist nun zunächst augenfällig, wenngleich wenig überraschend, dass Nebenjuroren ihre Hauptjuroren sehr viel positiver bewerten als Teams, ein Unterschied, der in OPD noch ausgeprägter ist als in BPS. Interessant ist hier nun im Vergleich das deutlich positivere Urteil der Freien Redner: Den Hauptjuroren fällt es also offenbar leichter, freie Redner zu überzeugen als Teams. Das wiederum liegt vor allem an den Teamkategorien, mit deren Erklärung die OPD-Teams besonders unzufrieden waren: Hier zogen sie im Mittel nur die Note 3,73.
Auffällig ist neben den Unterschieden zwischen den einzelnen Debattenteilnehmern vor allem, dass die allgemeine Kompetenz der Hauptjuroren konsistent besser bewertet wird als die Qualität ihres spezifischen Feedbacks. Hier mag das Prestige des jeweiligen Jurors eine wichtige Rolle spielen: Ein Juror, der allgemein als guter Juror anerkannt ist, erhält womöglich auch dann eine hohe Kompetenzbewertung, wenn man mit seinem Feedback einmal nicht zufrieden ist.
Tabelle 2: Durchschnittliche Jurorenbewertung auf den DDMs 2014 und 2015.
Berlin 2014 (BPS) |
Münster 2015 (OPD) |
|
Teams |
|
|
Allgemeine Kompetenz des Chairs |
4,20 |
4,17 |
Qualität des Feedbacks |
4,10 |
4,03 |
Freie Redner |
|
|
Allgemeine Kompetenz des Chairs |
X |
4,35 |
Qualität des Feedbacks |
X |
4,27 |
Nebenjuroren |
|
|
Allgemeine Kompetenz des Chairs |
4,47 |
4,66 |
Qualität des Feedbacks |
4,28 |
4,32 |
Nebenjuroren |
|
|
Nebenjuror Break zugetraut? |
2,79 |
3,06 |
Schließlich zu den Bögen der Hauptjuroren. Diese wurden auf beiden Turnieren gefragt, ob sie ihrem Nebenjuror zutrauten, eine Breakrunde zu jurieren (Skala von 1-4). Hier votierten die Berliner Chairs für ein schüchternes „eher ja“, während das Urteil in Münster spürbar positiver ausfiel, eine Höherbewertung, die dem besseren Urteil der Wings über die Chairs entspricht. Für diese gegenseitige Zuneigung von Haupt- und Nebenjuroren in OPD könnte es zwei Gründe geben: Einerseits wäre denkbar, dass der auf Mitteln angelegte Jurierprozess der OPD für mehr Harmonie sorgt als die intensive inhaltliche Auseinandersetzung in BPS. Andererseits kann aber auch ein schlichter Selektionseffekt eine Rolle spielen: Da negativ bewertete Juroren in OPD besonders häufig präsidieren, fallen sie gewissermaßen aus dem Datensatz heraus.
Was bringt das System und wo sind seine Grenzen?
Viele, viele Zahlen bis hierher. Im Tabraum interessieren aber keine Zahlenmengen, sondern Entscheidungshilfen. Entscheidungshilfen, keine Entscheidungen. Die Rolle des Feedbacks ist nämlich, Chefjuroren zu unterstützen, nicht, sie zu ersetzen. Wenn also in der Szene einzelne Stimmen laut werden, die den Break ganz an ein solches System binden oder am Ende des Turniers ein „Jurorenranking“ veröffentlichen wollen, dann formuliert das Erwartungen, die das System weder leisten kann, noch leisten können sollte.
Der Grund dafür, eine digitale Feedbackauswertung einzuführen, war der Mangel an Struktur, der entsteht, wenn man bei großen Turnieren versucht, das Feedback nur manuell auszuwerten. Ein Feedbacksystem kann aber auch zu viel Struktur haben, wenn es versucht, alle Informationen auf eine Nummer zu reduzieren. Ein gutes System wird daher die rohe Information der Bögen genau so weit strukturieren, dass sie von den Chefjuroren möglichst effektiv weiterverarbeitet werden kann. Wie in der Industrie 4.0 geht es also auch beim Jurorenmanagement 4.0 darum, den Menschen durch die Maschine zu ergänzen, nicht zu ersetzen.
Aus der Erfahrung der letzten zwei Jahre sehe ich die Rolle des Feedbacks dabei vor allem darin, „Overperformer“ und „Underperformer“ zu entdecken, also Juroren, die sehr viel besser oder deutlich schlechter bewertet werden als von den Chefjuroren erwartet. Der Weg in den Fokus der Chefjuroren führt– in positiver wie negativer Form – über die Feedbackbögen. Aber deren Botschaft lautet eben: „Guck dir den mal an“ und nicht „Nimm den mit ins Halbfinale“. Und bei diesem Fingerzeig sollte es aus mehreren Gründen auch bleiben.
Zunächst ist nämlich unklar, wie ein „Jurorenranking“ aussehen sollte. Bislang vergleichen wir allein das Feedback zu gleichen Fragen bzw. gleichen Bögen (Juror A schneidet bei dieser Frage/auf dieser Art Bogen besser ab als Juror B). Wir aggregieren die Daten jedoch nicht über Bögentypen hinweg. Denn dabei stellen sich kaum zu lösende Fragen der Gewichtung: Zählt ein Teambogen genau gleich viel wie ein Jurorenbogen? Oder zählt der Durchschnitt aller Teambögen wie der Durchschnitt aller Jurorenbögen? Oder irgendwas dazwischen? Und wie gehe ich damit um, dass ich über manche Juroren nur Hauptjurorenfeedback habe, über andere nur Nebenjurorenfeedback usw.?
Unabhängig von diesen statistischen Fragen messen die Bögen aber auch schlicht unterschiedliche Aspekte des Jurierens: Die Redner feedbacken den „Performer“, also die Leistung des Jurors im Feedback. Die Juroren feedbacken dagegen ganz maßgeblich den „Analytiker“, also die Leistung des Jurors in der Jurorendiskussion.
All diesen Einwänden könnte man begegnen, indem man schlicht eine fixe Gewichtung der einzelnen Faktoren festlegt. Aber damit verliert man den wichtigsten Schatz, den ein Chefjuror in das Jurorenmanagement einbringt, nämlich eine situative Bewertung des Kontexts. Ein erfahrener Chefjuror kann beurteilen, wieviel Bedeutung er den Informationen der Bögen beimessen sollte, und dabei eine Vielzahl von Faktoren berücksichtigen: Gab es in einer spezifischen Debatte Probleme mit dem Verständnis des Themas? Wie viele „Performer“ und wie viele reine „Analytiker“ benötigt man im Break? Was stand an verbalen Kommentaren auf den Feedbackbögen?
Vor allem aber: Was weiß er noch über den Juror? Bei mindestens drei Vierteln der Juroren bringen die Chefjuroren ja bereits eine Erwartung mit, weil sie auf anderen Turnieren schon mit ihnen juriert haben oder von ihnen juriert worden sind. Und zum Teil stützt sich diese Erwartung auf sehr, sehr viele Informationen, gegenüber denen selbst die sieben Vorrunden einer DDM kaum ins Gewicht fallen.
Wenn die Bögen jetzt ein Signal senden, dass der Erwartung widerspricht, dann ist es natürlich nicht sinnvoll, die alten Informationen zu löschen und vollständig durch die neuen Informationen zu ersetzen. Vielmehr geht es darum, die beiden zusammenzuführen (Statistiker sprechen von bayesianischem Updaten). Und je überzeugter man von den alten Informationen war, desto geringeres Gewicht wird man den neuen Informationen geben. Keine Chefjury wird einen mehrfachen DDM-Chefjuror aufgrund einer schlechten Feedbackrunde zum Nebenjuror degradieren, und das auch völlig zurecht. Aber für einen Juror, über den man wenig weiß, können zwei sehr gute Bögen das Tor zum Break öffnen.
Formatspezifische Unterschiede
Ein Resümee der Erfahrung von zwei DDMs wäre schließlich nicht vollständig, ohne auf die Differenzen zwischen den beiden Formaten einzugehen. Und da zeigt sich, dass das Feedbacksystem auf BPS-Turnieren besser funktioniert, was schlicht an der größeren Zahl von Bögen liegt, die BPS produziert.
Die Hauptschwierigkeit von OPD ist dabei vor allem die geringe Zahl von Bögen von Juroren über Juroren, die insbesondere die Bewertung von Nebenjuroren eminent schwierig macht: Ein Juror, der in den ersten vier Runden zweimal präsidiert und zweimal nebenjuriert, erhält nämlich maximal zwei Bögen, bevor das Chefjurorenpanel endgültig entscheiden muss, ob es ihm zutraut, auch einmal Feedback zu geben. Das ist als Entscheidungsgrundlage extrem dünn. Als Chefjury hat man daher ein starkes Interesse, Juroren, bei denen man sich unsicher ist, möglichst oft als Nebenjuroren zu setzen, um mehr Informationen über sie zu erhalten, was aber heißt, dass andere Juroren noch öfter präsidieren müssen. Im Extremfall droht hier also das Interesse an Feedbackbögen die Jurorensetzung zu verzerren.
Eine einfache Lösung läge nun darin, den Präsidenten ebenfalls Feedback geben zu lassen. Das würde die Zahl der Jurorenbögen umgehend verdoppeln (über den Präsidenten selbst wüssten wir allerdings immer noch nichts). Die Frage ist bloß: Was sind diese Bögen wert? Kann der Präsident, der während der Debatte nicht mitschreibt und weite Teile der Jurorendiskussion mit Mitteln verbringt, tatsächlich kompetent zwei verschiedene Arten von Bögen für die beiden Juroren ausfüllen? Ich habe erhebliche Zweifel. Aus Sicht des Feedbacksystems wäre bei weitem vorzuziehen, wenn der Präsident einfach abgeschafft und zum Nebenjuror umfunktioniert würde. Das ist ohnehin seit langem überfällig.
Wenn man diese Reform aber mit guten Gründen für unrealistisch hält, dann folgt eine andere, sehr viel banalere Konsequenz aus diesen Überlegungen: Da BPS „schneller“ brauchbare Informationen generiert, kann ein digitales Feedbacksystem bereits sinnvoll auf BP-Turnieren mit fünf, vielleicht sogar vier Vorrunden eingesetzt werden. Für OPD-Turniere ist es dagegen wohl frühestens ab sechs Vorrunden eine sinnvolle Option.
Lukas Haffert/ama
Das Mittwochs-Feature: Jeden Mittwoch ab 10.00 Uhr stellt das Mittwochs-Feature eine Idee, Debatte, Buch oder Person in den Mittelpunkt. Wenn du selbst eine Debatte anstoßen möchtest, melde dich mit deinem Themen-Vorschlag per Mail an team [at] achteminute [dot] de.
Lukas Haffert war Chefjuror der DDMs 2012 und 2013 und Feedbackbeauftrager der DDMs 2014 und 2015. Er forscht und lehrt an der Universität Zürich.
Satz des Tages: „Aus Sicht des Feedbacksystems wäre bei weitem vorzuziehen, wenn der Präsident einfach abgeschafft und zum Nebenjuror umfunktioniert würde. Das ist ohnehin seit langem überfällig.“ Danke, Lukas, für diesen Artikel!
Aber der Präsident ist doch die „singulär wichtigste Person in der Debatte“, zumindest hat man mir das so gesagt. Außerdem muss jede Änderung des Formats erst von der OPD-Regelkommission abgesegnet werden …
Abgesehen davon: vielen Dank Lukas für diesen sehr informativen und klaren Artikel! Ein paar Anmerkungen:
– Es freut mich zu sehen, dass die allermeisten Feedbackbögen ausgefüllt werden! Dieser hohe Rücklauf sollte durch häufige Aufforderungen zum Feedbacken usw. beibehalten werden.
– Gibt es Korrelationen zwischen Rücklauf und erreichter Position (füllen z.B. mehr Teams auf dem 4. Platz Bögen aus als Teams auf dem 1. Platz?) oder zwischen Rücklauf und bewertetem Juror oder dessen wahrgenommener Kompetenz?
– Ich würde vermuten, dass Freie Redner Hauptjuroren in der Regel gut bewerten, weil sie in der Regel eine annehmbare Einzelpunktzahl zwischen 40 und 50 erhalten (vergleiche mit der generellen Tendenz in OPD, in einem immer eingeschränkteren Bereich Punkte zu geben), die ihre Breakchancen nicht stark gefährdet, statt einer womöglich niedrigen Gesamtpunktzahl als Team, die als ungerecht empfunden werden und Breakchancen stark gefähren könnte. Eine einzelne Person steigert sich vielleicht auch nicht so sehr in Zorn gegen einen Juror hinein wie ein Team in seiner Gruppendynamik.
– Weitere solche die Zahlen verzerrenden, schwer quantitativ zu erfassenden Faktoren könnten z.B. Nebenjuroren sein, die Hauptjuroren (vor allem CAs) systematisch (und sichtbar) hochwerten, um sich bei ihnen für den Jurorenbreak „einzuschleimen“, und Hauptjuroren, die Nebenjuroren systematisch herunterwerten, um Konkurrenz für den Jurorenbreak auszuschalten.