Kalibriertes Schätzen

01,00E-10
19,00E-09
23,64E-07
38,75E-06
41,38E-04
51,49E-03
61,12E-02
75,74E-02
81,94E-01
93,87E-01
103,49E-01

Kurzer Plausibilitätscheck:

  1. Die Wahrscheinlichkeit für null Treffer ist exakt 10 hoch minus 10. Denn als kalibrierter Schätzer liegen Sie in 90% der Fälle richtig, also in zehn Prozent der Fälle falsch. Die Wahrscheinlichkeit, bei allen zehn Fragen falsch zu liegen, lautet also 0,1 × 0,1 × … × 0,1, also 10 hoch minus 10.

  2. Die höchste Wahrscheinlichkeit liegt bei neun Treffern, wie erwartet. Doch zehn Treffer sind deutlich wahrscheinlicher als acht Treffer. Wieso? Weil Sie zu 90% korrekt schätzen, irren Sie leichter in Richtung „zu viele Treffer“.

Und dasselbe nochmal als Schaubild:

Auswertung Teil Eins des Kalibrierten Schätzens

Deutlich wird dabei, daß sieben Treffer schon sehr unwahrscheinlich sind, alles darunter praktisch verschwindet.

Wenn Sie sich in den Bereichen sieben Treffer und niedriger bewegen, dann ist es unplausibel, daß Sie bereits ein kalibrierter Schätzer sind, trotz der geringen Zahl an Fragen.

Fragen

Der nächste Einwand, der üblicherweise kommt, lautet „das waren ja keine Fachfragen, sondern Trivia“ oder „die Fragen waren albern“.

Das ist richtig. Und Absicht, denn auf diese Weise sind die Fragen vielfältig einsetzbar, unabhängig vom Publikum (jedenfalls in Deutschland). Dadurch müssen nicht für jede Vorstellung andere Fragen vorbereitet werden. Außerdem lockern Triviafragen die Übungen ein wenig auf, niemand fürchtet, sein Gesicht zu verlieren, weil er bei einer Fachfrage falsch lag.

„Wenn man mich etwas elektrotechnisches gefragt hätte, wären meine Schätzungen besser gewesen“.

Diese Erwiderung geht in eine ähnliche Richtung, entspringt aber einem Mißverständnis.

Natürlich wäre die Antwort des durchschnittlichen Layouters auf die Frage „hier ist ein Schaltplan, wie muß dieser Kondensator dimensioniert werden?“ genauer.

Bei einer Fachfrage würde ich selbstverständlich ein engeres Intervall erwarten als bei einer Triviafrage.

Doch die Breite des geschätzten Intervalls wurde überhaupt nicht ausgewertet. An dieser Stelle stutzen viele Teilnehmer und blättern zurück zu ihrer Auswertung. Doch es stimmt. Die Auswertung war binär: Entweder die korrekte Antwort befindet sich im Intervall oder nicht. Es gab keine Bonuspunkte dafür, ein möglichst enges Intervall gewählt zu haben.

Die Breite des Intervalls spielt natürlich eine Rolle, aber nicht für die Frage „richtig oder falsch“, sondern für die Kalibrierung: schätzt man zu konservativ oder zu forsch.

Es handelt sich um keine Trickfragen oder Fangfragen. Aber sie sind so gewählt, daß der Teilnehmer sich gut überlegen muß, wie sicher er sich ist.

Sich verbessern

Sehr wenige Menschen sind von Natur aus kalibrierte Schätzer. Die gute Nachricht ist aber: fast alle Menschen können sich durch Übung verbessern (Studien sagen, daß etwa 5% sich nicht verbessern).

Zunächst einmal lohnt es sich, diese Übung öfter zu wiederholen, natürlich mit anderen Fragen.

Ein psychologischer Trick besteht darin, so zu tun, als setze man Geld auf seine Antwort. In echt zu setzen funktioniert noch besser, aber so zu tun als ob, hilft auch bereits.

Der „equivalent bet test“ stellt die Frage: „möchten Sie Geld auf Ihre Antwort setzen oder lieber auf dieses Glücksrad mit Gewinnwahrscheinlichkeit 90%?“. Natürlich sollte der Teilnehmer hier indifferent sein, doch oftmals weist eine instinktive Reaktion pro oder contra Glücksrad auf ein Problem der Schätzung hin.

Es kann helfen, einfach mal anzunehmen, daß die Schätzung falsch ist, und dadurch eine gezielte Anstrengung zu unternehmen, die Schätzung zu hinterfragen.

Es ist okay, absurd große Intervalle als Startpunkt zu nehmen, sie sind ein Zwischenschritt auf dem Weg zu einem besseren Intervall.

Bei den allermeisten Fragen sollten die Intervallgrenzen symmetrisch sein. Das bedeutet, wenn Sie ein Intervall von 100 bis 200 mit Konfidenz 90% schätzen, dann sollten Sie den Intervallen „-unendlich bis 200“ sowie „100 bis plus unendlich“ beiden eine Konfidenz von 95% zuschreiben, weil sich die „übrigen“ 10% gleichmäßig auf „darüber“ und „darunter“ verteilen sollten.

Abschließendes

Ich halte es für wichtig, meine Schätzungen an eine Konfidenz anpassen zu können. Im Berufsleben ist mir bislang allerdings noch niemals begegnet, daß jemand dies eingefordert hätte.

Meine persönlichen Ergebnisse bei den beiden Übungen waren katastrophal. Ich war viel zu selbstbewußt (das bedeutet, meine Intervalle waren deutlich zu eng), und das ist wohl nach Studienlage auch der Regelfall.

Daher habe ich mir vorgenommen, solche Übungen regelmäßig zu wiederholen. Gegebenenfalls werde ich sogar hier im Weblog ab und an diese Versuche dokumentieren.