Kalibriertes Schätzen

Warum das alles?

Von uns werden häufig Schätzungen verlangt. Gerade im Projektumfeld möchte der Projektleiter gerne Aufwandsabschätzungen bekommen, die dann auch belastbar sind. Manchmal eine einfache Zahl, häufig aber auch Korridore „best case – average case – worst case“.

Dabei liegt jedoch herkömmlich meistens der Fokus auf einem dieser Werte des Korridors, und die anderen werden dann durch naive Schätzung „plus/minus 30%“ abgeleitet. Das Hauptaugenmerk dabei ist, den Ankerwert möglichst exakt zu treffen.

Diese Schätzung ist schon schwierig, doch die andere Seite wird häufig komplett vernachlässigt: mit welcher Konfidenz ist diese Schätzung versehen?

Eine Konfidenz von 100% zu verlangen ist dabei nicht sinnvoll, denn dann werden die geschätzten Korridore abstrus groß. Und da das Schätzen kein Selbstzweck ist, sondern die Schätzung weiterverwertet werden wird, beispielsweise in einem Projektplan, ist es wichtig, die Schätzungen mit einer sinnvollen Konfidenz zu versehen, die dann auch bezifferbar, konsistent und reproduzierbar ist.

Es gibt kein „Richtig“ für die anzuzielende Konfidenz, aber als ersten Faustwert kann man gut 90% nehmen. Damit liegen die meisten Schätzungen richtig, die geschätzten Intervalle müssen aber nicht extreme und seltene Ausreißer einbeziehen, wodurch sie vernünftig klein werden.

Damit ergibt sich natürlich ein offensichtliches Problem: wir alle sind schon schlecht darin, einen einzelnen Wert zu schätzen. Doch immerhin wissen wir insgeheim selbst, daß wir darin nicht gut sind. Wer kann aber schon seine Schätzungen so wählen, daß sie bei häufiger Wiederholung eine bestimmte vorgegebene Konfidenz aufweisen?

Dazu müssen wir unsere Schätzungen kalibrieren.

Es geht nicht darum, den Schätzwert an sich zu verbessern und zielgenauer zu machen. Es geht darum, die Schätzung an eine vorgegebene und gewünschte Konfidenz anpassen zu können.

Wenn ich in der Regel Schätzungen abgebe, die in Übereinstimmung mit dieser vorgegebenen Konfidenz liegen, dann sagt man, ich sei ein kalibrierter Schätzer.

Und darum geht es in diesem Artikel. Wie ermittle ich meinen aktuellen Stand der Kalibrierung und wie kann ich meine Kalibrierung verbessern?

Übungen

Vorbemerkungen

Sollen diese Übungen in einer Gruppe durchgeführt werden, so sind gewisse Grundregeln wichtig:

  • Jeder Teilnehmer beantwortet die Fragen für sich selbst auf seinem eigenen Blatt Papier.
  • Jeder Teilnehmer wertet seine Antworten selbst aus (Anleitung folgt).
  • Der Moderator fragt anschließend nicht nach Ergebnissen.
  • Jeder Teilnehmer nimmt seinen Zettel mit Antworten und der Auswertung mit, wenn er den Raum verläßt.
  • Anschließend kann jeder Teilnehmer den Zettel schreddern, in den Papierkorb werfen oder in der Teeküche aushängen, je nach persönlichem Mitteilungsbedürfnis.

Teil Eins: Intervalle

Es folgen zehn Fragen. Die Antwort auf jede Frage ist eine einzelne Zahl, beispielsweise eine Jahreszahl oder eine Geschwindigkeit.

Die Aufgabe lautet nun, ein Intervall „mindestens – höchstens“ beziehungsweise „frühestens – spätestens“ anzugeben. Also zwei Zahlen.

Und zwar dergestalt, daß dieses Intervall eine Konfidenz von 90% aufweist.

Das bedeutet, daß das Intervall groß genug sein sollte, so daß man sich fast sicher ist. Es sollte aber nicht so groß sein, daß man sich völlig sicher ist. Beispielsweise ist das Intervall „vom Urknall bis gerade eben“ zu eine Frage nach dem Geburtsjahr einer Person zwar insofern eine sehr gute Schätzung, als man sicherlich richtig liegt, aber diese Schätzung ist auch sinn- und wertlos.

Wenn man diese Frage-Antwort-Spiele ganz häufig wiederholt, sollten neunzig Prozent der korrekten Lösungen im geschätzten Intervall liegen und zehn Prozent außerhalb.

Dabei ist unerheblich, wie weit außerhalb oder innerhalb des Intervalls die Lösung liegt. Drin ist drin, draußen ist draußen, es gibt kein „aber es stimmte ja fast“.

Hier nun die Fragen:

  • Wieviel liegt ein Learjet 75 in Kilogramm?
  • Welchen Radius in Meter (Erdmittelpunkt – Satellit) hat der geostationäre Orbit?
  • Wieviele Meter unter dem Meeresspiegel lag das havarierte russische U-Boot Kursk?
  • Wieviele Millimeter ist ein Zehn-Euro-Schein lang?
  • In welchem Jahr stand der DAX erstmal über 5000 Punkte?
  • Ab wieviel Grad Celsius verdampft Helium?
  • In welchem Jahr wurde die deutschsprachige Sesamstraße erstmal gesendet?
  • Wieviele Pokémons gibt es?
  • In welchem Jahr wurde Macbeth uraufgeführt?
  • Wie hoch war der Listenpreis des Golf 1 in DM?

Teil Zwei: Konfidenz

Die Übung besteht aus zehn Sachaussagen. Jede ist entweder wahr oder falsch.

Sie antworten diesmal also nicht mit einem Intervall, sondern einfach mit „wahr“ oder „falsch“.

Und außerdem mit Ihrer persönlichen Konfidenz: wie sicher sind Sie sich bei Ihrer Antwort?

Als Konfidenz können 50%, 60%, 70%, 80%, 90% und 100% angegeben werden. Bitte keine 82,7%. Und nicht kleiner als 50%. Wenn Sie geneigt sind, 40% anzugeben, verdrehen Sie Ihre Antwort und geben 60% an.

Die Aussagen:

  • Ein Eurostück ist schwerer als eine CD.
  • Buzz Aldrin war der zweite Mann auf dem Mond.
  • Der Zweite Weltkrieg liegt näher am heutigen Tag als am Amerikanischen Bürgerkrieg.
  • Manche Schildkröten werden 200 Jahre alt.
  • Es gibt in Deutschland mehr als 20000 Kilometer Autobahnen.
  • Es gab mehr als 20 deutsche Physiknobelpreisträger.
  • Das Bruttoinlandsprodukt von Kalifornien ist größer als das von Italien.
  • Die Entfernung (Luftlinie) zwischen Wladiwostok und Mumbai ist größer als die zwischen Wuppertal und Moskau.
  • Hannover hat mehr Stadtteile als Stuttgart.
  • Ein Eishockey-Puck paßt in ein Golfloch.

Auswertung

Kommen wir nun zur Auswertung. Zunächst für Teil Eins:

Wieviel liegt ein Learjet 75 in Kilogramm?6168
Welchen Radius in Meter (Erdmittelpunkt – Satellit) hat der geostationäre Orbit?42157
Wieviele Meter unter dem Meeresspiegel lag das havarierte russische U-Boot Kursk?108
Wieviele Millimeter ist ein Zehn-Euro-Schein lang?127
In welchem Jahr stand der DAX erstmal über 5000 Punkte?1998
Ab wieviel Grad Celsius verdampft Helium?-269
In welchem Jahr wurde die deutschsprachige Sesamstraße erstmal gesendet?1973
Wieviele Pokémons gibt es?890
In welchem Jahr wurde Macbeth uraufgeführt?1606
Wie hoch war der Listenpreis des Golf 1 in DM?7995

Markieren Sie die Werte, die innerhalb Ihrer Intervalle liegen. Wenn sie bereits ein gut kalibrierter Schätzer sind sollten es etwa neun von diesen zehn sein. Natürlich ist das mit einer statistischen Schwankung versehen, dazu später nochmal.

Nun zu Teil Zwei:

Ein Eurostück ist schwerer als eine CD.falsch (7,5 Gramm vs. 15 Gramm)
Buzz Aldrin war der zweite Mann auf dem Mond.wahr
Der Zweite Weltkrieg liegt näher am heutigen Tag als am Amerikanischen Bürgerkrieg.falsch (75 Jahre vs. 74 Jahre)
Manche Schildkröten werden 200 Jahre alt.falsch (über 176 ist die höchste Schätzung)
Es gibt in Deutschland mehr als 20000 Kilometer Autobahnen.falsch (>13000 Kilometer)
Es gab mehr als 20 deutsche Physiknobelpreisträger.wahr (23,5 – Mehrstaatlichkeit wurde halb–halb gewertet)
Das Bruttoinlandsprodukt von Kalifornien ist größer als das von Italien.wahr (2,6 Billionen USD vs. 2 Billionen USD)
Die Entfernung (Luftlinie) zwischen Wladiwostok und Mumbai ist größer als die zwischen Wuppertal und Moskau.wahr (6078 Kilometer vs. 2056 Kilometer)
Hannover hat mehr Stadtteile als Stuttgart.falsch (51 vs. 152)
Ein Eishockey-Puck paßt in ein Golfloch.wahr (3 Zoll vs. 4,25 Zoll)

Markieren Sie die Aussagen, deren Wahrheitsgehalt Sie korrekt bewertet haben.

Nun rechen Sie die Konfidenzen in von Prozenten in Zahlenwerte um (aus 70% wird 0,7) und addieren Sie diese zehn Zahlenwerte auf. So viele richtige Schätzungen erwarten Sie.

Ein Beispiel:

AussageIhre AntwortAntwort richtig?Konfidenz inKonfidenz (Zahl)
falschfalschja50%0,5
wahrwahrja70%0,7
falschwahrnein100%1,0
falschfalschja90%0,9
falschfalschja90%0,9
wahrfalschnein50%0,5
wahrfalschnein80%0,8
wahrfalschnein80%0,8
falschfalschja100%1,0
wahrfalschnein60%0,6
5 ja7,7

In diesem Beispiel hätten Sie also mit Ihrer Antwort eigentlich etwa 8 mal richtig liegen sollen, haben aber nur 5 Treffer gehabt.

Keine Sorge, solche Ergebnisse (und schlechter) sind normal.

Einschränkungen und Einwände

Statistische Signifikanz

Natürlich war das nur ein einzelner Versuch mit zehn Fragen, also eine sehr kleine Stichprobe. „ich hatte sieben Antworten im Intervall, das ist doch innerhalb der statistischen Schwankung“ mag Ihnen auf der Zunge liegen. Doch ist dem so?

Für den ersten Teil ist eine Abschätzung recht einfach. Wenn wir eine Bernoulliverteilung annehmen (und das ist vernünftig, auch wenn es hier zu weit führen würde), können wir uns die Frage stellen:

Angenommen, ich bin ein kalibrierter Schätzer. Wie wahrscheinlich ist dann mein Ergebnis?

Und die Antwort liegt in der folgenden Tabelle:

Anzahl TrefferWahrscheinlichkeit
01,00E-10
19,00E-09
23,64E-07
38,75E-06
41,38E-04
51,49E-03
61,12E-02
75,74E-02
81,94E-01
93,87E-01
103,49E-01

Kurzer Plausibilitätscheck:

  1. Die Wahrscheinlichkeit für null Treffer ist exakt 10 hoch minus 10. Denn als kalibrierter Schätzer liegen Sie in 90% der Fälle richtig, also in zehn Prozent der Fälle falsch. Die Wahrscheinlichkeit, bei alles zehn Fragen falsch zu liegen, lautet also 0,1 × 0,1 × … × 0,1, also 10 hoch minus 10.
  2. Die höchste Wahrscheinlichkeit liegt bei neun Treffern, wie erwartet. Doch zehn Treffer sind deutlich wahrscheinlicher als acht Treffer. Wieso? Weil Sie zu 90% korrekt schätzen, irren Sie leichter in Richtung „zu viele Treffer“.

Und dasselbe nochmal als Schaubild:

Auswertung Teil Eins des Kalibrierten Schätzens
Auswertung Teil Eins des Kalibrierten Schätzens

Deutlich wird dabei, daß sieben Treffer schon sehr unwahrscheinlich sind, alles darunter praktisch verschwindet.

Wenn Sie sich in den Bereichen sieben Treffer und niedriger bewegen, dann ist es unplausibel, daß Sie bereits ein kalibrierter Schätzer sind, trotz der geringen Zahl an Fragen.

Fragen

Der nächste Einwand, der üblicherweise kommt, lautet „das waren ja keine Fachfragen, sondern Trivia“ oder „die Fragen waren albern“.

Das ist richtig. Und Absicht, denn auf diese Weise sind die Fragen vielfältig einsetzbar, unabhängig vom Publikum (jedenfalls in Deutschland). Dadurch müssen nicht für jede Vorstellung andere Fragen vorbereitet werden. Außerdem lockern Triviafragen die Übungen ein wenig auf, niemand fürchtet, sein Gesicht zu verlieren, weil er bei einer Fachfrage falsch lag.

„Wenn man mich etwas elektrotechnisches gefragt hätte, wären meine Schätzungen besser gewesen“.

Diese Erwiderung geht in iene ähnliche Richtung, entspringt aber einem Mißverständnis.

Natürlich wäre die Antwort des durchschnittlichen Layouters auf die Frage „hier ist ein Schaltplan, wie muß dieser Kondensator dimensioniert werden?“ genauer.

Bei einer Fachfrage würde ich selbstverständlich ein engeres Intervall erwartet als bei einer Triviafrage.

Doch die Breite des geschätzten Intervalls wurde überhaupt nicht ausgewertet. An dieser Stelle stutzen viele Teilnehmer und blättern zurück zu ihrer Auswertung. Doch es stimmt. Die Auswertung war binär: Entweder die korrekte Antwort befindet sich im Intervall oder nicht. Es gab keine Bonuspunkte dafür, ein möglichst enges Intervall gewählt zu haben.

Die Breite des Intervalls spielt natürlich eine Rolle, aber nicht für die Frage „richtig oder falsch“, sondern für die Kalibrierung: schätzt man zu konservativ oder zu forsch.

Es handelt sich um keine Trickfragen oder Fangfragen. Aber sie sind so gewählt, daß der Teilnehmer sich gut überlegen muß, wie sicher er sich ist.

Sich verbessern

Sehr wenige Menschen sind von Natur aus kalibrierte Schätzer. Die gute Nachricht ist aber: fast alle Menschen können sich durch Übung verbessern (Studien sagen, daß etwa 5% sich nicht verbessern).

Zunächst einmal lohnt es sich, diese Übung öfter zu wiederholen, natürlich mit anderen Fragen.

Ein psychologischer Trick besteht darin, so zu tun, als setze man Geld auf seine Antwort. In echt zu setzen funktioniert noch besser, aber so zu tun als ob, hilft auch bereits.

Der „equivalent bet test“ stellt die Frage: „möchten Sie Geld auf Ihre Antwort setzen oder lieber auf dieses Glücksrad mit Gewinnwahrscheinlichkeit 90%?“. Natürlich sollte der Teilnehmer hier indifferent sein, doch oftmals weist eine instinktive Reaktion pro oder contra Glücksrad auf ein Problem der Schätzung hin.

Es kann helfen, einfach mal anzunehmen, daß die Schätzung falsch ist, und dadurch eine gezielte Anstrengung zu unternehmen, die Schätzung zu hinterfragen.

Es ist okay, absurd große Intervalle als Startpunkt zu nehmen, sie sind ein Zwischenschritt auf dem Weg zu einem besseren Intervall.

Bei den allermeisten Fragen sollten die Intervallgrenzen symmetrisch sein. Das bedeutet, wenn Sie ein Intervall von 100 bis 200 mit Konfidenz 90% schätzen, dann sollten Sie den Intervallen „-unendlich bis 200“ sowie „100 bis plus unendlich“ beiden eine Konfidenz von 95% zuschreiben, weil sich die „übrigen“ 10% gleichmäßig auf „darüber“ und „darunter“ verteilen sollten.

Abschließendes

Ich halte es für wichtig, meine Schätzungen an eine Konfidenz anpassen zu können. Im Berufsleben ist mir bislang allerdings noch niemals begegnet, daß jemand dies eingefordert hätte.

Meine persönlichen Ergebnisse bei den beiden Prüfungen waren katastrophal. Ich war viel zu selbstbewußt (das bedeutet, meine Intervalle waren deutlich zu eng), und das ist wohl nach Studienlage auch der Regelfall.

Daher habe ich mir vorgenommen, solche Übungen regelmäßig zu wiederholen. Gegebenenfalls werde ich sogar hier im Weblog ab und an diese Versuche dokumentieren.

Commitment und Konsistenz

Die Wahrscheinlichkeit, daß Menschen einer Bitte nachkommen, ist höher, wenn sie zuvor bereits einer unwesentlichen Bitte nachgekommen sind. Dies gilt sogar dann, wenn die beiden Bitten nur entfernt miteinander zu tun haben. Wenn Sie also jemanden dazu bringen möchten, etwas zu tun, lohnt es sich, mit einer kleinen Bitte anzufangen, die Ihnen vermutlich nicht abgeschlagen werden wird.

Eine sehr interessante Anekdote handelt von amerikanischen Kriegsgefangenen in einem chinesischen Lager in Korea. Die Chinesen hileten regelmäßige Essay-Schreibwettbewerbe für die amerikanischen Gefangenen ab. Und sie waren clever genug, ab und an auch Pro-Amerika-Essays zu prämieren, denn auf diese Art hatten die Gefangenen nicht das Gefühl, ihr Land verraten zu müssen. Sie schrieben also positiv über ihre Heimat, aber streuten hier und da ein paar warme Worte fürs chinesische System ein, um ihre Chance auf den Preis zu erhöhen. Damit ebneten die Chinesen den Weg für substantiellere schriftliche Zugeständnisse der Gefangenen später.

Ein weiterer Aspekt war, daß die Preis klein waren, hier ein Stück Obst, da ein paar Zigaretten. Die Autoren mußten zu dem stehen, was sie schrieben, niemand konnte ernsthaft glauben, sie hätten es nur für den großen Preis getan.

Wenn Menschen zu dem stehen, was sie selbst geschrieben haben, identifizieren sie sich damit und es fällt ihnen schwer, ihren Standpunkt später zu ändern. Das kann auch in weniger dramatischen Umständen praktisch sein: ein Verkäufer, der den Käufer den Vertrag ausfüllen läßt, sieht später weniger Stornierungen. Menschen fühlen sich an einen Vertrag mehr gebunden, wenn sie einen Teil davon eigenhändig geschrieben haben.

Dasselbe gilt für Empfehlungen, die viele Unternehmen prominent in der Werbung einsetzen. Zunächst mag es seltsam erscheinen, daß gewöhnliche Kunden (keine Prominenten) relevante Belohnungen für solche Empfehlungen erhalten, doch diese Empfehlungen zementieren die Produktwahrnehmung des Kunden und seine Haltung zum Produkt, und haben dadurch über reine Werbung hinaus eine Wirkung.

Es gibt Vorschläge, Jurys im amerikanischen Rechtssystem auf geheime, schriftliche Abstimmungen zu beschränken, weil sich auf diese Art kein Geschworener an sein vorheriges Abstimmungsverhalten gebunden fühlt. Seine Meinung zu ändern, fällt leichter, wenn die Meinungsänderung nicht offen sichtbar ist. Auf diese Art könnten einige „hung juries“ und damit geplatzte Prozesse vermieden werden.

Kann man diesem psychologischen Bedürfnis nach Konsistenz widerstehen? Natürlich fällt dies leichter, wenn man sich dieses Effekts bewußt ist. Dennoch bleibt es schwierig, das Streben nach Konsistenz kann nur durch den rationalen Geist überwunden werden, man kann ihn nicht einfach so ausschalten.

Sollte man dem Bedürfnis nach Konsistenz widerstehen? In den meisten Fällen nein. Es ist eine positive Eigenschaft, in den meisten Fällen zu seinen Überzeugungen zu stehen (ganz gleich, was die populäre “weak convictions, loosely held”-Strategie sagt). Es gibt grob zwei Kategorien in denen man besser nicht konsistent bleibt. Erstens, wenn das Bauchgefühl einem sagt, daß man in der Falle sitzt. Man möchte etwas eigentlich nicht tun, aber spürt eine Verpflichtung. Und zweitens, wenn man in Anbetracht dessen, was man jetzt weiß, nicht noch einmal dieselbe Entscheidung treffen würde. In diesen Fällen ist es wohl besser, die Konsistenz zu durchbrechen.

Gegenseitigkeit

Wir Menschen fühlen eine Verantwortung, Güte und Freundlichkeit zu erwidern. Ein Beispiel ist die Praxis der Hare-Krishna-Bewegung, Passanten „ein Geschenk zu machen“, bevor sie um eine Spende bitten. Dieses Geschenk – oft ein Blume– kann ruhig billig sein, selbst anschließend aus dem Mülleimer gefischt und noch einmal verschenkt, es steigert das Spendenaufkommen trotzdem deutlich.

Der psychologische Grund dafür ist, daß sich „jemandem etwas schulden“ wie eine Last anfühlt. Wir möchten diese Verpflichtung loswerden. Aus evolutionärer Sicht ist das ein sinnvolles Verhalten, weil es Kooperation zwischen Menschen fördert.

Interessant daran ist, daß diese psychologische Regel auch für unerwünschte Geschenke wie die Blume gilt, sogar für Geschenke, die wir bereits höflich zurückgewiesen haben. Natürlich ist das keine sichere Methode, Spenden einzutreiben, und wenn der Angesprochene diesen Effekt kennt, kann er ihm auch leichter widerstehen. Aber selbst dann existiert das Gefühl der Verpflichtung, und es ist nicht trivial abzuschütteln.

Außerdem fühlen wir uns verpflichtet, uns erkenntlich zu zeigen, selbst wenn die eingeforderte Gegenleistung in einem deutlichen Mißverhältnis zum Geschenk steht. Dadurch kann man von anderen Leuten Werte gewinnen, sofern sie sich dieser Mechanismen nicht bewußt sind, oder die gewünschte Gegenleistung abstrus hoch ist.

Es gibt noch eine weitere Möglichkeit, diesen psychologischen Effekt auszunutzen: gegenseitige Zugeständnisse. Sie bitten um etwas, Ihr Gegenüber lehnt dies ab, daraufhin bitten Sie um etwas kleineres, als ob Sie hier ein Zugeständnis machen würden.

Diese zweite Bitte wirkt wie ein echtes Zugeständnis, auch wenn sie das war, was Sie eigentlich von Anfang an erreichen wollten. Aber Ihr Gegenüber mag sich verpflichtet fühlen, dieser Bitte nachzukommen, denn Sie haben ja bereits nachgegeben, also ist er nun dran mit einem Zugeständnis.

Hier spielt auch ein weiteres psychologisches Prinzip mit hinein, der Kontrasteffekt. Verglichen mit Ihrer ersten übertriebenen Bitte wirkt die zweite Bitte gleich viel vernünftiger, als sie für sich alleine aussehen würde.

Das beste an dieser Ablehnung-dann-Zustimmung-Strategie ist, daß Sie manchmal mit Ihrer ersten Bitte bereits Erfolg haben und ein viel besseres Geschäft machen, als Sie eigentlich vorhatten. Frechheit siegt.

Natürlich müssen Sie stets abwägen, ob ein fairer Umgang mit Ihrem Gegenüber, ohne psychologische Tricks, vielleicht doch zu einer fruchtbareren Zusammenarbeit und lukrativeren Geschäften auf lange Sicht führt.