Blog #085 – Fortsetzung


Sagen Sie „ta“. Und jetzt sagen Sie „da“. Achten Sie darauf, was in Ihrem Mund passiert, wenn Sie die beiden Laute aussprechen. Bemerken Sie einen Unterschied?

Fangfrage! Im Mund gibt es gar keinen Unterschied. Was die Laute anders klingen lässt, ist etwas, das sich im Kehlkopf bei Ihren Stimmbändern abspielt. Genauer gesagt handelt es sich um die zeitliche Verzögerung zwischen dem Moment, in dem Sie Ihre Zunge bewegen, und dem Augenblick, in dem Sie Ihre Stimmbänder zum Vibrieren bringen. Phonetiker sprechen hier von der Voice Onset Time (VOT). Im Englischen gilt: Bei einer VOT von mehr als 40 Millisekunden ist ein „ta“ zu hören, unter 40 Millisekunden ein „da“.

Erstaunlich ist, dass es wirklich nur diese beiden Varianten gibt: „ta“ oder „da“. Solange zwei Sprecher auf der gleichen Seite der 40-Millisekunden-Grenze liegen, ist immer der gleiche Laut zu hören, egal ob es 80 und 50 Millisekunden dauert, bis die Stimme ertönt. Sind es aber einmal 45 und einmal 35 Millisekunden, ist im ersten Fall „ta“ und im zweiten „da“ zu hören. Seltsam, aber wahr.

Im Internet kursieren jede Menge Videos darüber, wie uns unser Entweder-oder-Denken Streiche spielt. Ein Beispiel ist die Audioaufnahme eines Wortes, bei der die einen „Yanni“ und die anderen „Laurel“ hören. Ein weiteres ist das Kleid, bei dem die einen ein blaues mit schwarzen Streifen sehen und die anderen ein weißes mit goldenen Streifen. Menschen fallen unweigerlich in das eine oder das andere Lager, und manche würden ihr Leben darauf verwetten, dass ihre Wahrnehmung „richtig“ ist.

Unser Gehirn ist eine Kategorisierungsmaschine. Es nimmt ständig Unmengen von ungeordneten Daten auf, die es dann vereinfacht und strukturiert, damit sich ein für uns sinnvolles Verständnis der Welt ergibt. Dies ist eine seiner wichtigsten Fähigkeiten: Es kann außerordentlich wertvoll sein, mit einem Blick eine Schlange von einem Ast unterscheiden zu können.

Damit eine Kategorisierung wertvoll ist, muss sie zwei Voraussetzungen erfüllen: Erstens muss sie valide sein. Sie können nicht einfach eine homogene Gruppe willkürlich unterteilen. In Platons Worten zerlegen valide Kategorien „den Gegenstand … nach Gliedern, wie er naturgemäß sich bestimmt“ – so wie die Einteilung in Schlangen und Äste. Zweitens muss eine Kategorisierung nützlich sein. Das heißt, die Kategorien müssen sich in einem für uns wichtigen Aspekt unterscheiden. Schlangen und Äste auseinanderhalten zu können ist für uns nützlich, weil es uns hilft, einen Waldspaziergang unbeschadet zu überstehen.

So weit, so gut. Im Wirtschaftsleben schaffen und verwenden wir aber oft Kategorien, die nicht valide, nicht nützlich oder weder das eine noch das andere sind. Das kann zu massiven Fehlentscheidungen führen.

Der Myers-Briggs-Typenindikator ist ein gutes Beispiel dafür. Dieses Instrument zur Persönlichkeitsanalyse beeinflusst nach Informationen des Herausgebers Personalentscheidungen in mehr als 80 Prozent der „Fortune“-500-Unternehmen. Mitarbeiter müssen bei 93 Fragen jeweils eine von zwei möglichen Antworten auswählen. Daraufhin ordnet sie das System einem von 16 Persönlichkeitstypen zu. Das Problem dabei ist, dass diese Fragen eine komplexe, kontinuierliche Analyse erfordern. Lassen Sie sich stärker von Fakten leiten oder von Ihrer Intuition? Die meisten würden wohl sagen: „Das kommt darauf an.“ Aber das ist keine Antwortmöglichkeit; deshalb müssen sich die Teilnehmer für das eine oder das andere Lager entscheiden. Dabei treffen sie vielleicht eine Wahl, die beim nächsten Mal schon wieder anders ausfallen würde. Trotzdem werden sie auf der Grundlage ihrer Antworten in eine Schublade gesteckt, zum Beispiel „extravertiert“ oder „introvertiert“, „urteilend“ oder „wahrnehmend“. Diese Kategorisierungen sind schlicht nicht valide. Und nützlich ist der Test auch nicht: Die Persönlichkeitstypen sind kein Indikator für künftige Ergebnisse wie den beruflichen Erfolg oder die Zufriedenheit. Warum ist der Myers-Briggs-Test dann so beliebt? Weil Schubladendenken überzeugende Illusionen vermittelt.

Das Denken in Kategorien birgt vier große Gefahren: Es kann Sie zu einer Komprimierung verleiten, indem Sie Mitglieder einer Gruppe so behandeln, als wären sie alle gleich, obwohl sie es nicht sind. Es kann zu einer Verstärkung der Unterschiede zwischen Kategorien verführen. Es kann Sie dazu bringen, bestimmte Kategorien anderen vorzuziehen, was einer Diskriminierung gleichkommt. Und es führt zu einer Versteinerung, wenn die vorgenommene Kategorisierung als statisch verstanden wird.

Komprimierung

Wenn wir kategorisieren, denken wir an Prototypen. Dabei vergessen wir allzu leicht die vielen Variationen, die es innerhalb einer Kategorie gibt.

Mythische Zielkunden

Der Harvard-Forscher Todd Rose schreibt in seinem Buch „The End of Average“ über einen Wettbewerb, den eine Zeitung in Cleveland 1945 ausrief – man suche die anatomisch prototypische Frau. Eine Studie hatte zuvor die Durchschnittswerte für unterschiedliche Körpermaße ermittelt, und die Redakteure der Zeitung definierten anhand dieser Durchschnittswerte den Prototyp des weiblichen Körpers. Insgesamt 3864 Frauen reichten ihre Maße ein. Was glauben Sie wohl, wie viele von ihnen in jedem Punkt in der Nähe des Durchschnitts lagen? Keine einzige. Die Menschen unterscheiden sich in so vielen Punkten, dass es höchst unwahrscheinlich ist, jemanden zu finden, der durchgehend in der Nähe des Durchschnitts liegt.

Das Gleiche gilt für Kunden. Die Marktsegmentierung, ein zentrales Marketinginstrument, zielt darauf ab, Kunden in Kategorien zu unterteilen. Dann ermittelt das Unternehmen seine Zielkunden – also die Kundenkategorie, die besondere Aufmerksamkeit verdienen und strategisch im Mittelpunkt stehen sollte.

Segmentierungsstudien beginnen in der Regel damit, die Kunden nach ihrem Verhalten, ihren Wünschen und demografischen Merkmalen zu fragen. Ein Algorithmus unterteilt die Teilnehmer dann auf Basis ähnlicher Antworten in verschiedene Gruppen. Dabei ergeben sich selten hoch differenzierte Kategorien. Doch statt ernsthaft zu bewerten, ob die Cluster valide sind, gehen die Marketingleute einfach zum nächsten Schritt im Segmentierungsprozess über: Sie ermitteln Durchschnittswerte und Profile und entwickeln sogenannte Personas, also Gruppen mit Personen, die sich vermeintlich ähnlich verhalten.

So kommen „Minivan-Mütter“ und ähnliche Kategorien zustande. Nach einer Umfrage stößt jemand im Marketing auf einen interessanten Cluster, in dem zum Beispiel 60 Prozent der Personen weiblich sind, mit einem Durchschnittsalter Anfang 40 und im Mittel 2,75 Kindern. Mit ein wenig Fantasie kommt dann der Prototyp der Minivan-Mutter heraus.

Ein solches Etikett verstellt allerdings den Blick auf die Unterschiede innerhalb einer Kategorie. In einer Untersuchung im Jahr 2011 legten Forscher Probanden ein Bild mit neun weiblichen Silhouetten vor, die ein Spektrum von dünn bis dick abbildeten. Die acht Schritte waren auf Basis des Body-Mass-Index alle gleich groß. Danach bekamen die Teilnehmer das gleiche Bild erneut vorgelegt, aber diesmal mit einer Unterteilung: Unter den drei linken Silhouetten stand „anorektisch“, unter den mittleren drei „normal“ und unter den rechten drei „fettleibig“.

Beide Male sollten die Probanden die Bilder in Bezug auf unterschiedliche Aspekte bewerten. Im zweiten Durchgang, bei dem die Frauen mit einem Etikett versehen waren, nahmen die Probanden sie anders wahr als im ersten – obwohl die Silhouetten genau die gleichen waren. Sie vermuteten zum Beispiel, dass die Frau mit der Nummer 7 eine ähnliche Persönlichkeit und ähnliche Lebensgewohnheiten wie die Frau mit der Nummer 9 hatte, wenn beide der Kategorie „fettleibig“ zugeordnet waren. Erhielten Nummer 4 und 6 das Etikett „normal“, wurden sie ebenfalls als ähnlicher eingeschätzt.

Wie in diesem Beispiel sind auch die Segmente, mit denen die meisten Unternehmen arbeiten, nicht so klar umrissen, wie es scheint. Die Kunden eines Segments verhalten sich oft sehr unterschiedlich. Um dem Risiko der Komprimierung entgegenzuwirken, sollten sich Manager und Analysten fragen: Wie wahrscheinlich ist es, dass sich zwei Kunden aus unterschiedlichen Clustern ähnlicher sind als zwei Vertreter desselben Clusters? Wie hoch ist zum Beispiel die Wahrscheinlichkeit, dass eine „Minivan-Mutter“ mit ihrer Lieblingsbekleidungsmarke näher an einer „Draufgängermutter“ ist als an einer anderen „Minivan-Mutter“? Diese Wahrscheinlichkeit liegt oft eher bei 50 Prozent als bei 0 Prozent.

Mittelmäßige Mitarbeiter

Komprimierung kann auch Personalentscheidungen verzerren. Angenommen, Sie sind für die Personalbeschaffung zuständig; Sie haben vor Kurzem eine Stellenanzeige veröffentlicht und 20 Bewerbungen erhalten. Bei einer ersten Vorauswahl sortieren Sie die Kandidaten auf der Grundlage ihrer Fachkenntnisse und laden die besten fünf zu einem Vorstellungsgespräch ein.

Obwohl sich die fachliche Qualifikation der fünf noch einmal deutlich voneinander unterscheidet, messen Sie dieser Tatsache von nun an keine große Bedeutung mehr bei. Nachdem Sie die Vorauswahl auf Basis der Fachkompetenz getroffen haben, stufen Sie die Kandidaten in dieser Hinsicht als ähnlich ein. Stattdessen konzentrieren Sie sich bei der Auswahl jetzt nur noch auf die Soft Skills, die sich im Bewerbungsgespräch zeigen: Wie sympathisch sind die Kandidaten? Wie kommunikationsstark sind sie? Und so weiter. Das sind natürlich alles wichtige Punkte, aber für viele Stellen ist es dennoch entscheidend, fachlich so gut wie möglich zu sein. Der Vorauswahleffekt führt dazu, dass sie am Ende womöglich nicht den besten Bewerber einstellen.

Fehlgeleitete Finanzen

Auch an den Finanzmärkten ist die Problematik der Komprimierung zu beobachten. Investoren kategorisieren Anlageobjekte nach Größe (Small Caps oder Large Caps), Branche (zum Beispiel Energie oder Gesundheit), Land oder Region und anderen Merkmalen. Diese Einteilung hilft ihnen, sich in dem enorm großen Angebot an Investmentmöglichkeiten zurechtzufinden, und das ist wichtig. Aber es führt auch zu einer ineffizienten Kapitalallokation in Bezug auf das Risiko-Rendite-Verhältnis. Bei der Dotcom-Blase Ende der 90er Jahre investierten viele Menschen massiv und ohne genauer hinzuschauen in Unternehmen, die ihren Namen um ein „.com“ erweitert hatten – auch wenn sich sonst nichts an ihrem Geschäft geändert hatte. Dieser Fehler kam viele Investoren teuer zu stehen. Indizes sind ein weiteres Beispiel: Wenn eine Aktie in den S&P 500 aufgenommen wird, gleicht sich die Kursentwicklung stärker der Entwicklung anderer in diesem Index vertretener Aktien an, obwohl sich weder an dem Unternehmen noch an der Aktie irgendetwas verändert hat.

Verstärkung

Schubladendenken verleitet auch dazu, die Unterschiede zwischen einzelnen Kategorien zu überzeichnen. Wenn Sie in diese Falle tappen, stereotypisieren Sie die Vertreter anderer Kategorien, stützen sich bei Ihren Entscheidungen auf willkürliche Grenzwerte und ziehen falsche Schlüsse.

Abgrenzung statt Kooperation

Die Verstärkung der Unterschiede zwischen Kategorien kann gravierende Folgen haben, wenn Sie dadurch Mitglieder anderer gesellschaftlicher oder politischer Gruppierungen falsch einschätzen. Studien haben gezeigt, dass wir die Einstellung von Vertretern konkurrierender politischer Parteien für extremer halten, als sie ist.

Denken Sie an das politische System in den USA und überlegen Sie, wem wohl mehr an sozialer Gerechtigkeit gelegen ist: Liberalen oder Konservativen? Wenn Sie auf Liberale getippt haben, liegen Sie richtig. Im Durchschnitt messen Liberale sozialer Gerechtigkeit einen höheren Stellenwert bei als Konservative. Aber es gibt in den USA auch viele Konservative, denen soziale Gerechtigkeit wichtiger ist als vielen Liberalen. Angenommen, wir fragen zwei zufällig ausgewählte Passanten auf der Straße – jemanden, der konservativ wählt, und jemanden, der liberal wählt. Wie hoch ist dann die Wahrscheinlichkeit, dass der erste soziale Gerechtigkeit als bedeutender einstuft als der zweite? Deutlich näher an 50 Prozent, als Sie vielleicht denken. Durchschnitte verstellen den Blick auf Überschneidungen zwischen Gruppen und verstärken die wahrgenommenen Unterschiede.

In den Vereinigten Staaten glauben Liberale oft, alle Konservativen seien gegen Abtreibung, ein schärferes Waffenrecht und eine staatliche soziale Absicherung. Auf der anderen Seite glauben viele Konservative, alle Liberalen wollten offenere Grenzen und eine gesetzliche Krankenversicherung für alle. Die Realität sieht natürlich anders aus: Ideologien und politische Positionen verteilen sich auf ein breites Spektrum.

Heute, im Zeitalter von Big Data und Kunden-Profiling, ist dieses Schubladendenken besonders besorgniserregend. Facebook beispielsweise ist dafür bekannt, seine Nutzer auf Basis ihres Suchverhaltens in politische Kategorien einzuteilen („moderat“, „konservativ“ oder „liberal“) und diese Information an Werbetreibende weiterzugeben. Diese nehmen dann unter Umständen an, dass die Unterschiede zwischen den Facebook-Nutzergruppen größer sind, als dies tatsächlich der Fall ist. Das kann paradoxerweise zu einer tatsächlichen Verstärkung der Unterschiede führen, weil die Werbetreibenden jeder Gruppe stark auf ihre vermeintliche Gesinnung zugeschnittene Botschaften zukommen lassen. Bei der amerikanischen Präsidentschaftswahl 2016 und beim Brexit-Referendum scheint genau das der Fall gewesen zu sein, als Facebook „Konservative“ und „Liberale“ mit Tausenden hochgradig spaltenden Botschaften gefüttert hat.

Viele Unternehmen kämpfen intern oft mit einer ähnlichen Dynamik. Der Erfolg hängt von abteilungsübergreifenden Synergien ab. Aber Schubladendenken führt dazu, dass Manager die Kooperationsfähigkeit unterschiedlicher Teams massiv unterschätzen. Wenn Sie davon ausgehen, dass Data Scientists zwar in ihrem Fach top sind, aber keine Ahnung vom Geschäft haben, und Marketingmanager ihrerseits fachlich fit sind, aber nicht mit Daten umgehen können, kommen Sie nicht unbedingt auf die Idee, diese beiden Teams zusammenzuspannen. Das ist einer der Gründe, warum so viele Analytics-Initiativen scheitern.

Alles-oder-nichts-Entscheidungen

Für Managemententscheidungen hat die Verstärkungsproblematik noch subtilere Konsequenzen. In der US-Basketballliga NBA ist die Wahrscheinlichkeit, dass ein Trainer seine Mannschaftsaufstellung ändert, nach einer knappen Niederlage (100:101) 17 Prozent größer als nach einem knappen Sieg (100:99). Dabei beträgt der Unterschied nur zwei Punkte, die die gegnerische Mannschaft weniger erzielt hat. Aber nur wenige Trainer würden eine Aufstellung ändern, weil eine Mannschaft mit 100:106 verliert statt mit 100:108 – obwohl auch hier der Unterschied nur aus zwei Punkten beim gegnerischen Team besteht. Eine Niederlage fühlt sich qualitativ anders an als ein Sieg, weil wir Sportergebnisse in unserem Denken nicht auf einem Kontinuum verorten.

Immer wenn Sie auf einer kontinuierlichen Skala willkürlich Grenzen einziehen, verstärken Sie wahrscheinlich kleine Unterschiede. Nach der Finanzkrise 2008 rettete die belgische Regierung die Bank Fortis, ein Tochterunternehmen von BNP Paribas. Als Ergebnis hielt Belgien Millionen von BNP-Paribas-Aktien. Nach Informationen der belgischen Zeitung „De Standaard“ beschloss die Regierung Ende Januar 2018, als die Aktie knapp über 67 Euro notierte, das gesamte Paket bei 68 Euro zu verkaufen. Dazu ist es nie gekommen; stattdessen ist der Kurs gefallen, momentan steht die Aktie nur noch bei rund 44 Euro.

Niemand in der belgischen Regierung hatte ahnen können, dass der Kurs dermaßen absackt. Aber der Fehler bestand in der Alles-oder-nichts-Entscheidung. Sinnvoller wäre es gewesen, das Paket häppchenweise zu veräußern: einen Teil zu Preis x, einen weiteren Teil zu Preis y, und so weiter.

Willkürliche Grenzwerte

Mit der wachsenden Bedeutung von Verhaltensökonomik und Data Science stützen sich Unternehmen immer häufiger auf A/B-Tests, um die Wirksamkeit von Maßnahmen zu testen. Das liegt zum Teil daran, dass sich solche Tests einfach durchführen und auswerten lassen. Sie schaffen zwei Versionen einer Situation, die bis auf einen einzigen Faktor gleich sind. Einer Gruppe von Probanden setzen Sie Version A vor, einer anderen Version B. Anschließend messen Sie, ob es nennenswerte Verhaltensunterschiede zwischen den beiden Gruppen gibt. In der Regel werden Sie immer zufällige Abweichungen finden. Deshalb überprüfen Sie mit einem statistischen Test, ob ein festgestellter Unterschied groß genug ist, dass er sich auf die unterschiedliche Gestaltung der beiden Versionen zurückführen lässt. Dieser Test liefert die Wahrscheinlichkeit, mit der ein Unterschied der gemessenen Größe auch bei identischen Versionen zu verzeichnen gewesen wäre – den p-Wert. Je weiter dieser Wert gegen null geht, desto sicherer können Sie sein, dass die gemessenen Unterschiede kein Zufall sind. Aber wie nahe an null ist nahe genug?

1925 legte der britische Statistiker und Genetiker Sir Ronald Fisher willkürlich fest, dass 0,05 ein guter Schwellenwert ist. Er hätte ebenso gut 0,03 wählen können, und er empfahl auch, die Schwelle für den p-Wert von der jeweiligen Studie abhängig zu machen. Doch das interessierte die wenigsten. Stattdessen übernahmen ganze wissenschaftliche Disziplinen in den folgenden Jahrzehnten blindlings 0,05 als magische Grenze. Dieses Signifikanzniveau wurde auch in der Geschäftswelt zur Norm.

Das ist ein Problem. Wenn der p-Wert eines A/B-Tests bei 0,04 liegt, wird eine Maßnahme vermutlich durchgeführt, bei 0,06 nicht – obwohl der Unterschied zwischen 0,04 und 0,06 an sich nicht bedeutend ist. Was noch schlimmer ist: Viele, die einen Test durchführen, schauen zwischendurch regelmäßig auf die statistische Signifikanz und hören mit der Datenerhebung auf, sobald sie einen p-Wert von unter 0,05 erhalten. Das macht es erheblich wahrscheinlicher, dass eine Maßnahme als effektiv eingestuft wird, obwohl sie es nicht ist. Eine Studie kam kürzlich zu dem Ergebnis, dass Tester, die eine beliebte Onlineplattform für A/B-Tests nutzen, in der Mehrzahl den p-Wert auf diese Weise manipulieren und damit die Quote falsch positiver Ergebnisse von 33 auf 42 Prozent steigern.

Diskriminierung

Wenn Sie erst einmal kategorisiert haben, haben Sie in der Regel auch schon Favoriten. Dabei kann es Schaden anrichten, wenn Sie andere Kategorien vernachlässigen.

Teures Targeting

Stellen Sie sich vor, Sie sind bei einem Onlinehändler, der einzigartige und kreative Designmöbel verkauft, für das Digitalmarketing zuständig. Sie haben eine Marktsegmentierung vorgenommen und ein Zielkundensegment mit folgenden Eigenschaften ermittelt: männliche Berufstätige zwischen 18 und 34 mit kreativen Berufen in Mode, Marketing oder Medien und einem mittleren verfügbaren Einkommen. Sie können 10.000 Dollar für digitale Werbung ausgeben, und Sie erwägen drei Optionen: 1. Kein Targeting. Die Werbung wird allen Facebook-Nutzern mit gleicher Wahrscheinlichkeit präsentiert und kostet 40 Cent pro Klick. 2. Vollständiges Targeting. Die Werbung erreicht nur Ihr Zielsegment und kostet 60 Cent je Klick. 3. Eingeschränktes Targeting. Sie investieren die Hälfte Ihres Marketingbudgets in Ihr Zielsegment, die andere Hälfte ins Massenmarketing, was dann 48 Cent pro Klick kostet.

Für welche der drei Varianten sollten Sie sich entscheiden? Wahrscheinlich B oder C, weil Sie damit gezielter vorgehen, richtig?

Nein. A dürfte die beste Variante sein – die mit dem breitesten Adressatenkreis. Warum? Weil eine breite Ansprache oft eine höhere Investitionsrendite bietet als eine enge. Untersuchungen haben ergeben, dass Onlinewerbung die Kaufwahrscheinlichkeit nur um einen kleinen Bruchteil eines Prozents erhöht. Wenn die Chance, dass jemand Ihr Produkt kauft, ohne eine Werbung zu sehen, bei 0,1 Prozent liegt, steigt die Wahrscheinlichkeit vielleicht auf 0,13 Prozent, wenn die Person Ihre Werbung sieht. Die positive Wirkung der Anzeige mag bei Zielkunden etwas höher sein, aber in vielen Fällen wiegt das nicht die höheren Kosten pro Klick auf. Trotzdem sind Marketingleute oft wie besessen von ihren Zielkunden – und ignorieren dabei das Potenzial aller anderen Segmente.

Facebook vermittelt seinen Werbekunden in einer konzertierten Aktion die Vorteile einer großen Reichweite gegenüber einer engen Zielgruppenorientierung. Als Beispiel verweist das Onlinenetzwerk auf eine Biermarke, die sich traditionell an Männer richtete. Als die Marke bei der Werbung auf digitale Medienplattformen umstieg, freuten sich die Verantwortlichen zunächst über die Möglichkeit, die Zielgruppe genauer anzusprechen. Doch damit schränkten sie die Reichweite ihrer Kampagnen erheblich ein, und die Ergebnisse wurden schlechter. Nach einigen Nachforschungen erkannte das Unternehmen, dass ein erheblicher Anteil seiner Kunden Frauen waren. Daraufhin weitete es seine Zielgruppendefinition aus und passte seine Werbebotschaften an. Das hatte sofortigen Erfolg.

Ungenaue Umfragen

Diskriminierung kann bei der Auswertung von Daten zu Verzerrungen führen. In unseren Data-Analytics-Kursen fragen wir die Teilnehmer oft, ob sie den Net Promoter Score (NPS) kennen und ob ihre Unternehmen mit dieser Kennzahl arbeiten. Jedes Mal gehen die meisten Hände in die Höhe; und das aus gutem Grund. Nachdem Frederick F. Reichheld das Konzept in diesem Magazin vorgestellt hatte („Mundpropaganda als Maßstab für den Erfolg“, Harvard Business Manager, März 2004), wurde der NPS schnell zu einer der wichtigsten Leistungskennzahlen in Unternehmen, und das ist er bis heute.

Was ist der NPS, und wie funktioniert er? Kunden (oder Mitarbeiter) bewerten auf einer Skala von 0 bis 10, wie wahrscheinlich es ist, dass sie das Unternehmen Verwandten oder Freunden empfehlen. 0 bedeutet „unwahrscheinlich“, 10 bedeutet „äußerst wahrscheinlich“. Anschließend werden die Kunden auf Basis ihrer Antworten in drei Kategorien eingeteilt: Kritiker (0 – 6), passiv Zufriedene (7 – 8) und Förderer (9 – 10). Wenn Sie den NPS berechnen wollen, ermitteln Sie zunächst den Anteil der Kunden in jeder Kategorie. Dann ziehen Sie die Kritiker von den Förderern ab. Wenn 60 Prozent Ihrer Kunden Förderer sind und 10 Prozent Kritiker, liegt Ihr NPS bei 50.

Es gibt gute Gründe, warum Unternehmen den NPS verwenden. Die Kennzahl ist klar und leicht verständlich. Außerdem trägt sie dazu bei, das mit Schubladendenken verknüpfte Verstärkungsproblem zu verhindern – oder wie Reichheld in seinem Artikel schreibt: „Indem die Bezeichnung Förderer nur auf wirklich begeisterte Kunden angewendet wurde, verhinderten wir eine Verzerrung der Bewertung – ein Phänomen, das häufig in traditionellen Kundenzufriedenheitsstudien auftritt. Nämlich dann, wenn Kunden, die einen leicht ins Positive tendierenden Wert vergeben, in der Bewertung schon als zufrieden eingestuft werden.“

Das ist hilfreich. Tatsächlich aber birgt das NPS-System genau das Verstärkungsproblem, das es eigentlich beheben soll. Kunden etwa, die eine 6 vergeben, liegen deutlich näher an 7 als an 0, werden aber trotzdem zu den Kritikern gerechnet und nicht zu den passiv Zufriedenen. Anders ausgedrückt: Kleine Unterschiede über die Kategoriegrenzen hinweg beeinflussen den NPS enorm, gleich große oder größere Unterschiede innerhalb einer Kategorie aber gar nicht.

Der NPS hat noch ein weiteres Kategorisierungsproblem: Er ignoriert die passiv Zufriedenen. Zwei extreme Fälle verdeutlichen, was das bedeuten kann. Ein Unternehmen hat 0 Prozent Kritiker und 0 Prozent Förderer. Ein anderes hat 50 Prozent Kritiker und 50 Prozent Förderer. Beide haben den gleichen NPS, aber eine völlig unterschiedliche Kundenzusammensetzung und sollten deshalb auch anders gemanagt werden.

Schwierige Statistik

Das Denken in Kategorien kann auch die Auswertung von Daten beeinträchtigen. Stellen Sie sich vor, Sie leiten einen Service-Desk, der sich um alle Kundenanfragen kümmert. Sie glauben, dass sich die Zufriedenheit Ihrer Mitarbeiter auf die Kundenzufriedenheit auswirkt, und geben eine Untersuchung in Auftrag, um Ihre Vermutung zu überprüfen. Ein paar Wochen später sendet Ihnen die Personalabteilung eine Datenanalyse zu, visualisiert in einem Streudiagramm (siehe Diagramm „Welche Korrelation ist stärker?“ oben).

Wie stark ist Ihrer Meinung nach die Beziehung zwischen der Mitarbeiter- und der Kundenzufriedenheit? Die meisten Leute sehen in dem Diagramm einen mäßig starken Zusammenhang.

Wie würde sich Ihre Einschätzung ändern, wenn Sie das zweite Streudiagramm daneben erhielten? Hier sehen die meisten Menschen eine deutlich schwächere Korrelation oder keine. Dabei liegt in beiden Fällen ein ungefähr gleich starker Zusammenhang vor. Bis auf acht Datenpunkte, die im ersten Diagramm rechts oben und im zweiten links unten liegen, sind die Diagramme gleich.

Warum sehen die Menschen dann einen stärkeren Zusammenhang im ersten Diagramm? Weil sie dem Quadranten oben rechts eine höhere Bedeutung beimessen. Im ersten Diagramm sehen sie viele zufriedene Servicemitarbeiter mit zufriedenen Kunden; daraus leiten sie einen relativ starken Zusammenhang ab. Im zweiten Diagramm sehen sie wenige zufriedene Mitarbeiter mit zufriedenen Kunden, deshalb schließen sie auf eine schwächere Korrelation. Daraus lernen wir: Wer nicht alle Kategorien gleichermaßen betrachtet, kann Zusammenhänge zwischen Variablen schlechter erkennen.

Versteinerung

Schubladendenken führt zu einer starren Weltsicht. Es vermittelt uns den Eindruck, genau zu wissen, wie die Welt ist, und lässt uns vergessen, dass es sich dabei nur um eine mögliche Einteilung der Welt handelt. Der britische Ökonom John Maynard Keynes brachte das Problem auf den Punkt: „Die Schwierigkeit ist nicht, neue Ideen zu finden, sondern den alten zu entkommen.“

In den 50er Jahren beherrschte die Schwinn Bicycle Company den amerikanischen Fahrradmarkt. Das Unternehmen konzentrierte sich auf eine junge Zielgruppe und baute schwere, verchromte Kinderfahrräder mit großen Reifen. Doch in den 70er Jahren hatte sich der Markt grundlegend verändert. Inzwischen nutzten viele Erwachsene Fahrräder als Sportgeräte und suchten leichtere, leistungsstarke Räder. Schwinn passte sich an die Veränderungen nicht an, und so wandten sich die amerikanischen Verbraucher europäischen und japanischen Fahrradmarken zu. Dies war für Schwinn der Beginn eines schmerzlichen Abstiegs. Nach Jahrzehnten, in denen Schwinn mit Kinderrädern sehr erfolgreich gewesen war, hatte das Unternehmen eine versteinerte Sicht des Konsumumfelds und war blind für die grundlegenden Veränderungen auf dem Markt.

Mangelnde Innovation

Bei Innovationen geht es darum, Schubladendenken zu überwinden. Viele Unternehmen wollen über Kategorisierungen effizienter werden. Sie weisen Mitarbeitern Aufgaben zu, Abteilungen Mitarbeiter und so weiter. Solche disziplinarischen Einteilungen erfüllen natürlich einen Zweck, aber sie haben auch ihren Preis. Die geschäftlichen Probleme der Zukunft passen nicht in das Raster von Einteilungen, die für die Probleme der Vergangenheit ausgelegt sind. Außerdem bremst das Denken in bestehenden Kategorien das Entstehen neuen Wissens, weil es die Fähigkeit der Menschen schmälert, Elemente neu zu kombinieren.

Ein Experiment an der Universität von Toronto aus dem Jahr 2016 verdeutlicht das. Rund 200 Teilnehmer sollten aus Lego-Bausteinen einen Außerirdischen bauen. Eine Gruppe bekam vorsortierte Bausteine, eine zweite erhielt ein zufällig zusammengewürfeltes Sortiment. Eine dritte Gruppe sollte am Ende die Kreativität der Lösungen bewerten – und kam zu dem Schluss, dass die Gruppe mit den nicht sortierten Legosteinen kreativere Außerirdische geschaffen hatte.

Wenn Kategorien versteinern, können sie Innovationen auch noch auf andere Art und Weise behindern: Sie erschweren es, sich untypische Verwendungsmöglichkeiten von Dingen oder Ideen vorzustellen. Dieses Phänomen ist in der Psychologie als funktionale Fixierung bekannt. Wie gehen Sie vor, wenn Sie eine Schraube und einen Schraubenschlüssel in die Hand gedrückt bekommen und die Schraube an einer Wand befestigen sollen. Viele würden wohl versuchen, den Kopf der Schraube irgendwie in den Schraubenschlüssel einzuklemmen und die Schraube so in die Wand zu drehen. Das ist umständlich und wenig effektiv. Auf die wirksamste Methode kommen viele gar nicht, nämlich den Schraubenschlüssel als Hammer zu verwenden und die Schraube wie einen Nagel in die Wand zu schlagen.

Vier Lösungsansätze

Wie können Manager, die sich der Problematik bewusst sind, die negativen Folgen des Schubladendenkens verhindern? Ich empfehle einen vierstufigen Ansatz:

1. Bewusstsein schärfen

Wir denken alle in festen Kategorien, und das ist auch gut so. Aber jeder, der Entscheidungen trifft, muss auch wissen, welche verlockenden Vereinfachungen und Verzerrungen dies mit sich bringen kann, wie leicht verständlich dadurch viele Probleme erscheinen (auch wenn sie es nicht sind) und welche unsichtbaren Wahrnehmungsfehler dadurch entstehen. Diese Fallen lassen sich am besten vermeiden, wenn Unternehmen ihren Mitarbeitern dabei helfen, mit Unsicherheit, Nuancen und Komplexität umzugehen. Ist eine Kategorisierung wirklich valide? Ist sie nützlich? Diese Fragen sollten zum Standard in unternehmerischen Entscheidungsprozessen werden.

2. Analysekompetenz aufbauen

Kontinuierliche Analysen sind unumgänglich, wenn Unternehmen Fehlentscheidungen durch Schubladendenken vermeiden wollen. Doch vielen fehlt dafür das nötige Know-how. Bei der Marktsegmentierung vergeben sie die Analyse an externe Spezialisten, interpretieren die eingekauften Informationen dann aber falsch. Das lässt sich relativ einfach beheben. Ein wenig Schulung reicht, um die Validität eines definierten Segments mithilfe von bewährten Kennzahlen überprüfen zu können. Jedes Unternehmen, das Segmentierungsstudien als wichtigen Bestandteil seiner Marktforschung oder strategischen Planung einsetzt, sollte solche Kennzahlen anwenden und dafür Schulungen vorsehen; sie bieten eine ideale Gelegenheit, um interne Kompetenzen aufzubauen und sich einen Wettbewerbsvorteil herauszuarbeiten.

3. Entscheidungskriterien überprüfen

Viele Unternehmen entscheiden, dass sie erst dann eine bestimmte Handlung vornehmen werden, wenn sie einen Schwellenwert auf einer kontinuierlichen Skala überschreiten. Diesen Wert setzen sie recht willkürlich fest. Dies hat zwei Nachteile.

Erstens wächst dadurch das Risiko. Angenommen, ein Unternehmen gibt eine Marktforschung in Auftrag, um die Erfolgschancen eines neuen Produkts zu ermitteln. Es soll dann auf den Markt gebracht werden, wenn die Bewertungen von Konsumenten bei einer großen Erhebung einen vorher festgelegten Mindestwert erreichen oder wenn der p-Wert eines Experiments unter der magischen Schwelle von 0,05 liegt. Da aber der Unterschied zwischen knapp erreicht und knapp verfehlt winzig sein kann, könnte eine zufällige Abweichung in der Stichprobe oder eine kleine Verzerrung bei der Art und Weise, wie die Daten erhoben werden, den Ausschlag geben. So können winzige und letztlich bedeutungslose Unterschiede das Ergebnis grundlegend verändern – vielleicht genau in die falsche Richtung, wie die belgische Regierung schmerzlich erfahren musste, als sie die willkürlich festgelegte Verkaufsschwelle für ihre BNP-Paribas-Aktien nicht erreichte. In so einer Situation ist ein gestufter Ansatz deutlich besser. Die Belgier hätten Tranchen festlegen können, deren Wert sich an der Datenlage orientierte, statt einfach einen Alles-oder-nichts-Kurs festzusetzen, den die Aktie nie erreichte.

Zweitens hemmen willkürlich festgesetzte Schwellenwerte das Lernen. Angenommen, ein Unternehmen sieht organisatorische Veränderungen für den Fall vor, dass es ein bestimmtes Umsatzziel nicht erreicht. Wenn es das Ziel nur knapp verfehlt, geht es davon aus, dass etwas nicht stimmt, und setzt die geplanten Veränderungen um. Wenn es das Ziel aber nur knapp erreicht, geht es davon aus, dass alles in Ordnung ist, und macht weiter wie bisher. Dabei sind die Zahlen in beiden Fällen fast gleich.

Um diese Probleme zu vermeiden, empfehlen wir, dass Sie in Ihrer gesamten Organisation die Entscheidungskriterien überprüfen. Sie dürften überrascht sein, wie viele Entscheidungen undifferenziert nach Ja-oder-nein-Kriterien fallen. Manchmal geht es nicht anders. In der Regel gibt es aber durchaus Alternativen, und sie stellen eine weitere Möglichkeit dar, sich einen Wettbewerbsvorteil zu verschaffen.

4. Annahmen hinterfragen

Selbst wenn Sie die drei oben beschriebenen Schritte befolgen, droht immer noch die Gefahr der Versteinerung. Um dem entgegenzuwirken, sollten Sie zu regelmäßigen Brainstormingmeetings zusammenkommen, in denen Sie Ihre grundlegenden Annahmen über die Entwicklungen in Ihrer Branche hinterfragen. Ist Ihr Modell des Kundenumfelds noch stimmig? Ändern sich die Bedürfnisse und Wünsche der Kunden?

Eine Innovationsmethode besteht darin, sich die einzelnen Komponenten bestehender Kategorien vor Augen zu halten und sich neue Funktionen für sie vorzustellen. Autos transportieren Menschen von A nach B, und Briefträger transportieren Post von A nach B, richtig? Ja, das stimmt. Aber wenn Sie sich auf diese Sichtweise beschränken, entgehen Ihnen womöglich interessante Chancen.

Amazon hat das begriffen. Der Onlinehändler hat die Funktion des Autos hinterfragt und erkannt, dass es auch dazu dienen kann, Pakete in Empfang zu nehmen. Also hat das Unternehmen Prime-Mitgliedern in den USA angeboten, Päckchen im Kofferraum ihres Pkw zu hinterlegen. In den Niederlanden überdachte die dortige Post die Funktion von Briefträgern und kam auf die Idee, dass diese auf ihren Routen regelmäßig Unkraut fotografieren könnten, um die Wirksamkeit von Herbizidbehandlungen zu dokumentieren. Das ist eine wertvolle neue Funktion, die jemandem, der in festen Kategorien denkt, niemals in den Sinn gekommen wäre.

Fazit

Kategorien helfen uns, der Welt eine für uns sinnvolle Struktur zu geben und unsere Ideen anderen mitzuteilen. Aber der Reflex, alles in Kategorien einzuteilen, ist so stark, dass wir häufig Kategorien sehen, wo keine sind. Das verzerrt unseren Blick auf die Welt und beeinträchtigt unsere Entscheidungen. Früher konnten Unternehmen notfalls auch trotz solcher Fehler überleben. Heute, wo die Datenrevolution immer weiter voranschreitet, ist es erfolgsentscheidend, die negativen Folgen von Schubladendenken zu verhindern.

Neue Beiträge in deinem Postfach