si news – SWISS INSIGHTS

Personas im Zeitalter von KI

Posted on 14 Mai, 202514 Mai, 2025 by Francesca Leoni, Guide Strothe

Ein Rückblick

Personas entstanden im späten 19. Jahrhundert als soziologisches Instrument zur Darstellung der Merkmale bestimmter Bevölkerungsgruppen. Max Weber (1864-1920), Pionier und Gründer dieses Konzepts, betonte, dass der Zweck von Personas darin besteht die strategischen Aspekte (manchmal übertrieben) zu verkörpern und zum Leben zu erwecken, die berücksichtigt werden müssen, um wirksame Entscheidungen zu treffen. Mit der Zeit wurden Personas in der Marktforschung eingesetzt, um die Motivationen und Erwartungen der Menschen besser zu verstehen. In den 1980er Jahren wurden Personas in der UX-Forschung genutzt, um die Diskrepanz zwischen Designvorhaben und Benutzer:innen-Anforderungen zu überbrücken. In der Folge setzten Marketing- und Strategieabteilungen Personas ein, um Käufergruppen zu definieren und bestimmte Profile anzusprechen.

Die Funktionen von Personas

Die Funktionen von Personas:

Eine Persona repräsentiert eine Kundengruppe durch ein psychologisches und verhaltensbezogenes Profil. Sie fördert das Verständnis dieser Gruppe und gestaltet die Ergebnisse für die Nutzerin oder den Nutzer möglichst handlungsorientiert. Personas haben sich im Laufe der Jahre weiterentwickelt und erfüllen mehrere wichtige Funktionen:

Kreativität anregen: Personas erfassen Emotionen und Standpunkte und regen so innovatives Denken und kreative Lösungen an.

Daten zum Leben erwecken: Personas vermenschlichen abstrakte Daten und schaffen eine Diskussionsplattform, die als Ausgangspunkt für Co-Creation und iterative Entwicklung dient.

Internes Abstimmen von Teams: Personas sorgen für ein einheitliches Verständnis der Zielgruppen im gesamten Unternehmen und vereinfachen die Kommunikation.

Begrenzen von Risiken: Personas bieten einen sicheren Rahmen, um Ideen zu testen und zu verfeinern, Entscheidungen zu dokumentieren und die Übereinstimmung mit den tatsächlichen Bedürfnissen der Kundinnen und Kunden sicherzustellen.

Der Aufstieg von KI und Persona-Bots

Mit dem technologischen Fortschritt sind Personas ausgefeilter geworden und beinhalten nun auch KI-gesteuerte Tools. Diese Entwicklung hat zur Erstellung von Persona-Bots geführt. Dies sind interaktive Einheiten, mit denen z. B. Marketing-Teams und Marktforschende kommunizieren und Erkenntnisse gewinnen können. Die Herausforderung besteht darin, ein Gleichgewicht zwischen der Einfachheit von Personas und der Tiefe der Erkenntnisse zu finden, die sie liefern. Es gibt immer mehr Methoden und Möglichkeiten für eine bessere Entscheidungsfindung, Zusammenarbeit und Innovation.

Ipsos hat mit der revolutionären Ipsos PersonaBot-Lösung, die auf der Ipsos-eigenen generativen KI-Plattform basiert und sich auf eine umfassende wissenschaftliche Validierung stützt, eine Vorreiterrolle in diesem Gebiet übernommen. Dieses neue Tool, das wir inzwischen bei einer beträchtlichen Anzahl internationaler und Schweizer Kundinnen und Kunden im Einsatz haben, ermöglicht den Mitarbeitenden einer Organisation die Interaktion mit Personas, die ihre Zielgruppen repräsentieren. Teams können dynamisch mit Zielgruppen kommunizieren, Ideen schnell testen und mit Einfühlungsvermögen auf sich verändernde Bedürfnisse reagieren – und all dies auf der Grundlage methodisch fundierter Forschung.

Über ein sicheres Portal können Benutzer:innen Fragen zu allen möglichen Themen stellen: Einstellungen und Verhaltensweisen, Anforderungen an die Kommunikation, Präferenzen für die Art der Nachrichten und Kanäle usw. Die Personas können individuell oder als Gruppe befragt werden, fast wie eine Fokusgruppe. Die Plattform kann auch direkt mit Frameworks zur Aktivierung verknüpft werden, z. B. mit Vorlagen für Briefings von Agenturen.

Wenn Personas auf einer soliden Grundlage qualitativer und quantitativer Forschung durch erfahrene Expertinnen und Experten aufgebaut sind, dienen Persona-Bots als unschätzbare Tools für die Ideenfindung, die Hypothesenbildung und die Berücksichtigung des Menschen in jeder Diskussion im Unternehmen. Sie sind jedoch kein Ersatz für fundierte Marktforschung und menschliches Urteilsvermögen, wenn es darum geht, Erkenntnisse zu validieren und strategische Entscheidungen zu treffen. Persona-Bots sind nur so gut wie das Fachwissen und die Daten, die in ihre Erstellung einfliessen.

Erstellung eines Persona-Bots

Die Erstellung eines effektiven Persona-Bots erfordert mehr als nur die Eingabe von Rohdaten in ein KI-System. Es erfordert eine sorgfältige Aufbereitung und Organisation der Informationen, einschliesslich:

Wer: Grundlegende demografische und psychografische Informationen über die Persona.
Warum: Das Verständnis der Motivationen, Bedürfnisse und Einstellungen der Persona.
Was: Einblicke in die Marken und Produkte, welche die Persona nutzen könnten.
Wo: Verstehen des Kontexts und der Anlässe für die Produktnutzung.
Der Lebensstil: Ein umfassenderes Bild des allgemeinen Lebensstils, der Interessen und der Mediengewohnheiten der Persona.

Neben den Fakten profitieren Persona-Bots auch davon, dass sie mit Beispielen von Sprachgebrauch und Persönlichkeitsmerkmalen angereichert werden, um die Denkweise der Persona besser zu verstehen. Auch Bilder können das Persona-Profil aufwerten, wobei jedoch darauf geachtet werden muss, dass die KI-Algorithmen nicht durch bestehende Vorurteile verzerrt werden.

Verzerrungen («Biases») und Einschränkungen

Personas helfen Designern und Marketingfachleuten zwar dabei, ihre Zielgruppen zu verstehen und Zielgruppenprofile zu erstellen, doch haben sie auch ihre Grenzen, die berücksichtigt werden müssen:

Realismus: Personas müssen auf einer gründlichen Beobachtung und Analyse beruhen. Mit KI ist es nur allzu leicht, Personas zu erstellen, die zwar realistisch erscheinen, aber nicht die tatsächlichen Kundengruppen repräsentieren. Die Glaubwürdigkeit einer Persona hängt stark von der Segmentierungsanalyse und der Expertise der Marktforscher:innen ab.
Repräsentativität: Personas sind Archetypen, keine monolithischen Konstrukte. Ihre Gültigkeit ist kontextspezifisch, d. h. sie besteht in Bezug auf einen Markt, ein Land, ein Objekt und einen Zweck.
Qualität der Priming-Daten (Input Daten): Die Qualität und Tiefe der erhobenen Daten sind entscheidend für KI-generierte Personas. Ungenaue oder verzerrte Daten können zu irreführenden Erkenntnissen führen.
Einschränkung der Perspektive: Persona-Bots können nur Fragen innerhalb des Bereichs der erhobenen bzw. analysierten Daten beantworten, nicht darüber hinaus.
Nicht-kausale Zusammenhänge: KI erkennt manchmal falsche Korrelationen und verwechselt diese mit kausalen Zusammenhängen. Menschliches Fachwissen ist für die Beratung unerlässlich.

Wichtige Erkenntnisse und zukünftige Entwicklungen

Bei verantwortungsvoller Anwendung haben Persona-Bots ein immenses Potenzial, KI zu vermenschlichen und die Stimme des Kunden/der Kundin (Voice of the Customer) auf eine nie dagewesene Weise in die Organisation einzubringen. KI-gestützte Persona-Bots stellen einen bedeutenden Fortschritt in der Marktforschung dar und bieten eine dynamische und interaktive Möglichkeit, Zielgruppen zu verstehen. Sie ersetzen nicht das menschliche Urteilsvermögen, sondern dienen als leistungsfähige Tools zur Inspiration und Ideenfindung. Im Zuge der weiteren Entwicklung und des Fortschritts werden Persona-Bots zu einem integralen Bestandteil, indem sie die Innovation beschleunigen und die Wirkung von Erkenntnissen in allen Branchen erhöhen. Es ist von entscheidender Bedeutung, Grundsätze festzulegen und eine verantwortungsvolle Anwendung dieser Tools zu gewährleisten, um ihr Potenzial voll auszuschöpfen und gleichzeitig mögliche Verzerrungen und Einschränkungen zu minimieren. Die Zukunft der Marktforschung wird zweifellos von diesen Fortschritten geprägt sein, und Persona-Bots stehen an der Spitze dieses Wandels.

Dieser Artikel basiert auf einem demnächst erscheinenden, neuen globalen Ipsos White Paper und wurde in einer Kombination aus Human Intelligence (Francesca & Guido) sowie Artificial Intelligence (Ipsos Facto) erstellt.

English version: Download pdf

Francesca Leoni

Associate Client Director – Market Strategy & Understanding / Innovation
Ipsos Root/Luzern

francesca.leoni@ipsos.com

Guido Strothe

Associate Client Director – Customer Experience & Channel Performance
Ipsos Root/Luzern

guido.strothe@ipsos.com

Download Artikel
Swiss Insights News #25-2

Corporate Member von
SWISS INSIGHTS

https://www.ipsos.com/de-ch

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Precision maximizes result

Posted on 27 März, 20252 April, 2025 by Matthieu Saussaye

Market research institutes regularly collect open-ended responses, but getting in-depth responses and manually analyzing such extensive open-ended data presents major challenges for researchers. Let’s explore how the adoption of LLMs and vocal transcripts helps to increase insight quality.

Best practices for open-ended quality at the Era of AI

By regularly offering voice transcription in our market research surveys, we have gained the following key insights that enable us to best adopt this technology.

#1 Audio that accompanies the text

Letting respondents both read and listen to the question helps them stay more focused. This dual approach enhances their attentiveness, making it a key factor in maximizing the quality of insights from your survey. Modern text-to-speech technology is highly efficient and sounds natural, ensuring a smooth experience.

Respondent said: “It’s really nice to answer the questions orally and hear them locally. It’s fun and interesting.”

#2 Voice as an option for market research surveys

Giving respondents the option to respond with or without voice decreases the potential fatigue.

Respondent said: “A pity to do it with a microphone; sometimes writing is more clear.”

#3 Voice requires clarity of mind

Using voice enables users to express their thoughts more openly and clearly, fostering more authentic and effective communication.

Respondent said: “An excellent experience with the microphone. I’ve noticed, and can say easily, that writing down responses to questions is automatic, while answering with the microphone requires a bit more dexterity.”

#4 No redundancy

Time is valuable – don’t waste your respondents’ time. An advanced AI model is needed to avoid looping the same conversation topics.

Respondent said: “The questions go in circles. The direction of the questionnaire ended up being more double what was originally stated.”

An effective AI modelization use could create important value for Market Researchers

The market research institute YouGov Switzerland partnered with Pulse Partners to test our new tool. The goal was to enhance the ability to collect and automatically classify qualitative insights at scale. With a survey involving approximately 3,600 respondents across Switzerland (both French- and German-speaking regions), we aimed to gain a deeper understanding of regional product perceptions.

Here are the key technological features we leveraged from our test of Smartinterview with YouGov :

1 – AI-Driven probing:

The survey adapted in real time, asking targeted follow-up questions to encourage respondents to expand on their answers, resulting in richer and more detailed insights. The context is driven automatically be the Market Researcher.

2 – Voice reads question:

The questions of the survey are read in the respondent’s language.

3 – Multi-lingual voice transcript:

The survey is conducted in French and Swiss German, ensuring cultural and linguistic relevance for Swiss respondents.

4 – Sentiment and topic analysis:

Key topics from responses are automatically classified with AI.

Effective AI implementation can drive significant value creation for Market Researchers

Here is a sample of what we get from the data collection with and without Smartinterview:

By adoptingSmartinterview, we have improved the depth and accuracy of the insights on regional product feedback and could propose this technology to end-client with more comprehensive insights.

Qualitative long-tail feedbacks

If we take the median, Smartinterview captures approximately 4 times more words per response. A likely explanation is that when respondents use voice, they naturally articulate their thoughts more freely and in greater detail.

Access to long-tail feedbacks: We have been able to capture detailed, highly specific feedback from a subset of respondents who would otherwise provide limited input (highlighted in yellow in the above graphic).

With Smartinterview, we can seamlessly integrate qualitative interviews within a quantitative survey, capturing in-depth insights in a single run. This approach eliminates the need for separate qualitative and quantitative studies, significantly reducing costs while maintaining the richness of open-ended responses typically found in real-life qualitative interviews.

The comparison graphics below illustrate the number of topics generated from a traditional open-ended question versus a Smartinterview open-ended question for each respondent, highlighting the depth and richness of insights captured.

Here is what has been found:

2.2 times more topics captured per response – Compared to traditional open-ended questions, respondents provided significantly richer and more detailed answers, enabling a more comprehensive and nuanced analysis.

A seamless integration for Market Researchers and Companies

The collaboration between YouGov and Pulse Partners showcases the transformative power of AI and voice in market research surveys, enhancing insight quality without increasing costs. Market research companies can increase the depth and accuracy of their insights on regional product feedback and could propose this technology to its end-client.

“Smartinterview is an exciting tool with interesting possibilities. We were able to integrate it seamlessly into our survey, making it available for clients who may wish to use it with us in the future. In particular, we see potential for gaining more cost-effective insights: with Smartinterview, it may be possible to derive the same insights from open-ended questions with fewer survey respondents.”
— Dr. Manuel Cariappa-Schwaninger, Research Consultant, YouGov

Matthieu Saussaye

Founder and Data Scientist, Pulse Partners

matthieu.saussaye@pulse-partners.ch

Download Artikel
Swiss Insights News #25-1

Contact Panel Partner
Dr. Manuel Cariappa-Schwaninger, Research
Consultant, Marketing Research YouGov Switzerland
manuel.schwaninger@yougov.ch

Corporate Member von
SWISS INSIGHTS

www.pulse-partners.ch

Corporate Member von
SWISS INSIGHTS

www.business.yougov.com/de

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Prozentual oder absolut?

Posted on 6 Dezember, 20246 Dezember, 2024 by Leonie Bodden

It’s all about the price tag

Angenommen, wir betrachten Käufer:innen im Lebensmitteleinzelhandel (LEH) beim Erledigen ihres täglichen Einkaufs. Sie wählen Produkte von ihrer Einkaufsliste aus, bleiben spontan bei reduzierten Angeboten stehen und legen das eine oder andere Produkt in ihren Einkaufswagen. Warum üben Reduzierungen eine gewisse «magische» Anziehungskraft auf uns aus? Welche Faktoren führen
zu diesem (impulsiven) Verhalten, reduzierte Produkte zu erwerben? Und wie kann der LEH die Käufer:innen dazu bewegen, Produkte im Angebot zu kaufen, an die sie zuvor nicht gedacht hatten? Viele unterschiedliche Faktoren beeinflussen unser Kaufverhalten. Ein kostengünstiger und daher relevanter Faktor ist die optische Preisgestaltung.

Bisherige Untersuchungen erforschten hauptsächlich die Auswirkungen von prozentualen und absoluten Reduzierungen in hypothetischen Kaufszenarien, beispielsweise im Rahmen von (Online-)Experimenten. Dieser methodische Ansatz erfolgte jedoch isoliert von anderen Einflussfaktoren. Diese Studie in Zusammenarbeit mit einem führenden Lebensmitteleinzelhändler erforscht nun genau diese Lücke. Ziel ist es, die bisher nur in der Theorie nachgewiesenen Ergebnisse in einem realen Supermarkt-Setting zu überprüfen. Dafür wurde ein Zwei-Methoden-Ansatz verfolgt. Zum einen gab ein Online-Experiment Einsichten zu Bewertungen und Akzeptanz des Preisschildes aus Konsument:innensicht, zum anderen wurden im Rahmen eines Filialtests reale Abverkäufe gemessen. Der Fokus lag auf der Frage, ob Preisschilder mit prozentualen Reduzierungen auch unter nicht experimentellen Bedingungen zu höheren Abverkäufen führen als Preisschilder mit absoluten Reduzierungen. Zudem erforschte die Studie Moderationsfaktoren im Zusammenhang mit prozentualen Darstellungen und den Absatzzahlen im Filialtest. Dabei fiel die Wahl besonders auf bisher wenig oder gar nicht berücksichtigte Faktoren, wodurch eine Forschungslücke bezüglich Einflussfaktoren auf Produkt und Preis geschlossen wurde.

Dafür wurden mithilfe einer Clusteranalyse und anhand verschiedener Attribute möglichst ähnliche Referenz- und Testfilialen identifiziert. Insgesamt wurden 35 Filialen in den Test einbezogen. Letztendlich ergab sich ein Datensatz aus 5600 Produktdaten auf Basis von 438 verschiedenen Produkten und 873 Reduzierungen. Getestet wurde im Zeitraum vom 01.05.2022 bis zum 01.07.2022 in Deutschland.

Wirkung der Reduzierungsdarstellung auf den Abverkauf

Wie beeinflusst also die Art und Weise der Darstellung von Preisnachlässen die Konsument:innen in ihren Kaufentscheidungen? Die bisherige Forschung zeigt, dass diese Frage nicht einfach zu beantworten ist, sondern dass viele Faktoren Einfluss auf das Kaufverhalten von Konsument:innen haben. Generell beeinflussen prozentuale Darstellungen von Reduzierungen die Konsument:innen und führen zu höheren Abverkäufen von Produkten. Insgesamt ergab sich mit Einbezug der Baseline-Gruppe ein Gesamtanstieg des relativen Abverkaufs um 9,71 %. Das unterstützt die Annahmen des Preis-Promotion-Framings, nach dem wertmässig identische Reduzierungen nur aufgrund anderer Darstellung zu unterschiedlichen Kaufverhalten der Konsument:innen führen. Dies lässt auf unterbewusste, heuristische Wirkungen der prozentualen Reduzierungen schliessen, welche die subjektive Preiswahrnehmung von Konsument:innen beeinflussen. Damit ist die richtig eingesetzte optische Preisgestaltung ein geeignetes Mittel zur Steigerung von Abverkäufen.

Weil Beeinflussungsprozesse hingegen individuell ablaufen und im LEH nur einer von vielen Faktoren sind, mussten weitere relevante Moderationsfaktoren berücksichtigt werden. Der Fokus lag auf Faktoren, die zuvor nur wenig oder gar nicht betrachtet wurden. Dabei beeinflussen die Reduzierungstiefe und die Anzahl der Reduzierungen den Effekt der Stimulus-Gruppe auf den relativen Abverkauf positiv. Das bedeutet: Je höher die Reduzierung ist und je häufiger ein Produkt reduziert wird, desto besser ist der Abverkauf mit Preisschildern, die eine prozentuale Reduzierungsdarstellung haben. Ausserdem ist der Effekt der Abverkaufssteigerung besonders hoch bei Non-Food-Produkten.

Dahingegen moderieren sowohl der Produktpreis (unter 100 €), die Lebensdauer und die Woche der Reduzierung den Effekt der Stimulus-Gruppe auf den relativen Abverkauf nicht. Die besseren Abverkäufe bei dem Preisschild mit einer prozentualen Reduzierung sind also unabhängig von diesen Faktoren.

Implikationen für die Praxis

Die wichtigste Erkenntnis für die Praxis ist, dass Preisschilder mit einer prozentualen Reduzierung bei Produkten unter 100 € zu höheren Abverkäufen führen. Vor allem im LEH ist dieses Ergebnis von zentraler Bedeutung, weil dieser nur selten Produkte über 100 € verkauft. Weitergehend können auf zwei Ebenen Implikationen für die Praxis getroffen werden. Zum einen auf Konsument:innenseite, zum anderen auf Seite der Einflussfaktoren im LEH. Alle Implikationen beziehen sich auf den Ausgangspunkt, dass die Abverkäufe bei der prozentualen Reduzierungsdarstellung höher sind und von verschiedenen Faktoren beeinflusst werden. Auf Konsument:innenseite führen höhere Reduzierungen zu einem höher wahrgenommenen Wert des Angebotes. Dies geht einher mit dem Trend, dass die relativen Abverkäufe steigen, je höher die Reduzierung ist. Demgegenüber hat die Reduzierungstiefe keinen Einfluss auf die wahrgenommene Qualität des Produktes der Konsument:innen. Selbst hohe Reduzierungen führen also nicht zu schlechteren Qualitätsbewertungen und damit auch nicht zu potenziell schlechteren Abverkäufen.

Auf Seite des LEH ist festzuhalten, dass höhere Reduzierungen zu besseren Abverkäufen führen. Ausserdem konnte festgestellt werden, dass selbst bei geringen Reduzierungen mit einer prozentualen Reduzierung eine Steigerung der Abverkäufe erzielt wurde. Es existieren also nicht – wie zuvor angenommen – gewisse Schwellenwerte, bei denen eine Reduzierung wirkt. Lebensmitteleinzelhändler sollten daher geringe Reduzierungstiefen nicht per se ausschliessen. Vielmehr sollte die optimale Reduzierungstiefe abgewogen werden, um Gewinne zu maximieren und Verluste zu vermeiden. Gleiches gilt für die Anzahl an Reduzierungen, weil mit jeder Reduzierung auch die Reduzierungstiefe ansteigt. Ausserdem konnte vor allem der Abverkauf von Non-Food-Produkten durch die prozentuale Darstellung gesteigert werden. Der Grossteil der Aktionsartikel setzt sich aus diesen zusammen, weswegen diese Erkenntnis von besonderer Relevanz ist.

Leonie Bodden

Gewinnerin Nachwuchsforscherinpreis 2024 des bvm/vmö/Swiss Insights

leoniebodden@gmail.com

Die Autorin
Leonie Bodden absolvierte ihren Master Kommunikationsmanagement und -analyse an der Uni
Hohenheim. Aktuell ist sie als Produktmanagerin für die digitalen Produkte der Motor Presse Stuttgart GmbH & Co. KG tätig. Für ihre Masterarbeit «It’s all about the Price Tag: Ein empirischer Vergleich von prozentualen vs. Absoluten Preisveränderungen im LEH-Kontext» wurde sie mit dem Nachwuchsforscherinpreis 2024 der DACH-Verbände (bvm/vmö/Swiss Insights) ausgezeichnet.

Download Artikel
Swiss Insights News #24-10

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Die Zukunft des stationären Einzelhandels

Posted on 28 Oktober, 202428 Oktober, 2024 by Dr. Felix Lehmkuhle

Das Ende physischer Geschäfte wurde schon häufig eingeläutet, doch die Realität sieht anders aus. Ein Blick auf die Umsatzzahlen zeigt, dass der stationäre Einzelhandel noch immer etwa 75 % des weltweiten Einzelhandelsumsatzes ausmacht (Coppola 2023). Selbst grosse Online-Riesen wie Amazon und Alibaba haben die anhaltende Relevanz stationärer Geschäfte erkannt und investieren gezielt in deren Ausbau.

Dennoch haben sich die Erwartungen an den stationären Handel gewandelt. In einer Zeit, in der Kund:innen mit wenigen Klicks von überall aus einkaufen können, stellen sie auch höhere Anforderungen an physische Geschäfte. Immer häufiger wünschen sie sich ein einzigartiges Einkaufserlebnis. Um den neuen Ansprüchen gerecht zu werden, stehen viele Einzelhändler:innen vor der Herausforderung, das Werteversprechen ihrer physischen Geschäfte neu zu definieren

Fünf Vorteile physischer Geschäfte

Auch in der heutigen Zeit hat der stationäre Einzelhandel besondere Möglichkeiten, um Kund:innen in die physischen Geschäfte zu locken. In ihrer Multi-Methoden Studie «The future of physical stores: Creating reasons for customers to visit» identifizieren Els Breugelmans (KU Leuven), Lina Altenburg (KU Leuven), Felix Lehmkuhle (Universität Münster), Manfred Krafft (Universität Münster), Lien Lamey (KU Leuven) und Anne L. Roggeveen (Babson College) fünf zentrale Vorteile, die physische Geschäfte ihren Kund:innen bieten können:

Entdeckung: Viele Kund:innen möchten sich vor dem Kauf eines Produkts gut informieren – besonders bei teuren Artikeln oder unsicheren Käufen, z. B. frischen Lebensmitteln. Im stationären Geschäft haben sie die Möglichkeit, direkt mit den Produkten und den Mitarbeiter:innen in Kontakt zu treten. Während sie beim Onlinekauf oft nur Bilder und Produktbeschreibungen sehen, können sie im physischen Geschäft all ihre Sinne nutzen. Einzelhändler:innen können interaktive Bereiche einrichten oder Veranstaltungen anbieten, bei denen die Kund:innen Produkte erleben und testen können. Diese multisensorische Erfahrung stärkt nicht nur das Vertrauen in die Kaufentscheidung, sondern fördert auch eine emotionale Bindung zum Produkt und zur Marke.
Bequemlichkeit: Bequemlichkeit spielt eine entscheidende Rolle beim Einkaufserlebnis und umfasst die Erleichterung, Beschleunigung und Reduzierung des Aufwands. Physische Geschäfte können hier durch flexible Öffnungszeiten, zentrale Standorte, ausreichend Parkplätze und die Nähe zu anderen Geschäften punkten. Ein wesentlicher Vorteil gegenüber dem Onlinehandel ist die Möglichkeit, Produkte sofort mitzunehmen, ohne auf den Versand warten zu müssen. Darüber hinaus können Zusatzangebote wie Click-and-Collect, bei denen Kunden online bestellen und die Ware im Geschäft abholen, den Einkaufsvorgang erleichtern.
Personalisierung: Personalisierung zielt darauf ab, die Customer Journey individuell auf die Bedürfnisse der Kund:innen abzustimmen. In physischen Geschäften können Mitarbeiter:innen direkt mit den Kund:innen interagieren, um ihre Wünsche besser zu verstehen und das Angebot entsprechend anzupassen. Innovative Technologien wie intelligente Umkleidekabinen sowie AR- und VR-Anwendungen eröffnen zudem neue Möglichkeiten. Ein spannender Ansatz ist die kollaborative Personalisierung, bei der Mitarbeiter:innen und Kund:innen gemeinsam Produkte gestalten – wie beispielsweise bei Build-A-Bear. Zusätzlich bieten persönliche Einkaufsberater:innen wertvolle Unterstützung, beantworten Fragen und optimieren so das Einkaufserlebnis.
Gemeinschaft: Gerade in der Pandemie wurde deutlich, wie wichtig persönliche Interaktionen sind. Einzelhändler:innen, die ihre Geschäfte zu Orten der Begegnung gestalten, können eine starke Kundenbindung aufbauen. Veranstaltungen, Sportkurse, Co-Working-Bereiche und gastronomische Angebote fördern nicht nur den Austausch, sondern verwandeln den Besuch in ein echtes Erlebnis und laden zum Verweilen ein. Solche Initiativen helfen dabei, eine lebendige Community aufzubauen. Regelmässige Events im Geschäft binden die Kund:innen aktiv ein und vermitteln ein Gefühl der Zugehörigkeit. Ausserdem helfen sie, die Bedürfnisse der Kund:innen besser zu verstehen und sich kontinuierlich weiterzuentwickeln.
Shoppertainment: Einzelhändler:innen können ihre Geschäfte kreativ gestalten, um den Kund:innen ein unterhaltsames Erlebnis zu bieten. Ein Sportladen kann beispielsweise einen kleinen Sport-Court einrichten, auf dem die Besucher:innen ihre Fähigkeiten ausprobieren. Veranstaltungen wie Ausstellungen lokaler Künstler:innen bieten weitere Anreize, im Geschäft vorbeizuschauen. Ein Ansatz, der insbesondere in der Modebranche Anklang findet, besteht in der Einrichtung eines «Green Screen Raums», in dem Kund:innen Fotos machen und ihre Erlebnisse auf Social Media teilen können. Wichtig ist, dass all diese Massnahmen letztlich darauf abzielen, den Verkauf von Produkten zu fördern und den Umsatz zu steigern.

Herausforderungen einer Transformation

Um sich den ändernden Kundenbedürfnissen anzupassen, gestalten viele Einzelhändler:innen ihre Geschäfte umfassend um. Dabei liegt die Vermutung nahe, dass eine Neugestaltung automatisch zu höheren Umsätzen führt. Doch aus der Forschung wissen wir, dass viele Menschen dazu neigen, am Vertrauten festzuhalten (Endowment-Effekt; Thaler 1980).

Bei der Transformation eines Geschäfts rücken meist bestimmte Produktkategorien in den Fokus, während andere in Sortimentsumfang und -komposition sowie ihrer Platzierung auf der Ladenfläche unverändert bleiben. Legt ein Geschäft beispielsweise einen Fokus auf Frische, bleiben verpackte Lebensmittel oft unverändert. Um den wirtschaftlichen Erfolg einer solchen Transformation zu bewerten, ist es allerdings wichtig, auch mögliche Umsatzeffekte auf die unveränderten Kategorien in den Blick zu nehmen.

Felix Lehmkuhle (Universität Münster), Els Breugelmans (KU Leuven), Marleen Hermans (Radboud Universität), Manfred Krafft (Universität Münster), Mirja Kroschke (Universität Münster) und Murali Mantrala (Kansas Universität) zeigen in ihrer Forschungsarbeit «What’s Happening to My Unchanged Categories – Differential Effects of a Store Transformation» (derzeit unter Begutachtung beim Journal of Retailing), dass auch unveränderte Kategorien von Umsatzeffekten betroffen sein können und wie diese mit den Eigenschaften der Kategorien zusammenhängen. Die Autor:innen analysieren in Zusammenarbeit mit einem grossen deutschen Hypermarkt, der sein Geschäftskonzept von preis- auf erlebnisorientiert umgestellt hat, die Umsatzeffekte bei Bestandskund:innen über einen Zeitraum von drei Jahren. Sie stellen fest, dass der Umsatz in einer durchschnittlichen unveränderten Kategorie (mit typischen Merkmalen) nach der Transformation sinkt. Obwohl die Autor:innen nicht davon ausgehen, dass dieser Effekt allgemeingültig ist, verdeutlicht das Ergebnis ihrer Arbeit, wie wichtig es ist, potenzielle Auswirkungen auf unveränderte Kategorien zu berücksichtigen.

Um mögliche Effekte besser abzuschätzen, können Einzelhandelsmanager:innen die Eigenschaften der unveränderten Kategorien heranziehen. Die Autor:innen beobachten einen besonders starken Umsatzrückgang bei Kategorien, die Kund:innen mit höherer Impulsivität oder finanziellem Risiko verbinden. Auf der anderen Seite können unveränderte Kategorien, die zum Gesamtfokus des neu gestalteten Geschäfts passen, auch weniger stark betroffen sein oder sogar profitieren. In der Fallstudie legt das umgestaltete Geschäft grossen Wert auf Frische. Entsprechend stellen die Autor:innen fest, dass unveränderte Kategorien, die typischerweise mit Frische assoziiert werden, einen geringeren Umsatzrückgang verzeichnen.

Die Transformation eines Geschäfts beeinflusst nicht nur das umgestaltete Geschäft, sondern auch die Attraktivität der umliegenden Geschäfte. Da umfangreiche Veränderungen viel Geld kosten und Zeit in Anspruch nehmen, gehen Einzelhändler:innen in der Regel schrittweise vor. Daher findet man transformierte Geschäfte nicht selten in der Nähe (noch) unveränderter Geschäfte derselben Kette. In einer weiteren Forschungsarbeit («What’s Happening to My Nearby Stores? The Own- and Cross-effect of a Radical Store Transformation on Existing Customers») untersuchen die Autor:innen der vorherigen Studie eben solche Konstellationen und fokussieren sich insbesondere auf das Wechselverhalten der Kund:innen zwischen den Geschäften. Sie zeigen, dass der Umsatz der Bestandskund:innen im transformierten Geschäft sinken kann, während die benachbarten, unveränderten Geschäfte Umsatzgewinne verzeichnen. Obwohl die Bestandskund:innen das transformierte Geschäft häufiger besuchen, geben sie dort weniger aus. Ihre Ausgaben in den unveränderten Geschäften steigen hingegen.

Allerdings reagieren nicht alle Kund:innen gleich. Kund:innen, die durch ihr Einkaufsverhalten vor der Transformation gezeigt haben, dass sie Merkmale des neuen Ladenformats schätzen (bspw. frische Produkte), begegnen der Neuerung positiver und sollten daher gezielt auf die neuen Angebote aufmerksam gemacht werden. Bestandskund:innen, die in der Vergangenheit eine besonders hohe Verbundenheit zum alten Geschäft gezeigt haben, reagieren auf die Veränderung kritischer. Einzelhandelsmanager:innen sollten diesen Kund:innen helfen, sich in der neuen Umgebung zurechtzufinden oder sie an die unveränderten Geschäfte in der nahen Umgebung erinnern.

Nach wie vor bieten physische Geschäfte Vorteile, die stationäre Einzelhändler:innen nutzen können, um wettbewerbsfähig zu bleiben. Allerdings führt nicht jede Neuerung automatisch zum Erfolg. Bei einer umfangreichen Transformation sollten auch mögliche Umsatzeffekte auf die unveränderten Kategorien in Betracht gezogen werden. Ausserdem ist es wichtig, mögliche negative Reaktionen der Bestandskund:innen zu berücksichtigen. Interessanterweise können gerade die naheliegenden, (noch) nicht umgewandelten Geschäfte helfen, kritischen Bestandskund:innen eine Alternative zu bieten und sie so von der Abwanderung zur Konkurrenz abzuhalten.

Dr. Felix Lehmkuhle

Gewinner Nachwuchsforscherpreis 2024 des bvm/vmö/Swiss Insights

felix.lehmkuhle@web.de, +49 157 8892 8717

Der Autor
Dr. Felix Lehmkuhle studierte BWL in Münster und absolvierte einen Doppel-Master in Marketing & Finance sowie Marketing Intelligence. Danach promovierte er im Quantitativen Marketing. Er ist Experte für datengetriebene Entscheidungen und war als Dozent für Marketing Analytics tätig. Für seine Dissertation «Is New Always Better? The Future of Physical Stores» wurde er mit dem Nachwuchsforscherpreis 2024 der DACH-Verbände (bvm/vmö/Swiss Insights) ausgezeichnet.

Download Artikel
Swiss Insights News #24-9

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Generative KI als Game-Changer für qualitative MaFo

Posted on 15 Oktober, 202415 Oktober, 2024 by Dr. Stefan Oglesby

Durch die Verarbeitung grosser Mengen unstrukturierter qualitativer Daten kann generative KI differenzierte Analysen und Berichte erstellen und so Zeit und Kosten erheblich reduzieren. Die Technologie eignet sich hervorragend für Aufgaben wie die Analyse und Zusammenfassung von qualitativen Interviews und Gruppendiskussionen. Generative KI hat jedoch Schwierigkeiten, strategische Schlussfolgerungen auf den Punkt zu bringen; eine Aufgabe, die am besten weiterhin erfahrenen Forschenden überlassen wird. Mit dem «ChatYourData»-Ansatz lassen sich qualitative Daten unmittelbar in Produktinnovationen oder Kommunikationskonzepte umsetzen. Die generative KI verspricht, qualitative Erkenntnisse wettbewerbsfähiger und zugänglicher zu machen, und könnte so zum Game-Changer für die Markt- und Sozialforschung werden.

Die Rolle der generativen KI in der der qualitativen Markt- und Sozialforschung

Mit der Veröffentlichung von ChatGPT im Herbst 2022 sind die Möglichkeiten der generativen KI einer breiten Öffentlichkeit bewusst geworden. Insbesondere die Leistungen der hochentwickelten Sprachmodelle (Large Language Models) beim Schreiben und Redigieren von Texten sind auf den ersten Blick erstaunlich. In der qualitativen Markt- und Sozialforschung steht die Sprache im Zentrum – in Form von Tiefeninterviews, Gruppendiskussionen oder anderen digitalen Formen des Dialogs. Die aktuelle Generation der generativen KI ist deshalb prädestiniert, qualitative Forschung voranzubringen. Entsprechende Methoden nutzen auch projektive Verfahren wie Visualisierungen, um ein vertieftes Verständnis von Emotionen und Einstellungen zu gewinnen. Die Übersetzung von Sprache in Bilder und umgekehrt ist die Stärke von visuellen generativen Modellen wie Dalle, Midjourney und anderen.

Die qualitative Markt- und Sozialforschung ist eine unverzichtbare Ergänzung zur besser bekannten und viel häufiger eingesetzten strukturierten («quantitativen») Umfrageforschung. Die qualitative Forschung ist explorativ und ermöglicht es den Teilnehmenden, ihre Gedanken und Gefühle in ihren eigenen Worten auszudrücken. Dies kann zu Erkenntnissen führen, die in einer strukturierten Umfrage vielleicht nicht erwartet oder erfasst worden wären. Qualitative Erkenntnisse liefern Erklärungen zum «Wie?» und «Weshalb?» hinter den quantitativen Zahlen.

Bisher hatte die qualitative Markt- und Sozialforschung den Ruf, zeitaufwändig und teuer zu sein. Durch die Nutzung von generativer KI kann sie nun effizienter, schneller und besser werden. Dies wird zu einem Revival der qualitativen Methoden führen.

Dieser Artikel untersucht die potenziellen Verbesserungen und Herausforderungen von generativer KI in der qualitativen Verbraucherforschung und konzentriert sich dabei auf die konkreten Anwendungen.

Was ist generative KI?

Generative KI bezieht sich auf eine Teilmenge von Technologien der künstlichen Intelligenz, die neue Inhalte generieren können, einschliesslich Text, Bild und Audio. Generative KI gibt es schon lange. Bereits im letzten Jahrhundert wurden Versuche gestartet mit Computern, die eine menschenähnliche Fähigkeit zur Konversation beherrschten. Der aktuelle Durchbruch ist auf Fortschritte in der Hardware, in den theoretischen Konzepten und in den eingesetzten Algorithmen zurückzuführen.

Neue theoretische Konzepte
Die modernen generativen KI-Modelle fokussieren nicht auf abstrakte grammatikalische und semantische Regeln, sondern darauf, wie Sprache verwendet wird. Zentral ist die Annahme, dass die Bedeutung eines Wortes im Kontext seiner Verwendung liegt. Umgekehrt folgt daraus, dass die Wahrscheinlichkeit eines Wortes aufgrund des Kontextes vorausgesagt werden kann. Dies machen sich die Entwickler der Large Language Models wie OpenAI, Mistral oder Gemini zunutze: Sie trainieren die Sprachmodelle darauf, immer das nächstfolgende Wort eines Satzes oder eines Textes vorherzusagen. Der Vorteil dieses Ansatzes liegt darin, dass für das Training grosse Mengen bestehender Texte verwendet werden können, die nicht manuell vorbereitet werden müssen (kein kostenintensives Labeling bzw. keine Annotation). Der vergleichsweise einfache Ansatz, aus dem Kontext den jeweils wahrscheinlichsten Output vorherzusagen, funktioniert überraschend gut – auch für inhaltlich anspruchsvolle und komplexe Aufgabenstellungen.

Neue Algorithmen
Für das Training werden bewährte Algorithmen in Form neuronaler Netzwerke mit einer hohen Anzahl an Schichten eingesetzt – deshalb auch «Deep Learning» genannt. Der Durchbruch für die generative KI basiert auf einem spezifischen, relativ neuen Typ neuronaler Netzwerke: Transformer Modelle, die in der Lage sind, vergleichsweise lange Textsequenzen parallel zu verarbeiten und gleichzeitig die besonders relevanten Textstellen höher zu gewichten.

Die sogenannten Foundation Models, die einen Satz oder einen anderen Kontext ergänzen können, bilden allerdings nur den ersten Schritt zur Entwicklung eines KI-Sprachmodells. Ein funktionsfähiges Modell, das Fragen beantworten und Anweisungen ausführen kann, braucht weitere Schritte:

Foundation Model: Wir können Text generieren,
indem wir ein Wort nach dem anderen vorhersagen.

In einem zweiten Schritt, dem Instruction Finetuning, wird das Modell darauf trainiert, spezifische Anweisungen zu befolgen, also zum Beispiel eine Zusammenfassung zu erstellen, einen Blog-Artikel zu schreiben oder eine Wissensfrage zu beantworten.

Der dritte Schritt, Reinforcement Learning from Human Input, optimiert die Qualität des Outputs so, dass die Erwartungen der Zielgruppen möglichst gut erfüllt werden. Dazu bewerten Hunderte von Testpersonen die Resultate manuell, was dann wiederum ins Training des Modells einfliesst.

Neue Hardware
Die meisten technologischen Revolutionen der letzten Jahrzehnte basieren wesentlich auf sprunghaften Entwicklungen der Hardware. Bei der generativen KI sind dies neue Prozessoren, die ideal auf die Deep Learning Algorithmen abgestimmt sind, obwohl sie ursprünglich für Bildverarbeitung entwickelt wurden.

Implikationen für die Anwendung in der qualitativen Markt- und Sozialforschung

Das zugrundeliegende «Foundation Modell» einer modernen KI-Lösung basiert auf der beobachteten Verwendung von Sprache, die einerseits sprachliche Fähigkeiten wie Grammatik und Wortschatz, anderseits aber auch das Wissen über die Welt spiegelt. Die sprachlichen Fähigkeiten und das Fachwissen können in diesen Modellen also nicht klar getrennt werden. Das ist ein wichtiger Punkt, wenn wir generative KI, konkret die bekannten Large Language Models, für die qualitative Marktforschung einsetzen wollen.

Nehmen wir an, wir analysieren zum Beispiel Transkripte von Tiefeninterviews zum Thema «Schokolade» mithilfe von generativer KI. Das implizite «Weltwissen» des KI-Modells aufgrund der Trainingsdaten ist dabei immer mit im Spiel. Viele der Trainings-Texte wurden im Internet gesammelt oder stammen und aus digitalisierten Bibliotheken. Im Fall von Schokolade sind zum Beispiel nicht nur der Genuss, sondern auch Aspekte der Gesundheit, der Nachhaltigkeit und des Masshaltens relativ stark im Vorwissen der Modelle verankert.

Das ist an sich kein Nachteil der generativen KI. Tatsächlich ist Sprachverständnis ohne ein Verständnis der Wirklichkeit nicht möglich. Eine qualitative Marktforscherin wird Texte immer auch vor dem Hintergrund ihres Vorwissens analysieren. Entscheidend ist, dies bewusst zu reflektieren. Diese Reflexion fehlt den Sprachmodellen. Um eine angemessene, möglichst unverzerrte Analyse von qualitativen Konsumentenaussagen zu gewährleisten, braucht es also sorgfältig ausgearbeitete Kontrollmechanismen. Unter diesen Voraussetzungen kann KI sogar zu einer besseren Qualität qualitativer Insights beitragen: Forschende mit weniger Erfahrung haben manchmal einen sehr persönlichen Zugang zu den untersuchten Themen und bringen so unbewusst einen starken Bias ein. Bei Large Language Modellen fällt diese persönlich-subjektive Komponente der Analyse weg.

Die Qualität der Zusammenfassung von Transkripten beispielsweise hängt stark davon ab, wie gut das jeweilige Modell genau für diese Aufgabe trainiert wurde (Instruction Finetuning – siehe oben). Bei GPT, Gemini, Mistral, Claude und Llama funktionieren Zusammenfassungen sehr gut. Diese Disziplin beherrschen aber auch viele kleinere, günstigere Modelle.

Etwas anspruchsvoller wird es, wenn bestimmte relevante Themen aus einer Reihe von langen Transkripten extrahiert werden sollen, zum Beispiel die Motive oder die Barrieren des Schokoladekonsums aus mehreren Tiefeninterviews. Die führenden Modelle (GPT-4, Mistral Large oder Anthropic Claude Opus) machen dies ziemlich gut, ohne fremde Informationen aus ihrem impliziten «Wissen» in die Ergebnisse zu schmuggeln.

Auf welche Tasks ein Large Language Modell spezifisch trainiert wurde, ist allerdings oft nicht transparent. Hier hilft nur «Trial and Error», um die besten Lösungen zu identifizieren.

Qualitätskriterien
Formale Qualitätskriterien, die für die Überprüfung und Evaluation von Large Language Models entwickelt wurden, sind nur beschränkt hilfreich.

Für die Bewertung der Qualität einer Text-Zusammenfassung gibt es die ROUGE-Metrik (Recall-Oriented Understudy for Gisting Evaluation). Der Score vergleicht eine durch Experten erstellte Referenz-Zusammenfassung mit dem Output eines KI-Modells. Für qualitative Ad-hoc-Studien liegt eine solche Referenz-Zusammenfassung in der Regel nicht vor. Dazu kommt, dass der ROUGE-Score primär die Wörter in den Zusammenfassungen vergleicht und auszählt, was etwas zu kurz greift.

In der Literatur werden oft standardisierte Performance-Messungen für konkurrierende Large Language Models publiziert. Diese Indices basieren auf Wissensfragen, z. B. Prüfungen für amerikanische College-Studierende, «Reasoning» oder dem Schreiben von korrekten Programmier-Codes. Diese Kriterien sagen wenig über die Leistungsfähigkeit im Rahmen von qualitativer Markt- oder Sozialforschung aus.

Quelle: https://medium.com/@tayloroakley/mistral-large-2-vs-llama-405b-vs-gpt-4-vs-claude-3-5-sonnet-a-complete-comparision-f9d56148e7b8

Beim Einsatz von generativer KI in der qualitativen Forschung muss die Qualität des Outputs vorderhand von der Studienleitung sorgfältig geprüft werden. Wünschenswert wäre die Entwicklung von standardisierten automatisierten Qualitäts-Scores zur Unterstützung. Ein Beispiel dafür wäre ein Vergleich der Topics, die in den Input-Daten aufscheinen, mit jenen in Zusammenfassungen und Interpretationen.

Use-Cases für Marketing und Produktentwicklung

Die möglichen Anwendungsfälle der generativen KI in der qualitativen Markt- und Sozialforschung sind sehr breit. Vieles steckt noch in den Kinderschuhen. Es braucht Zeit und finanzielle Ressourcen, um spezifische Tools zu entwickeln und insbesondere die Qualitätskontrollen zu institutionalisieren. Als Illustration dienen drei konkrete Use-Cases, die der Autor erfolgreich umgesetzt hat. Beim ersten Anwendungsfall geht es um die naheliegende Umsetzung von Effizienz und Zeitgewinn. Der zwei weiteren Use-Cases schauen eher in die Zukunft und sind noch experimentell.

Use Case 1: Generative AI als Forschungsassistentin für mehr Effizienz und Qualität
Im Kontext der Markt- und Sozialforschung ist die generative KI besonders wertvoll aufgrund ihrer Fähigkeit, grosse unstrukturierte Datenmengen zu verarbeiten und nuancierte Analysen und Berichte zu erstellen.

Ein erster Anwendungsfall aus der Praxis illustriert das Vorgehen. Die strategische Fragestellung bestand darin, Erwartungen und Wünsche der Privatkundinnen und -kunden bei der Wahl einer Versicherung zu verstehen.

Als Datengrundlage standen 20 frei geführte Interviews von je ca. 40 Minuten Dauer in Schweizerdeutsch und Französisch zur Verfügung. Die Interviews wurden automatisch transkribiert und durch freie Mitarbeitende manuell nachbearbeitet.

Ziel des Projektes war, die Qualität einer automatisierten Analyse mittels generativer KI einer vorläufigen Prüfung zu unterziehen. Die ursprüngliche Analyse wurde durch erfahrene qualitative Marktforscherinnen mit «manuell» realisiert. Erst zu einem späteren Zeitpunkt wurde die Analyse mithilfe von KI (im Wesentlichen mit dem GPT4-Modell von OpenAI) wiederholt.

Es stellte sich heraus, dass die Themenextraktion (z. B. Bedürfnisse, erwartete Angebots-
merkmale, Wechselgründe) sehr gut funktioniert. Im Vergleich zum manuell erstellten Bericht wurden praktisch 100 % der Themen erkannt und in den Zusammenfassungen erwähnt.

Hochentwickelte Modelle wie ChatGPT4 schaffen auch eine gute, nahtlose Integration der Originalsprachen z. B. in einen englischen Bericht. Dies gilt allerdings nur für weit verbreitete Sprachen – in Europa z. B. Deutsch, Französisch, Italienisch und Spanisch.

Bei der qualitativen Analyse geht es nicht darum, Kategorien oder Themen auszuzählen Dennoch macht es Sinn, typische Argumentationsmuster von vereinzelten Argumenten zu differenzieren. Kann die generative KI bei der Analyse von Themen in einem umfangreichen Text-Datensatz relevante von weniger relevanten Themen unterscheiden? Im Test mit 20 Interviews zum Thema «Versicherung» hat das gut funktioniert.

Die Analyse-Ergebnisse in Reports des Qualitativen Consumer Research werden oft mit wörtlichen Zitaten illustriert. Mit einem entsprechenden Prompt liefert das KI-Modell passende Zitate, die in ca. 80 % der Fälle nicht modifiziert sind. Teilweise werden die Zitate leicht umformuliert. Auch diese zeitaufwändige Aufgabe erledigt die KI also mit hoher Zuverlässigkeit.

KI kann Empfehlungen formulieren. Das Projekt hat allerdings gezeigt, dass die KI kaum in der Lage ist, die entscheidenden Schlussfolgerungen und Insights unter Berücksichtigung der strategischen Fragestellung, der Marktsituation und des Business Modells der Auftraggeberin zu formulieren. Diese Aufgabe sollte unbedingt eine Senior Marktforscherin oder ein erfahrener Insight-Spezialist übernehmen.

Dies ist ganz klar kein Argument gegen den Einsatz von KI in der qualitativen Marktforschung. Die Ergebnisse verschiedener Projekte zeigen, dass – im Vergleich zum bisherigen, vollständig manuellen Vorgehen – 40 bis 60 % des gesamten Zeitaufwandes eingespart wird. Damit macht KI qualitative Consumer Insights für Auftraggeber sowohl in Bezug auf die Kosten wie auch auf eine agile Umsetzung deutlich attraktiver und somit wettbewerbsfähiger.

Use Case 2: Jenseits von statischen Insight-Reports
Consumer Insight Reports verstauben oft im Archiv der Auftraggebenden. Mit generativer KI ergeben sich vollkommen neue, bisher nicht mögliche Wege, um End-Usern einen Mehrwert zu liefern.

Im konkreten Anwendungsfall wurden acht Tiefeninterviews zum Thema «Schokoladekonsum» durchgeführt. Die KI wurde spezifisch darauf trainiert, innovative Produktkonzepte zu entwickeln, die anschliessend in einer strukturierten quantitativen Online-Erhebung validiert werden können.

Das Konzept wurde also durch das KI-Tool unmittelbar auf Basis der ungefilterten Konsumentenbedürfnisse und unter Berücksichtigung der Sprache der Konsumentinnen und Konsumenten erstellt. Im Test hat die KI plausible, klar formulierte Konzepte entwickelt, die auf relevanten Konsumentenerwartungen aufbauen. Inwieweit diese Ideen bei den Zielgruppen besser oder mindestens gleich gut abschneiden wie von Expertinnen formulierte Konzepte, ist in einem weiteren Schritt zu prüfen.

Durch diesen «Prompt Your Data»-Ansatz gewinnen qualitative Konsumentendaten enorm an Wert. Die Daten können jederzeit auf aktuelle Hypothesen und Innovationsideen abgefragt werden. Die Daten stehen live als «Voice of Consumer» zur Verfügung, ohne Informationsverlust durch Zusammenfassung in einem statischen Bericht.

Use-Case 3: Neutrales Nachfassen bei offenen Fragen in Online-Interviews
Offene Fragen in strukturierten Interviews liefern vertiefte Erkenntnisse zum «Warum?» hinter dem «Was?» der quantitativen Auswertungen. Mit einer gezielten Nachfrage kann eine Interviewerin differenziertere und detailliertere Antworten erhalten. Bei Online-Interviews war ein solches neutrales, motivierendes Nachfragen bisher kaum möglich. Generative KI hat das Potenzial, diese Aufgabe abwechslungsreich und ohne Suggestivfragen zu erfüllen. Als Input benötigt ein entsprechend trainiertes
Modell die ursprüngliche Frage plus die Antworten der Befragten. Die folgende Darstellung illustriert, wie ein solcher Dialog abläuft.

Ethik und Datenschutz

Viele Fragen der Ethik, des Datenschutzes und des Urheberrechts sind im Kontext der generativen KI noch nicht gelöst. Auch sind Urteile im Rahmen der neuen Gesetzgebung – insbesondere auch die Implikationen des EU AI Act – noch ausstehend. Markt- und Sozialforscherinnen tun deshalb gut daran, die bisherigen Grundsätze auch bei der Anwendung der KI zu befolgen, insbesondere die Anonymisierung der Daten zum frühest möglichen Zeitpunkt. Automatisierte Tools, die PII wie Namen oder Orte ausfiltern können, bieten dabei Unterstützung. Selbstverständlich muss die Weitergabe von individualisierten Erkenntnissen für Marketing-Zwecke weiterhin ausgeschlossen bleiben. Eine Herausforderung ist die Tatsache, dass die leistungsfähigsten KI-Modelle von OpenAI, Google und Anthropic auf Servern in den USA laufen. Dies ist in der Schweiz und in der EU trotz der Verfügbarkeit eines DPA (Data Processing Agreements) z. B. von OpenAI ein Problem. Als vorläufige Lösung können Modelle genutzt werden, die auf Schweizer oder EU-Servern laufen.

Dr. Stefan Oglesby, MBA IMD

Inhaber data IQ AG

stefan.oglesby@data-iq.ch, +41 79 641 04 73

Der Autor
Dr. Stefan Oglesby ist Inhaber der data IQ AG und Gründer von insight-lab.ai, einer Plattform für die Analyse und interaktive Nutzung qualitativer Consumer Insights. Er hat langjährige Erfahrung in der qualitativen und quantitativen Marktforschung auf Auftraggeber- und Institutsseite.

Download Artikel
Swiss Insights News #24-8

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Käse oder Kuh – Genuss oder Frust?

Posted on 4 September, 20244 September, 2024 by Susanne Aegler

Der Appetit auf pflanzliche Proteine wächst weltweit. Konsument:innen sind sich zunehmend der negativen Umweltfolgen durch die Produktion von tierischen Lebensmitteln, der Tierwohlproblematik und der möglichen gesundheitlichen Risiken eines übermässigen Fleisch- und Milchproduktekonsums bewusst. Als Reaktion auf diesen steigenden Trend zur Reduktion tierischer Produkte bemühen sich Lebensmittelhersteller, Alternativen zu Fleisch- und Milchprodukten zu entwickeln; Alternativen, die nicht nur eine ausreichende Versorgung mit Nahrungsmitteln besser gewährleisten, sondern auch ein mit tierischen Produkten vergleichbares sensorisches Erlebnis bieten.

Konsument:innen, insb. Flexitarier:innen, welche den Konsum von tierischen Produkten bewusst reduzieren, erwarten bei pflanzlichen Proteinalternativen in Bezug auf Aussehen, Aroma, Geschmack und Textur ein ähnliches sensorisches Erlebnis wie bei den tierischen Analogien. Dies stellt die Produktentwickler:innen vor komplexe Aufgaben: «Wie kann man den rahmigen Geschmack von Milch nachahmen?» oder «Wie lässt sich die fleischige Textur eines Burgers mit Pflanzenproteinen reproduzieren?». Ähnliche Herausforderungen stellen sich bei Käse-Alternativen: «Wie kann man auf pflanzlicher Basis die charakteristische Konsistenz und das unverwechselbare Aroma von Käse nachbilden?». Marktforschungsinstitute spielen eine entscheidende Rolle, wenn es darum geht, die Erwartungen der Konsument:innen zu identifizieren und den Herstellern die notwendigen Einblicke zu liefern. Durch sensorische Tests und umfassende Verbraucherbefragungen können wertvolle Daten gewonnen werden, welche die Grundlage für die Entwicklung und Optimierung entsprechender veganer Produkte bilden.

Konsumententest von pflanzenbasierten Käse-Alternativen

Pflanzliche Fleischersatzprodukte konnten in den letzten Jahren im schweizerischen Lebensmittelhandel eine beachtliche Regalfläche erobern – auch mit neuen, in der Schweiz gegründeten Marken. Dagegen gelten pflanzliche Käse-Alternativen noch immer als Nischenprodukte. Da die Schweiz ein «Käse-Land» ist, hat die IG-Sensorik Schweiz dieses Thema im Jahr 2023 im Rahmen eines Forschungsprojektes etwas genauer unter die Lupe genommen. Als Mitglied der IG-Sensorik Schweiz war das Marktforschungsinstitut SensoPLUS Projektpartner bei dieser Studie, die als Zusammenarbeit von sechs schweizerischen, in der Lebensmittelsensorik tätigen Institutionen durchgeführt wurde*.

Ziel des Projektes war, die sensorische Konsumentenwahrnehmung von pflanzenbasierten Käse-Alternativen zu evaluieren und dabei Konsumenten-Insights über den bestehenden Markt dieser Produkt-Nische zu erhalten. Sechs im Handel erhältliche Käse-Alternativen wurden beurteilt, davon zwei «Typ Weichkäse», zwei «Typ Halbhartkäse am Stück» und zwei «Typ Halbhartkäse in Scheiben».

Die Konsumentenbefragung wurde mittels eines Central Location Tests bei 245 Flexitarier:innen durchgeführt. Gesamteindruck und Aussehen wurden anhand der in der Lebensmittelbranche üblichen hedonischen 9-Punkte-Skala bewertet. Wesentliche Produkteigenschaften betreffend Geschmack/Aroma und Konsistenz wurden mit einer JAR-Skala (JAR = Just about right) beurteilt. Für weitere produktbeschreibende Informationen wurde die bei sensorischen Konsumententests bewährte CATA-Methode (CATA = Check-all-that-apply) verwendet. Dabei konnten aus 39 produktspezifischen Merkmalen zu Aussehen, Konsistenz und Geschmack/Aroma die für das jeweilige Produkt zutreffenden angeklickt werden.

Für die Datenerfassung des Konsumententestes wurde die vom SensoPLUS-Software-Team entwickelte Sensorik-Software SensoTASTE verwendet.

Grosses Potenzial für Optimierung

Die Studie der IG-Sensorik Schweiz zeigte, dass die sensorischen Eigenschaften von pflanzenbasierten Käse-Alternativen den Konsumentenerwartungen noch nicht ausreichend entsprachen. Ein einziges Produkt wies für den Gesamteindruck auf der hedonischen 9er-Skala einen Mittelwert auf, welcher auf der positiven Seite lag (siehe Abbildung 1). Mit einem Wert von 5.8 war diese Akzeptanz jedoch auch nicht wirklich überzeugend. Die Datenanalyse der JAR-Bewertungen und der CATA-Methode identifizierten Einflussfaktoren für negative Auswirkungen auf den Gesamteindruck. Diese lagen insbesondere im Bereich der Konsistenz, zum Beispiel Eigenschaften wie fest, gummig, elastisch oder mehlig, aber auch in den Bereichen Aussehen und Aroma.

Die eher tiefe hedonische Beliebtheit beeinflusste auch die Kaufabsicht. Beim am besten bewerteten Produkt wurde eine Kaufwahrscheinlichkeit von 52 % ermittelt. Die weiteren Produkte würden mit einer mittleren Wahrscheinlichkeit von 17 % bis zu 36 % gekauft werden.

Die Studienteilnehmenden beurteilten pflanzliche Alternativen im Vergleich zu tierischer Milch und Milcherzeugnissen positiver in Bezug auf Trend, Tierwohl, Klimafreundlichkeit und Gesundheitsaspekte (Abbildung 2). Die pflanzenbasierten Alternativen wurden jedoch als weniger schmackhaft wahrgenommen als das vergleichbare tierische Produkt, dies insbesondere von jenen Flexitarier:innen, welche regelmässig Fleisch konsumieren Nachhaltigkeits- und Tierwohlaspekte allein reichen also nicht aus, um Konsument:innen zu einem wiederkehrenden Kauf zu bewegen.

Gesamteindruck und Aussehen von Käse-Alternativen mittels hedonischer 9er-Skala

Abbildung 1:
Gesamteindruck (satter Farbton) und Aussehen (blasser Farbton) mit Mittelwert, Standardabweichung und Signifikanz (unterschiedliche Buchstaben, p=0.05) von ausgewählten Käse-Alternativen (n=245); Poster Eurosense, 2024, IG Sensorik Schweiz

Um pflanzliche Ersatzprodukte dauerhaft in die Ernährung zu integrieren, muss auch das Geschmackserlebnis die Erwartungen erfüllen. Ziel der Lebensmittelbranche sollte es daher sein, das sensorische Profil von pflanzenbasierten Proteinalternativen weiter zu optimieren. Die Marktforschungsinstitute können mit gezielten Analysen und Tests dazu beitragen, die Lücken zwischen Konsumentenerwartungen und den tatsächlichen Produkteigenschaften zu schliessen. In diesem Sinne hat die IG-Sensorik Schweiz nun eine Folgeprojekt zu Fleischalternativen gestartet.

Abbildung 2:
Vergleich tierischer Milch und Milcherzeugnisse zu pflanzlichen Alternativen;
Präsentation DACH 3-Länder-Tagung Sensorik, 2023, IG Sensorik Schweiz

*Projektzusammenarbeit Käse-Alternativen, IG Sensorik Schweiz: Hochschulen (ETHZ, ZHAW, BFH), Forschungsinstitution (Agroscope) und Marktforschungsinstitute (SAM und SensoPLUS). Für detaillierte Projekt-Information, auch zu der neben der Konsumentenbefragung durchgeführten sensorischen Produktprofilierung, der Nährwertanalyse und zum Life Cycle Assessment, dürfen Sie gerne Kontakt
aufnehmen.

Susanne Aegler

Leitung Marketing und Sensorik, SensoPLUS

susanne.aegler@sensoplus.ch, +41 41 726 16 83

Die Autorin
Susanne Aegler leitet das Marketing und die Sensorik bei SensoPLUS. Sie ist Lebensmittel-
Ingenieurin ETH Zürich und verfügt über einen MSc in Human Nutrition, King’s College, London.

.

Download Artikel
Swiss Insights News #24-7

Corporate Member von
SWISS INSIGHTS

www.sensoplus.ch

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Datenqualität erhöhen: Was Fische mit Aufmerksamkeitschecks in Onlineumfragen zu tun haben

Posted on 8 Juli, 20248 Juli, 2024 by Raffael Meier, Kathrin Staub, Nina Gwerder

Mit webbasierten Befragungen lassen sich neue Zielgruppen realisieren. Neben der günstigen Zugriffsmöglichkeit, geografischer Unabhängigkeit und logistischen Vorteilen werden aber auch unseriöse Teilnahmen begünstigt. Der Anteil an verschmutzten Daten nimmt zu und die Aussagekraft der Ergebnisse wird vermindert. Weiter kann eine Website im Gegensatz zu einem handfesten PapierFragebogen auch das «Gefühl einer geringeren Verantwortlichkeit vermitteln» (Johnson, 2005, S. 108). Dies stellt eine ernsthafte Bedrohung für die Validität der Online-Forschung dar (Oppenheimer et al., 2009; Reips, 2002, 2009; Meier & Gwerder, 2022).

Im Gegenzug liefern Onlineumfragen meist auch Metadaten wie Ausfüllzeiten insgesamt, Ausfüllzeiten vom Laden der einzelnen Frage bis zu deren Beantwortung, Browserkennung, Betriebssystem, Bildschirmgrösse, IP-Adresse, Mausbewegungen und weitere Informationen, welche nach der Feldphase, wenn alle gesammelten Daten vorliegen, für ein Screening unaufmerksamer Antworten herangezogen werden können (Barge & Gehlbach, 2012; Bauermeister et al., 2012; Meade & Craig, 2012; Meier & Gwerder, 2022).

Mit unserem Artikel möchten wir einen Über-blick über verschiedene Techniken zur Messung der Aufmerksamkeit in Onlineumfragen ermöglichen – Techniken, die durch akademische Erkenntnisse bestätigt oder überprüft wurden und/oder sich in der Praxis bewährt haben, um die Anzahl «schlechter Antworten» zu begrenzen.

Aber was sind «schlechte Antworten»?

Generell werden als «schlecht» jene Antworten angesehen, die nicht die eigentliche Meinung oder das Wissen der Umfrageteilnehmenden wiedergeben, sondern irgendetwas anderes im Sinne eines Messfehlers. Die Gründe, weshalb Teilnehmende «schlechte» Antworten abgeben, sind vielfältig: Sie verweigern das korrekte Ausfüllen und geben stattdessen Fake-Antworten ab, sie sind schlichtweg abgelenkt, wissen die Antworten nicht oder nehmen sich nicht die nötige Zeit, ihre Antworten sorgfältig abzufüllen oder in die Antwortformate einzupassen. Dabei gibt es eine Auslegeordnung, was solche «schlechten» Daten angeht:

Als sogenannte «sinnlose Antworten» oder auch «content responsive faking» (Meade & Craig, 2012; Burns & Christiansen, 2011) werden in der Regel jene Antworten verstanden, bei denen Teilnehmende die Frage an sich aufnehmen und verstehen, aber bewusst keine gültige Antwort geben wollen («intended faking»). Dazu zählen betrügerisches Ausfüllen, z. B. in psychologischen Testverfahren wie dem MMPI2 (Rogers, 2003) oder in Job Assessments (Delgado, 2011) – aber auch bewusstes oder unbewusstes item-bezogenes, sozial erwünschtes Antwortverhalten (Paulhus, 1984).

Demgegenüber stehen «content nonresponsivity» Antworten, die in keinem Zusammenhang zum Inhalt der Fragen stehen (Nichols et al., 1989; Desimone et al., 2018). Sie werden auch als «random response» (Beach, 1989; Berry et al, 1992), «careless responding» (Curran, Kotrba, & Denison, 2010) oder «protocol invalidity» (Johnson, 2005) bezeichnet. Darunter fallen auch die Subkategorien «response sets» (Jandura, Peter, & Küchenhoff, 2012) und «response styles» (Van Vaerenbergh & Thomas, 2012) – alles formale Verschmutzungen von Daten (Meier & Gwerder, 2022), die mehr oder weniger unabhängig von der Fragestellung und nicht zentraler Gegenstand dieses Artikels sind.

Eine Zwischenkategorie bilden Teilnehmende, die an sich bereit wären, eine gültige Antwort abzugeben, dies aber nicht vollumfänglich tun. Beim Satisficing-Verhalten lesen Befragte die Fragestellung lediglich oberflächlich und geben jene Antwort ab, die ihnen zuerst in den Sinn kommt oder ihnen plausibel erscheint (Krosnick, 1991, 1999; Krosnick, Nayaran, & Smith, 1996;). «Pseudoopinions» (Bishop, Oldendick, Tuchfarber, & Bennett, 1980) und «nonattitudes» (Franzén, 2011; Schuman & Presser, 1980) sind Antworten von Befragten, die nicht über das nötige Wissen verfügen, um eine passende Antwort auszuwählen, die Frage falsch oder gar nicht verstehen oder die Fragen und Antworten nicht oder nicht akkurat genug lesen können. Gerade bei Fragebögen für Kinder ist solches «unintentional random responding» häufig. Auch nicht-item-bezogenes, mehr persönlichkeitsbedingtes, sozial erwünschtes Antwortverhalten fällt in diese Zwischenkategorie. Erwähnt sei auch das Under- and Overreporting als Abweichung hin zu mehr oder weniger wahren Antworten durch zu positiv oder zu negativ konnotierte Fragen.

Umfrageforschende stellen sich dieser Herausforderung verminderter Aufmerksamkeit schon, bevor Daten erhoben werden. Dabei gibt es zwei Grundstrategien: Sie integrieren diskret eingewobene Aufmerksamkeitstests in die Fragebögen, um unaufmerksame Teilnehmende zu entlarven und zugunsten der Datenqualität aus der Analyse auszuschliessen, oder sie integrieren explizite, gut sichtbare Aufmerksamkeitsprompts, um Teilnehmende ganz offen darum zu bitten, aufmerksam zu antworten.
Zur Erinnerung: Aus Sicht des traditionellen kognitiven Modells der Umfragebeantwortung (CMSR, Cognitive Model of Survey Response) von Tourangeau, Rips und Rasinski (2000) durchlaufen Antwortende vier Schritte: erstens das Verständnis der Frage, zweitens das Abrufen relevanter Informationen aus dem Gedächtnis, drittens das Bilden eines Urteils aufgrund der abgerufenen Informationen und viertens das Auswählen einer passenden Antwort resp. das Einpassen oder Editieren der Antwort in das vorgegebene Antwortformat. Das nur oberflächliche oder unvollständige Durchlaufen dieser Schritte nennt Krosnick (1991; 1999) «non-optimal response behavior». Diese fehlende Aufmerksamkeit beeinflusst den kognitiven Beantwortungsablauf auf mindestens vier Arten:

Teilnehmende verstehen die Frage nicht richtig, weil sie diese nicht oder nicht seriös gelesen haben. Dadurch werden nicht die richtigen Informationen abgerufen.
Es werden nicht alle Informationen abgerufen, was die Urteilsbildung verzerrt.
Ein Urteil wird heuristisch gebildet und weist eine mangelhafte Reliabilität auf.
Teilnehmende können die passende Antwortkategorie nicht auswählen, weil sie die verfügbaren Optionen nicht genügend aufmerksam verarbeitet haben.

Zusammengefasst: Unaufmerksamkeit führt zu Mess- und Non Response-Fehlern. Unaufmerksamkeit führt auch zu einer Situation, in der «das Rauschen, das durch Teilnehmer entsteht, die die Anweisungen nicht lesen, die Zuverlässigkeit der Daten verringert und die mit der Durchführung von Studien verbundenen Kosten erhöht, da die Anzahl der Teilnehmer, die für ein zuverlässiges Ergebnis erforderlich ist, künstlich erhöht wird» (Oppenheimer et al. 2009, S. 873).

Explizite Ernsthaftigkeitsprüfungen

Was kann nun aber konkret getan werden, um dieses komplexe Datenqualitätsproblem in Antwortdaten zu adressieren? Zunächst: Warum schwierig, wenn es auch einfach geht? Anstatt durch komplizierte Verfahren auf das Verhalten von Teilnehmenden zu schliessen, kann direkt gefragt werden, ob Aufmerksamkeit vorhanden war. Diesen Ansatz verfolgen Ernsthaftigkeitsprüfungen (engl. «seriouseness checks»).
Durch Fragen wie «Gibt es Gründe, weshalb wir Ihre Antworten nicht in unsere Analyse einfliessen lassen sollten?» oder «Es wäre sehr hilfreich, wenn Sie uns an dieser Stelle mitteilen könnten, ob Sie ernsthaft teilgenommen haben, sodass wir Ihre Antworten für unsere wissenschaftliche Analyse verwenden können, oder ob Sie sich nur durchgeklickt haben, um sich die Umfrage anzuschauen.», wird den Teilnehmenden die Möglichkeit gegeben, offen zu deklarieren, dass sie die Befragung nicht gewissenhaft ausgefüllt haben (Aust, 2013). Als Antwortmöglichkeiten bieten sich an: «Ich habe ernsthaft teilgenommen» und «Ich habe nur durchgeklickt, bitte verwenden Sie meine Daten nicht für die Analyse» (s. Abbildung 1).

Abbildung 1: Expliziter Seriousness Check am Ende einer Befragung.

Die entsprechende Frage kann entweder zu Beginn (Reips, 2002, 2008, 2009) oder am Ende des Fragebogens platziert werden (Buchanan et al., 2010; Ihme et al., 2009). In der Praxis wird sehr oft die zweite Option bevorzugt, da die Teilnehmenden am Ende der Befragung ihr tatsächliches Verhalten während der Befragung zuverlässiger einschätzen können als ihr geplantes Handeln.

Ernsthaftigkeitsprüfungen wurden auch im Rahmen einer Befragung zu den Bundestagswahlen 2009 untersucht (Aust et al, 2013). Insgesamt gaben 112 (3.2 %) der 3’490 Teilnehmenden an, nicht seriöse Angaben gemacht zu haben. In der anschliessenden Analyse zeigte sich, dass die restlichen 3’378 Teilnehmenden konsistentere Angaben gemacht hatten und dass die Prognose des Wahlergebnisses besser mit der Realität übereinstimmte, wenn die 112 Fälle, die sich selbst als nicht ernsthaft deklariert hatten, ausgeschlossen wurden. Andere Autorinnen und Autoren fanden in unterschiedlichen Kontexten auch Werte in der Höhe von 5 bis 6 % oder 30 bis 50 % (Musch & Klauer, 2002; Reips, 2009). Grundsätzlich dürfte die Menge an unseriösen Teilnahmen stark vom Befragungskontext sowie von den Anreizen der Teilnehmenden abhängen. Beispielsweise ist bei Befragungen, bei welchen am Ende eine Belohnung winkt, mit sehr tiefen Selbstdeklarationsquoten zu rechnen, da die Teilnehmenden befürchten, auf eine Gewinnchance verzichten zu müssen, wenn sie zugeben, unseriös ausgefüllt zu haben. Dies hängt wohl stark davon ab, wie Ernsthaftigkeitsprüfung und «Gewinnseite» verquickt sind.

Die Herausforderung bei diesem direkten Ansatz liegt grundsätzlich in einer geschickten Formulierung, welche die Teilnehmenden zu einer ehrlichen Antwort motiviert, sie gleichzeitig aber nicht vor den Kopf stösst. Auch gibt es Befragungen, bei denen dieser Ansatz aufgrund der Beziehung zu den Teilnehmenden weniger geeignet ist. Beispielsweise besteht bei einer offenkundigen Ernsthaftigkeitsprüfung am Ende einer Kundenzufriedenheitsbefragung das Risiko, Kundinnen und Kunden, welche sich die Zeit für die Befragung genommen haben, zu verärgern oder zu irritieren, was bei diesem Anwendungsfeld von den Auftraggebenden weniger gut toleriert würde. Bei Panel-Befragungen und Studien hingegen eignet sich dieser Ansatz besser, solange eine ehrliche Antwort auf diese Frage den Erhalt der Incentivierung für die Umfrage nicht verhindert.

Fischers Fritz fischt rote Heringe

Eine weitere Methode zur Identifizierung von Aufmerksamkeit besteht darin, offenkundig falsche oder absurde Antworten in einen Fragebogen einzubauen. Was aber hat das mit Fischen zu tun? Im englischen Sprachgebrauch bezeichnet ein Red Herring (roter Hering) ein Element, das in die Irre führt oder von einer relevanten oder wichtigen Frage ablenkt.

In der Umfrageforschung ist mit einem Red Herring eine Ablenkungsfrage als Massnahme zur Qualitätskontrolle gemeint. In eine Reihe von regulären Fragen werden ungewöhnliche Fragen eingefügt, um damit diejenigen Teilnehmenden zu identifizieren, welche die Umfrage vollständig gelesen und sich mit den Inhalten beschäftigt haben resp. jene, die dies nicht getan haben. Die bei Befragungen zu den sinnvollen, regulären Fragen gehörenden Ablenkungsfragen umrahmen dabei oft die dadurch nicht mehr saliente, «getarnte» Validitätsfrage. Als Hypothese gilt: Wer den roten Hering nicht sieht, ist nicht aufmerksam bei der Sache. Im Folgenden wird auf mehrere solche «Heringsarten» eingegangen, bei welchen Teilnehmende den Datenqualitätsfischern «ins Netz gehen» können.

Fiktive Antworten

In der NZZ-Leserbefragung 2005/2006 ergab sich ein kurioses Ergebnis: 189 von 1’883 Teilnehmenden (10 %) gaben an, dass ihnen das NZZ-Folio-Magazin mit dem Thema «Katastrophen» von allen Folios am besten gefallen habe. Der Clou? Dieses Heft gab es nie. Im Fall der NZZ scheint es plausibel, dass einige der 189 Probanden das Folio mit dem Thema «Katastrophen» wählten, weil sie sich nicht an alle NZZ-Folios erinnern konnten, dies aber nicht zugeben wollten und daher ein Heft mit einem spannend klingenden Titel wählten (Porst, 2014). Dabei ist anzumerken, dass zusätzliche Antwortvorgaben wie «Ich kenne die NZZ-Folio-Magazine nicht», «keine Angabe/weiss nicht» oder «Ich kann mich nicht entscheiden» hilfreiche Ausweichkategorien gewesen wären, die im NZZ-Szenario bei dieser Frage zur Steigerung der Datenqualität beigetragen, jedoch umgekehrt weniger Rückschlüsse auf verminderte Aufmerksamkeit zugelassen hätten.

Zu diesem sogenannten antizipierenden Antwortverhalten im Falle von Unwissen sind historisch zahlreiche Beispiele bekannt. Bishop et al. (1986) beschreiben diesen «pressure to answer» ausführlich. So gaben 70 % der Befragten in einem Fragebogen eine klare Meinung zum «Metallic Metal Act» ab – einem völlig fiktiven Gesetz (Gill, 1947). Gleiches geschah mit 30.8 % zum «Agricultural Trade Act of 1978» (Schuman und Presser, 1981) und mit 26.4 % zum «Monetary Control Bill» (Schuman und Presser, 1981).
Auch Werner Wilken, ein aktuell nicht existierender Politiker, wird regelmässig in Umfragen gekannt, aber «man stimmt mit seiner Politik nicht ganz überein» (Porst, 2014). Dies gilt auch für weitere fiktive Politikerinnen und Politiker (EMNID, 1981; Reuband, 2000). Und je höher die formale Schulbildung der Befragten, desto bekannter sind die Fiktiven.

Aber warum ist das so? Die Kognitionspsychologie liefert eine Antwort: Befragungen wird Sinn unterstellt («die Ersteller des Fragebogens werden wohl seriös gearbeitet haben»): sinnlose Antworten widersprechen der Erwartungshaltung der Teilnehmenden. Dazu kommt eine Hemmung, zuzugeben, dass man etwas nicht kennt, das offenbar allgemein bekannt sein muss, da in einem Fragebogen ja kaum Spezialwissen abgefragt wird. Diese Annahmen treffen gehäuft Befragte, von denen viel formales Wissen erwartet wird. Stellt sich dann noch die Frage, ob man mit seiner Politik einverstanden ist, müssen die Flunkerer erneut lügen. Da sie ihn nicht kennen, liegt es nahe, dass die Politik nicht den eigenen Präferenzen entspricht. Fragen mit fiktiven Antworten sind also nur eingeschränkt geeignet, um nicht vorhandene Aufmerksamkeit zu erkennen. Sie widerspiegeln häufig nur die menschliche Eigenschaft, sich nicht blamieren zu wollen und deshalb möglichst passende oder konsistente Kommunikation zu selekieren.

Bogus-Items

Sogenannte «Bogus-Items» bergen das Risiko von heuristischen, spekulativen oder sozial erwünschten Ersatzantworten wie im vorherigen Abschnitt beschrieben deutlich weniger, weil die «richtige» Antwort sehr offensichtlich ist. Es handelt sich dabei zum Beispiel um Aussagen wie «Wasser ist nass», bei denen auf einer Zustimmungsskala eigentlich nur «stimme voll und ganz zu» adäquat ist.

Wer diese Frage mit «stimme ganz und gar nicht zu» beantwortet, hat höchstwahrscheinlich den Fragetext nicht aufmerksam genug gelesen (Gummer et al., 2021). Eine ähnliche Bogus-Frage ist «Ich wurde am 30. Februar geboren» (Beach, 1989) oder «I am currently filling out a questionnaire» (Hargittai, 2009; Meade & Craig, 2012). Bogus-Items werden oft in längere Abfolgen von Likert-Skalen, meist auf derselben Seite («Tabellenfragen») im Sandwich eingebettet.

Es wird also Aufmerksamkeit gemessen – und lediglich bei nicht offenkundig oder extrem genug formulierten Items auch die Tendenz, Nichtwissen mit Vermutungen zu kaschieren. Eine falsche Antwort lässt bei geeigneten Bogus-Items tatsächlich kaum Zweifel offen, dass Teilnehmende unaufmerksam oder absichtlich falsch geantwortet haben: Die Wahrscheinlichkeit, dass jemand falsch positiv als unaufmerksame Person klassifiziert wird, ist also geringer. Aber Vorsicht: In Item-Batterien mit einem untergemischten Bogus-Item, in welchen a) alle Items die gleiche Skalenrichtung aufweisen und b) das Bogus-Item auch die richtige Antwort in dieser Richtung anbietet, können falsch negative Antworten entstehen – Nichtaufmerksamkeit bleibt dann unentdeckt, weil bei allen Items und zum Beispiel auch beim Bogus-Item «I am currently filling out a questionnaire» die «stimme voll und ganz zu»-Antwort – ohne zu lesen oder nachzudenken – ausgewählt wurde.

Teilnehmende erwarten in den meisten Umfragekontexten keine «Trick»-Items und laufen Gefahr, mit einer Zustimmungstendenz zu antworten, sobald das Item nur ausreichend schwammig formuliert ist (Meade & Craig, 2012). So könnten einige Teilnehmende dem Item «Meine Freunde vergleichen mich mit einem Pudel» tatsächlich willentlich zustimmen, weil Pudel soziale, verträgliche Tiere sind und Teilnehmende annehmen könnten, genau dies solle latent mit diesem Item «gemessen» werden. Auch hier kommt das kognitionspsychologische Thema «Sinn und Sensemaking» (Weick, 1995) zum Vorschein.
Das Ziel von fiktiven Fragen und Bogus-Items ist es also, unaufmerksame Teilnehmende mit einer Antwort zu erwischen, die nicht möglich ist. Bei Bogus-Items (hier sind auch einfache Rechenaufgaben wie «2+3=?» beliebt) kann mit hoher Wahrscheinlichkeit davon ausgegangen werden, dass Teilnehmende, die diese nicht korrekt beantworten, zu wenig aufmerksam sind. Bei fiktiven Fragen/Items dagegen (wie jener zu den NZZ-Folios) ist es möglich, dass auch aufmerksame Personen den Check nicht bestehen. Dies kann jedoch aus Sicht der Datenqualität auch wünschenswert sein: Ist das Ziel der Befragung die Identifikation der besten Magazin-Ausgabe dieses Jahres, sollten optimalerweise nur Personen in der Stichprobe sein, die sich genügend mit dem Magazin auseinandersetzen, um dessen Ausgaben in einer Liste wiederzuerkennen. Es geht dann aber nicht nur um den Ausschluss von Unaufmerksamkeit, sondern auch von weiteren Störvariablen wie Inkompetenz, sozialer Erwünschtheit oder inhaltsunabhängiger Zustimmungstendenz/Akquieszenz (Bauer, 2000).

Der Wirkungsgrad des Einsatzes von Bogus-Items zur Erkennung von Nichtaufmerksamkeit wurde breiter diskutiert (Breitsohl and Steidelmüller, 2018; Curran, 2016; Goldsmith, 1989), es wurde aber nur eine spärliche qualitätsverbessernde Wirkung attestiert und es wurden andere Methoden, zum Beispiel das blosse Einbauen von «Weiss nicht»-Antworten, die einen veritablen Teil der unsicheren oder antwortunwilligen Personen abfangen.

Anweisungsprüfungen (IMC, IRI)

Ein weiterer Ansatz zur Überprüfung der Aufmerksamkeit von Teilnehmenden ist die Integration von Anweisungsprüfungen. Hier erhalten die Teilnehmenden eine klare Anweisung zur Beantwortung. Wer diese Anweisung nicht befolgt, weist einen ungenügenden Grad an Aufmerksamkeit auf.

Anweisungsprüfungen können in Form einer ganzen Frage («Instructional Manipulation Checks» IMC) umgesetzt werden. Diese werden auch «screener» genannt (Berinsky et al., 2014). Ein Beispiel ist das Hinzufügen eines zusätzlichen Satzes am Ende einer Frage – eine Bemerkung, die den Befragten anweist, die Frage zu ignorieren und eine bestimmte Antwort zu geben, zum Beispiel «Bitte ignorieren Sie diese Frage und wählen Sie unten die vierte Antwort an.» (Alvarez & Li, 2021). Weitere Beispiele zeigen Abbildungen 2 und 3.

Abbildung 2: Instructional Manipulation Check mit hohem Schwierigkeitsgrad (Kung, 2018)

Abbildung 3: Instructional Manipulation Checks mit mittlerem Schwierigkeitsgrad (eigenes Beispiel)

Als zweite Form kann ein einzelnes Item innerhalb einer ansonsten inhaltlich relevanten Tabellenfrage implementiert werden («Instructed Response Items» IRI), beispielsweise als fünftes Item von acht mit dem Wortlaut «Wählen Sie in dieser Zeile ‘sehr zufrieden‘ an». (Gummer et al., 2021; DeSimone et al., 2015). Ein weiteres Beispiel zeigt Abbildung 4.

Abbildung 4: Instructed Response Item (IRI) in Zeile 6 (angelehnt an Podsakoff et al., 1990)

IMC und IRI finden in der Umfrageforschung unter anderem aufgrund der relativ einfachen Umsetzung grossen Anklang.

Die Exklusion von Teilnehmenden, welche IMCs nicht bestehen, führt dann zu höherer Konsistenz in der Datenanalyse (Oppenheimer et al., 2009). Das Exkludieren von IRI-Fällen aus dem Datenmaterial wird allerdings kontrovers diskutiert und hat nicht in allen Fällen eine höhere Datenqualität zur Folge (Gummer et al., 2021; Grezki et al., 2015; Anduiza & Galais, 2016). IRIs sind aber wie herkömmliche Methoden definitiv genauso oder teilweise sogar etwas zuverlässiger in der Lage, nichtseriöse Teilnehmende zu identifizieren (Jones et al., 2015; Gummer et al., 2021), beispielsweise mittels Messung der Bearbeitungsdauer (Speeder) oder der Identifikation von Null-Varianz-Antwortverhalten, sogenanntem Straightlining (Meier & Gwerder, 2022).

Moderne Systeme für Onlineumfragen können bei falsch beantworteten IMC und IRI die Frage auch nochmals stellen mit dem Hinweis, dass eine unplausible Antwort gegeben wurde, und der Bitte, die Fragen und Antworten genau zu lesen. Mit dieser alternativen Strategie sollen die fehlbaren Teilnehmenden nicht mehr ausgeschlossen werden. Sie sollen ihre Antworten korrigieren. Und genau dieses erneute Stellen einer IMC, so lange, bis die Teilnehmenden diese bestehen, führt zu erhöhter Aufmerksamkeit in den Folgefragen. Daher sollte diese spezifische Variante von IMC und IRI dann auch in einer der ersten Fragen des Fragebogens umgesetzt oder alternativ vor besonders wichtigen Fragen platziert sein, deren Beantwortung besonders gewissenhaft erfolgen soll. Diese Erkenntnis wurde in weiteren Studien besonders auch für komplexe Folgefragen bestätigt (Miller & Baker-Prewitt, 2009; Hauser & Schwarz, 2015), was den Wert von Anweisungsprüfungen als «moral changer» unterstreicht.
Wie bei den Ernsthaftigkeitsprüfungen liegt die Herausforderung der Anweisungsprüfungen bei der Akzeptanz der Befragten. Eine oder in langen Fragebögen zwei IRIs oder IMCs werden von den meisten Teilnehmenden akzeptiert, eine zu hohe Zahl kann Befragte jedoch verärgern und deren Motivation negativ beeinflussen.

Pseudo-Fragen

Eine Alternative zu Anweisungsprüfungen stellen sogenannte «Mock Vignettes» dar, eine kurze Aufmerksamkeitsprüfung («Mock Vignette Check», MVC), die vor der eigentlichen Befragung eingefügt wird. Die Teilnehmenden werden dabei aufgefordert, einen kurzen informativen Text («Vignette») zu lesen und anschliessend einige Fragen dazu zu beantworten. Mit diesen Fragen wird geprüft, ob die Vignette aufmerksam gelesen und korrekt verstanden wurde. Teilnehmende, welche einen eingangs gestellten MVC bestehen, weisen im weiteren Fragebogenverlauf (gemessen an typischen Aufmerksamkeitsmetriken) höhere Aufmerksamkeit aus (Kane et al., 2023). Ausserdem zeigte sich, dass die zu Beginn des Fragebogens gestellten Pseudo-Fragen keinen negativen Effekt auf das Antwortverhalten im restlichen Fragebogen aufweisen, diesen also abgesehen von den Auswirkungen höherer Aufmerksamkeit nicht beeinflussten. Eine solche «Mock Vignette» zu Beginn des Fragebogens könnte mit einer Formatübung kombiniert werden, um die Teilnehmenden auf die Fragetypen vorzubereiten. Zum Beispiel: Diese erste Frage ist inhaltlich nicht relevant. Wir möchten Sie mit dem Ausfüllen vertraut machen und bitten Sie, den folgenden Text trotzdem genau zu lesen und die vier Fragen dazu auf der folgenden Seite korrekt zu beantworten.

Unserer praktischen Erfahrung nach sind solche experimentell anmutenden Checks für Kunden- und Mitarbeitendenbefragungen leider nur eingeschränkt geeignet und werden von Auftraggebenden selten akzeptiert, da Teilnehmende das Gefühl haben könnten, unter einen Generalverdacht mangelnder Aufmerksamkeit gestellt worden zu sein. Gummer et al. (2021) stellen in ihrer Studie denn auch fest, dass ein nicht unerheblicher Teil der Befragten Aufmerksamkeitskontrollen als lästig (16.8 %), verwirrend (10.1 %), manipulierend (10.4 %) oder als Kontrolle empfanden (25.0 %) resp. nicht belehrt werden wollen (24.3 %). Immerhin befand ein Drittel der Stichprobe (31.4 %) Aufmerksamkeitskontrollen als motivierend.

Widersprüchliche Antwort-Paare/-Sets

Widersprüchliche Antworten über zwei oder mehr inhaltlich gleiche Fragen hinweg sind eine weitere Methode, um Aufmerksamkeit zu erkennen. Und sie können in der Regel bei der Betrachtung einzelner Fragebogen relativ einfach identifiziert werden. Geben Teilnehmende bei zwei Fragen, die dasselbe Konstrukt erfassen, komplett unterschiedliche Antworten, oder ist eine bestimmte Antwort-Kombination schlichtweg unmöglich (beispielsweise ein 21-jähriger Student mit 15 Jahren Berufserfahrung), kann dies ein Hinweis darauf sein, dass Befragte dem Fragebogen nicht genügend Aufmerksamkeit schenken. Wenn eine Befragung zahlreiche Tabellenfragen enthält, kann bei der ersten und bei der letzten Tabellenfrage je einmal dasselbe Item eingebaut werden (z. B. «Meine Arbeitsstelle gefällt mir sehr.» und «Ich bin mit meiner Arbeitsstelle sehr zufrieden.»). Es kann dann überprüft werden, ob die Antworten diametral abweichen. Solche Fälle können dann für die Analysen exkludiert werden.

Aber Achtung: Bei heiklen Themen sind auch die aufmerksamen Teilnehmenden nicht a priori willig, wahre Antworten zu geben. In einer aktuellen Online-Studie zu riskantem Cannabisgebrauch fanden sich ähnliche Werte – 45.3 % der Teilnahmen wiesen inkonsistente Antworten auf (Schell et al., 2022).
Wie aber sollte nun mit widersprüchlichen Antworten als Indikator für fehlende Aufmerksamkeit verfahren werden? Geeignete Methodiken für die jeweilige Befragung könnten sein (Bauer & Johnson, 2000):

Nichts tun: Auch widersprüchliche Antworten werden für die Analyse verwendet. Die Anzahl gibt lediglich einen Hinweis auf die Datenqualität und relativiert die Ergebnisse und deren Interpretation im Sinne eines Konfidenzintervalls.
Torhüter («Gatekeeper»): Nur die erste Antwort eines Falles wird für die Analyse verwendet. Darauffolgende einzelne Antworten, welche der ersten widersprechen, werden als «missing items» umcodiert. Der Datensatz an sich fliesst mit ein.
Limitierter Ansatz: Es wird eine Liste von besonders wichtigen Fragen definiert. Widerspricht sich ein/e Teilnehmer/in innerhalb dieser wichtigen Fragen, werden alle Antworten der Teilnehmerin/des Teilnehmers bei diesen wichtigen Fragen als «missing items» in die Ergebnisse aufgenommen.
Globaler Ansatz: Sämtliche Fälle mit inkonsistenten Antworten werden aus der Analyse ausgeschlossen.
Ansatz der inhaltlich überwiegenden Beweislage. Der Fragebogen und die besonders wichtigen Fragen aller Befragten, welche widersprüchliche Antworten gaben, werden sorgfältig geprüft und der Fallstatus wird auf der Grundlage der «überwiegenden Beweislage» zugewiesen, die durch die Auswertung der Antworten ermittelt wird (z. B. wenn es darum geht, Fragebögen zu typisieren und einer Kategorie zuzuordnen). Alle Antworten, die dem zugewiesenen Fallstatus widersprechen, werden als «missing items» betrachtet.

Je nach verwendetem Ansatz zum Umgang mit inkonsistenten Antworten ergibt sich eine unterschiedliche Zahl von exkludierten Fällen – 33 bei «nichts tun» bis zu 1374 beim «globalen Ansatz» (Bauer & Johnson, 2000) – und es ergeben sich damit signifikant unterschiedliche Analyseergebnisse. Es ist daher von grosser Bedeutung, die gewählte Methode kritisch zu bewerten und im Auswertungsreport genauestens zu deklarieren.

Umgepolte Items

Eine Spezialform widersprüchlicher Angaben sind doppelte Items, von denen eines rotiert ist. Solche «Fallen» (wir sind wieder bei roten Heringen) müssen dann zweimal genau entgegengesetzt beantwortet werden, ansonsten wäre eine Antwort widersprüchlich. Zum Beispiel kann ein Item im ersten Teil des Fragebogens untergebracht werden, ein zweites Item dann gegen Ende, wobei typischerweise dieselbe Likert-Skala verwendet wird. Das zweite Item erfragt denselben Inhalt wie das erste in leicht veränderter Formulierung, wird aber negiert (= rotiert) formuliert. Beispielsweise kann gefragt werden: «Das Produkt gefällt mir im Allgemeinen sehr gut.» (5-er-Skala von «trifft sehr zu» bis «trifft gar nicht zu»). Im weiteren Fragebogenverlauf könnte mit ausreichend grossem Abstand gefragt werden: «Ich finde die Produkte generell mangelhaft.» (5-er-Skala von «trifft sehr zu» bis «trifft gar nicht zu»). Konsistentes, aufmerksames Ausfüllverhalten müsste hier mindestens einigermassen diametrale Ergebnisse erzeugen. Die beiden Skalenwerte innerhalb desselben Falles dürften nach Umpolung eines der beiden Items (Gleichausrichtung) nur eine geringe Varianz aufweisen. Fälle, bei denen diese Bedingung verletzt wurde, könnten wegen Nichtaufmerksamkeit für die Datenanalyse exkludiert werden. Ein konkretes Beispiel zeigt Abbildung 5.

Abbildung 5: Erstes und drittes Item rotiert
(angelehnt an Podsakoff et al., 1990)

Es ist allerdings zu bedenken, dass reverse Items unterschiedliche Bedingungen für gute und schwächere Leserinnen und Leser schaffen, da negativ formulierte Items eine höhere Sprachkompetenz und höheren kognitiven Aufwand erfordern und damit einen Bias in die Ergebnisse einsteuern können (Suárez-Alvarez et al., 2018), vor allem bei sprachlich schwächeren Zielgruppen (z. B. bei Kindern und Jugendlichen).

Offensichtliche Fragen

Eine weitere Technik zur Aufmerksamkeitsprüfung sind Fragen, die eine einzige plausible Antwort zulassen, nämlich «trifft zu». Werden solche Fragen auf einer Likert-Skala mit «trifft nicht zu» beantwortet, kann auf mangelnde Aufmerksamkeit geschlossen werden. Beispiel: «Es gibt Menschen, die eine andere Meinung haben als ich» oder «E ist ein Buchstabe». Allerdings ist eine Abstützung auf einzig diese Art von Aufmerksamkeitscheck kaum empfehlenswert und solche Fragen laufen Gefahr, als deutliche Fremdkörper wahrgenommen zu werden, weil deren Funktion von einer Vielzahl an Befragten nicht verstanden wird und sie dadurch irritierend wirken.

A Priori Fakes mit Bots

In den letzten Jahren wurde ein neues Problem erkannt, welches auf den ersten Blick aussieht wie aufmerksamkeitsloses Ausfüllen: das Einsetzen von Botnetzen (automatisierten Scripts, die Formulare ausfüllen) und dedizierten Umfrage-Bots zur Beantwortung kompletter Fragebogen, auch mit offenen Textantworten, bei welchen qualitätsmässig komplett sinnlose, willkürliche Antworten technisch abgefüllt werden. Dabei erzielen Teilnehmende im besten Fall Vergütungen für komplettierte Fragebögen, ohne dass sie selbst tatsächlich Fragen beantworten (Dupuis, 2018; Fullerton und McCullough, 2022). Gegen diese Techniken gibt es wenige wirkungsvolle Massnahmen. Das Abfragen einer anonymen «uniform identifier», einer «einzigartigen Identifikationskennung der Teilnehmenden». So kann beispielsweise in einer Single-Choice-Frage mit einigen Antwortvorgaben das Domizilland der Teilnehmenden abgefragt werden, wobei Bots dann über alle Datensätze hinweg in der Regel eine breite Varianz erzeugen, echte Teilnehmende aber nur das effektive Land auswählen, in dem sie wohnen und in dem die Studie auch durchgeführt wird oder nach dem sie rekrutiert werden – schlichtweg deshalb, weil sie die Frage verstehen (Fullerton & McCullough, 2022). Panels verwenden auch einen Test-Retest-Mechanismus, bei dem gleiche Fragen mit zeitlich stabilen Antworterwartungen über mehrere Fragebögen hinweggestreut sind. Wenn die Antworten der einzelnen Teilnehmenden auf diese Fragen nicht genau oder akzeptabel nahe übereinstimmen, wird der entsprechende Befragte aus dem Datensatz entfernt (Fullerton et al., 2009). Auch Google ReCAPTCHA können zu Beginn eines Online-Fragebogens eingesetzt werden; diese für Menschen einfach zu lösenden kleinen Aufgaben verwenden «eine fortschrittliche Risikoanalyse-Engine und adaptive Herausforderungen, um bösartige Software von missbräuchlichen Aktivitäten auf Ihrer Website abzuhalten» (Google, 2024).

Item Response Theory

Ein elaboriertes Verfahren zur Aufmerksamkeitserkennung post hoc, also nach bereits erfolgter Datenerhebung, stellen auch RaschPersonen-Fit-Indices dar. Sie bieten einen methodisch fortschrittlichen Ansatz zur Erkennung abweichender Antworten und identifizieren atypische Antwortmuster auf Personenebene, die zum Beispiel als Folge von Betrug oder fehlender Aufmerksamkeit auftreten können (Beck et al., 2019; Li & Olejnik, 1997). Dieses Verfahren ist allerdings nur anwendbar in Skalen, die nach der Item Response Theory (IRT) erstellt wurden (van den Wittenboer et al., 1997) und die eine ausreichende Länge und eine volle Range von Itemschwierigkeiten aufweisen. Für die Marktforschungspraxis sind diese Voraussetzungen im Unterschied zu psychologischen Testverfahren oder Kompetenztests oft nicht gegeben.

Guttman Errors

Guttman-Fehler, welche die Grundlage vieler nichtparametrischer Person-Fit-Statistiken bilden, eignen sich auch direkt für eine Posthoc-Erkennung abweichender Antwortmuster: Diese treten dann auf, wenn ein Befragter ein schwieriges Item zu einem Thema richtig und danach ein leichtes Item zum selben Thema falsch beantwortet. Voraussetzung dazu sind auch hier Skalen, die Konstrukte mit mehreren Items unterschiedlicher Schwierigkeit (item difficulty) messen. Guttman-Fehler können dann gezählt oder in Relation zur Gesamtzahl der Items gesetzt werden. So können abweichende Antwortmuster in Daten mit dichotomen Antwortskalen genau identifiziert werden (Emons, 2008; Karabatsos, 2003; Meijer, 1994; Meijer, Egberink, Emons, & Sijtsma, 2008). Beck et al. (2019) zeigen auch weitere Person-Fit-Methoden wie U3 personfit statistic, HT coefficient und standardized log likelihood auf.

Fazit

Eine proaktive Behandlung des Themas «Aufmerksamkeit in Umfragen» kann mit zahl-
reichen Methoden umgesetzt werden, womit in der Regel die Datenqualität gesteigert werden kann. Es gibt aber keine eigentlichen Standardmethoden oder klare Empfehlungen. Viel wichtiger ist es, die Methoden den Erfordernissen der einzelnen Befragung und der Zielgruppe anzupassen und – gerade wenn Meinungsforschung für Auftraggebende durchgeführt wird – die Methodenwahl transparent zu begründen und zu dokumentieren. Umfrageverzerrungen werden somit vermindert und die Validität von Studien wird erhöht. Eher seltener führt das Exkludieren von nicht aufmerksamen Teilnehmenden jedoch zu einer thematisch relevanten Verzerrung der Stichprobe – dieses Risiko muss von Fall zu Fall geprüft werden.
Aufmerksamkeitsprüfungen haben auch sekundäre Effekte und können aus verschiedenen Gründen die Beteiligung der Befragten erhöhen:

Sie können die Umfragen für Teilnehmende interessanter machen.
Rote Heringe oder Instructional Manipulation Checks unterbrechen die Monotonie einer Umfrage.
Sie halten die Aufmerksamkeit der Befragten aufrecht.
Aufmerksamkeitsprüfungen machen zwar den Fragebogen etwas länger, erhöhen jedoch die Wahrscheinlichkeit, dass die Befragten jede Frage vollständig lesen und verstehen.
Einzelne Teilnehmende ärgern sich über «Fremdkörper» oder «Fallen».
Partizipanten erkennen die Checks und setzen Vertrauen in die Wichtigkeit und Professionalität der Befragung.
Die Datenanalyse kann nach Exklusion betroffener Datensätze zuverlässiger und ressourcenschonender sein.
Ein sehr hoher Anteil an unaufmerksamen Teilnehmenden weist im Pretesting auf einen langen, komplizierten, unverständlichen oder monotonen Fragebogen hin oder darauf, dass die Teilnahmemotivation in der Stichprobe nicht ausreicht – ein Thema, dem allenfalls mit der richtigen Ansprache der Teilnehmenden und mit der Kommunikation des persönlichen immateriellen Profits für die Teilnehmenden begegnet werden könnte. Eine Incentivierung mit Geld kann gefährlich sein und Aufmerksamkeitsprobleme sogar im Sinne einer Jagd auf abgeschlossene Fragebögen verschärfen.

Leiner (2019) empfiehlt generell, als wichtigstes Merkmal von Aufmerksamkeit eine angemessene Ausfülldauer des Fragebogens zu Rate zu ziehen, vor allem, wenn im Fragebogen keine Informationen nachgeschlagen werden müssen oder andere komplexe Fragen gestellt werden, die Unterbrüche generieren.

Möglicherweise können mehrere Methoden und Fragen zur Aufmerksamkeitsprüfung eingesetzt werden, die sich methodologisch ergänzen. Auch die Position von Aufmerksamkeitsfragen innerhalb des Fragebogens sollte bedacht werden. Während die Positionierung am Anfang des Fragebogens auf die Teilnehmenden eher präventive Wirkung auf die weitere Aufmerksamkeit im Fragebogen zeigt und für die Auswertungen ein Signal für eine von Anfang an mangelnde Aufmerksamkeit sein kann (z. B. bei testweise Teilnehmenden, Incentivierungsjägern, Teilnahmen aus Neugier), motivieren zwischendurch gestellte Aufmerksamkeitschecks die Teilnehmenden und «halten sie wach». Gegen Ende der Befragung gestellte Checks dienen meist primär der Identifikation von Teilnehmenden, deren Interesse oder deren Konzentration im Fragebogenverlauf verloren gegangen ist.

Um Teilnehmende nicht zu verärgern oder als Versuchsobjekte zu deklassieren, sollten solche Items jedoch insgesamt vor allem bei fragilen Zielgruppen und allenfalls bei Personen, die nur einmal teilnehmen (z. B. Kunden, Messebesucher etc.), zurückhaltend oder sogar nur in Pretests eingesetzt werden, um eine Kenngrösse für eine allfällige Aufmerksamkeitsproblematik zu erhalten und diese für Konfidenzintervalle der Ergebnisse der Hauptbefragung im Hinterkopf zu behalten.

Literaturverzeichnis weiter unten.

Raffael Meier

Mitgründer/ CTO onlineumfragen.com

raffael.meier@onlineumfragen.com, +41 44 500 5137

Kathrin Staub

Mitgründerin/Principal Consultant, onlineumfragen.com

kathrin.staub@onlineumfragen.com, +41 44 500 5136

Nina Gwerder

ehem. Lead Consultant, onlineumfragen.com

nina.gwerder@onlineumfragen.com, +41 44 500 5140

Die Autoren

Raffael Meier ist Mitgründer/CTO von onlineumfragen.com und Pionier der deutschsprachigen Online-umfragetechnologie. Er befasst sich mit gesellschaftlichen, technischen und methodologischen Aspekten von Daten.

Kathrin Staub ist Mitgründerin von onlineumfragen.com und Principal Consultant. Spezialisiert auf die Beratung namhafter nationaler und internationaler Unternehmen in den Bereichen Methodik und Fragebogenkonstruktion.

Nina Gwerder ist ehemalige Lead Consultant bei onlineumfragen.com mit Schwerpunkten in den Themen Statistik, Datenqualität und effektive Auswertung von Onlineumfragen.

Download Artikel
Swiss Insights News #24-6

Corporate Member von
SWISS INSIGHTS

https://www.onlineumfragen.com/

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Literatur

[1] Alvarez, R. M., & Li, Y. (2022). Survey Attention and Self-Reported Political Behavior, Public Opinion Quarterly, Volume 86, Issue 4, Winter 2022, Pages 793–811, https://doi.org/10.1093/poq/nfac048
[2] Anduiza, Eva, & Carol Galais (2016). Answering Without Reading: IMCs and Strong Satisficing in Online Surveys. International Journal of Public Opinion Research. doi:10.1093/ijpor/edw007.
[3] Aust, F., Diedenhofen, B., Ullrich, S. & Musch, J. (2013). Seriousness checks are useful to improve data validity in online research. Behavioral Research Methods, 45, S. 527-535.
[4] Barge, S. & Gehlbach, H. (2012). Using the theory of satisficing to evaluate the quality of survey data. Research in Higher Education, 53(2), 182–200. doi:10 . 1007 / s11162-011-9251-2
[5] Baron-Epel, O., Kaplan, G., Weinstein, R., & Green, M. S. (2010). Extreme and acquiescence bias in a biethnic population. European Journal of Public Health. 20 (5): 543–548. doi:10.1093/eurpub/ckq052.
[6] Bauer, E., & Johnson, T. (2000). Editing Data: What Difference Do Consistency Checks Make? American Journal of Epidemology, 151(9), S. 921-926.
[7] Bauermeister, J. A., Pingel, E., Zimmerman, M., Couper, M., Carballo-Dieguez, A., & Strecher, V. J. (2012). Data quality in HIV/AIDS webbased surveys: Handling invalid and suspicious data. Field Methods, 24(3), 272– 291. doi:10.1177/1525822X12443097
[8] Beach, D. A. (1989). Identifying the random responder. Journal of Psychology: Interdisciplinary and Applied, 123(1), 101-103.
[9] Beck, M. F., Albano, A. D., & Smith, W. M. (2019). Person-Fit as an Index of Inattentive Responding: A Comparison of Methods Using Polytomous Survey Data. Applied psychological measurement, 43(5), 374–387. https://doi.org/10.1177/0146621618798666
[10] Berinsky, A.J., Margolis, M.F., & Sances, M.W. (2014), Separating the Shirkers from the Workers? Making Sure Respondents Pay Attention on Self-Administered Surveys. American Journal of Political Science, 58: 739-753. https://doi.org/10.1111/ajps.12081
[11] Berry, D. T. R., Wetter, M. W., Baer, R. A., Larsen, L., Clark, C., & Monroe, K. (1992). MMPI2 random responding indices: Validation using a self-report methodology. Psychological Assessment, 4(3), 340-345. doi:10.1037/1040-3590.4.3.340
[12] Bishop, G. F., Oldendick, R. W., Tuchfarber, A. J., & Bennett, S. E. (1980). Pseudoopinions on public affairs. Public Opinion Quarterly, 44(2), 198–209.
[13] Bishop, G. F., Tuchfarber, A. J., & Oldendick, R. W. (1986). Opinions on Fictitious Issues: The Pressure to Answer Survey Questions. The Public Opinion Quarterly, 50(2), 240–250. http://www.jstor.org/stable/2748887
[14] Breitsohl, H. & Steidelmüller, C. (2018). The impact of insufficient effort responding detection methods on substantive responses: Results from an experiment testing parameter invariance. Applied Psychology, 67(2), 284–308. doi:10.1111/apps.12121
[15] Buchanan, T., Heffernan, T. M., Parrott, A. C., Ling, J., Rodgers, J., & Scholey, A. B. (2010). A short self-report measure of problems with executive function suitable for administration via the internet. Behavior Research Methods, 42, S. 709-714.
[16] Burns, G. N., & Christiansen, N. D. (2011). Methods of Measuring Faking Behavior, Human Performance, 24:4, 358-372, DOI: 10.1080/08959285.2011.597473
[17] Curran, P. G. (2016). Methods for the detection of carelessly invalid responses in survey data. Journal of Experimental Social Psychology, 66, 4–19.
[18] Delgado, K, Tristan, E., Kung, M (Mei-Chuan) & O’Connell, M. (2011). Mean score and validity differences among bogus item endorsement groups.
[19] DeSimone, J. A., Harms, P. D., & DeSimone, A. J. (2015). Best practice recommendations for data screening. Journal of Organizational Behavior, 36(2), 171–181. doi:10.1002/job.1962
[20] Dupuis, M., Meier, E., & Cuneo, F. (2018). Detecting computergenerated random responding in questionnairebased data: A comparison of seven indices. Behavior Research Methods, 51(5), 2228–2237. https://doi.org/10.3758/s13428-018-1103-y
[21] EMNID (1981): Die Popularität von Bundesministern – eine methodenkritische Befragung. In:EMNID-Informationen 8: 14-16
[22] Emons W. H. M. (2008). Nonparametric personfit analysis of polytomous item scores. Applied Psychological Measurement, 32, 224-247
[23] Farrell, A., Danish, S., & Howard, C. (1991) Evaluation of data screening methods in surveys of adolescents’ drug use. Psychol Assess, 1991(3), S. 295-298.
[24] Franzén, M. (2011). Nonattitudes / pseudoopinions: Definitional problems, critical variables, cognitive components and solutions. (C/D Extended Essay No. 14). Retrieved from http://www.diva- portal.org/smash/get/ diva2:1032161/FULLTEXT01.pdf
[25] Fullerton, S., & McCullough, T. (2023). Using quality control checks to overcome pitfalls in the collection of primary data via online platforms. Journal of Marketing Analytics, 11(4), 602–612. doi:10.1057/s41270-023-00249-z
[26] Fullerton, S., D. Taylor, and J. Watson. 2009. Webbased instruction and online delivery of classes: Where are we now? American Journal of Business Education 2 (1): 91–100.
[27] Gill, S. (1947). How do you stand on sin? Tide, 74(March), 72
[28] Goffin, R. D., & Christinasen, N. D. (2003). Correcting personality tests for faking: A review of popular personality tests and an initial survey of researchers. International Journal of Selection and Assessment, 11: 340–344.
[29] Goldsmith, R. E. (1989). Reducing spurious response in a field survey. The Journal of Social Psychology, 129(2), 201–212. doi:10.1080/00224545.1989.9711721
[30] Google (2023). reCAPTCHA protects your website from fraud and abuse without friction https://www.google.com/recaptcha/about/. Accessed 2 June 2024.
[31] Greszki, R., Meyer, M., & Schoen, H. (2015). Exploring the Effects of Removing “Too Fast” Responses and Respondents from Web Surveys. Public Opinion Quarterly, 79(2), 471–503. https://doi.org/10.1093/poq/nfu058
[32] Gummer, T., Rossmann, J., & Silber, H. (2021). Using Instructed Response Items as Attention Checks in Web Surveys: Properties and Implementation. Social Methods & Research, 50(1), S. 238-264.
[33] Haghighat, R. (2007). The Development of the Brief Social Desirability Scale (BSDS). Europe’s Journal of Psychology, 3(4). https://doi.org/10.5964/ejop.v3i4.417
[34] Hargittai, E. (2009). An update on survey measures of weboriented digital literacy. Social Science Computer Review, 27(1), 130–137. doi:10 . 1177 / 0894439308318213
[35] Hauser, D. & Schwarz, N. (2015). It’s a Trap! Instructional Manipulation Checks Prompt Systematic Thinking on ‘Tricky’ Tasks. Sage Open, 5(2), S. 1-6.
[36] Ihme, J. M., Lemke, F., Lieder, K., Martin, F., Müller, J. C., & Schmidt, S. (2009). Comparison of ability tests administered online and in the laboratory. Behavior Research Methods, 41, S. 1183-1189.
[37] Jones, M., House, L., & Gao, Z. (2015). Respondent Screeingin and Revealed Preference Axioms: Testing Quarantining Methods for Enhanced Data Quality in Web Panel Surveys. Public Opinion Quarterly, 79(3), S. 687-709.
[38] Johnson, J. A. (2005). Ascertaining the validity of individual protocols from webbased personality inventories. Journal of Research in Personality, 39(1), 103–129. doi:10.1016/j.jrp.2004.09.009
[39] Kane, J., Velez, Y., Barbas, J. (2023). Analyze the attentive and bypass bias: Mock vignette checks in survey experiments. Political Science Research and Methods, 11(2), S.293-310.
[40] Karabatsos G. (2003). Comparing the aberrant response detection performance of thirty-six personfit statistics. Applied Measurement in Education, 16, 277-298
[41] Kemper, C. J., Beierlein, C., Bensch, D., Kovaleva, A., & Rammstedt, B. (2012). Eine Kurzskala zur Erfassung des Gamma-Faktors sozial erwünschten Antwortverhaltens: Die Kurzskala Soziale Erwünschtheit-Gamma (KSE-G) (GESIS Working Papers 2012|25). Köln: GESIS.
[42] Krosnick, J. A. (1991). Response strategies for coping with the cognitive demands of attitude measures in surveys. Applied Cognitive Psychology, 5(3), 213–236. doi:10. 1002/acp.2350050305
[43] Krosnick, J. A. (1999). Survey research. Annual Review of Psychology, 50(1), 537–567. doi:10 . 1146 / annurev. psych.50.1.537
[44] Krosnick, J. A., Narayan, S. S., & Smith, W. R. (1996). Satisficing in surveys: Initial evidence. In M. T. Braverman, & J. K. Slater (Eds.), Advances in Survey Research (pp. 29-44). San Fransisco: Jossey-Bass.
[45] Kung, F.Y.H., Kwok, N. and Brown, D.J. (2018), Are Attention Check Questions a Threat to Scale Validity? Applied Psychology, 67: 264-283. https://doi.org/10.1111/apps.12108
[46] Li, M. F., & Olejnik, S. (1997). The power of rasch personfit statistics in detecting unusual response patterns. Applied Psychological Measurement, 21, 215–231.
[47] Meade, A. W. & Craig, S. B. (2012). Identifying careless responses in survey data. Psychological Methods, 17(3), 437–455. doi:10.1037/a0028085
[48] Meier, R., & Gwerder, N. (2023). Dirty on the go? Data quality in online surveys between PC and mobile devices. In Swiss Insights (Hrsg.), Swiss Insights Annual Report 2023.
[49] Meier, R., & Gwerder, N. (2022). Dirty Data in Online Surveys. How to improve data quality before and after the field phase. In Swiss Insights (Hrsg.), Swiss Insights Annual Report 2022 (S. 51-62).
[50] Meijer R. R. (1994). The number of Guttman errors as a simple and powerful personfit statistic. Applied Psychological Measurement, 18, 311-314
[51] Meijer R. R., Egberink I. J. L., Emons W. H. M., Sijtsma K. (2008). Detection and validation of unscalable item score patterns using item response theory: An illustration with Harter’s Self-Perception Profile for children. Journal of Personality Assessment, 90, 227-238
[52] Miller, J. & Baker-Prewitt, J. (2009). Beyond ‘Trapping’ the Undesirable Panelist: The Use of Red Herrings to Reduce Satisficing. Präsentiert an der CASRO Panel Quality Conference, 2. Februar 2009. New Orleans, USA.
[53] Nichols, D. S., Greene, R. L., & Schmolck, P. (1989). Criteria for assessing inconsistent patterns of item endorsement on the MMPI: Rationale, development, and empirical trials. Journal of Clinical Psychology, 45(2), 239-250. doi:10.1002/1097-4679(198903)45:2<239::AIDJCLP2270450210>3.0.CO;2-1
[54] Nießen, D., Partsch, M. V., Kemper, C. J., & Rammstedt, B. (2019). Social Desirability-Gamma Short Scale (KSE-G). Zusammenstellung sozialwissenschaftlicher Items und Skalen (ZIS). https://doi.org/10.6102/zis271_exz
[55] Oppenheimer, D., Meyvis, T., & Davidenko, N. (2009). Instructional Manipulation Checks: Detecting Satisficing to Increase Statistical Power. Journal of Experimental Social Psychology, 45, S. 867-72.
[56] Paulhus, D. L. (1984). Two-component models of socially desirable responding. Journal of Personality and Social Psychology, 46(3), 598-609.
[57] Podsakoff, P.M., MacKenzie, S.B., Moorman, R.H., & Fetter, R. (1990). Transformational leader behaviors and their effects on followers’ trust in leader, satisfaction, and organizational citizenship behaviors. Leadership Quarterly, 1(2), 107–142. http://doi.org/10.1016/1048-9843(90)90009-7
[58] Porst, R. (2014). Fragebogen – Ein Arbeitsbuch. 4. Auflage, Wiesbaden: Springer Fachmedien.
[59] Reips, U.-D. (2002). Standards for internetbased experimenting. Experimental Psychology, 49, S. 243-256.
[60] Reips, U.-D. (2008). How Internetmediated research changes science (S. 268–294). Cambridge, MA: Cambridge University Press.
[61] Reips, U.-D. (2009). Internet experiments: Methods, guidelines, metadata. Human Vision and Electronic Imaging XIV, Proceedings of SPIE, 7240, 724008.
[62] Reuband, Karl-Heinz (2000): „Pseudo-Opinions“ in Bevölkerungsumfragen. Wie die Bürger fiktive Politiker beurteilen. In: ZA-Informationen 46: 26-38
[63] Rogers, R., Sewell, K. W., Martin, M. A., & Vitacco, M. J. (2003). Detection of feigned mental disorders: A meta-analysis of the MMPI-2 and malingering. Assessment, 10(2), 160-177. doi:10.1177/1073191103010002007
[64] Schell, C., Godinho, A., & Cunningham, J. (2022). Using a consistency check during data collection to identify invalid responding in an online cannabis screening survey. BMC Medical Research methodology, 22(67).
[65] Schuman, H. & Presser, S. (1980). Public opinion and public ignorance: The fine line between attitudes and nonattitudes. American Journal of Sociology, 85(5), 1214– 1225.
[66] Schuman, H., & Presser, S. (1981). Questions and Answers in Attitude Surveys. New York: Academic Press.
[67] Stevens, H. (2017, November 19). Catching a red herring. Chicago Tribune. https://www.chicagotribune.com/lifestyles/ct-tribu-words-work-herring-20110202-story.html
[68] Suárez-Alvarez, J., Pedrosa, I., Lozano, L. M., García-Cueto, E., Cuesta, M., & Muñiz, J. (2018). Using reversed items in Likert scales: A questionable practice. Psicothema, 30(2), 149–158.
[69] Ross, R.S. (2008). Popularization of ‘red herring’ by English political agitator William Cobbett. In: Comments on Etymology 38:1-2, 2008, S. 62–69.
[70] Tett, R. P., & Christiansen, N. D. (2007). Personality tests at the crossroads: A reply to Morgeson, Campion, Dipboye, Hollenbeck, Murphy, and Schmitt. Personnel Psychology, 60: 267–293.
[71] Tourangeau, R., Rips, L. J., & Rasinski, K. (Eds.). (2000). The psychology of survey response. Cambridge University Press. https://doi.org/10.1017/CBO9780511819322
[72] Weick, K. E. (1995). Sensemaking in organizations. Thousand Oaks [u.a.] : Sage.
[73] van den Wittenboer, G., Hox, J., & de Leeuw, E. (1997). Aberrant Response Patterns in Elderly Respondents: Latent Class Analysis of Respondent Scalability (pp. 155–162). Münster, Germany: Waxman.

Die Schweiz trotzt dem internationalen Stimmungstief

Posted on 8 April, 20248 April, 2024 by Dr. Kim Buchmüller

2023 untersuchte das Markt- und Sozialforschungsinstitut intervista zusammen mit den Partnerinstituten des globalen IRIS-Netzwerks die weltweite Stimmungslage zu den Themen Klima, Wirtschaft und Gesundheit. Das IRIS-Netzwerk ist auf sechs Kontinenten aktiv und damit weltweit eines der grössten Marktforschungsnetzwerke.

Für diese Studie wurden in insgesamt 27 Ländern in Nord- und Südamerika, Europa, Asien und Australien über 18’000 Personen zu ihren Ansichten befragt. In der Schweiz wurden die Teilnehmenden über das intervista Online-Panel rekrutiert, in den meisten anderen Ländern jeweils über regionale Panelanbieter.
Im vorliegenden Artikel werden die Daten der Nullmessung 2023 dargestellt. Die Befragung wird zukünftig jährlich durchgeführt.

Schweizer Bevölkerung im internationalen Vergleich zuversichtlich

Obwohl Schweizer:innen nicht unbedingt für ihren Optimismus bekannt sind, zeigen sie sich im internationalen Vergleich überdurchschnittlich zuversichtlich hinsichtlich der aktuellen Lage im eigenen Land. Eine Mehrheit der Bevölkerung der befragten Länder glaubt, dass sich ihr Land in die falsche Richtung bewege. In der Schweiz ist das Gegenteil der Fall: Rund zwei Drittel der Bevölkerung denken, dass der richtige Weg eingeschlagen sei.

Zudem beurteilt die Schweizer Bevölkerung auch die wirtschaftliche Situation deutlich positiver als die Bevölkerung anderer Länder. Dennoch zeigen sich auch in der Schweiz kritische Tendenzen: Fast die Hälfte der Bevölkerung berichtet, dass sie 2023 im Vergleich zum Vorjahr den Gürtel enger schnallen musste. Gespart wird vor allem bei Kleidern und Restaurantbesuchen; glücklicherweise muss kaum jemand auf Medikamente verzichten oder kann seine Miete nicht bezahlen. Dies ist keine Selbstverständlichkeit: Im internationalen Durchschnitt berichtete jede:r Fünfte, die Miete oder den Hypothekarzins nicht mehr rechtzeitig bezahlen zu können. Zudem konnte sich fast jede:r Vierte nicht mehr leisten, eigentlich benötigte Medikamente zu konsumieren.

Auch in der Schweiz wurde zum Messzeitpunkt 2023 eine Schwächung der Wirtschaft erwartet, wenn auch bei weitem nicht so stark wie anderswo. Einzig einige Schwellenländer (Indien, Mexiko, Indonesien) zeigten sich optimistischer und erwarteten trotz der damaligen Weltlage ein Wirtschaftswachstum.

Abb. 1: Erwartete wirtschaftliche Entwicklung in der Schweiz (links) und im internationalen Vergleich (rechts)

Nachhaltige Kaufentscheidungen

Die im internationalen Vergleich angenehme wirtschaftliche Lage, in der sich viele Schweizer:innen zum Zeitpunkt der Erhebung 2023 befinden, hat einen direkten Einfluss auf ihre alltäglichen Entscheidungen. So können es sich Schweizer:innen eher leisten, bei Kaufentscheidungen auf Nachhaltigkeit zu achten. In fast allen untersuchten Dimensionen erreicht die Schweizer Bevölkerung höhere Werte als die befragte Weltbevölkerung. Besonders auffällig ist dies bei Produktverpackungen. Ganze 92 Prozent und damit ein im weltweiten Vergleich überdurchschnittlich hoher Anteil der Bevölkerung legten in der Schweiz Wert auf reduzierte oder recyclebare Verpackungen.

Abb. 2: Nachhaltige Entscheidungen weltweit (links) und in der Schweiz (rechts)

Wahrnehmung des Klimawandels

Generell sind Klimawandel und Nachhaltigkeit Themen, die bewegen. Ganze 82 Prozent der Schweizer Bevölkerung machen sich Sorgen über die Folgen des Klimawandels. Damit befindet sich die Schweiz im internationalen Mittelfeld und auf gleichem Niveau wie andere europäische Länder (zum Beispiel Spanien, Deutschland und Österreich). Die grösste Besorgnis äussern Bewohner:innen in Schwellenländern. Beispielsweise zeigen sich in der Türkei 98 Prozent der Bevölkerung besorgt hinsichtlich des Klimawandels.

In den Industrieländern geht man davon aus, dass nicht das eigene Land oder gar die eigene Wohnregion, sondern in erster Linie andere Länder vom Klimawandel betroffen sind. Auch in den Schwellenländern findet sich diese differenzierte Wahrnehmung, jedoch in bedeutend geringerem Ausmass. Dies widerspiegelt die Situation, dass Schwellenländer von den Folgen des Klimawandels tendenziell stärker betroffen sind als Industrieländer.

Zur Frage, ob die Folgen des Klimawandels noch abgefedert werden können, gibt es in der Bevölkerung unterschiedliche Meinungen. In der Schweiz ist knapp die Hälfte noch optimistisch, während 35 Prozent der Bevölkerung denken, dass es bereits zu spät sei, schwerwiegende negative Effekte des Klimawandels zu vermeiden. Im internationalen Vergleich sind nur 23 Prozent der befragten Bevölkerung pessimistisch.
Rund 70 Prozent der Schweizer:innen glauben nicht mehr daran, dass man weltweit Netto-Null-Emissionen erreichen wird. Auch hier sind die Schweizer:innen deutlich pessimistischer als der globale Durchschnitt. Allerdings ist die Schweizer Bevölkerung etwas optimistischer, wenn es um die Frage geht, ob in der Schweiz das Netto-Null-Ziel erreicht werden kann. Dann glaubt bloss noch die Hälfte, dass dieses Ziel nicht erreicht werden kann.

Abb. 3: Zuversicht, Netto-Null-Emissionen in der Schweiz (oben) und weltweit (unten) zu erreichen

Einschätzung der Gesundheitsversorgung

Wenn man an den Klimawandel denkt, könnte man meinen, dass zusätzliche (finanzielle) Ressourcen viele Probleme lösen könnten – schliesslich sind Personen in den reicheren Industrienationen deutlich optimistischer. Bei der gesundheitlichen Versorgung zeigt sich aber, dass Geld nicht alles ist.

Aber zunächst die guten Nachrichten. Auch wenn sich Schweizer:innen über hohe Krankenkassenprämien ärgern, so meint doch mehr als die Hälfte der Schweizer Bevölkerung, dass wir ein gutes oder sogar hervorragendes Gesundheitssystem haben. Damit bewerten Schweizer:innen im internationalen Durchschnitt das nationale Gesundheitssystem deutlich positiver als Personen anderer Länder. Vier von fünf Schweizer:innen sind gar überzeugt, dass das Schweizer Gesundheitssystem zu den Besten der Welt gehöre. Nur in wenigen Ländern (Spanien, Südkorea, Japan) ist die Bevölkerung ebenso positiv zum eigenen Gesundheitssystem eingestellt.

Abb. 4: Wahrgenommene Qualität des eigenen Gesundheitssystems im internationalen Vergleich

Es zeigen sich aber auch Schattenseiten. Wenn es um die Probleme im Gesundheitssystem geht, meint die Mehrheit, dass dies nicht ein Problem der finanziellen Ressourcen sei. Ganz im Gegenteil, die Probleme seien auf ein ineffizientes Management zurückzuführen. In anderen Ländern wird dies ähnlich eingeschätzt. So erstaunt es auch nicht, dass mehr als die Hälfte der Schweizer Bevölkerung mit dem politischen Management des Gesundheitssystems nicht einverstanden ist. Ein ähnliches Bild zeigt sich im restlichen Europa und in Amerika. In Asien und Australien hingegen unterstützt man die gesundheitspolitischen Entscheide der eigenen Regierung deutlich stärker.

Abb. 5: Ursachen der Probleme im Gesundheitssystem in der Schweiz (oben) und im weltweiten Vergleich (unten)

Studiendesign

Datenerhebungsmethode:
Online-Befragung im intervista Online-Panel sowie in den Panels von 24 IRIS-Partnerinstituten; in zwei Ländern wurde die Stichprobe über einen externen Panelpartner erhoben
Zielgruppe:
Bevölkerung im Alter von über 18 Jahren, jeweils repräsentativ nach Alter, Geschlecht und Siedlungstyp
Stichprobengrösse:
Min. n = 500 pro Land, total n = 18’572 (maximaler Standardfehler für die Schweiz +/- 4.3 %, für alle Länder zusammen +/- 0.7 %)
Feldzeit:
Februar bis April 2023

Weiterführende Informationen zur Studie finden Sie unter: Gesundheitssystem, Wirtschaftsentwicklung und Klimawandel.

Dr. Kim Buchmüller

Projektleiterin, intervista AG

kim.buchmueller@intervista.ch, +41 31 511 39 04

Die Autorin
Dr. Kim Buchmüller ist Projektleiterin beim Marktforschungsinstitut intervista. Sie promovierte an der Eidg. Technischen Hochschule Zürich (ETH Zürich) und ist Expertin für Fragestellungen zum Verhalten von Konsument:innen.

Download Artikel
Swiss Insights News #24-5

Corporate Member von
SWISS INSIGHTS

www.intervista.ch

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Teil der Lösung sein

Posted on 25 März, 202425 März, 2024 by Martin Fenböck

Da Nachhaltigkeit in unserem Leben und in den Medien eine immer grössere Rolle spielt, beeinflusst sie unweigerlich auch die Werbebranche. Die Anerkennung des Klimawandels und sozialer Themen wie Gender Equality und Diversity wächst und die Schweizer Konsumentinnen und Konsumenten erwarten, dass Marken verantwortungsvolle Massnahmen ergreifen. Doch wie können Werbung und
Nachhaltigkeit ineinandergreifen, um eine nachhaltigere Zukunft und verantwortungsbewusstes Markenwachstum zu fördern?

Botschaften kombinieren

Im Zuge einer grossen, globalen Metaanalyse der Werbe-Pretest-Daten von Ipsos wurden Werbungen mit Botschaften zur Nachhaltigkeit identifiziert und deren Effektivität bewertet. Ipsos setzt für Werbepretests Creative|Spark ein. Eine Lösung, die in der Schweiz und international sowohl als Full-DIY aber auch begleitet durch Ipsos Schweiz Consultants über die Ipsos.Digital Plattform genutzt wird.

Die Auswertung zeigt, dass erfolgreiche Werbemassnahmen ein Gleichgewicht zwischen Nachhaltigkeit und den Markenbotschaften bieten. Werbungen, die sich ausschliesslich auf Nachhaltigkeit konzentrieren, übermitteln oft keine einzigartige oder unterhaltsame Botschaft. Bessere Ergebnisse erzielen Werbemassnahmen, die Marken- und Nachhaltigkeitsbotschaften kombinieren; das zeigt, wie
wichtig es ist, die Botschaften zur und über die Marke nicht zu vernachlässigen.

Eines von vielen positiven (internationalen) Beispielen ist diesbezüglich die Volvo-Kampagne «The Ultimate Safety Test».

Ein weiterer Trend bei Werbungen mit Bezug zur Nachhaltigkeit betrifft die Gestaltung der Botschaft. Werbungen, die sich auf die Menschen und ihre Probleme konzentrieren und eine nachhaltige Lösung anbieten, sind effektiver als solche, die nur über die Marke sprechen. Am wirksamsten sind Werbungen, die eine Lösung anbieten und die Konsumentinnen und Konsumenten in
ein nachhaltiges Verhalten hineinziehen, indem sie ihnen diesen Schritt leicht machen.

Eine geringere Anzahl an Werbungen entscheidet sich dafür, direkt mit dem «Problem» zu beginnen,
quasi als Einführung in das Nachhaltigkeitsthema, das sie behandeln werden. Solche
Ansätze reichen von der Darstellung der Auswirkungen des Klimawandels bis hin zu lokalen
Unternehmen in Schwierigkeiten oder von diskriminierten Minderheiten. Während der Aufbau von Problem und Lösung in der Werbung recht traditionell ist, sind die Probleme hier sehr ernst
und können teilweise von der Zielgruppe auch als generisch wahrgenommen werden.

Empathie als Schlüssel

Funktioniert diese Art des Aufbaus gut, wenn es um Nachhaltigkeit und ernste Themen geht? Die
Antwort ist: ja! Insgesamt übertreffen Werbungen, die mit dem Problem beginnen, andere Werbungen
in Bezug auf ihre Wirksamkeit (+11 Prozent).

Will man Teil der Lösung sein, ist das Anerkennen des Problems ein guter Anfang, Ein gutes
Beispiel ist die «Forklift»-Kampagne von Sodastream. Der Spot geht sowohl auf Nachhaltigkeit
als auch auf die Markenbotschaft ein: Im ersten Teil wird der übermässige Verbrauch
von Plastikflaschen aufgezeigt. Im zweiten Teil wird den Zuschauerinnen und Zuschauern eine
Lösung angeboten, wie sie zu kohlensäurehaltigem Wasser kommen – verknüpft mit den markanten
Markenzeichen wie dem Geräusch der Sodastream-Flasche beim Befüllen mit Gas.

Wichtig ist hier die Empathie. Man sollte das Problem anerkennen, aber auf einer menschlichen,
alltäglichen Ebene. Werbung, die den Menschen in den Mittelpunkt und das Thema
Nachhaltigkeit in einen alltäglichen Kontext stellt, ist wirksamer als Werbung, die auf die
beängstigenden Elemente des Klimawandels verweist. Versucht man, eine nachhaltige Botschaft
zu vermitteln, ist es wichtig, sie visuell darzustellen. Dies kann mit Bildern oder Statistiken
geschehen; die Werbung muss jedoch deutlich machen, worum es geht und wie die
Marke zur Nachhaltigkeit beiträgt.

Ein weiterer wichtiger Aspekt betrifft die Glaubwürdigkeit. Um Anschuldigungen wegen Greenwashings
und daraus resultierende Kritik zu vermeiden, müssen Marken sicherstellen, dass ihre
Botschaften glaubwürdig und authentisch sind und ihre Versprechen zur Nachhaltigkeit eingehalten
werden. Übertriebene Markenversprechen werden als wenig glaubhaft wahrgenommen und
haben einen negativen Effekt. Kleine Schritte und Erfolge eines nachhaltigeren Produktes oder einer
Dienstleistung, die mit der Nutzung der Marke durch den Konsumenten verknüpft sind, erzielen
in der Regel bessere Ergebnisse.

Zusammenfassend lässt sich sagen, dass Werbung und Nachhaltigkeit Hand in Hand gehen
können und sollten. Die Menschen wünschen sich, dass Marken sich für eine bessere Welt
einsetzen und dies auch kommunizieren. Aber das blosse Hinzufügen einer Nachhaltigkeitsbehauptung
zu einer Werbung ist nicht ausreichend. Werbungen müssen sich von anderen abheben, ein neues, ansprechendes und relevantes Erlebnis bieten und effektiv nachweisen, dass die Marke Teil der Lösung ist. Letztendlich stehen wir am Anfang eines schwierigen Übergangs zu einer nachhaltigeren Zukunft, in
der noch viel zu tun ist. Dieser Übergang wird nicht ohne das Handeln der Marken und ohne
überzeugende Werbemassnahmen zur Unterstützung dieser Veränderung stattfinden.

Der Artikel zu diesem Thema ist am 27.10.2023 in der Handelszeitung erschienen («Teil der Lösung sein») und wurde für SWISS INSIGHTS erweitert und mit Grafiken ergänzt. Erfahren Sie mehr zu diesem Thema durch unsere beiden White Paper «Sustainability and Advertising: Friends or foes?» und «Sustainability Advertising: How empathy and credibility can help you get it right» sowie durch das Ipsos in Switzerland
Webinar «Making magnificent sustainable advertising».

Martin Fenböck

Senior Client Director & Regional Division Leader Ipsos,
Leiter einer der drei Ipsos Niederlassungen in der Schweiz
– in Root D4 / Luzern

Martin.Fenboeck@ipsos.com, +41 79 404 92 31

Download Artikel
Swiss Insights News #24-4

Institute Member von
SWISS INSIGHTS

www.ipsos.com

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Sollte Net Promoter Score durch andere Customer Feedback Metrics ergänzt werden?

Posted on 27 Februar, 202427 Februar, 2024 by Prof. Dr. Steffen Müller

Einleitung

Die meisten Unternehmen erfassen Kundenfeedback durch Befragungen. Die von ihnen verwendeten Customer Feedback Metrics (CFMs) unterscheiden sich jedoch: Einige messen Kundenzufriedenheit, andere verwenden den Net Promoter Score (NPS) und wieder andere berechnen einen Kundenzufriedenheitsindex (CSI) – ein Mass für die Kundenzufriedenheit, das aus verschiedenen Indikatoren besteht. Insbesondere der NPS ist zu einer beliebten Kennzahl geworden, seit Reichheld (2003) ihn im Harvard Business Review veröffentlicht hat. Der NPS basiert auf der Wahrscheinlichkeit, ein Unternehmen weiterzuempfehlen, gemessen auf einer 11-Punkte-Skala. Befragte, die eine Bewertung zwischen 0 und 6 abgeben, gelten als Detractors, Befragte, die eine Bewertung zwischen 7 und 8 abgeben, gelten als Passives, und Befragte, die eine Bewertung zwischen 9 und 10 abgeben, gelten als Promoters. NPS ist definiert als Anteil Promoters minus Anteil Detractors. Der Wertebereich liegt somit zwischen –100 % und +100 %.

Laut Bain & Company (2020) gaben 77 % der an einer internationalen Umfrage teilnehmenden 1200 Führungskräfte an, dass ihre Unternehmen den NPS derzeit nutzen oder bis 2023 nutzen werden. Dennoch weisen sowohl Wissenschaftler:innen als auch Praktiker:innen auf dessen Nachteile hin:

– Der NPS erfordert einen grösseren Stichprobenumfang als CFMs, die auf Durchschnittsberechnungen beruhen.
– Er ist anfälliger gegenüber kulturellen Unterschieden als andere CFMs. Insbesondere in Ländern wie Japan oder Korea ist der NPS in der Regel niedriger.
– Er erklärt Zielgrössen wie Umsatzwachstum oder Kundenabwanderung nicht besser als andere CFMs.

In Bezug auf den letzten Aspekt haben sich bisherige Untersuchungen meist darauf konzentriert, den NPS mit anderen CFMs hinsichtlich der Fähigkeit zu vergleichen, Zielgrössen wie Umsatzwachstum oder Kundenabwanderung zu erklären – insbesondere, weil Reichheld (2003) auf der Grundlage von Korrelationsanalysen behauptet hatte, dass NPS in vielen Branchen die effektivste Kennzahl sei. Dabei wurden jedoch folgende Aspekte in der Regel nicht berücksichtigt:

– Kombinationen von CFMs,
– CFMs, die sich auf die Determinanten der Kundenzufriedenheit beziehen und
– CFMs mit affektiven Komponenten.

Abbildung 1: Kategorisierung der CFMs in bisheriger Forschung

Bisherige Forschung

Morgan und Rego (2006) antworten auf Reichheld (2003) mit Daten aus den USA. Sie testen sechs verschiedene CFMs sowie sechs verschiedene Zielgrössen und stellen fest, dass die Kundenzufriedenheit – gemessen mit drei Items gemäss American Customer Satisfaction Index (ACSI) – ein signifikanter Prädiktor für alle Zielgrössen ist, «Net Promoters» jedoch nicht. Sie messen jedoch nicht den NPS, wie von Reichheld (2003) vorgeschlagen. Daher können «Net Promoters» und NPS nicht verglichen werden.
Keiningham et al. (2007) stellen auf der Grundlage von Daten aus Norwegen fest, dass keine der elf untersuchten CFMs ein signifikanter Prädiktor für Umsatzwachstum ist. Van Doorn et al. (2013) wiederholen die Untersuchung von Morgan und Rego (2006) in den Niederlanden, messen aber den NPS, wie ursprünglich von Reichheld (2003) vorgeschlagen. Sie stellen fest, dass alle CFMs – mit Ausnahme der Loyalitätsabsichten – signifikante Prädiktoren für das aktuelle (aber nicht für das zukünftige) Umsatzwachstum sind.

Ebenfalls in den Niederlanden betrachten De Haan et al. (2015) fünf CFMs und konzentrieren sich auf die Kundenabwanderung als Zielgrösse. Sie stellen fest, dass auf Unternehmensebene die Abwanderung in 10 von 18 Branchen durch mindestens eine CFM vorhergesagt werden kann. Der NPS ist in zwei Branchen die beste CFM.

Insgesamt bestätigt die bisherige Forschung somit, dass es keine einzelne, am besten geeignete CFM gibt, um insbesondere Zielgrössen wie Umsatzwachstum oder Kundenabwanderung zu erklären. Die meisten Untersuchungen berücksichtigen keine Kombinationen von CFMs. Ausnahmen sind Keiningham et al. (2007) und De Haan et al. (2015). Keiningham et al. (2007) finden keine Verbesserung, wenn sie Kombinationen von CFMs verwenden. De Haan et al. (2015) stellen fest, dass sich die Vorhersage von Kundenabwanderung verbessert, wenn NPS mit Kundenzufriedenheit oder Customer Effort Score (CES) mit Kundenzufriedenheit kombiniert wird.

Abbildung 1 gibt einen zusammenfassenden Überblick über die in der bisherigen Forschung verwendeten CFMs. Daraus leiten wir die folgenden Schlussfolgerungen und Forschungslücken ab:

Die meisten CFMs in bisheriger Forschung beziehen sich auf die Kundenzufriedenheit oder auf die Konsequenzen der Kundenzufriedenheit (z. B. NPS, Weiterempfehlungsabsicht, Wiederkaufabsicht, Loyalitätsabsichten).
Determinanten der Kundenzufriedenheit wurden meist nicht berücksichtigt. Customer Effort Score (CES) ist, wie von Dixon et al. (2010) vorgeschlagen, eine Ausnahme.
Die meisten der in Abbildung 1 dargestellten CFMs haben kognitive oder konative Komponenten. Daher betrachten wir CFMs, die sich auf die Determinanten der Kundenzufriedenheit beziehen und affektive Komponenten aufweisen, als Forschungslücke und schlagen vor, dass Unternehmen Emotionen messen sollten.
Wie bereits erwähnt, wurden in bisheriger Forschung meist keine Kombinationen von CFMs berücksichtigt, was wir als weitere Forschungslücke betrachten. Daher schlagen wir vor, dass Unternehmen sowohl NPS als auch Emotionen messen sollten.

Messung von Emotionen

Obwohl Emotionen wichtige Determinanten der Kundenzufriedenheit sind, werden sie in der Praxis selten gemessen. Emotionen können unter anderem durch die Analyse von Texten oder durch die Analyse von Gesichtsausdrücken erfasst werden. Ebenso möglich ist die Messung durch Befragungen. Sowohl Wissenschaftler:innen als auch Praktiker:innen haben Messinstrumente für Befragungen entwickelt. Shaw (2007) schlägt vor, 20 Emotionen zu verwenden, davon zwölf mit positiver und acht mit negativer Richtung (siehe Tabelle 1). Er schlägt vor, Net Emotional Value (NEV) als positive Emotionen minus negative Emotionen zu berechnen. Daher liegt der Wertebereich zwischen –8 (wenn Kund:innen nur negative Emotionen haben) und +12 (wenn Kund:innen nur positive Emotionen haben).

Tabelle 1: Emotionen als Grundlage des NEV (Shaw, 2007)

Auf dieser Grundlage untersuchen wir die folgenden Forschungsfragen:

– Wie gut erklärt NPS Zielgrössen?
– Wie gut erklären Emotionen – gemessen durch NEV – Zielgrössen?
– Wie gut erklärt eine Kombination aus NPS und Emotionen – gemessen durch NEV – Zielgrössen?

Methodik

Wir haben n=599 Kund:innen von Mobilfunkbetreibern in Deutschland über ein ISO-zertifiziertes Online-Access-Panel befragt. Wir messen NPS wie von Reichheld (2003) vorgeschlagen und NEV wie von Shaw (2007) empfohlen. NPS und NEV sind somit die in unserer Studie untersuchten CFMs. Zielgössen sind die Wiederkaufsabsicht, die Cross-Buying-Absicht und der durchschnittliche Monatsumsatz.

Ergebnisse

Tabelle 2 zeigt die deskriptiven Ergebnisse für die 20 Emotionen (Skala 1-5). Insgesamt sind die drei positiven Emotionen mit dem höchsten Mittelwert vertrauensvoll, sicher und interessiert, die drei negativen Emotionen mit dem höchsten Mittelwert vernachlässigt, unzufrieden und enttäuscht. Die Differenz in n ist auf eine «weiss nicht»-Option zurückzuführen.

Zur Berechnung des NEV auf Ebene der Befragten verwenden wir die Top-2-Box-Bewertungen. Wir gehen davon aus, dass die Befragten eine Emotion haben, wenn sie diese mit einer 4 oder 5 bewerten. Es wurden nur Befragte berücksichtigt, die alle Emotionen bewertet haben, was zu einer Stichprobengrösse von n=464 führt. Insgesamt erreichen 16,8 % aller Befragten einen negativen NEV (–8 bis –1), 16,4 % einen neutralen NEV (0) und 66,8 % einen positiven NEV (+1 bis +12).

Um die Forschungsfragen zu untersuchen, führen wir ANOVAs mit drei verschiedenen Zielgrössen, d.h. abhängigen Variablen, durch: Wiederkaufabsicht, Cross-Buying-Absicht und durchschnittlicher Monatsumsatz. Wir testen drei Modelle, die sich in den unabhängigen Variablen unterscheiden: Modell 1 verwendet nur NPS, Modell 2 nur NEV und Modell 3 verwendet sowohl NPS als auch NEV. Für NPS verwenden wir die drei Kategorien Detractors, Passives und Promoters. Für NEV verwenden wir die Kategorien negativ, neutral und positiv. Mit Modell 1 und Modell 2 können wir vergleichen, wie viel Varianz NPS und NEV als einzelne CFMs erklären können. Mit Modell 3 können wir beurteilen, ob eine Kombination aus beiden CFMs mehr Varianz erklärt und ob es einen Interaktionseffekt zwischen NPS und NEV gibt. Tabelle 3 zeigt die Ergebnisse.

Für die Wiederkaufsabsicht als Zielgrösse erklärt Modell 3 die meiste Varianz (angepasstes R2 =0,427). Der Interaktionseffekt zwischen NPS und NEV ist nicht signifikant. Für die Cross-Buying-Absicht als Zielgrösse erklärt Modell 3 erneut die meiste Varianz (angepasstes R2 =0,359). Der Interaktionseffekt zwischen NPS und NEV ist signifikant, wie Abbildung 2 zeigt. Promoters mit einem positiven NEV haben eine höhere Cross-Buying-Absicht als Promoters mit einem neutralen NEV, und Detractors mit einem negativen NEV haben eine geringere Cross-Buying-Absicht als Detractors mit einem neutralen NEV.
Für den durchschnittlichen Monatsumsatz als abhängige Variable ist Modell 1 marginal signifikant. Modell 2 und Modell 3 sind nicht signifikant.

Abbildung 2: Auswirkung der NPS- und NEV-Kategorie auf die Cross-Buying-Absicht

Diskussion

Unsere Ergebnisse zeigen, dass Emotionen die Wiederkaufsabsicht und die Cross-Buying-Absicht erklären – zusätzlich zum NPS. Daher empfehlen wir, NPS in Kombination mit Emotionen – zum Beispiel mit dem NEV – zu verwenden, um zusätzliche Erkenntnisse zu gewinnen. Wir stellen zum Beispiel fest, dass Promoters mit einem positiven NEV eine höhere Cross-Buying-Absicht haben als Promoters mit einem neutralen NEV und dass Detractors mit einem negativen NEV eine niedrigere Cross-Buying-Absicht haben als Detractors mit einem neutralen NEV.

Ein emotionales Profil für Detractors, Passives und Promoters liefert weitere Details. Abbildung 3 zeigt, dass sich Promoters hauptsächlich sicher (87 %), vertrauensvoll (83 %) und geschätzt (79 %) fühlen, während sich Detractors hauptsächlich enttäuscht (44 %), frustriert (40 %) und vernachlässigt (37 %) fühlen.

Um die Emotionen mit der höchsten Relevanz zu ermitteln, liefert eine Treiberanalyse weitere Ergebnisse. Abbildung 4 veranschaulicht dies für Detractors. Die horizontale Achse zeigt den Anteil der Befragten, die eine Emotion empfinden, die vertikale Achse zeigt die Relevanz dieser Emotion für die Cross-Buying-Absicht. Bei den Detractors hat z. B. “gestresst” die höchste Relevanz.

Abbildung 3: Emotionales Profil für Detractors, Passives, und Promoters

Abbildung 4: Treiberanalyse für Cross-Buying-Absichten für Detractors

Somit können Abbildung 3 und Abbildung 4 Teil eines Dashboards sein, das verschiedene CFMs kombiniert. Es ermöglicht eine detailliertere Analyse der verschiedenen NPS-Kategorien. Zusätzlich könnten weitere Split-Variablen (z. B. Vertriebskanäle oder Vertriebsregionen) hinzugefügt werden. Diese Erkenntnisse sind in der Werbung, aber auch bei persönlichen Interaktionen von Bedeutung. Die Mitarbeitenden in Pre-Sales, Sales und After-Sales sollten entsprechend geschult werden. Ausserdem könnte ein Monitoring der Emotionen auf der Grundlage verschiedener Datenquellen (z. B. Texte und Befragungen) eingerichtet werden.

Die Tatsache, dass der durchschnittliche Monatsumsatz kaum durch NPS oder NEV erklärt werden kann, lässt sich durch die Branche begründen. In der Mobilfunkbranche haben die Kund:innen Verträge mit Laufzeiten von 12 oder 24 Monaten, der durchschnittliche Monatsumsatz ist eher konstant. Anstatt die Ausgaben zu verändern, werden Kund:innen die Detractors sind oder einen negativen NEV haben, ihre Verträge eher nicht verlängern.

Limitationen

Wir sind uns bewusst, dass unsere Studie Limitationen hat:

Sie konzentriert sich auf eine Branche und auf ein Land. In anderen Branchen und anderen Ländern können Emotionen anders sein. Weitere Untersuchungen könnten daher die dem NEV zugrunde liegenden Emotionen anpassen beziehungsweise alternative Messinstrumente für Emotionen testen.
Wir haben die Zielgrössen durch subjektive Einschätzungen gemessen. Weitere Studien könnten objektive Masse verwenden, z. B. tatsächliches Wiederkaufverhalten, tatsächliches Cross-Buying-Verhalten und tatsächliche durchschnittliche Monatsumsätze, was jedoch den Zugang zu Transaktionsdaten erfordert.
Wir haben unsere Analyse auf der Ebene der Kund:innen durchgeführt. Weitere Untersuchungen könnten die Kombination von NPS und NEV auf Unternehmensebene untersuchen. Eine zeitliche Verzögerung bei den Zielgrössen könnte dann ebenfalls berücksichtigt werden.

Was die weitere Forschung betrifft, so sehen wir in verschiedenen Bereichen Potenzial:

Kund:innen schreiben Texte in E-Mails, in Social-Media-Posts oder in Foren. Dieser Text kann analysiert werden, um Emotionen zu erkennen. Weitere Forschungsarbeiten könnten die Ergebnisse auf Basis von Befragungen mit den Ergebnissen auf Basis von Texten vergleichen.
Ausserdem könnte, wie oben erwähnt, ein Monitoring von Emotionen eingerichtet werden. Emotionen könnten dann mit verschiedenen Touchpoints entlang der Customer Journey (Pre-Sales, Sales und After-Sales) verknüpft werden.
Die Unterschiede zwischen B2C und B2B sind ein weiterer Ansatzpunkt für zukünftige Forschung.
Schliesslich könnte die Rolle von Emotionen bei transaktionalen Befragungen näher untersucht werden. Hier könnten die Emotionen in Kombination mit dem CES gemessen werden. Auch könnten Emotionen gegenüber Mitarbeitenden von Emotionen gegenüber Unternehmen unterschieden werden.

Zusammenfassung

Net Promoter Score (NPS) ist eine der beliebtesten Customer Feedback Metrics (CFMs) – mit Vor- und Nachteilen. Bisherige Untersuchungen zeigen den Nachteil, dass er Zielgrössen wie Umsatzwachstum oder Kundenabwanderung nicht besser erklären kann als andere CFMs. Bisherige Untersuchungen haben jedoch meist keine Kombinationen von CFMs berücksichtigt. Wir argumentieren daher, dass NPS durch andere CFMs, z. B. Emotionen, ergänzt werden sollte. In einer empirischen Untersuchung in der Mobilfunkbranche nutzen wir den von Shaw (2007) vorgeschlagenen Net Emotional Value (NEV) zur Messung von Emotionen. Wir zeigen, dass eine Kombination aus NPS und NEV bei zwei von drei Zielgrössen zu einer besseren Erklärung führt. Wir veranschaulichen, wie Emotionsprofile und Treiberanalysen verwendet werden können, um konkrete Handlungsempfehlungen zu geben.

Dieser Beitrag ist eine Zusammenfassung des Artikels «Should Net Promoter Score be supplemented with other customer feedback metrics? An empirical investigation of Net Promoter Score and emotions in the mobile phone industry». Er ist verfügbar unter: https://doi.org/10.1177/14707853231219648

Literaturangaben

Bain & Company (2020) Customer Experience Tools and Trends: Let No Tool Stand Alone. Available at: www.bain.com/insights/customer-experience-tools-and-trends-2020-let-no-tool-stand-alone (Zugriff am 28.02.2023).

De Haan E, Verhoef PC and Wiesel T (2015) The predictive ability of different customer feedback metrics for retention. International Journal of Research in Marketing 32(2): 195 – 206.

Dixon M, Freeman K and Toman N (2010) Stop trying to delight your customers. Harvard Business Review 88(7/8): 116 – 122.

Keiningham TL, Cooil B, Aksoy L, Andreassen, TW and Weiner J (2007) The value of different customer satisfaction and loyalty metrics in predicting customer retention, recommendation, and share‐of‐wallet. Managing Service Quality 17(4): 361 – 384.

Morgan NA and Rego LL (2006) The value of different customer satisfaction and loyalty metrics in predicting business performance. Marketing Science 25(5): 426 – 439.

Reichheld FF (2003) The one number you need to grow. Harvard Business Review 81(12): 46 – 55.
Shaw C (2007) The DNA of Customer Experience: How Emotions Drive Value. Houndmills: Palgrave Macmillan.

Van Doorn J, Leeflang PS and Tijs M (2013) Satisfaction as a predictor of future performance: A replication. International Journal of Research in Marketing 30(3): 314 – 318.

Prof. Dr. Steffen Müller

Dozent ZHAW School of
Management and Law, Winterthur

steffen.mueller@zhaw.ch, +41 (0) 58 934 79 24

Research Team
Prof. Dr. Steffen Müller, Dr. Roger Seiler, Melanie Völkle
ZHAW School of Management and Law

Download Artikel
Swiss Insights News #24-3

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS