Käse oder Kuh – Genuss oder Frust?

Der Appetit auf pflanzliche Proteine wächst weltweit. Konsument:innen sind sich zunehmend der negativen Umweltfolgen durch die Produktion von tierischen Lebensmitteln, der Tierwohlproblematik und der möglichen gesundheitlichen Risiken eines übermässigen Fleisch- und Milchproduktekonsums bewusst. Als Reaktion auf diesen steigenden Trend zur Reduktion tierischer Produkte bemühen sich Lebensmittelhersteller, Alternativen zu Fleisch- und Milchprodukten zu entwickeln; Alternativen, die nicht nur eine ausreichende Versorgung mit Nahrungsmitteln besser gewährleisten, sondern auch ein mit tierischen Produkten vergleichbares sensorisches Erlebnis bieten.

Konsument:innen, insb. Flexitarier:innen, welche den Konsum von tierischen Produkten bewusst reduzieren, erwarten bei pflanzlichen Proteinalternativen in Bezug auf Aussehen, Aroma, Geschmack und Textur ein ähnliches sensorisches Erlebnis wie bei den tierischen Analogien. Dies stellt die Produktentwickler:innen vor komplexe Aufgaben: «Wie kann man den rahmigen Geschmack von Milch nachahmen?» oder «Wie lässt sich die fleischige Textur eines Burgers mit Pflanzenproteinen reproduzieren?». Ähnliche Herausforderungen stellen sich bei Käse-Alternativen: «Wie kann man auf pflanzlicher Basis die charakteristische Konsistenz und das unverwechselbare Aroma von Käse nachbilden?». Marktforschungsinstitute spielen eine entscheidende Rolle, wenn es darum geht, die Erwartungen der Konsument:innen zu identifizieren und den Herstellern die notwendigen Einblicke zu liefern. Durch sensorische Tests und umfassende Verbraucherbefragungen können wertvolle Daten gewonnen werden, welche die Grundlage für die Entwicklung und Optimierung entsprechender veganer Produkte bilden.

Konsumententest von pflanzenbasierten Käse-Alternativen

Pflanzliche Fleischersatzprodukte konnten in den letzten Jahren im schweizerischen Lebensmittelhandel eine beachtliche Regalfläche erobern – auch mit neuen, in der Schweiz gegründeten Marken. Dagegen gelten pflanzliche Käse-Alternativen noch immer als Nischenprodukte. Da die Schweiz ein «Käse-Land» ist, hat die IG-Sensorik Schweiz dieses Thema im Jahr 2023 im Rahmen eines Forschungsprojektes etwas genauer unter die Lupe genommen. Als Mitglied der IG-Sensorik Schweiz war das Marktforschungsinstitut SensoPLUS Projektpartner bei dieser Studie, die als Zusammenarbeit von sechs schweizerischen, in der Lebensmittelsensorik tätigen Institutionen durchgeführt wurde*.

Ziel des Projektes war, die sensorische Konsumentenwahrnehmung von pflanzenbasierten Käse-Alternativen zu evaluieren und dabei Konsumenten-Insights über den bestehenden Markt dieser Produkt-Nische zu erhalten. Sechs im Handel erhältliche Käse-Alternativen wurden beurteilt, davon zwei «Typ Weichkäse», zwei «Typ Halbhartkäse am Stück» und zwei «Typ Halbhartkäse in Scheiben».

Die Konsumentenbefragung wurde mittels eines Central Location Tests bei 245 Flexitarier:innen durchgeführt. Gesamteindruck und Aussehen wurden anhand der in der Lebensmittelbranche üblichen hedonischen 9-Punkte-Skala bewertet. Wesentliche Produkteigenschaften betreffend Geschmack/Aroma und Konsistenz wurden mit einer JAR-Skala (JAR = Just about right) beurteilt. Für weitere produktbeschreibende Informationen wurde die bei sensorischen Konsumententests bewährte CATA-Methode (CATA = Check-all-that-apply) verwendet. Dabei konnten aus 39 produktspezifischen Merkmalen zu Aussehen, Konsistenz und Geschmack/Aroma die für das jeweilige Produkt zutreffenden angeklickt werden.

Für die Datenerfassung des Konsumententestes wurde die vom SensoPLUS-Software-Team entwickelte Sensorik-Software SensoTASTE verwendet.

Grosses Potenzial für Optimierung

Die Studie der IG-Sensorik Schweiz zeigte, dass die sensorischen Eigenschaften von pflanzenbasierten Käse-Alternativen den Konsumentenerwartungen noch nicht ausreichend entsprachen. Ein einziges Produkt wies für den Gesamteindruck auf der hedonischen 9er-Skala einen Mittelwert auf, welcher auf der positiven Seite lag (siehe Abbildung 1). Mit einem Wert von 5.8 war diese Akzeptanz jedoch auch nicht wirklich überzeugend. Die Datenanalyse der JAR-Bewertungen und der CATA-Methode identifizierten Einflussfaktoren für negative Auswirkungen auf den Gesamteindruck. Diese lagen insbesondere im Bereich der Konsistenz, zum Beispiel Eigenschaften wie fest, gummig, elastisch oder mehlig, aber auch in den Bereichen Aussehen und Aroma.

Die eher tiefe hedonische Beliebtheit beeinflusste auch die Kaufabsicht. Beim am besten bewerteten Produkt wurde eine Kaufwahrscheinlichkeit von 52 % ermittelt. Die weiteren Produkte würden mit einer mittleren Wahrscheinlichkeit von 17 % bis zu 36 % gekauft werden.

Die Studienteilnehmenden beurteilten pflanzliche Alternativen im Vergleich zu tierischer Milch und Milcherzeugnissen positiver in Bezug auf Trend, Tierwohl, Klimafreundlichkeit und Gesundheitsaspekte (Abbildung 2). Die pflanzenbasierten Alternativen wurden jedoch als weniger schmackhaft wahrgenommen als das vergleichbare tierische Produkt, dies insbesondere von jenen Flexitarier:innen, welche regelmässig Fleisch konsumieren Nachhaltigkeits- und Tierwohlaspekte allein reichen also nicht aus, um Konsument:innen zu einem wiederkehrenden Kauf zu bewegen.

Gesamteindruck und Aussehen von Käse-Alternativen mittels hedonischer 9er-Skala

Abbildung 1:
Gesamteindruck (satter Farbton) und Aussehen (blasser Farbton) mit Mittelwert, Standardabweichung und Signifikanz (unterschiedliche Buchstaben, p=0.05) von ausgewählten Käse-Alternativen (n=245); Poster Eurosense, 2024, IG Sensorik Schweiz

Um pflanzliche Ersatzprodukte dauerhaft in die Ernährung zu integrieren, muss auch das Geschmackserlebnis die Erwartungen erfüllen. Ziel der Lebensmittelbranche sollte es daher sein, das sensorische Profil von pflanzenbasierten Proteinalternativen weiter zu optimieren. Die Marktforschungsinstitute können mit gezielten Analysen und Tests dazu beitragen, die Lücken zwischen Konsumentenerwartungen und den tatsächlichen Produkteigenschaften zu schliessen. In diesem Sinne hat die IG-Sensorik Schweiz nun eine Folgeprojekt zu Fleischalternativen gestartet.

Abbildung 2:
Vergleich tierischer Milch und Milcherzeugnisse zu pflanzlichen Alternativen;
Präsentation DACH 3-Länder-Tagung Sensorik, 2023, IG Sensorik Schweiz


*Projektzusammenarbeit Käse-Alternativen, IG Sensorik Schweiz: Hochschulen (ETHZ, ZHAW, BFH), Forschungsinstitution (Agroscope) und Marktforschungsinstitute (SAM und SensoPLUS). Für detaillierte Projekt-Information, auch zu der neben der Konsumentenbefragung durchgeführten sensorischen Produktprofilierung, der Nährwertanalyse und zum Life Cycle Assessment, dürfen Sie gerne Kontakt
aufnehmen.

Susanne Aegler

Leitung Marketing und Sensorik, SensoPLUS

susanne.aegler@sensoplus.ch, +41 41 726 16 83

Die Autorin
Susanne Aegler leitet das Marketing und die Sensorik bei SensoPLUS. Sie ist Lebensmittel-
Ingenieurin ETH Zürich und verfügt über einen MSc in Human Nutrition, King’s College, London.

.

Download Artikel
Swiss Insights News #24-7

Corporate Member von
SWISS INSIGHTS

www.sensoplus.ch

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Datenqualität erhöhen: Was Fische mit Aufmerksamkeitschecks in Onlineumfragen zu tun haben

Mit webbasierten Befragungen lassen sich neue Zielgruppen realisieren. Neben der günstigen Zugriffsmöglichkeit, geografischer Unabhängigkeit und logistischen Vorteilen werden aber auch unseriöse Teilnahmen begünstigt. Der Anteil an verschmutzten Daten nimmt zu und die Aussagekraft der Ergebnisse wird vermindert. Weiter kann eine Website im Gegensatz zu einem handfesten PapierFragebogen auch das «Gefühl einer geringeren Verantwortlichkeit vermitteln» (Johnson, 2005, S. 108). Dies stellt eine ernsthafte Bedrohung für die Validität der Online-Forschung dar (Oppenheimer et al., 2009; Reips, 2002, 2009; Meier & Gwerder, 2022).

Im Gegenzug liefern Onlineumfragen meist auch Metadaten wie Ausfüllzeiten insgesamt, Ausfüllzeiten vom Laden der einzelnen Frage bis zu deren Beantwortung, Browserkennung, Betriebssystem, Bildschirmgrösse, IP-Adresse, Mausbewegungen und weitere Informationen, welche nach der Feldphase, wenn alle gesammelten Daten vorliegen, für ein Screening unaufmerksamer Antworten herangezogen werden können (Barge & Gehlbach, 2012; Bauermeister et al., 2012; Meade & Craig, 2012; Meier & Gwerder, 2022).

Mit unserem Artikel möchten wir einen Über-blick über verschiedene Techniken zur Messung der Aufmerksamkeit in Onlineumfragen ermöglichen – Techniken, die durch akademische Erkenntnisse bestätigt oder überprüft wurden und/oder sich in der Praxis bewährt haben, um die Anzahl «schlechter Antworten» zu begrenzen.

Aber was sind «schlechte Antworten»?

Generell werden als «schlecht» jene Antworten angesehen, die nicht die eigentliche Meinung oder das Wissen der Umfrageteilnehmenden wiedergeben, sondern irgendetwas anderes im Sinne eines Messfehlers. Die Gründe, weshalb Teilnehmende «schlechte» Antworten abgeben, sind vielfältig: Sie verweigern das korrekte Ausfüllen und geben stattdessen Fake-Antworten ab, sie sind schlichtweg abgelenkt, wissen die Antworten nicht oder nehmen sich nicht die nötige Zeit, ihre Antworten sorgfältig abzufüllen oder in die Antwortformate einzupassen. Dabei gibt es eine Auslegeordnung, was solche «schlechten» Daten angeht:

Als sogenannte «sinnlose Antworten» oder auch «content responsive faking» (Meade & Craig, 2012; Burns & Christiansen, 2011) werden in der Regel jene Antworten verstanden, bei denen Teilnehmende die Frage an sich aufnehmen und verstehen, aber bewusst keine gültige Antwort geben wollen («intended faking»). Dazu zählen betrügerisches Ausfüllen, z. B. in psychologischen Testverfahren wie dem MMPI2 (Rogers, 2003) oder in Job Assessments (Delgado, 2011) – aber auch bewusstes oder unbewusstes item-bezogenes, sozial erwünschtes Antwortverhalten (Paulhus, 1984).

Demgegenüber stehen «content nonresponsivity» Antworten, die in keinem Zusammenhang zum Inhalt der Fragen stehen (Nichols et al., 1989; Desimone et al., 2018). Sie werden auch als «random response» (Beach, 1989; Berry et al, 1992), «careless responding» (Curran, Kotrba, & Denison, 2010) oder «protocol invalidity» (Johnson, 2005) bezeichnet. Darunter fallen auch die Subkategorien «response sets» (Jandura, Peter, & Küchenhoff, 2012) und «response styles» (Van Vaerenbergh & Thomas, 2012) – alles formale Verschmutzungen von Daten (Meier & Gwerder, 2022), die mehr oder weniger unabhängig von der Fragestellung und nicht zentraler Gegenstand dieses Artikels sind.

Eine Zwischenkategorie bilden Teilnehmende, die an sich bereit wären, eine gültige Antwort abzugeben, dies aber nicht vollumfänglich tun. Beim Satisficing-Verhalten lesen Befragte die Fragestellung lediglich oberflächlich und geben jene Antwort ab, die ihnen zuerst in den Sinn kommt oder ihnen plausibel erscheint (Krosnick, 1991, 1999; Krosnick, Nayaran, & Smith, 1996;). «Pseudoopinions» (Bishop, Oldendick, Tuchfarber, & Bennett, 1980) und «nonattitudes» (Franzén, 2011; Schuman & Presser, 1980) sind Antworten von Befragten, die nicht über das nötige Wissen verfügen, um eine passende Antwort auszuwählen, die Frage falsch oder gar nicht verstehen oder die Fragen und Antworten nicht oder nicht akkurat genug lesen können. Gerade bei Fragebögen für Kinder ist solches «unintentional random responding» häufig. Auch nicht-item-bezogenes, mehr persönlichkeitsbedingtes, sozial erwünschtes Antwortverhalten fällt in diese Zwischenkategorie. Erwähnt sei auch das Under- and Overreporting als Abweichung hin zu mehr oder weniger wahren Antworten durch zu positiv oder zu negativ konnotierte Fragen.

Umfrageforschende stellen sich dieser Herausforderung verminderter Aufmerksamkeit schon, bevor Daten erhoben werden. Dabei gibt es zwei Grundstrategien: Sie integrieren diskret eingewobene Aufmerksamkeitstests in die Fragebögen, um unaufmerksame Teilnehmende zu entlarven und zugunsten der Datenqualität aus der Analyse auszuschliessen, oder sie integrieren explizite, gut sichtbare Aufmerksamkeitsprompts, um Teilnehmende ganz offen darum zu bitten, aufmerksam zu antworten.
Zur Erinnerung: Aus Sicht des traditionellen kognitiven Modells der Umfragebeantwortung (CMSR, Cognitive Model of Survey Response) von Tourangeau, Rips und Rasinski (2000) durchlaufen Antwortende vier Schritte: erstens das Verständnis der Frage, zweitens das Abrufen relevanter Informationen aus dem Gedächtnis, drittens das Bilden eines Urteils aufgrund der abgerufenen Informationen und viertens das Auswählen einer passenden Antwort resp. das Einpassen oder Editieren der Antwort in das vorgegebene Antwortformat. Das nur oberflächliche oder unvollständige Durchlaufen dieser Schritte nennt Krosnick (1991; 1999) «non-optimal response behavior». Diese fehlende Aufmerksamkeit beeinflusst den kognitiven Beantwortungsablauf auf mindestens vier Arten:

  1. Teilnehmende verstehen die Frage nicht richtig, weil sie diese nicht oder nicht seriös gelesen haben. Dadurch werden nicht die richtigen Informationen abgerufen.
  2. Es werden nicht alle Informationen abgerufen, was die Urteilsbildung verzerrt.
  3. Ein Urteil wird heuristisch gebildet und weist eine mangelhafte Reliabilität auf.
  4. Teilnehmende können die passende Antwortkategorie nicht auswählen, weil sie die verfügbaren Optionen nicht genügend aufmerksam verarbeitet haben.

Zusammengefasst: Unaufmerksamkeit führt zu Mess- und Non Response-Fehlern. Unaufmerksamkeit führt auch zu einer Situation, in der «das Rauschen, das durch Teilnehmer entsteht, die die Anweisungen nicht lesen, die Zuverlässigkeit der Daten verringert und die mit der Durchführung von Studien verbundenen Kosten erhöht, da die Anzahl der Teilnehmer, die für ein zuverlässiges Ergebnis erforderlich ist, künstlich erhöht wird» (Oppenheimer et al. 2009, S. 873).

Explizite Ernsthaftigkeitsprüfungen

Was kann nun aber konkret getan werden, um dieses komplexe Datenqualitätsproblem in Antwortdaten zu adressieren? Zunächst: Warum schwierig, wenn es auch einfach geht? Anstatt durch komplizierte Verfahren auf das Verhalten von Teilnehmenden zu schliessen, kann direkt gefragt werden, ob Aufmerksamkeit vorhanden war. Diesen Ansatz verfolgen Ernsthaftigkeitsprüfungen (engl. «seriouseness checks»).
Durch Fragen wie «Gibt es Gründe, weshalb wir Ihre Antworten nicht in unsere Analyse einfliessen lassen sollten?» oder «Es wäre sehr hilfreich, wenn Sie uns an dieser Stelle mitteilen könnten, ob Sie ernsthaft teilgenommen haben, sodass wir Ihre Antworten für unsere wissenschaftliche Analyse verwenden können, oder ob Sie sich nur durchgeklickt haben, um sich die Umfrage anzuschauen.», wird den Teilnehmenden die Möglichkeit gegeben, offen zu deklarieren, dass sie die Befragung nicht gewissenhaft ausgefüllt haben (Aust, 2013). Als Antwortmöglichkeiten bieten sich an: «Ich habe ernsthaft teilgenommen» und «Ich habe nur durchgeklickt, bitte verwenden Sie meine Daten nicht für die Analyse» (s. Abbildung 1).

Abbildung 1: Expliziter Seriousness Check am Ende einer Befragung.

Die entsprechende Frage kann entweder zu Beginn (Reips, 2002, 2008, 2009) oder am Ende des Fragebogens platziert werden (Buchanan et al., 2010; Ihme et al., 2009). In der Praxis wird sehr oft die zweite Option bevorzugt, da die Teilnehmenden am Ende der Befragung ihr tatsächliches Verhalten während der Befragung zuverlässiger einschätzen können als ihr geplantes Handeln.

Ernsthaftigkeitsprüfungen wurden auch im Rahmen einer Befragung zu den Bundestagswahlen 2009 untersucht (Aust et al, 2013). Insgesamt gaben 112 (3.2 %) der 3’490 Teilnehmenden an, nicht seriöse Angaben gemacht zu haben. In der anschliessenden Analyse zeigte sich, dass die restlichen 3’378 Teilnehmenden konsistentere Angaben gemacht hatten und dass die Prognose des Wahlergebnisses besser mit der Realität übereinstimmte, wenn die 112 Fälle, die sich selbst als nicht ernsthaft deklariert hatten, ausgeschlossen wurden. Andere Autorinnen und Autoren fanden in unterschiedlichen Kontexten auch Werte in der Höhe von 5 bis 6 % oder 30 bis 50 % (Musch & Klauer, 2002; Reips, 2009). Grundsätzlich dürfte die Menge an unseriösen Teilnahmen stark vom Befragungskontext sowie von den Anreizen der Teilnehmenden abhängen. Beispielsweise ist bei Befragungen, bei welchen am Ende eine Belohnung winkt, mit sehr tiefen Selbstdeklarationsquoten zu rechnen, da die Teilnehmenden befürchten, auf eine Gewinnchance verzichten zu müssen, wenn sie zugeben, unseriös ausgefüllt zu haben. Dies hängt wohl stark davon ab, wie Ernsthaftigkeitsprüfung und «Gewinnseite» verquickt sind.

Die Herausforderung bei diesem direkten Ansatz liegt grundsätzlich in einer geschickten Formulierung, welche die Teilnehmenden zu einer ehrlichen Antwort motiviert, sie gleichzeitig aber nicht vor den Kopf stösst. Auch gibt es Befragungen, bei denen dieser Ansatz aufgrund der Beziehung zu den Teilnehmenden weniger geeignet ist. Beispielsweise besteht bei einer offenkundigen Ernsthaftigkeitsprüfung am Ende einer Kundenzufriedenheitsbefragung das Risiko, Kundinnen und Kunden, welche sich die Zeit für die Befragung genommen haben, zu verärgern oder zu irritieren, was bei diesem Anwendungsfeld von den Auftraggebenden weniger gut toleriert würde. Bei Panel-Befragungen und Studien hingegen eignet sich dieser Ansatz besser, solange eine ehrliche Antwort auf diese Frage den Erhalt der Incentivierung für die Umfrage nicht verhindert.

Fischers Fritz fischt rote Heringe

Eine weitere Methode zur Identifizierung von Aufmerksamkeit besteht darin, offenkundig falsche oder absurde Antworten in einen Fragebogen einzubauen. Was aber hat das mit Fischen zu tun? Im englischen Sprachgebrauch bezeichnet ein Red Herring (roter Hering) ein Element, das in die Irre führt oder von einer relevanten oder wichtigen Frage ablenkt.

In der Umfrageforschung ist mit einem Red Herring eine Ablenkungsfrage als Massnahme zur Qualitätskontrolle gemeint. In eine Reihe von regulären Fragen werden ungewöhnliche Fragen eingefügt, um damit diejenigen Teilnehmenden zu identifizieren, welche die Umfrage vollständig gelesen und sich mit den Inhalten beschäftigt haben resp. jene, die dies nicht getan haben. Die bei Befragungen zu den sinnvollen, regulären Fragen gehörenden Ablenkungsfragen umrahmen dabei oft die dadurch nicht mehr saliente, «getarnte» Validitätsfrage. Als Hypothese gilt: Wer den roten Hering nicht sieht, ist nicht aufmerksam bei der Sache. Im Folgenden wird auf mehrere solche «Heringsarten» eingegangen, bei welchen Teilnehmende den Datenqualitätsfischern «ins Netz gehen» können.

Fiktive Antworten

In der NZZ-Leserbefragung 2005/2006 ergab sich ein kurioses Ergebnis: 189 von 1’883 Teilnehmenden (10 %) gaben an, dass ihnen das NZZ-Folio-Magazin mit dem Thema «Katastrophen» von allen Folios am besten gefallen habe. Der Clou? Dieses Heft gab es nie. Im Fall der NZZ scheint es plausibel, dass einige der 189 Probanden das Folio mit dem Thema «Katastrophen» wählten, weil sie sich nicht an alle NZZ-Folios erinnern konnten, dies aber nicht zugeben wollten und daher ein Heft mit einem spannend klingenden Titel wählten (Porst, 2014). Dabei ist anzumerken, dass zusätzliche Antwortvorgaben wie «Ich kenne die NZZ-Folio-Magazine nicht», «keine Angabe/weiss nicht» oder «Ich kann mich nicht entscheiden» hilfreiche Ausweichkategorien gewesen wären, die im NZZ-Szenario bei dieser Frage zur Steigerung der Datenqualität beigetragen, jedoch umgekehrt weniger Rückschlüsse auf verminderte Aufmerksamkeit zugelassen hätten.

Zu diesem sogenannten antizipierenden Antwortverhalten im Falle von Unwissen sind historisch zahlreiche Beispiele bekannt. Bishop et al. (1986) beschreiben diesen «pressure to answer» ausführlich. So gaben 70 % der Befragten in einem Fragebogen eine klare Meinung zum «Metallic Metal Act» ab – einem völlig fiktiven Gesetz (Gill, 1947). Gleiches geschah mit 30.8 % zum «Agricultural Trade Act of 1978» (Schuman und Presser, 1981) und mit 26.4 % zum «Monetary Control Bill» (Schuman und Presser, 1981).
Auch Werner Wilken, ein aktuell nicht existierender Politiker, wird regelmässig in Umfragen gekannt, aber «man stimmt mit seiner Politik nicht ganz überein» (Porst, 2014). Dies gilt auch für weitere fiktive Politikerinnen und Politiker (EMNID, 1981; Reuband, 2000). Und je höher die formale Schulbildung der Befragten, desto bekannter sind die Fiktiven.

Aber warum ist das so? Die Kognitionspsychologie liefert eine Antwort: Befragungen wird Sinn unterstellt («die Ersteller des Fragebogens werden wohl seriös gearbeitet haben»): sinnlose Antworten widersprechen der Erwartungshaltung der Teilnehmenden. Dazu kommt eine Hemmung, zuzugeben, dass man etwas nicht kennt, das offenbar allgemein bekannt sein muss, da in einem Fragebogen ja kaum Spezialwissen abgefragt wird. Diese Annahmen treffen gehäuft Befragte, von denen viel formales Wissen erwartet wird. Stellt sich dann noch die Frage, ob man mit seiner Politik einverstanden ist, müssen die Flunkerer erneut lügen. Da sie ihn nicht kennen, liegt es nahe, dass die Politik nicht den eigenen Präferenzen entspricht. Fragen mit fiktiven Antworten sind also nur eingeschränkt geeignet, um nicht vorhandene Aufmerksamkeit zu erkennen. Sie widerspiegeln häufig nur die menschliche Eigenschaft, sich nicht blamieren zu wollen und deshalb möglichst passende oder konsistente Kommunikation zu selekieren.

Bogus-Items

Sogenannte «Bogus-Items» bergen das Risiko von heuristischen, spekulativen oder sozial erwünschten Ersatzantworten wie im vorherigen Abschnitt beschrieben deutlich weniger, weil die «richtige» Antwort sehr offensichtlich ist. Es handelt sich dabei zum Beispiel um Aussagen wie «Wasser ist nass», bei denen auf einer Zustimmungsskala eigentlich nur «stimme voll und ganz zu» adäquat ist.

Wer diese Frage mit «stimme ganz und gar nicht zu» beantwortet, hat höchstwahrscheinlich den Fragetext nicht aufmerksam genug gelesen (Gummer et al., 2021). Eine ähnliche Bogus-Frage ist «Ich wurde am 30. Februar geboren» (Beach, 1989) oder «I am currently filling out a questionnaire» (Hargittai, 2009; Meade & Craig, 2012). Bogus-Items werden oft in längere Abfolgen von Likert-Skalen, meist auf derselben Seite («Tabellenfragen») im Sandwich eingebettet.

Es wird also Aufmerksamkeit gemessen – und lediglich bei nicht offenkundig oder extrem genug formulierten Items auch die Tendenz, Nichtwissen mit Vermutungen zu kaschieren. Eine falsche Antwort lässt bei geeigneten Bogus-Items tatsächlich kaum Zweifel offen, dass Teilnehmende unaufmerksam oder absichtlich falsch geantwortet haben: Die Wahrscheinlichkeit, dass jemand falsch positiv als unaufmerksame Person klassifiziert wird, ist also geringer. Aber Vorsicht: In Item-Batterien mit einem untergemischten Bogus-Item, in welchen a) alle Items die gleiche Skalenrichtung aufweisen und b) das Bogus-Item auch die richtige Antwort in dieser Richtung anbietet, können falsch negative Antworten entstehen – Nichtaufmerksamkeit bleibt dann unentdeckt, weil bei allen Items und zum Beispiel auch beim Bogus-Item «I am currently filling out a questionnaire» die «stimme voll und ganz zu»-Antwort – ohne zu lesen oder nachzudenken – ausgewählt wurde.

Teilnehmende erwarten in den meisten Umfragekontexten keine «Trick»-Items und laufen Gefahr, mit einer Zustimmungstendenz zu antworten, sobald das Item nur ausreichend schwammig formuliert ist (Meade & Craig, 2012). So könnten einige Teilnehmende dem Item «Meine Freunde vergleichen mich mit einem Pudel» tatsächlich willentlich zustimmen, weil Pudel soziale, verträgliche Tiere sind und Teilnehmende annehmen könnten, genau dies solle latent mit diesem Item «gemessen» werden. Auch hier kommt das kognitionspsychologische Thema «Sinn und Sensemaking» (Weick, 1995) zum Vorschein.
Das Ziel von fiktiven Fragen und Bogus-Items ist es also, unaufmerksame Teilnehmende mit einer Antwort zu erwischen, die nicht möglich ist. Bei Bogus-Items (hier sind auch einfache Rechenaufgaben wie «2+3=?» beliebt) kann mit hoher Wahrscheinlichkeit davon ausgegangen werden, dass Teilnehmende, die diese nicht korrekt beantworten, zu wenig aufmerksam sind. Bei fiktiven Fragen/Items dagegen (wie jener zu den NZZ-Folios) ist es möglich, dass auch aufmerksame Personen den Check nicht bestehen. Dies kann jedoch aus Sicht der Datenqualität auch wünschenswert sein: Ist das Ziel der Befragung die Identifikation der besten Magazin-Ausgabe dieses Jahres, sollten optimalerweise nur Personen in der Stichprobe sein, die sich genügend mit dem Magazin auseinandersetzen, um dessen Ausgaben in einer Liste wiederzuerkennen. Es geht dann aber nicht nur um den Ausschluss von Unaufmerksamkeit, sondern auch von weiteren Störvariablen wie Inkompetenz, sozialer Erwünschtheit oder inhaltsunabhängiger Zustimmungstendenz/Akquieszenz (Bauer, 2000).

Der Wirkungsgrad des Einsatzes von Bogus-Items zur Erkennung von Nichtaufmerksamkeit wurde breiter diskutiert (Breitsohl and Steidelmüller, 2018; Curran, 2016; Goldsmith, 1989), es wurde aber nur eine spärliche qualitätsverbessernde Wirkung attestiert und es wurden andere Methoden, zum Beispiel das blosse Einbauen von «Weiss nicht»-Antworten, die einen veritablen Teil der unsicheren oder antwortunwilligen Personen abfangen.

Anweisungsprüfungen (IMC, IRI)

Ein weiterer Ansatz zur Überprüfung der Aufmerksamkeit von Teilnehmenden ist die Integration von Anweisungsprüfungen. Hier erhalten die Teilnehmenden eine klare Anweisung zur Beantwortung. Wer diese Anweisung nicht befolgt, weist einen ungenügenden Grad an Aufmerksamkeit auf.

Anweisungsprüfungen können in Form einer ganzen Frage («Instructional Manipulation Checks» IMC) umgesetzt werden. Diese werden auch «screener» genannt (Berinsky et al., 2014). Ein Beispiel ist das Hinzufügen eines zusätzlichen Satzes am Ende einer Frage – eine Bemerkung, die den Befragten anweist, die Frage zu ignorieren und eine bestimmte Antwort zu geben, zum Beispiel «Bitte ignorieren Sie diese Frage und wählen Sie unten die vierte Antwort an.» (Alvarez & Li, 2021). Weitere Beispiele zeigen Abbildungen 2 und 3.

Abbildung 2: Instructional Manipulation Check mit hohem Schwierigkeitsgrad (Kung, 2018)
Abbildung 3: Instructional Manipulation Checks mit mittlerem Schwierigkeitsgrad (eigenes Beispiel)

Als zweite Form kann ein einzelnes Item innerhalb einer ansonsten inhaltlich relevanten Tabellenfrage implementiert werden («Instructed Response Items» IRI), beispielsweise als fünftes Item von acht mit dem Wortlaut «Wählen Sie in dieser Zeile ‘sehr zufrieden‘ an». (Gummer et al., 2021; DeSimone et al., 2015). Ein weiteres Beispiel zeigt Abbildung 4.

Abbildung 4: Instructed Response Item (IRI) in Zeile 6 (angelehnt an Podsakoff et al., 1990)

IMC und IRI finden in der Umfrageforschung unter anderem aufgrund der relativ einfachen Umsetzung grossen Anklang.

Die Exklusion von Teilnehmenden, welche IMCs nicht bestehen, führt dann zu höherer Konsistenz in der Datenanalyse (Oppenheimer et al., 2009). Das Exkludieren von IRI-Fällen aus dem Datenmaterial wird allerdings kontrovers diskutiert und hat nicht in allen Fällen eine höhere Datenqualität zur Folge (Gummer et al., 2021; Grezki et al., 2015; Anduiza & Galais, 2016). IRIs sind aber wie herkömmliche Methoden definitiv genauso oder teilweise sogar etwas zuverlässiger in der Lage, nichtseriöse Teilnehmende zu identifizieren (Jones et al., 2015; Gummer et al., 2021), beispielsweise mittels Messung der Bearbeitungsdauer (Speeder) oder der Identifikation von Null-Varianz-Antwortverhalten, sogenanntem Straightlining (Meier & Gwerder, 2022).

Moderne Systeme für Onlineumfragen können bei falsch beantworteten IMC und IRI die Frage auch nochmals stellen mit dem Hinweis, dass eine unplausible Antwort gegeben wurde, und der Bitte, die Fragen und Antworten genau zu lesen. Mit dieser alternativen Strategie sollen die fehlbaren Teilnehmenden nicht mehr ausgeschlossen werden. Sie sollen ihre Antworten korrigieren. Und genau dieses erneute Stellen einer IMC, so lange, bis die Teilnehmenden diese bestehen, führt zu erhöhter Aufmerksamkeit in den Folgefragen. Daher sollte diese spezifische Variante von IMC und IRI dann auch in einer der ersten Fragen des Fragebogens umgesetzt oder alternativ vor besonders wichtigen Fragen platziert sein, deren Beantwortung besonders gewissenhaft erfolgen soll. Diese Erkenntnis wurde in weiteren Studien besonders auch für komplexe Folgefragen bestätigt (Miller & Baker-Prewitt, 2009; Hauser & Schwarz, 2015), was den Wert von Anweisungsprüfungen als «moral changer» unterstreicht.
Wie bei den Ernsthaftigkeitsprüfungen liegt die Herausforderung der Anweisungsprüfungen bei der Akzeptanz der Befragten. Eine oder in langen Fragebögen zwei IRIs oder IMCs werden von den meisten Teilnehmenden akzeptiert, eine zu hohe Zahl kann Befragte jedoch verärgern und deren Motivation negativ beeinflussen.

Pseudo-Fragen

Eine Alternative zu Anweisungsprüfungen stellen sogenannte «Mock Vignettes» dar, eine kurze Aufmerksamkeitsprüfung («Mock Vignette Check», MVC), die vor der eigentlichen Befragung eingefügt wird. Die Teilnehmenden werden dabei aufgefordert, einen kurzen informativen Text («Vignette») zu lesen und anschliessend einige Fragen dazu zu beantworten. Mit diesen Fragen wird geprüft, ob die Vignette aufmerksam gelesen und korrekt verstanden wurde. Teilnehmende, welche einen eingangs gestellten MVC bestehen, weisen im weiteren Fragebogenverlauf (gemessen an typischen Aufmerksamkeitsmetriken) höhere Aufmerksamkeit aus (Kane et al., 2023). Ausserdem zeigte sich, dass die zu Beginn des Fragebogens gestellten Pseudo-Fragen keinen negativen Effekt auf das Antwortverhalten im restlichen Fragebogen aufweisen, diesen also abgesehen von den Auswirkungen höherer Aufmerksamkeit nicht beeinflussten. Eine solche «Mock Vignette» zu Beginn des Fragebogens könnte mit einer Formatübung kombiniert werden, um die Teilnehmenden auf die Fragetypen vorzubereiten. Zum Beispiel: Diese erste Frage ist inhaltlich nicht relevant. Wir möchten Sie mit dem Ausfüllen vertraut machen und bitten Sie, den folgenden Text trotzdem genau zu lesen und die vier Fragen dazu auf der folgenden Seite korrekt zu beantworten.

Unserer praktischen Erfahrung nach sind solche experimentell anmutenden Checks für Kunden- und Mitarbeitendenbefragungen leider nur eingeschränkt geeignet und werden von Auftraggebenden selten akzeptiert, da Teilnehmende das Gefühl haben könnten, unter einen Generalverdacht mangelnder Aufmerksamkeit gestellt worden zu sein. Gummer et al. (2021) stellen in ihrer Studie denn auch fest, dass ein nicht unerheblicher Teil der Befragten Aufmerksamkeitskontrollen als lästig (16.8 %), verwirrend (10.1 %), manipulierend (10.4 %) oder als Kontrolle empfanden (25.0 %) resp. nicht belehrt werden wollen (24.3 %). Immerhin befand ein Drittel der Stichprobe (31.4 %) Aufmerksamkeitskontrollen als motivierend.

Widersprüchliche Antwort-Paare/-Sets

Widersprüchliche Antworten über zwei oder mehr inhaltlich gleiche Fragen hinweg sind eine weitere Methode, um Aufmerksamkeit zu erkennen. Und sie können in der Regel bei der Betrachtung einzelner Fragebogen relativ einfach identifiziert werden. Geben Teilnehmende bei zwei Fragen, die dasselbe Konstrukt erfassen, komplett unterschiedliche Antworten, oder ist eine bestimmte Antwort-Kombination schlichtweg unmöglich (beispielsweise ein 21-jähriger Student mit 15 Jahren Berufserfahrung), kann dies ein Hinweis darauf sein, dass Befragte dem Fragebogen nicht genügend Aufmerksamkeit schenken. Wenn eine Befragung zahlreiche Tabellenfragen enthält, kann bei der ersten und bei der letzten Tabellenfrage je einmal dasselbe Item eingebaut werden (z. B. «Meine Arbeitsstelle gefällt mir sehr.» und «Ich bin mit meiner Arbeitsstelle sehr zufrieden.»). Es kann dann überprüft werden, ob die Antworten diametral abweichen. Solche Fälle können dann für die Analysen exkludiert werden.

Aber Achtung: Bei heiklen Themen sind auch die aufmerksamen Teilnehmenden nicht a priori willig, wahre Antworten zu geben. In einer aktuellen Online-Studie zu riskantem Cannabisgebrauch fanden sich ähnliche Werte – 45.3 % der Teilnahmen wiesen inkonsistente Antworten auf (Schell et al., 2022).
Wie aber sollte nun mit widersprüchlichen Antworten als Indikator für fehlende Aufmerksamkeit verfahren werden? Geeignete Methodiken für die jeweilige Befragung könnten sein (Bauer & Johnson, 2000):

  1. Nichts tun: Auch widersprüchliche Antworten werden für die Analyse verwendet. Die Anzahl gibt lediglich einen Hinweis auf die Datenqualität und relativiert die Ergebnisse und deren Interpretation im Sinne eines Konfidenzintervalls.
  2. Torhüter («Gatekeeper»): Nur die erste Antwort eines Falles wird für die Analyse verwendet. Darauffolgende einzelne Antworten, welche der ersten widersprechen, werden als «missing items» umcodiert. Der Datensatz an sich fliesst mit ein.
  3. Limitierter Ansatz: Es wird eine Liste von besonders wichtigen Fragen definiert. Widerspricht sich ein/e Teilnehmer/in innerhalb dieser wichtigen Fragen, werden alle Antworten der Teilnehmerin/des Teilnehmers bei diesen wichtigen Fragen als «missing items» in die Ergebnisse aufgenommen.
  4. Globaler Ansatz: Sämtliche Fälle mit inkonsistenten Antworten werden aus der Analyse ausgeschlossen.
  5. Ansatz der inhaltlich überwiegenden Beweislage. Der Fragebogen und die besonders wichtigen Fragen aller Befragten, welche widersprüchliche Antworten gaben, werden sorgfältig geprüft und der Fallstatus wird auf der Grundlage der «überwiegenden Beweislage» zugewiesen, die durch die Auswertung der Antworten ermittelt wird (z. B. wenn es darum geht, Fragebögen zu typisieren und einer Kategorie zuzuordnen). Alle Antworten, die dem zugewiesenen Fallstatus widersprechen, werden als «missing items» betrachtet.

Je nach verwendetem Ansatz zum Umgang mit inkonsistenten Antworten ergibt sich eine unterschiedliche Zahl von exkludierten Fällen – 33 bei «nichts tun» bis zu 1374 beim «globalen Ansatz» (Bauer & Johnson, 2000) – und es ergeben sich damit signifikant unterschiedliche Analyseergebnisse. Es ist daher von grosser Bedeutung, die gewählte Methode kritisch zu bewerten und im Auswertungsreport genauestens zu deklarieren.

Umgepolte Items

Eine Spezialform widersprüchlicher Angaben sind doppelte Items, von denen eines rotiert ist. Solche «Fallen» (wir sind wieder bei roten Heringen) müssen dann zweimal genau entgegengesetzt beantwortet werden, ansonsten wäre eine Antwort widersprüchlich. Zum Beispiel kann ein Item im ersten Teil des Fragebogens untergebracht werden, ein zweites Item dann gegen Ende, wobei typischerweise dieselbe Likert-Skala verwendet wird. Das zweite Item erfragt denselben Inhalt wie das erste in leicht veränderter Formulierung, wird aber negiert (= rotiert) formuliert. Beispielsweise kann gefragt werden: «Das Produkt gefällt mir im Allgemeinen sehr gut.» (5-er-Skala von «trifft sehr zu» bis «trifft gar nicht zu»). Im weiteren Fragebogenverlauf könnte mit ausreichend grossem Abstand gefragt werden: «Ich finde die Produkte generell mangelhaft.» (5-er-Skala von «trifft sehr zu» bis «trifft gar nicht zu»). Konsistentes, aufmerksames Ausfüllverhalten müsste hier mindestens einigermassen diametrale Ergebnisse erzeugen. Die beiden Skalenwerte innerhalb desselben Falles dürften nach Umpolung eines der beiden Items (Gleichausrichtung) nur eine geringe Varianz aufweisen. Fälle, bei denen diese Bedingung verletzt wurde, könnten wegen Nichtaufmerksamkeit für die Datenanalyse exkludiert werden. Ein konkretes Beispiel zeigt Abbildung 5.

Abbildung 5: Erstes und drittes Item rotiert
(angelehnt an Podsakoff et al., 1990)

Es ist allerdings zu bedenken, dass reverse Items unterschiedliche Bedingungen für gute und schwächere Leserinnen und Leser schaffen, da negativ formulierte Items eine höhere Sprachkompetenz und höheren kognitiven Aufwand erfordern und damit einen Bias in die Ergebnisse einsteuern können (Suárez-Alvarez et al., 2018), vor allem bei sprachlich schwächeren Zielgruppen (z. B. bei Kindern und Jugendlichen).

Offensichtliche Fragen

Eine weitere Technik zur Aufmerksamkeitsprüfung sind Fragen, die eine einzige plausible Antwort zulassen, nämlich «trifft zu». Werden solche Fragen auf einer Likert-Skala mit «trifft nicht zu» beantwortet, kann auf mangelnde Aufmerksamkeit geschlossen werden. Beispiel: «Es gibt Menschen, die eine andere Meinung haben als ich» oder «E ist ein Buchstabe». Allerdings ist eine Abstützung auf einzig diese Art von Aufmerksamkeitscheck kaum empfehlenswert und solche Fragen laufen Gefahr, als deutliche Fremdkörper wahrgenommen zu werden, weil deren Funktion von einer Vielzahl an Befragten nicht verstanden wird und sie dadurch irritierend wirken.

A Priori Fakes mit Bots

In den letzten Jahren wurde ein neues Problem erkannt, welches auf den ersten Blick aussieht wie aufmerksamkeitsloses Ausfüllen: das Einsetzen von Botnetzen (automatisierten Scripts, die Formulare ausfüllen) und dedizierten Umfrage-Bots zur Beantwortung kompletter Fragebogen, auch mit offenen Textantworten, bei welchen qualitätsmässig komplett sinnlose, willkürliche Antworten technisch abgefüllt werden. Dabei erzielen Teilnehmende im besten Fall Vergütungen für komplettierte Fragebögen, ohne dass sie selbst tatsächlich Fragen beantworten (Dupuis, 2018; Fullerton und McCullough, 2022). Gegen diese Techniken gibt es wenige wirkungsvolle Massnahmen. Das Abfragen einer anonymen «uniform identifier», einer «einzigartigen Identifikationskennung der Teilnehmenden». So kann beispielsweise in einer Single-Choice-Frage mit einigen Antwortvorgaben das Domizilland der Teilnehmenden abgefragt werden, wobei Bots dann über alle Datensätze hinweg in der Regel eine breite Varianz erzeugen, echte Teilnehmende aber nur das effektive Land auswählen, in dem sie wohnen und in dem die Studie auch durchgeführt wird oder nach dem sie rekrutiert werden – schlichtweg deshalb, weil sie die Frage verstehen (Fullerton & McCullough, 2022). Panels verwenden auch einen Test-Retest-Mechanismus, bei dem gleiche Fragen mit zeitlich stabilen Antworterwartungen über mehrere Fragebögen hinweggestreut sind. Wenn die Antworten der einzelnen Teilnehmenden auf diese Fragen nicht genau oder akzeptabel nahe übereinstimmen, wird der entsprechende Befragte aus dem Datensatz entfernt (Fullerton et al., 2009). Auch Google ReCAPTCHA können zu Beginn eines Online-Fragebogens eingesetzt werden; diese für Menschen einfach zu lösenden kleinen Aufgaben verwenden «eine fortschrittliche Risikoanalyse-Engine und adaptive Herausforderungen, um bösartige Software von missbräuchlichen Aktivitäten auf Ihrer Website abzuhalten» (Google, 2024).

Item Response Theory

Ein elaboriertes Verfahren zur Aufmerksamkeitserkennung post hoc, also nach bereits erfolgter Datenerhebung, stellen auch RaschPersonen-Fit-Indices dar. Sie bieten einen methodisch fortschrittlichen Ansatz zur Erkennung abweichender Antworten und identifizieren atypische Antwortmuster auf Personenebene, die zum Beispiel als Folge von Betrug oder fehlender Aufmerksamkeit auftreten können (Beck et al., 2019; Li & Olejnik, 1997). Dieses Verfahren ist allerdings nur anwendbar in Skalen, die nach der Item Response Theory (IRT) erstellt wurden (van den Wittenboer et al., 1997) und die eine ausreichende Länge und eine volle Range von Itemschwierigkeiten aufweisen. Für die Marktforschungspraxis sind diese Voraussetzungen im Unterschied zu psychologischen Testverfahren oder Kompetenztests oft nicht gegeben.

Guttman Errors

Guttman-Fehler, welche die Grundlage vieler nichtparametrischer Person-Fit-Statistiken bilden, eignen sich auch direkt für eine Posthoc-Erkennung abweichender Antwortmuster: Diese treten dann auf, wenn ein Befragter ein schwieriges Item zu einem Thema richtig und danach ein leichtes Item zum selben Thema falsch beantwortet. Voraussetzung dazu sind auch hier Skalen, die Konstrukte mit mehreren Items unterschiedlicher Schwierigkeit (item difficulty) messen. Guttman-Fehler können dann gezählt oder in Relation zur Gesamtzahl der Items gesetzt werden. So können abweichende Antwortmuster in Daten mit dichotomen Antwortskalen genau identifiziert werden (Emons, 2008; Karabatsos, 2003; Meijer, 1994; Meijer, Egberink, Emons, & Sijtsma, 2008). Beck et al. (2019) zeigen auch weitere Person-Fit-Methoden wie U3 personfit statistic, HT coefficient und standardized log likelihood auf.

Fazit

Eine proaktive Behandlung des Themas «Aufmerksamkeit in Umfragen» kann mit zahl-
reichen Methoden umgesetzt werden, womit in der Regel die Datenqualität gesteigert werden kann. Es gibt aber keine eigentlichen Standardmethoden oder klare Empfehlungen. Viel wichtiger ist es, die Methoden den Erfordernissen der einzelnen Befragung und der Zielgruppe anzupassen und – gerade wenn Meinungsforschung für Auftraggebende durchgeführt wird – die Methodenwahl transparent zu begründen und zu dokumentieren. Umfrageverzerrungen werden somit vermindert und die Validität von Studien wird erhöht. Eher seltener führt das Exkludieren von nicht aufmerksamen Teilnehmenden jedoch zu einer thematisch relevanten Verzerrung der Stichprobe – dieses Risiko muss von Fall zu Fall geprüft werden.
Aufmerksamkeitsprüfungen haben auch sekundäre Effekte und können aus verschiedenen Gründen die Beteiligung der Befragten erhöhen:

  1. Sie können die Umfragen für Teilnehmende interessanter machen.
  2. Rote Heringe oder Instructional Manipulation Checks unterbrechen die Monotonie einer Umfrage.
  3. Sie halten die Aufmerksamkeit der Befragten aufrecht.
  4. Aufmerksamkeitsprüfungen machen zwar den Fragebogen etwas länger, erhöhen jedoch die Wahrscheinlichkeit, dass die Befragten jede Frage vollständig lesen und verstehen.
  5. Einzelne Teilnehmende ärgern sich über «Fremdkörper» oder «Fallen».
  6. Partizipanten erkennen die Checks und setzen Vertrauen in die Wichtigkeit und Professionalität der Befragung.
  7. Die Datenanalyse kann nach Exklusion betroffener Datensätze zuverlässiger und ressourcenschonender sein.
  8. Ein sehr hoher Anteil an unaufmerksamen Teilnehmenden weist im Pretesting auf einen langen, komplizierten, unverständlichen oder monotonen Fragebogen hin oder darauf, dass die Teilnahmemotivation in der Stichprobe nicht ausreicht – ein Thema, dem allenfalls mit der richtigen Ansprache der Teilnehmenden und mit der Kommunikation des persönlichen immateriellen Profits für die Teilnehmenden begegnet werden könnte. Eine Incentivierung mit Geld kann gefährlich sein und Aufmerksamkeitsprobleme sogar im Sinne einer Jagd auf abgeschlossene Fragebögen verschärfen.

Leiner (2019) empfiehlt generell, als wichtigstes Merkmal von Aufmerksamkeit eine angemessene Ausfülldauer des Fragebogens zu Rate zu ziehen, vor allem, wenn im Fragebogen keine Informationen nachgeschlagen werden müssen oder andere komplexe Fragen gestellt werden, die Unterbrüche generieren.

Möglicherweise können mehrere Methoden und Fragen zur Aufmerksamkeitsprüfung eingesetzt werden, die sich methodologisch ergänzen. Auch die Position von Aufmerksamkeitsfragen innerhalb des Fragebogens sollte bedacht werden. Während die Positionierung am Anfang des Fragebogens auf die Teilnehmenden eher präventive Wirkung auf die weitere Aufmerksamkeit im Fragebogen zeigt und für die Auswertungen ein Signal für eine von Anfang an mangelnde Aufmerksamkeit sein kann (z. B. bei testweise Teilnehmenden, Incentivierungsjägern, Teilnahmen aus Neugier), motivieren zwischendurch gestellte Aufmerksamkeitschecks die Teilnehmenden und «halten sie wach». Gegen Ende der Befragung gestellte Checks dienen meist primär der Identifikation von Teilnehmenden, deren Interesse oder deren Konzentration im Fragebogenverlauf verloren gegangen ist.

Um Teilnehmende nicht zu verärgern oder als Versuchsobjekte zu deklassieren, sollten solche Items jedoch insgesamt vor allem bei fragilen Zielgruppen und allenfalls bei Personen, die nur einmal teilnehmen (z. B. Kunden, Messebesucher etc.), zurückhaltend oder sogar nur in Pretests eingesetzt werden, um eine Kenngrösse für eine allfällige Aufmerksamkeitsproblematik zu erhalten und diese für Konfidenzintervalle der Ergebnisse der Hauptbefragung im Hinterkopf zu behalten.

Literaturverzeichnis weiter unten.

Raffael Meier

Mitgründer/ CTO onlineumfragen.com

raffael.meier@onlineumfragen.com, +41 44 500 5137

Kathrin Staub

Mitgründerin/Principal Consultant, onlineumfragen.com

kathrin.staub@onlineumfragen.com, +41 44 500 5136

Nina Gwerder

ehem. Lead Consultant, onlineumfragen.com

nina.gwerder@onlineumfragen.com, +41 44 500 5140

Die Autoren

Raffael Meier ist Mitgründer/CTO von onlineumfragen.com und Pionier der deutschsprachigen Online-umfragetechnologie. Er befasst sich mit gesellschaftlichen, technischen und methodologischen Aspekten von Daten.

Kathrin Staub ist Mitgründerin von onlineumfragen.com und Principal Consultant. Spezialisiert auf die Beratung namhafter nationaler und internationaler Unternehmen in den Bereichen Methodik und Fragebogenkonstruktion.

Nina Gwerder ist ehemalige Lead Consultant bei onlineumfragen.com mit Schwerpunkten in den Themen Statistik, Datenqualität und effektive Auswertung von Onlineumfragen.

Download Artikel
Swiss Insights News #24-6

Corporate Member von
SWISS INSIGHTS

https://www.onlineumfragen.com/

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Literatur

[1] Alvarez, R. M., & Li, Y. (2022). Survey Attention and Self-Reported Political Behavior, Public Opinion Quarterly, Volume 86, Issue 4, Winter 2022, Pages 793–811, https://doi.org/10.1093/poq/nfac048
[2] Anduiza, Eva, & Carol Galais (2016). Answering Without Reading: IMCs and Strong Satisficing in Online Surveys. International Journal of Public Opinion Research. doi:10.1093/ijpor/edw007.
[3] Aust, F., Diedenhofen, B., Ullrich, S. & Musch, J. (2013). Seriousness checks are useful to improve data validity in online research. Behavioral Research Methods, 45, S. 527-535.
[4] Barge, S. & Gehlbach, H. (2012). Using the theory of satisficing to evaluate the quality of survey data. Research in Higher Education, 53(2), 182–200. doi:10 . 1007 / s11162-011-9251-2
[5] Baron-Epel, O., Kaplan, G., Weinstein, R., & Green, M. S. (2010). Extreme and acquiescence bias in a biethnic population. European Journal of Public Health. 20 (5): 543–548. doi:10.1093/eurpub/ckq052.
[6] Bauer, E., & Johnson, T. (2000). Editing Data: What Difference Do Consistency Checks Make? American Journal of Epidemology, 151(9), S. 921-926.
[7] Bauermeister, J. A., Pingel, E., Zimmerman, M., Couper, M., Carballo-Dieguez, A., & Strecher, V. J. (2012). Data quality in HIV/AIDS webbased surveys: Handling invalid and suspicious data. Field Methods, 24(3), 272– 291. doi:10.1177/1525822X12443097
[8] Beach, D. A. (1989). Identifying the random responder. Journal of Psychology: Interdisciplinary and Applied, 123(1), 101-103.
[9] Beck, M. F., Albano, A. D., & Smith, W. M. (2019). Person-Fit as an Index of Inattentive Responding: A Comparison of Methods Using Polytomous Survey Data. Applied psychological measurement, 43(5), 374–387. https://doi.org/10.1177/0146621618798666
[10] Berinsky, A.J., Margolis, M.F., & Sances, M.W. (2014), Separating the Shirkers from the Workers? Making Sure Respondents Pay Attention on Self-Administered Surveys. American Journal of Political Science, 58: 739-753. https://doi.org/10.1111/ajps.12081
[11] Berry, D. T. R., Wetter, M. W., Baer, R. A., Larsen, L., Clark, C., & Monroe, K. (1992). MMPI2 random responding indices: Validation using a self-report methodology. Psychological Assessment, 4(3), 340-345. doi:10.1037/1040-3590.4.3.340
[12] Bishop, G. F., Oldendick, R. W., Tuchfarber, A. J., & Bennett, S. E. (1980). Pseudoopinions on public affairs. Public Opinion Quarterly, 44(2), 198–209.
[13] Bishop, G. F., Tuchfarber, A. J., & Oldendick, R. W. (1986). Opinions on Fictitious Issues: The Pressure to Answer Survey Questions. The Public Opinion Quarterly, 50(2), 240–250. http://www.jstor.org/stable/2748887
[14] Breitsohl, H. & Steidelmüller, C. (2018). The impact of insufficient effort responding detection methods on substantive responses: Results from an experiment testing parameter invariance. Applied Psychology, 67(2), 284–308. doi:10.1111/apps.12121
[15] Buchanan, T., Heffernan, T. M., Parrott, A. C., Ling, J., Rodgers, J., & Scholey, A. B. (2010). A short self-report measure of problems with executive function suitable for administration via the internet. Behavior Research Methods, 42, S. 709-714.
[16] Burns, G. N., & Christiansen, N. D. (2011). Methods of Measuring Faking Behavior, Human Performance, 24:4, 358-372, DOI: 10.1080/08959285.2011.597473
[17] Curran, P. G. (2016). Methods for the detection of carelessly invalid responses in survey data. Journal of Experimental Social Psychology, 66, 4–19.
[18] Delgado, K, Tristan, E., Kung, M (Mei-Chuan) & O’Connell, M. (2011). Mean score and validity differences among bogus item endorsement groups.
[19] DeSimone, J. A., Harms, P. D., & DeSimone, A. J. (2015). Best practice recommendations for data screening. Journal of Organizational Behavior, 36(2), 171–181. doi:10.1002/job.1962
[20] Dupuis, M., Meier, E., & Cuneo, F. (2018). Detecting computergenerated random responding in questionnairebased data: A comparison of seven indices. Behavior Research Methods, 51(5), 2228–2237. https://doi.org/10.3758/s13428-018-1103-y
[21] EMNID (1981): Die Popularität von Bundesministern – eine methodenkritische Befragung. In:EMNID-Informationen 8: 14-16
[22] Emons W. H. M. (2008). Nonparametric personfit analysis of polytomous item scores. Applied Psychological Measurement, 32, 224-247
[23] Farrell, A., Danish, S., & Howard, C. (1991) Evaluation of data screening methods in surveys of adolescents’ drug use. Psychol Assess, 1991(3), S. 295-298.
[24] Franzén, M. (2011). Nonattitudes / pseudoopinions: Definitional problems, critical variables, cognitive components and solutions. (C/D Extended Essay No. 14). Retrieved from http://www.diva- portal.org/smash/get/ diva2:1032161/FULLTEXT01.pdf
[25] Fullerton, S., & McCullough, T. (2023). Using quality control checks to overcome pitfalls in the collection of primary data via online platforms. Journal of Marketing Analytics, 11(4), 602–612. doi:10.1057/s41270-023-00249-z
[26] Fullerton, S., D. Taylor, and J. Watson. 2009. Webbased instruction and online delivery of classes: Where are we now? American Journal of Business Education 2 (1): 91–100.
[27] Gill, S. (1947). How do you stand on sin? Tide, 74(March), 72
[28] Goffin, R. D., & Christinasen, N. D. (2003). Correcting personality tests for faking: A review of popular personality tests and an initial survey of researchers. International Journal of Selection and Assessment, 11: 340–344.
[29] Goldsmith, R. E. (1989). Reducing spurious response in a field survey. The Journal of Social Psychology, 129(2), 201–212. doi:10.1080/00224545.1989.9711721
[30] Google (2023). reCAPTCHA protects your website from fraud and abuse without friction https://www.google.com/recaptcha/about/. Accessed 2 June 2024.
[31] Greszki, R., Meyer, M., & Schoen, H. (2015). Exploring the Effects of Removing “Too Fast” Responses and Respondents from Web Surveys. Public Opinion Quarterly, 79(2), 471–503. https://doi.org/10.1093/poq/nfu058
[32] Gummer, T., Rossmann, J., & Silber, H. (2021). Using Instructed Response Items as Attention Checks in Web Surveys: Properties and Implementation. Social Methods & Research, 50(1), S. 238-264.
[33] Haghighat, R. (2007). The Development of the Brief Social Desirability Scale (BSDS). Europe’s Journal of Psychology, 3(4). https://doi.org/10.5964/ejop.v3i4.417
[34] Hargittai, E. (2009). An update on survey measures of weboriented digital literacy. Social Science Computer Review, 27(1), 130–137. doi:10 . 1177 / 0894439308318213
[35] Hauser, D. & Schwarz, N. (2015). It’s a Trap! Instructional Manipulation Checks Prompt Systematic Thinking on ‘Tricky’ Tasks. Sage Open, 5(2), S. 1-6.
[36] Ihme, J. M., Lemke, F., Lieder, K., Martin, F., Müller, J. C., & Schmidt, S. (2009). Comparison of ability tests administered online and in the laboratory. Behavior Research Methods, 41, S. 1183-1189.
[37] Jones, M., House, L., & Gao, Z. (2015). Respondent Screeingin and Revealed Preference Axioms: Testing Quarantining Methods for Enhanced Data Quality in Web Panel Surveys. Public Opinion Quarterly, 79(3), S. 687-709.
[38] Johnson, J. A. (2005). Ascertaining the validity of individual protocols from webbased personality inventories. Journal of Research in Personality, 39(1), 103–129. doi:10.1016/j.jrp.2004.09.009
[39] Kane, J., Velez, Y., Barbas, J. (2023). Analyze the attentive and bypass bias: Mock vignette checks in survey experiments. Political Science Research and Methods, 11(2), S.293-310.
[40] Karabatsos G. (2003). Comparing the aberrant response detection performance of thirty-six personfit statistics. Applied Measurement in Education, 16, 277-298
[41] Kemper, C. J., Beierlein, C., Bensch, D., Kovaleva, A., & Rammstedt, B. (2012). Eine Kurzskala zur Erfassung des Gamma-Faktors sozial erwünschten Antwortverhaltens: Die Kurzskala Soziale Erwünschtheit-Gamma (KSE-G) (GESIS Working Papers 2012|25). Köln: GESIS.
[42] Krosnick, J. A. (1991). Response strategies for coping with the cognitive demands of attitude measures in surveys. Applied Cognitive Psychology, 5(3), 213–236. doi:10. 1002/acp.2350050305
[43] Krosnick, J. A. (1999). Survey research. Annual Review of Psychology, 50(1), 537–567. doi:10 . 1146 / annurev. psych.50.1.537
[44] Krosnick, J. A., Narayan, S. S., & Smith, W. R. (1996). Satisficing in surveys: Initial evidence. In M. T. Braverman, & J. K. Slater (Eds.), Advances in Survey Research (pp. 29-44). San Fransisco: Jossey-Bass.
[45] Kung, F.Y.H., Kwok, N. and Brown, D.J. (2018), Are Attention Check Questions a Threat to Scale Validity? Applied Psychology, 67: 264-283. https://doi.org/10.1111/apps.12108
[46] Li, M. F., & Olejnik, S. (1997). The power of rasch personfit statistics in detecting unusual response patterns. Applied Psychological Measurement, 21, 215–231.
[47] Meade, A. W. & Craig, S. B. (2012). Identifying careless responses in survey data. Psychological Methods, 17(3), 437–455. doi:10.1037/a0028085
[48] Meier, R., & Gwerder, N. (2023). Dirty on the go? Data quality in online surveys between PC and mobile devices. In Swiss Insights (Hrsg.), Swiss Insights Annual Report 2023.
[49] Meier, R., & Gwerder, N. (2022). Dirty Data in Online Surveys. How to improve data quality before and after the field phase. In Swiss Insights (Hrsg.), Swiss Insights Annual Report 2022 (S. 51-62).
[50] Meijer R. R. (1994). The number of Guttman errors as a simple and powerful personfit statistic. Applied Psychological Measurement, 18, 311-314
[51] Meijer R. R., Egberink I. J. L., Emons W. H. M., Sijtsma K. (2008). Detection and validation of unscalable item score patterns using item response theory: An illustration with Harter’s Self-Perception Profile for children. Journal of Personality Assessment, 90, 227-238
[52] Miller, J. & Baker-Prewitt, J. (2009). Beyond ‘Trapping’ the Undesirable Panelist: The Use of Red Herrings to Reduce Satisficing. Präsentiert an der CASRO Panel Quality Conference, 2. Februar 2009. New Orleans, USA.
[53] Nichols, D. S., Greene, R. L., & Schmolck, P. (1989). Criteria for assessing inconsistent patterns of item endorsement on the MMPI: Rationale, development, and empirical trials. Journal of Clinical Psychology, 45(2), 239-250. doi:10.1002/1097-4679(198903)45:2<239::AIDJCLP2270450210>3.0.CO;2-1
[54] Nießen, D., Partsch, M. V., Kemper, C. J., & Rammstedt, B. (2019). Social Desirability-Gamma Short Scale (KSE-G). Zusammenstellung sozialwissenschaftlicher Items und Skalen (ZIS). https://doi.org/10.6102/zis271_exz
[55] Oppenheimer, D., Meyvis, T., & Davidenko, N. (2009). Instructional Manipulation Checks: Detecting Satisficing to Increase Statistical Power. Journal of Experimental Social Psychology, 45, S. 867-72.
[56] Paulhus, D. L. (1984). Two-component models of socially desirable responding. Journal of Personality and Social Psychology, 46(3), 598-609.
[57] Podsakoff, P.M., MacKenzie, S.B., Moorman, R.H., & Fetter, R. (1990). Transformational leader behaviors and their effects on followers’ trust in leader, satisfaction, and organizational citizenship behaviors. Leadership Quarterly, 1(2), 107–142. http://doi.org/10.1016/1048-9843(90)90009-7
[58] Porst, R. (2014). Fragebogen – Ein Arbeitsbuch. 4. Auflage, Wiesbaden: Springer Fachmedien.
[59] Reips, U.-D. (2002). Standards for internetbased experimenting. Experimental Psychology, 49, S. 243-256.
[60] Reips, U.-D. (2008). How Internetmediated research changes science (S. 268–294). Cambridge, MA: Cambridge University Press.
[61] Reips, U.-D. (2009). Internet experiments: Methods, guidelines, metadata. Human Vision and Electronic Imaging XIV, Proceedings of SPIE, 7240, 724008.
[62] Reuband, Karl-Heinz (2000): „Pseudo-Opinions“ in Bevölkerungsumfragen. Wie die Bürger fiktive Politiker beurteilen. In: ZA-Informationen 46: 26-38
[63] Rogers, R., Sewell, K. W., Martin, M. A., & Vitacco, M. J. (2003). Detection of feigned mental disorders: A meta-analysis of the MMPI-2 and malingering. Assessment, 10(2), 160-177. doi:10.1177/1073191103010002007
[64] Schell, C., Godinho, A., & Cunningham, J. (2022). Using a consistency check during data collection to identify invalid responding in an online cannabis screening survey. BMC Medical Research methodology, 22(67).
[65] Schuman, H. & Presser, S. (1980). Public opinion and public ignorance: The fine line between attitudes and nonattitudes. American Journal of Sociology, 85(5), 1214– 1225.
[66] Schuman, H., & Presser, S. (1981). Questions and Answers in Attitude Surveys. New York: Academic Press.
[67] Stevens, H. (2017, November 19). Catching a red herring. Chicago Tribune. https://www.chicagotribune.com/lifestyles/ct-tribu-words-work-herring-20110202-story.html
[68] Suárez-Alvarez, J., Pedrosa, I., Lozano, L. M., García-Cueto, E., Cuesta, M., & Muñiz, J. (2018). Using reversed items in Likert scales: A questionable practice. Psicothema, 30(2), 149–158.
[69] Ross, R.S. (2008). Popularization of ‘red herring’ by English political agitator William Cobbett. In: Comments on Etymology 38:1-2, 2008, S. 62–69.
[70] Tett, R. P., & Christiansen, N. D. (2007). Personality tests at the crossroads: A reply to Morgeson, Campion, Dipboye, Hollenbeck, Murphy, and Schmitt. Personnel Psychology, 60: 267–293.
[71] Tourangeau, R., Rips, L. J., & Rasinski, K. (Eds.). (2000). The psychology of survey response. Cambridge University Press. https://doi.org/10.1017/CBO9780511819322
[72] Weick, K. E. (1995). Sensemaking in organizations. Thousand Oaks [u.a.] : Sage.
[73] van den Wittenboer, G., Hox, J., & de Leeuw, E. (1997). Aberrant Response Patterns in Elderly Respondents: Latent Class Analysis of Respondent Scalability (pp. 155–162). Münster, Germany: Waxman.

Die Schweiz trotzt dem internationalen Stimmungstief

2023 untersuchte das Markt- und Sozialforschungsinstitut intervista zusammen mit den Partnerinstituten des globalen IRIS-Netzwerks die weltweite Stimmungslage zu den Themen Klima, Wirtschaft und Gesundheit. Das IRIS-Netzwerk ist auf sechs Kontinenten aktiv und damit weltweit eines der grössten Marktforschungsnetzwerke.

Für diese Studie wurden in insgesamt 27 Ländern in Nord- und Südamerika, Europa, Asien und Australien über 18’000 Personen zu ihren Ansichten befragt. In der Schweiz wurden die Teilnehmenden über das intervista Online-Panel rekrutiert, in den meisten anderen Ländern jeweils über regionale Panelanbieter.
Im vorliegenden Artikel werden die Daten der Nullmessung 2023 dargestellt. Die Befragung wird zukünftig jährlich durchgeführt.

Schweizer Bevölkerung im internationalen Vergleich zuversichtlich

Obwohl Schweizer:innen nicht unbedingt für ihren Optimismus bekannt sind, zeigen sie sich im internationalen Vergleich überdurchschnittlich zuversichtlich hinsichtlich der aktuellen Lage im eigenen Land. Eine Mehrheit der Bevölkerung der befragten Länder glaubt, dass sich ihr Land in die falsche Richtung bewege. In der Schweiz ist das Gegenteil der Fall: Rund zwei Drittel der Bevölkerung denken, dass der richtige Weg eingeschlagen sei.

Zudem beurteilt die Schweizer Bevölkerung auch die wirtschaftliche Situation deutlich positiver als die Bevölkerung anderer Länder. Dennoch zeigen sich auch in der Schweiz kritische Tendenzen: Fast die Hälfte der Bevölkerung berichtet, dass sie 2023 im Vergleich zum Vorjahr den Gürtel enger schnallen musste. Gespart wird vor allem bei Kleidern und Restaurantbesuchen; glücklicherweise muss kaum jemand auf Medikamente verzichten oder kann seine Miete nicht bezahlen. Dies ist keine Selbstverständlichkeit: Im internationalen Durchschnitt berichtete jede:r Fünfte, die Miete oder den Hypothekarzins nicht mehr rechtzeitig bezahlen zu können. Zudem konnte sich fast jede:r Vierte nicht mehr leisten, eigentlich benötigte Medikamente zu konsumieren.

Auch in der Schweiz wurde zum Messzeitpunkt 2023 eine Schwächung der Wirtschaft erwartet, wenn auch bei weitem nicht so stark wie anderswo. Einzig einige Schwellenländer (Indien, Mexiko, Indonesien) zeigten sich optimistischer und erwarteten trotz der damaligen Weltlage ein Wirtschaftswachstum.

Abb. 1: Erwartete wirtschaftliche Entwicklung in der Schweiz (links) und im internationalen Vergleich (rechts)

Nachhaltige Kaufentscheidungen

Die im internationalen Vergleich angenehme wirtschaftliche Lage, in der sich viele Schweizer:innen zum Zeitpunkt der Erhebung 2023 befinden, hat einen direkten Einfluss auf ihre alltäglichen Entscheidungen. So können es sich Schweizer:innen eher leisten, bei Kaufentscheidungen auf Nachhaltigkeit zu achten. In fast allen untersuchten Dimensionen erreicht die Schweizer Bevölkerung höhere Werte als die befragte Weltbevölkerung. Besonders auffällig ist dies bei Produktverpackungen. Ganze 92 Prozent und damit ein im weltweiten Vergleich überdurchschnittlich hoher Anteil der Bevölkerung legten in der Schweiz Wert auf reduzierte oder recyclebare Verpackungen.

Abb. 2: Nachhaltige Entscheidungen weltweit (links) und in der Schweiz (rechts)

Wahrnehmung des Klimawandels

Generell sind Klimawandel und Nachhaltigkeit Themen, die bewegen. Ganze 82 Prozent der Schweizer Bevölkerung machen sich Sorgen über die Folgen des Klimawandels. Damit befindet sich die Schweiz im internationalen Mittelfeld und auf gleichem Niveau wie andere europäische Länder (zum Beispiel Spanien, Deutschland und Österreich). Die grösste Besorgnis äussern Bewohner:innen in Schwellenländern. Beispielsweise zeigen sich in der Türkei 98 Prozent der Bevölkerung besorgt hinsichtlich des Klimawandels.

In den Industrieländern geht man davon aus, dass nicht das eigene Land oder gar die eigene Wohnregion, sondern in erster Linie andere Länder vom Klimawandel betroffen sind. Auch in den Schwellenländern findet sich diese differenzierte Wahrnehmung, jedoch in bedeutend geringerem Ausmass. Dies widerspiegelt die Situation, dass Schwellenländer von den Folgen des Klimawandels tendenziell stärker betroffen sind als Industrieländer.

Zur Frage, ob die Folgen des Klimawandels noch abgefedert werden können, gibt es in der Bevölkerung unterschiedliche Meinungen. In der Schweiz ist knapp die Hälfte noch optimistisch, während 35 Prozent der Bevölkerung denken, dass es bereits zu spät sei, schwerwiegende negative Effekte des Klimawandels zu vermeiden. Im internationalen Vergleich sind nur 23 Prozent der befragten Bevölkerung pessimistisch.
Rund 70 Prozent der Schweizer:innen glauben nicht mehr daran, dass man weltweit Netto-Null-Emissionen erreichen wird. Auch hier sind die Schweizer:innen deutlich pessimistischer als der globale Durchschnitt. Allerdings ist die Schweizer Bevölkerung etwas optimistischer, wenn es um die Frage geht, ob in der Schweiz das Netto-Null-Ziel erreicht werden kann. Dann glaubt bloss noch die Hälfte, dass dieses Ziel nicht erreicht werden kann.

Abb. 3: Zuversicht, Netto-Null-Emissionen in der Schweiz (oben) und weltweit (unten) zu erreichen

Einschätzung der Gesundheitsversorgung

Wenn man an den Klimawandel denkt, könnte man meinen, dass zusätzliche (finanzielle) Ressourcen viele Probleme lösen könnten – schliesslich sind Personen in den reicheren Industrienationen deutlich optimistischer. Bei der gesundheitlichen Versorgung zeigt sich aber, dass Geld nicht alles ist.

Aber zunächst die guten Nachrichten. Auch wenn sich Schweizer:innen über hohe Krankenkassenprämien ärgern, so meint doch mehr als die Hälfte der Schweizer Bevölkerung, dass wir ein gutes oder sogar hervorragendes Gesundheitssystem haben. Damit bewerten Schweizer:innen im internationalen Durchschnitt das nationale Gesundheitssystem deutlich positiver als Personen anderer Länder. Vier von fünf Schweizer:innen sind gar überzeugt, dass das Schweizer Gesundheitssystem zu den Besten der Welt gehöre. Nur in wenigen Ländern (Spanien, Südkorea, Japan) ist die Bevölkerung ebenso positiv zum eigenen Gesundheitssystem eingestellt.

Abb. 4: Wahrgenommene Qualität des eigenen Gesundheitssystems im internationalen Vergleich

Es zeigen sich aber auch Schattenseiten. Wenn es um die Probleme im Gesundheitssystem geht, meint die Mehrheit, dass dies nicht ein Problem der finanziellen Ressourcen sei. Ganz im Gegenteil, die Probleme seien auf ein ineffizientes Management zurückzuführen. In anderen Ländern wird dies ähnlich eingeschätzt. So erstaunt es auch nicht, dass mehr als die Hälfte der Schweizer Bevölkerung mit dem politischen Management des Gesundheitssystems nicht einverstanden ist. Ein ähnliches Bild zeigt sich im restlichen Europa und in Amerika. In Asien und Australien hingegen unterstützt man die gesundheitspolitischen Entscheide der eigenen Regierung deutlich stärker.

Abb. 5: Ursachen der Probleme im Gesundheitssystem in der Schweiz (oben) und im weltweiten Vergleich (unten)

Studiendesign

Datenerhebungsmethode:
Online-Befragung im intervista Online-Panel sowie in den Panels von 24 IRIS-Partnerinstituten; in zwei Ländern wurde die Stichprobe über einen externen Panelpartner erhoben
Zielgruppe:
Bevölkerung im Alter von über 18 Jahren, jeweils repräsentativ nach Alter, Geschlecht und Siedlungstyp
Stichprobengrösse:
Min. n = 500 pro Land, total n = 18’572 (maximaler Standardfehler für die Schweiz +/- 4.3 %, für alle Länder zusammen +/- 0.7 %)
Feldzeit:
Februar bis April 2023

Weiterführende Informationen zur Studie finden Sie unter: Gesundheitssystem, Wirtschaftsentwicklung und Klimawandel.

Dr. Kim Buchmüller

Projektleiterin, intervista AG

kim.buchmueller@intervista.ch, +41 31 511 39 04

Die Autorin
Dr. Kim Buchmüller ist Projektleiterin beim Marktforschungsinstitut intervista. Sie promovierte an der Eidg. Technischen Hochschule Zürich (ETH Zürich) und ist Expertin für Fragestellungen zum Verhalten von Konsument:innen.

Download Artikel
Swiss Insights News #24-5

Corporate Member von
SWISS INSIGHTS

www.intervista.ch

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Teil der Lösung sein

Da Nachhaltigkeit in unserem Leben und in den Medien eine immer grössere Rolle spielt, beeinflusst sie unweigerlich auch die Werbebranche. Die Anerkennung des Klimawandels und sozialer Themen wie Gender Equality und Diversity wächst und die Schweizer Konsumentinnen und Konsumenten erwarten, dass Marken verantwortungsvolle Massnahmen ergreifen. Doch wie können Werbung und
Nachhaltigkeit ineinandergreifen, um eine nachhaltigere Zukunft und verantwortungsbewusstes Markenwachstum zu fördern?

Botschaften kombinieren

Im Zuge einer grossen, globalen Metaanalyse der Werbe-Pretest-Daten von Ipsos wurden Werbungen mit Botschaften zur Nachhaltigkeit identifiziert und deren Effektivität bewertet. Ipsos setzt für Werbepretests Creative|Spark ein. Eine Lösung, die in der Schweiz und international sowohl als Full-DIY aber auch begleitet durch Ipsos Schweiz Consultants über die Ipsos.Digital Plattform genutzt wird.

Die Auswertung zeigt, dass erfolgreiche Werbemassnahmen ein Gleichgewicht zwischen Nachhaltigkeit und den Markenbotschaften bieten. Werbungen, die sich ausschliesslich auf Nachhaltigkeit konzentrieren, übermitteln oft keine einzigartige oder unterhaltsame Botschaft. Bessere Ergebnisse erzielen Werbemassnahmen, die Marken- und Nachhaltigkeitsbotschaften kombinieren; das zeigt, wie
wichtig es ist, die Botschaften zur und über die Marke nicht zu vernachlässigen.

Grafik 1

Eines von vielen positiven (internationalen) Beispielen ist diesbezüglich die Volvo-Kampagne «The Ultimate Safety Test».

Ein weiterer Trend bei Werbungen mit Bezug zur Nachhaltigkeit betrifft die Gestaltung der Botschaft. Werbungen, die sich auf die Menschen und ihre Probleme konzentrieren und eine nachhaltige Lösung anbieten, sind effektiver als solche, die nur über die Marke sprechen. Am wirksamsten sind Werbungen, die eine Lösung anbieten und die Konsumentinnen und Konsumenten in
ein nachhaltiges Verhalten hineinziehen, indem sie ihnen diesen Schritt leicht machen.

Eine geringere Anzahl an Werbungen entscheidet sich dafür, direkt mit dem «Problem» zu beginnen,
quasi als Einführung in das Nachhaltigkeitsthema, das sie behandeln werden. Solche
Ansätze reichen von der Darstellung der Auswirkungen des Klimawandels bis hin zu lokalen
Unternehmen in Schwierigkeiten oder von diskriminierten Minderheiten. Während der Aufbau von Problem und Lösung in der Werbung recht traditionell ist, sind die Probleme hier sehr ernst
und können teilweise von der Zielgruppe auch als generisch wahrgenommen werden.

Empathie als Schlüssel

Funktioniert diese Art des Aufbaus gut, wenn es um Nachhaltigkeit und ernste Themen geht? Die
Antwort ist: ja! Insgesamt übertreffen Werbungen, die mit dem Problem beginnen, andere Werbungen
in Bezug auf ihre Wirksamkeit (+11 Prozent).

Grafik 2

Will man Teil der Lösung sein, ist das Anerkennen des Problems ein guter Anfang, Ein gutes
Beispiel ist die «Forklift»-Kampagne von Sodastream. Der Spot geht sowohl auf Nachhaltigkeit
als auch auf die Markenbotschaft ein: Im ersten Teil wird der übermässige Verbrauch
von Plastikflaschen aufgezeigt. Im zweiten Teil wird den Zuschauerinnen und Zuschauern eine
Lösung angeboten, wie sie zu kohlensäurehaltigem Wasser kommen – verknüpft mit den markanten
Markenzeichen wie dem Geräusch der Sodastream-Flasche beim Befüllen mit Gas.

Wichtig ist hier die Empathie. Man sollte das Problem anerkennen, aber auf einer menschlichen,
alltäglichen Ebene. Werbung, die den Menschen in den Mittelpunkt und das Thema
Nachhaltigkeit in einen alltäglichen Kontext stellt, ist wirksamer als Werbung, die auf die
beängstigenden Elemente des Klimawandels verweist. Versucht man, eine nachhaltige Botschaft
zu vermitteln, ist es wichtig, sie visuell darzustellen. Dies kann mit Bildern oder Statistiken
geschehen; die Werbung muss jedoch deutlich machen, worum es geht und wie die
Marke zur Nachhaltigkeit beiträgt.

Ein weiterer wichtiger Aspekt betrifft die Glaubwürdigkeit. Um Anschuldigungen wegen Greenwashings
und daraus resultierende Kritik zu vermeiden, müssen Marken sicherstellen, dass ihre
Botschaften glaubwürdig und authentisch sind und ihre Versprechen zur Nachhaltigkeit eingehalten
werden. Übertriebene Markenversprechen werden als wenig glaubhaft wahrgenommen und
haben einen negativen Effekt. Kleine Schritte und Erfolge eines nachhaltigeren Produktes oder einer
Dienstleistung, die mit der Nutzung der Marke durch den Konsumenten verknüpft sind, erzielen
in der Regel bessere Ergebnisse.

Zusammenfassend lässt sich sagen, dass Werbung und Nachhaltigkeit Hand in Hand gehen
können und sollten. Die Menschen wünschen sich, dass Marken sich für eine bessere Welt
einsetzen und dies auch kommunizieren. Aber das blosse Hinzufügen einer Nachhaltigkeitsbehauptung
zu einer Werbung ist nicht ausreichend. Werbungen müssen sich von anderen abheben, ein neues, ansprechendes und relevantes Erlebnis bieten und effektiv nachweisen, dass die Marke Teil der Lösung ist. Letztendlich stehen wir am Anfang eines schwierigen Übergangs zu einer nachhaltigeren Zukunft, in
der noch viel zu tun ist. Dieser Übergang wird nicht ohne das Handeln der Marken und ohne
überzeugende Werbemassnahmen zur Unterstützung dieser Veränderung stattfinden.

Der Artikel zu diesem Thema ist am 27.10.2023 in der Handelszeitung erschienen («Teil der Lösung sein») und wurde für SWISS INSIGHTS erweitert und mit Grafiken ergänzt. Erfahren Sie mehr zu diesem Thema durch unsere beiden White Paper «Sustainability and Advertising: Friends or foes?» und «Sustainability Advertising: How empathy and credibility can help you get it right» sowie durch das Ipsos in Switzerland
Webinar «Making magnificent sustainable advertising».

Martin Fenböck

Senior Client Director & Regional Division Leader Ipsos,
Leiter einer der drei Ipsos Niederlassungen in der Schweiz
– in Root D4 / Luzern

Martin.Fenboeck@ipsos.com, +41 79 404 92 31

Download Artikel
Swiss Insights News #24-4

Institute Member von
SWISS INSIGHTS

www.ipsos.com

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Sollte Net Promoter Score durch andere Customer Feedback Metrics ergänzt werden?

Einleitung

Die meisten Unternehmen erfassen Kundenfeedback durch Befragungen. Die von ihnen verwendeten Customer Feedback Metrics (CFMs) unterscheiden sich jedoch: Einige messen Kundenzufriedenheit, andere verwenden den Net Promoter Score (NPS) und wieder andere berechnen einen Kundenzufriedenheitsindex (CSI) – ein Mass für die Kundenzufriedenheit, das aus verschiedenen Indikatoren besteht. Insbesondere der NPS ist zu einer beliebten Kennzahl geworden, seit Reichheld (2003) ihn im Harvard Business Review veröffentlicht hat. Der NPS basiert auf der Wahrscheinlichkeit, ein Unternehmen weiterzuempfehlen, gemessen auf einer 11-Punkte-Skala. Befragte, die eine Bewertung zwischen 0 und 6 abgeben, gelten als Detractors, Befragte, die eine Bewertung zwischen 7 und 8 abgeben, gelten als Passives, und Befragte, die eine Bewertung zwischen 9 und 10 abgeben, gelten als Promoters. NPS ist definiert als Anteil Promoters minus Anteil Detractors. Der Wertebereich liegt somit zwischen –100 % und +100 %.

Laut Bain & Company (2020) gaben 77 % der an einer internationalen Umfrage teilnehmenden 1200 Führungskräfte an, dass ihre Unternehmen den NPS derzeit nutzen oder bis 2023 nutzen werden. Dennoch weisen sowohl Wissenschaftler:innen als auch Praktiker:innen auf dessen Nachteile hin:

  • – Der NPS erfordert einen grösseren Stichprobenumfang als CFMs, die auf Durchschnittsberechnungen beruhen.
  • – Er ist anfälliger gegenüber kulturellen Unterschieden als andere CFMs. Insbesondere in Ländern wie Japan oder Korea ist der NPS in der Regel niedriger.
  • – Er erklärt Zielgrössen wie Umsatzwachstum oder Kundenabwanderung nicht besser als andere CFMs.

In Bezug auf den letzten Aspekt haben sich bisherige Untersuchungen meist darauf konzentriert, den NPS mit anderen CFMs hinsichtlich der Fähigkeit zu vergleichen, Zielgrössen wie Umsatzwachstum oder Kundenabwanderung zu erklären – insbesondere, weil Reichheld (2003) auf der Grundlage von Korrelationsanalysen behauptet hatte, dass NPS in vielen Branchen die effektivste Kennzahl sei. Dabei wurden jedoch folgende Aspekte in der Regel nicht berücksichtigt:

  • – Kombinationen von CFMs,
  • – CFMs, die sich auf die Determinanten der Kundenzufriedenheit beziehen und
  • – CFMs mit affektiven Komponenten.
Abbildung 1: Kategorisierung der CFMs in bisheriger Forschung

Bisherige Forschung

Morgan und Rego (2006) antworten auf Reichheld (2003) mit Daten aus den USA. Sie testen sechs verschiedene CFMs sowie sechs verschiedene Zielgrössen und stellen fest, dass die Kundenzufriedenheit – gemessen mit drei Items gemäss American Customer Satisfaction Index (ACSI) – ein signifikanter Prädiktor für alle Zielgrössen ist, «Net Promoters» jedoch nicht. Sie messen jedoch nicht den NPS, wie von Reichheld (2003) vorgeschlagen. Daher können «Net Promoters» und NPS nicht verglichen werden.
Keiningham et al. (2007) stellen auf der Grundlage von Daten aus Norwegen fest, dass keine der elf untersuchten CFMs ein signifikanter Prädiktor für Umsatzwachstum ist. Van Doorn et al. (2013) wiederholen die Untersuchung von Morgan und Rego (2006) in den Niederlanden, messen aber den NPS, wie ursprünglich von Reichheld (2003) vorgeschlagen. Sie stellen fest, dass alle CFMs – mit Ausnahme der Loyalitätsabsichten – signifikante Prädiktoren für das aktuelle (aber nicht für das zukünftige) Umsatzwachstum sind.

Ebenfalls in den Niederlanden betrachten De Haan et al. (2015) fünf CFMs und konzentrieren sich auf die Kundenabwanderung als Zielgrösse. Sie stellen fest, dass auf Unternehmensebene die Abwanderung in 10 von 18 Branchen durch mindestens eine CFM vorhergesagt werden kann. Der NPS ist in zwei Branchen die beste CFM.

Insgesamt bestätigt die bisherige Forschung somit, dass es keine einzelne, am besten geeignete CFM gibt, um insbesondere Zielgrössen wie Umsatzwachstum oder Kundenabwanderung zu erklären. Die meisten Untersuchungen berücksichtigen keine Kombinationen von CFMs. Ausnahmen sind Keiningham et al. (2007) und De Haan et al. (2015). Keiningham et al. (2007) finden keine Verbesserung, wenn sie Kombinationen von CFMs verwenden. De Haan et al. (2015) stellen fest, dass sich die Vorhersage von Kundenabwanderung verbessert, wenn NPS mit Kundenzufriedenheit oder Customer Effort Score (CES) mit Kundenzufriedenheit kombiniert wird.

Abbildung 1 gibt einen zusammenfassenden Überblick über die in der bisherigen Forschung verwendeten CFMs. Daraus leiten wir die folgenden Schlussfolgerungen und Forschungslücken ab:

  1. Die meisten CFMs in bisheriger Forschung beziehen sich auf die Kundenzufriedenheit oder auf die Konsequenzen der Kundenzufriedenheit (z. B. NPS, Weiterempfehlungsabsicht, Wiederkaufabsicht, Loyalitätsabsichten).
  2. Determinanten der Kundenzufriedenheit wurden meist nicht berücksichtigt. Customer Effort Score (CES) ist, wie von Dixon et al. (2010) vorgeschlagen, eine Ausnahme.
  3. Die meisten der in Abbildung 1 dargestellten CFMs haben kognitive oder konative Komponenten. Daher betrachten wir CFMs, die sich auf die Determinanten der Kundenzufriedenheit beziehen und affektive Komponenten aufweisen, als Forschungslücke und schlagen vor, dass Unternehmen Emotionen messen sollten.
  4. Wie bereits erwähnt, wurden in bisheriger Forschung meist keine Kombinationen von CFMs berücksichtigt, was wir als weitere Forschungslücke betrachten. Daher schlagen wir vor, dass Unternehmen sowohl NPS als auch Emotionen messen sollten.

Messung von Emotionen

Obwohl Emotionen wichtige Determinanten der Kundenzufriedenheit sind, werden sie in der Praxis selten gemessen. Emotionen können unter anderem durch die Analyse von Texten oder durch die Analyse von Gesichtsausdrücken erfasst werden. Ebenso möglich ist die Messung durch Befragungen. Sowohl Wissenschaftler:innen als auch Praktiker:innen haben Messinstrumente für Befragungen entwickelt. Shaw (2007) schlägt vor, 20 Emotionen zu verwenden, davon zwölf mit positiver und acht mit negativer Richtung (siehe Tabelle 1). Er schlägt vor, Net Emotional Value (NEV) als positive Emotionen minus negative Emotionen zu berechnen. Daher liegt der Wertebereich zwischen –8 (wenn Kund:innen nur negative Emotionen haben) und +12 (wenn Kund:innen nur positive Emotionen haben).

Tabelle 1: Emotionen als Grundlage des NEV (Shaw, 2007)

Auf dieser Grundlage untersuchen wir die folgenden Forschungsfragen:

  • – Wie gut erklärt NPS Zielgrössen?
  • – Wie gut erklären Emotionen – gemessen durch NEV – Zielgrössen?
  • – Wie gut erklärt eine Kombination aus NPS und Emotionen – gemessen durch NEV – Zielgrössen?

Methodik

Wir haben n=599 Kund:innen von Mobilfunkbetreibern in Deutschland über ein ISO-zertifiziertes Online-Access-Panel befragt. Wir messen NPS wie von Reichheld (2003) vorgeschlagen und NEV wie von Shaw (2007) empfohlen. NPS und NEV sind somit die in unserer Studie untersuchten CFMs. Zielgössen sind die Wiederkaufsabsicht, die Cross-Buying-Absicht und der durchschnittliche Monatsumsatz.

Ergebnisse

Tabelle 2 zeigt die deskriptiven Ergebnisse für die 20 Emotionen (Skala 1-5). Insgesamt sind die drei positiven Emotionen mit dem höchsten Mittelwert vertrauensvoll, sicher und interessiert, die drei negativen Emotionen mit dem höchsten Mittelwert vernachlässigt, unzufrieden und enttäuscht. Die Differenz in n ist auf eine «weiss nicht»-Option zurückzuführen.

Tabelle 2: Deskriptive Ergebnisse für NEV

Zur Berechnung des NEV auf Ebene der Befragten verwenden wir die Top-2-Box-Bewertungen. Wir gehen davon aus, dass die Befragten eine Emotion haben, wenn sie diese mit einer 4 oder 5 bewerten. Es wurden nur Befragte berücksichtigt, die alle Emotionen bewertet haben, was zu einer Stichprobengrösse von n=464 führt. Insgesamt erreichen 16,8 % aller Befragten einen negativen NEV (–8 bis –1), 16,4 % einen neutralen NEV (0) und 66,8 % einen positiven NEV (+1 bis +12).

Tabelle 3: ANOVA-Ergebnisse

Um die Forschungsfragen zu untersuchen, führen wir ANOVAs mit drei verschiedenen Zielgrössen, d.h. abhängigen Variablen, durch: Wiederkaufabsicht, Cross-Buying-Absicht und durchschnittlicher Monatsumsatz. Wir testen drei Modelle, die sich in den unabhängigen Variablen unterscheiden: Modell 1 verwendet nur NPS, Modell 2 nur NEV und Modell 3 verwendet sowohl NPS als auch NEV. Für NPS verwenden wir die drei Kategorien Detractors, Passives und Promoters. Für NEV verwenden wir die Kategorien negativ, neutral und positiv. Mit Modell 1 und Modell 2 können wir vergleichen, wie viel Varianz NPS und NEV als einzelne CFMs erklären können. Mit Modell 3 können wir beurteilen, ob eine Kombination aus beiden CFMs mehr Varianz erklärt und ob es einen Interaktionseffekt zwischen NPS und NEV gibt. Tabelle 3 zeigt die Ergebnisse.

Für die Wiederkaufsabsicht als Zielgrösse erklärt Modell 3 die meiste Varianz (angepasstes R2 =0,427). Der Interaktionseffekt zwischen NPS und NEV ist nicht signifikant. Für die Cross-Buying-Absicht als Zielgrösse erklärt Modell 3 erneut die meiste Varianz (angepasstes R2 =0,359). Der Interaktionseffekt zwischen NPS und NEV ist signifikant, wie Abbildung 2 zeigt. Promoters mit einem positiven NEV haben eine höhere Cross-Buying-Absicht als Promoters mit einem neutralen NEV, und Detractors mit einem negativen NEV haben eine geringere Cross-Buying-Absicht als Detractors mit einem neutralen NEV.
Für den durchschnittlichen Monatsumsatz als abhängige Variable ist Modell 1 marginal signifikant. Modell 2 und Modell 3 sind nicht signifikant.

Abbildung 2: Auswirkung der NPS- und NEV-Kategorie auf die Cross-Buying-Absicht

Diskussion

Unsere Ergebnisse zeigen, dass Emotionen die Wiederkaufsabsicht und die Cross-Buying-Absicht erklären – zusätzlich zum NPS. Daher empfehlen wir, NPS in Kombination mit Emotionen – zum Beispiel mit dem NEV – zu verwenden, um zusätzliche Erkenntnisse zu gewinnen. Wir stellen zum Beispiel fest, dass Promoters mit einem positiven NEV eine höhere Cross-Buying-Absicht haben als Promoters mit einem neutralen NEV und dass Detractors mit einem negativen NEV eine niedrigere Cross-Buying-Absicht haben als Detractors mit einem neutralen NEV.

Ein emotionales Profil für Detractors, Passives und Promoters liefert weitere Details. Abbildung 3 zeigt, dass sich Promoters hauptsächlich sicher (87 %), vertrauensvoll (83 %) und geschätzt (79 %) fühlen, während sich Detractors hauptsächlich enttäuscht (44 %), frustriert (40 %) und vernachlässigt (37 %) fühlen.

Um die Emotionen mit der höchsten Relevanz zu ermitteln, liefert eine Treiberanalyse weitere Ergebnisse. Abbildung 4 veranschaulicht dies für Detractors. Die horizontale Achse zeigt den Anteil der Befragten, die eine Emotion empfinden, die vertikale Achse zeigt die Relevanz dieser Emotion für die Cross-Buying-Absicht. Bei den Detractors hat z. B. “gestresst” die höchste Relevanz.

Abbildung 3: Emotionales Profil für Detractors, Passives, und Promoters
Abbildung 4: Treiberanalyse für Cross-Buying-Absichten für Detractors

Somit können Abbildung 3 und Abbildung 4 Teil eines Dashboards sein, das verschiedene CFMs kombiniert. Es ermöglicht eine detailliertere Analyse der verschiedenen NPS-Kategorien. Zusätzlich könnten weitere Split-Variablen (z. B. Vertriebskanäle oder Vertriebsregionen) hinzugefügt werden. Diese Erkenntnisse sind in der Werbung, aber auch bei persönlichen Interaktionen von Bedeutung. Die Mitarbeitenden in Pre-Sales, Sales und After-Sales sollten entsprechend geschult werden. Ausserdem könnte ein Monitoring der Emotionen auf der Grundlage verschiedener Datenquellen (z. B. Texte und Befragungen) eingerichtet werden.

Die Tatsache, dass der durchschnittliche Monatsumsatz kaum durch NPS oder NEV erklärt werden kann, lässt sich durch die Branche begründen. In der Mobilfunkbranche haben die Kund:innen Verträge mit Laufzeiten von 12 oder 24 Monaten, der durchschnittliche Monatsumsatz ist eher konstant. Anstatt die Ausgaben zu verändern, werden Kund:innen die Detractors sind oder einen negativen NEV haben, ihre Verträge eher nicht verlängern.

Limitationen

Wir sind uns bewusst, dass unsere Studie Limitationen hat:

  1. Sie konzentriert sich auf eine Branche und auf ein Land. In anderen Branchen und anderen Ländern können Emotionen anders sein. Weitere Untersuchungen könnten daher die dem NEV zugrunde liegenden Emotionen anpassen beziehungsweise alternative Messinstrumente für Emotionen testen.
  2. Wir haben die Zielgrössen durch subjektive Einschätzungen gemessen. Weitere Studien könnten objektive Masse verwenden, z. B. tatsächliches Wiederkaufverhalten, tatsächliches Cross-Buying-Verhalten und tatsächliche durchschnittliche Monatsumsätze, was jedoch den Zugang zu Transaktionsdaten erfordert.
  3. Wir haben unsere Analyse auf der Ebene der Kund:innen durchgeführt. Weitere Untersuchungen könnten die Kombination von NPS und NEV auf Unternehmensebene untersuchen. Eine zeitliche Verzögerung bei den Zielgrössen könnte dann ebenfalls berücksichtigt werden.

Was die weitere Forschung betrifft, so sehen wir in verschiedenen Bereichen Potenzial:

  1. Kund:innen schreiben Texte in E-Mails, in Social-Media-Posts oder in Foren. Dieser Text kann analysiert werden, um Emotionen zu erkennen. Weitere Forschungsarbeiten könnten die Ergebnisse auf Basis von Befragungen mit den Ergebnissen auf Basis von Texten vergleichen.
  2. Ausserdem könnte, wie oben erwähnt, ein Monitoring von Emotionen eingerichtet werden. Emotionen könnten dann mit verschiedenen Touchpoints entlang der Customer Journey (Pre-Sales, Sales und After-Sales) verknüpft werden.
  3. Die Unterschiede zwischen B2C und B2B sind ein weiterer Ansatzpunkt für zukünftige Forschung.
  4. Schliesslich könnte die Rolle von Emotionen bei transaktionalen Befragungen näher untersucht werden. Hier könnten die Emotionen in Kombination mit dem CES gemessen werden. Auch könnten Emotionen gegenüber Mitarbeitenden von Emotionen gegenüber Unternehmen unterschieden werden.

Zusammenfassung

Net Promoter Score (NPS) ist eine der beliebtesten Customer Feedback Metrics (CFMs) – mit Vor- und Nachteilen. Bisherige Untersuchungen zeigen den Nachteil, dass er Zielgrössen wie Umsatzwachstum oder Kundenabwanderung nicht besser erklären kann als andere CFMs. Bisherige Untersuchungen haben jedoch meist keine Kombinationen von CFMs berücksichtigt. Wir argumentieren daher, dass NPS durch andere CFMs, z. B. Emotionen, ergänzt werden sollte. In einer empirischen Untersuchung in der Mobilfunkbranche nutzen wir den von Shaw (2007) vorgeschlagenen Net Emotional Value (NEV) zur Messung von Emotionen. Wir zeigen, dass eine Kombination aus NPS und NEV bei zwei von drei Zielgrössen zu einer besseren Erklärung führt. Wir veranschaulichen, wie Emotionsprofile und Treiberanalysen verwendet werden können, um konkrete Handlungsempfehlungen zu geben.

Dieser Beitrag ist eine Zusammenfassung des Artikels «Should Net Promoter Score be supplemented with other customer feedback metrics? An empirical investigation of Net Promoter Score and emotions in the mobile phone industry». Er ist verfügbar unter: https://doi.org/10.1177/14707853231219648

Literaturangaben

Bain & Company (2020) Customer Experience Tools and Trends: Let No Tool Stand Alone. Available at: www.bain.com/insights/customer-experience-tools-and-trends-2020-let-no-tool-stand-alone (Zugriff am 28.02.2023).

De Haan E, Verhoef PC and Wiesel T (2015) The predictive ability of different customer feedback metrics for retention. International Journal of Research in Marketing 32(2): 195 – 206.

Dixon M, Freeman K and Toman N (2010) Stop trying to delight your customers. Harvard Business Review 88(7/8): 116 – 122.

Keiningham TL, Cooil B, Aksoy L, Andreassen, TW and Weiner J (2007) The value of different customer satisfaction and loyalty metrics in predicting customer retention, recommendation, and share‐of‐wallet. Managing Service Quality 17(4): 361 – 384.

Morgan NA and Rego LL (2006) The value of different customer satisfaction and loyalty metrics in predicting business performance. Marketing Science 25(5): 426 – 439.

Reichheld FF (2003) The one number you need to grow. Harvard Business Review 81(12): 46 – 55.
Shaw C (2007) The DNA of Customer Experience: How Emotions Drive Value. Houndmills: Palgrave Macmillan.

Van Doorn J, Leeflang PS and Tijs M (2013) Satisfaction as a predictor of future performance: A replication. International Journal of Research in Marketing 30(3): 314 – 318.

Steffen Mueller

Prof. Dr. Steffen Müller

Dozent ZHAW School of
Management and Law, Winterthur

steffen.mueller@zhaw.ch, +41 (0) 58 934 79 24

Research Team
Prof. Dr. Steffen Müller, Dr. Roger Seiler, Melanie Völkle
ZHAW School of Management and Law

Download Artikel
Swiss Insights News #24-3

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Small but Mighty: Leveraging Nano-Influencers for Greater (ROI-)Impact

In today’s dynamic digital landscape, marketers face a multitude of challenges when it comes to online advertising. One major hurdle is the phenomenon of banner blindness, where users have grown accustomed to online display ads and increasingly overlook them. Additionally, stringent regulations and mounting privacy concerns further complicate matters, making personalized ad targeting more challenging, which undermines overall effectiveness.

Amidst these challenges, the swift evolution of digital marketing has birthed a compelling solution: influencer marketing. As individuals dedicate more time to social media platforms, brands have recognized the potential of collaborating with influencers to engage audiences authentically and drive results.

However, despite the exponential growth of the influencer-marketing industry and the increasing number of firms leveraging influencers for promotional activities, a notable gap persists in comprehending the genuine return on investment (ROI) generated by these campaigns. This gap encompasses both the immediate revenue achieved and the associated costs.

In response, our comprehensive study investigates this critical aspect and illuminates the entire influencer marketing funnel (i.e., from followers on a social media platform, to reached followers, to engagement with the sponsored posting, and to actual revenue), offering invaluable insights to firms seeking to optimize their influencer marketing policy. By identifying influencers who deliver tangible ROI, firms can navigate the complexities of digital marketing with confidence and precision.

Our empirical/experimental evidence leads us to an intriguing conclusion: nano-influencers, those with a smaller following, are more cost-effective in revenue generation compared to their macro counterparts. This finding challenges the prevalent industry norm that attributes a higher value on influencers with more followers. We find that the engagement between influencers and their followers plays a crucial role in this dynamic. In essence, a more intimate connection between nano-influencers and their followers leads to more effective marketing outcomes. We find that around 1.5% of the usual nano-influencer’s followers would convert to buying, while it is only 0.2% for a macro-influencer.

Figure 1. Funnel Comparison of Nano-, Micro-, and Macro-Influencers.

Figure 1 shows a comparison of typical influencer-marketing funnels between nano-, micro- and macro-influencers. Note that of course these numbers might change given the platform and context. However, we expect the overall trend to persist: a nano-influencer outperforms a micro- and macro-influencer in each stage of the funnel with a higher percentage of the previous funnel step converting to the next funnel step. For example, for a nano-influencer around 700 out of 5,000 (14%) followers would typically engage, while for macro influencer 8,000 out of 160,000 (5%) followers would typically engage. This trend continues until the for a firm crucial step of converting followers of the paid influencer (and the sponsored post) into customers.

We analyze data from one of Europe’s leading direct-to-consumer firms, which includes influencer-specific discount codes shared on Instagram linked to nearly 1.9 million sold products, amounting to over €17 million in revenue. In addition, we analyze data from YouTube and TikTok as well as from three distinct field studies with 319 paid nano- and macro-influencers on Instagram, resulting in a combination of empirical and experimental evidence across platforms.

A key aspect of our study is examining the level of engagement on an influencer’s profile before a sponsored post. We follow social capital theory, which suggests that influencers with more followers might encounter lower engagement levels with their followers. And indeed, empirical data confirms this notion. We also use language style matching on more than 500,000 comments and replies to delve deeper into the relationship between influencers and their followers. Our findings indicate that nano-influencers align more closely with their followers’ communication styles, enhancing their relatability and effectiveness in influencer marketing.

These insights hold major implications for firms and marketers. The industry’s focus on macro-influencers needs a reevaluation in light of our findings. Brands should consider leveraging nano-influencers, especially for campaigns with a sales focus. This approach not only promises higher ROI but also fosters a more authentic connection with audiences. Nowadays, this is easily feasible through influencer-marketing tools that provide the infrastructure to manage hundreds of influencers at scale and automate processes such as example Kingfluencers or Rearchbird.

In conclusion, our study suggests that firms and marketers should consider the (ROI-)impact of nano-influencers. By doing so, they can unlock new potentials in influencer marketing, ensuring that their investments yield higher returns.

For the forthcoming publication in the Journal of Marketing, see here:
https://doi.org/10.1177/00222429231217471

Prof. Dr. Andreas U. Lanz

Assistant Professor of Digital Marketing Analytics,
University of Basel

andreas.lanz@unibas.ch

Research Team
Maximilian Beichert (University of Mannheim, Germany)
Andreas Bayerl (Erasmus University, Netherlands)
Jacob Goldenberg (Reichman University, Israel)
Andreas Lanz (University of Basel, Switzerland)

Download Artikel
Swiss Insights News #24-2

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

KI-Gesetz tritt in Kraft. Was bedeutet das für Schweizer Unternehmen?

Prozess der Inkraftsetzung

Das offizielle Inkrafttreten des KI-Gesetzes der EU (d.h. wenn der definitive Text fixiert ist und keine Veränderung mehr möglich ist) sollte bis Ende März 2024 erfolgen. Voraussetzung dafür ist eine formelle Annahme seitens des EU-Parlaments und des EU-Rats. Die Bestimmungen des Gesetzes werden nach einer zweijährigen Übergangsfrist angewendet, die dann bis 2026 laufen würde. Während dieser Zeit werden technische Umsetzungsstandards erarbeitet, welchen sich die betroffenen Firmen anpassen müssen. Zu beachten ist, dass bestimmte Verbote bereits nach sechs Monaten wirksam werden.

Was bedeutet das für Schweizer Unternehmen?

Schweizer Unternehmen müssen mit Anpassungen in den Verträgen mit ihren KI-Lieferanten rechnen. Um eine allfällige Unterstellung rechtzeitig zu identifizieren, müssen sich die Unternehmen bewusst werden, wo und wie sie KI einsetzen. Diese Unterstellung kann direkt aufgrund einer Tätigkeit in der EU oder indirekt aufgrund der Tätigkeit der Kundschaft gegeben sein.

Rechte und Pflichten

Welche Rechte und Pflichten führt das KI-Gesetz ein?

Klassifizierung der KI-Anwendung: Entwickler:innen und Verwender:innen von KI müssen klären, unter welche Risikokategorie sie fallen und ob sie KI in einer unzulässigen Weise verwenden. Diese Differenzierung kann in Einzelfällen, insbesondere bei Emotions-Erkennung oder Manipulation des Verhaltens, unklar sein, sodass unbedingt eine Risikoabwägung vorgenommen werden muss. Je nach Risikoart der angewandten KI muss sichergestellt werden, dass entweder Entwicklung, Anwendung und Überwachungsmassnahmen der KI korrekt dokumentiert sind oder die notwendige Transparenz gegenüber den Nutzer:innen sichergestellt wird, wenn KI in der Kundenbeziehung oder beim Erstellen von Texten und Bildern eingesetzt wird. Dazu muss gewährleistet sein, dass bereits bestehende Regelungen beim Einsatz der neuen Möglichkeiten der KI nicht unbeabsichtigt verletzt werden.

Wie beginnt man?

Es ist für jede Firma essenziell, ihre KI-Nutzung zu evaluieren und dabei folgende drei Kernfragen zu beantworten:

  1. Wo nutze ich KI?
  2. Wer entscheidet über den Einsatz von KI?
  3. Welche Folgen könnte KI für meine Kund:innen und Mitarbeitenden haben?

Mauro Quadroni
RA und CTO bei AI Legal & Strategy Consulting AG

mauro.quadroni@ai-lsc.ch
+41 43 288 96 57

Download Artikel
Swiss Insights News #24-1

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Panel + Geoanalysen = Erkenntnisgewinn

Als Marktforschungsunternehmen ist es für LINK von grösster Bedeutung, dass das Panel eine hohe Repräsentativität aufweist, die für valide und stabile Ergebnisse steht. Die Volvo Car Switzerland AG hat im Frühjahr 2021 eine schweizweite Studie mit 1’047 Befragten durch das LINK Panel in Auftrag gegeben. Im gleichen Zug beauftragte Volvo einen externen Partner – Crosswind – mit Geoanalysen, weshalb auch einige Fragebogeninhalte vorgängig auf diese Analysen abgestimmt wurden. Vor dem Start der Geoanalysen wurden die durch LINK erhobenen Umfragedaten durch Crosswind eingehend geprüft und mit externen Daten validiert.

Diese Validierung hatte das Ziel, sicherzustellen, dass die Ergebnisse der Geoanalysen durch Crosswind auch auf einer detaillierten geographischen Ebene, wie z.B. den Kantonen, verlässliche und belastbare Ergebnisse liefern. Da die Fallzahlen auf diesen Ebenen in der Regel sehr gering sind und oft gar keine Informationen in Form von Interviews vorliegen, beeinflussen einzelne Aussagen das Ergebnis stark. Die Repräsentativität ist daher von besonderer Bedeutung, da nur auf ihrer Basis auch bei geringer Fallzahl regional spezifische Erkenntnisse gewonnen werden können.

Die externe Validierung durch Crosswind hat bei der Auftraggeberin grosses Vertrauen in die Repräsentativität des LINK Panels geschaffen, wie Beat Fritschi, Business & Retailer Development Director bei Volvo betont: «Bei der durch Crosswind durchgeführten externen Validierung wurden Ergebnisse aus der Umfrage von LINK und öffentlich zugängliche Daten zum Fahrzeugmarkt gegenübergestellt. Das Resultat dieses Vergleichs hat gezeigt, dass die Ergebnisse der LINK-Umfrage auch auf sehr detaillierter räumlicher Ebene repräsentativ sind. Dies hat unser Vertrauen in die weiteren Umfrageergebnisse verstärkt.»

Hohe Repräsentativität durch aktiven Rekrutierungsansatz

LINK verfolgt verschiedene Massnahmen, um die Repräsentativität ihres Panels zu gewährleisten. Repräsentativität bedeutet, dass jedes Element der Grundgesamtheit (d.h. alle potenziell Befragten) eine eindeutig definierte und von Null verschiedene Wahrscheinlichkeit besitzt, in die Stichprobe aufgenommen zu werden («Zufallsauswahl»). Nur repräsentative Stichproben stellen ein wirklichkeitsgetreues Abbild der Grundgesamtheit dar und erlauben eine Verallgemeinerung des Ergebnisses auf die Grundgesamtheit (marktforschung.de).

LINK nutzt einen speziellen Rekrutierungsansatz, bei dem das Panel zu 100 % aktiv über telefonische Studien mit Festnetz- und Mobilnummern rekrutiert wird. Zum einen kann hiermit sichergestellt werden, dass es sich bei den Befragten um echte Personen handelt (direkte Verifizierung am Telefon), zum anderen kann so ein Grossteil der Bevölkerung erreicht werden. Jede Person hat folglich dieselbe Chance (oder zumindest eine bekannte Chance), ins Panel aufgenommen zu werden. Ausserdem ist die Hemmschwelle für Mehrfachanmeldungen höher und Mehrfachteilnehmende können einfacher ausgeschlossen werden.

Zusätzlich nutzt LINK verschiedene Massnahmen, um Verzerrungen durch Selektionsprozesse oder Nichtteilnahmen entgegenzuwirken – beispielsweise Speeder-Identifikation, Qualitäts-Flagging bei auffälligem Antwortverhalten oder Tracking wichtiger KPIs und Feedback zur Gestaltung angenehmer Fragebögen und Ausfülldauer.

Validierungsprozess anhand von Geodaten am Beispiel von LINK und Crosswind

Die externe Validierung anhand von Geodaten besteht darin, die Repräsentativität eines Panels aufgrund seiner räumlichen Verteilung zu überprüfen. Eine hohe Repräsentativität zeichnet sich dadurch aus, dass unter anderem auch im Rekrutierungsprozess unkontrollierte Merkmale korrekt beziehungsweise bevölkerungsrepräsentativ abgebildet werden. 1’000 Befragte stellen eine gute Grundlage dar, um auf nationaler Ebene sowie differenziert nach den Sprachregionen Deutschschweiz, Westschweiz und Tessin solide und belastbare Ergebnisse zu liefern. Bei geographischen Analysen auf detaillierteren räumlichen Skalenebenen wie der Kantons- oder der Bezirksebene verringern sich jedoch die Fallzahlen regional teilweise stark, wodurch sich Verzerrungen in der Stichprobe bzw. nicht zufriedenstellende Repräsentativität schneller auf die Validität eines regionalen Ergebnisses auswirken.

Im Folgenden wird der Ablauf der Validierung der Daten, die LINK im Rahmen der Umfrage für Volvo erhoben hat, aufgezeigt:

  • Zunächst wurde der Marktanteil pro Automarke am gesamten Fahrzeugbestand untersucht. Hierfür wurde als erste Kennzahl der reale Anteil jeder Automarke pro Kanton (Stand: September 2021) berechnet; dies auf der Grundlage der öffentlich zugänglichen Fahrzeugmarktdaten des Bundesamtes für Strassen ASTRA. Als zweite Kennzahl wurde der Anteil jeder Automarke pro Kanton der 1’047 Umfrageteilnehmenden betrachtet. Diese zweite Kennzahl zeigt also, wie hoch der effektive Marktanteil der Automarken unter den Umfrageteilnehmenden ist.
  • Die Übereinstimmung dieser beiden Kennzahlen (realer Marktanteil vs. Marktanteil laut Studienteilnehmenden) kann als Mass für die Repräsentativität der Umfrage interpretiert werden.

Für die Automarke Volvo beträgt die Abweichung weniger als 5 Prozentpunkte über alle Kantone hinweg, bei BMW und VW existiert eine Abweichung von höchstens 15 Prozentpunkten bei kleineren Fallzahlen. Den einzigen Ausreisser bildet BMW im Kanton Appenzell Innerrhoden, was mit einer Fallzahl von nur 2 Befragten jedoch leicht zu erklären ist. Ein Zusammenhang zwischen der Fallzahl und den Abweichungen wird in Abbildung 1 visualisiert. Ab einer Fallzahl von etwa 15 Befragten liegt die Differenz bei ca. 7 Prozentpunkten oder weniger, und ab ca. 40 Befragten bei 5 Prozentpunkten oder weniger.

Die Resultate der Validierung zeigen folglich, dass die Abweichungen verhältnismässig klein sind, auch bei kleinen Fallzahlen. Dies ist überraschend, insbesondere auch deshalb, da die Umfrage für die Analysen nicht gewichtet wurde. Dies stützt das Argument der Repräsentativität der Umfrage auf der räumlichen Skalenebene «Kanton».

Abbildung 1: Dargestellt ist auf der Y-Achse die Differenz pro Kanton zwischen realem Marktanteil und Anteil der Marken unter den Studienteilnehmenden und auf der X-Achse die Anzahl Befragte pro Kanton. Die rote durchgezogene Linie markiert 0 Prozentpunkte Abweichung. Die gestrichelte rote Line markiert +/- 5 Prozentpunkte Abweichung. Insgesamt zeigen die Ergebnisse eine sehr hohe Übereinstimmung zwischen Umfrageergebnissen und (öffentlich zugänglichen) realen Daten auf. Ausreisser entstehen vereinzelt durch sehr kleine Fallzahlen. Bereits ab einer Fallzahl von etwa 15 Befragten liegt die Differenz bei kleiner gleich 7 Prozentpunkten.

Bedeutung von regionaler Betrachtung der Markenloyalität für Volvo

Im nächsten Schritt nach der oben beschriebenen Validierung wurde erneut der Anteil der Automarken unter den 1’047 Studienteilnehmenden verwendet. Neu wurde diese Kennzahl nun aber der zusätzlich in der Umfrage erhobenen Markenpräferenz gegenübergestellt. Die Studienteilnehmenden gaben hier an, welche Automarken sie bei einer möglichen Neuanschaffung innerhalb der nächsten drei Jahre präferieren. Die Übereinstimmung des Marktanteils und der Markenpräferenz wurde als Markenloyalität interpretiert, da eine Übereinstimmung bedeutet, dass eine Person eine Automarke besitzt und diese auch künftig präferieren würde (oder nicht besitzt und auch zukünftig nicht präferiert).
Eine differenzierte regionale Betrachtung der Markenloyalität und Markenpräferenz ist in Zeiten von Unsicherheit und schnellen Veränderungen im Automobilsektor von grosser Bedeutung. Durch die Studie kann die Markenloyalität auf den Prüfstand gestellt und ein besseres Verständnis für (potenzielle) Kundinnen und Kunden gewonnen werden.

Die Resultate in Tabelle 1 zeigen, dass die Markenloyalität für Volvo regional variiert und im Durchschnitt bei 83 % liegt, wobei sie in Zug mit 64 % am niedrigsten und in Genf mit 94 % am höchsten ist. Diese Resultate sprechen einerseits für eine hohe Markenloyalität der Volvo-Kundinnen und -Kunden (auch im Vergleich zu anderen Marken, was in diesem Artikel jedoch nicht weiter beleuchtet wird), betonen aber andererseits auch, in welchen Regionen mit niedriger Markenloyalität Potenziale oder Notwendigkeiten für eine Neupositionierung bestehen. Eine Möglichkeit kann in der veränderten Nutzung der Vertriebskanäle und somit in der Kundenansprache bestehen. In der Umfrage wurde hierzu unter anderem die Bereitschaft der Befragten für einen Direktvertrieb durch den Online-Kauf von Neuwagen erhoben. Mit den Ergebnissen konnte Volvo ihre Strategie zum Direktvertrieb überprüfen, weiterentwickeln und bereits mit ersten Erfolgen (erste Online-Bestellungen von Neuwagen) in die Tat umsetzen.

Tabelle 1: Gezeigt wird der Anteil der Übereinstimmung bei den Befragten von Markenpräferenz und Besitz dieser Marke (Erst- und/oder Zweitwagen) pro Kanton (Fit Besitz & Präferenz) – auch Markenloyalität. Nicht berechenbar ist dieser Wert, wenn in einem Kanton für keine der Befragten Informationen zu Markenpräferenz und/oder Besitz existieren, z.B. durch das Ankreuzen der Antwortoption «weiss nicht / keine Angabe». Wie gut der Besitz von Volvo zur Markenpräferenz von Volvo passt, variiert regional. Meist liegt die Markenloyalität um die 80%.

Repräsentativität LINK Panel und neue Erkenntnisse durch Geoanalysen von Crosswind

Abschliessend lässt sich durch die gezeigten Resultate festhalten, dass die Volvo Car Switzerland AG dank den Umfrageergebnissen in Kombination mit den Geoanalysen neue Erkenntnisse hinsichtlich der aktuellen Marktgegebenheiten und der Präferenzen ihrer Kundinnen und Kunden gewinnen konnte. Die regional differenzierten Einsichten konnten zur Weiterentwicklung und Schärfung der Markenstrategie zur künftigen Netz-Entwicklung sowie für die (geografische) Optimierung ihrer Vertriebskanäle genutzt werden.

Grundlage dafür ist die sehr gute Repräsentativität des LINK Panels, was die Validierung der Umfrageergebnisse gezeigt hat: Trotz kleiner Stichprobengrösse werden auch nicht kontrollierbare Merkmale wirklichkeitsnahe (räumlich) abgebildet.

Tabelle 2: Differenz in Prozentpunkten Marktanteil Real vs. Marktanteil LINK pro Kanton

Dr. Verena Mack
Senior Research Consultant Marketing Research LINK

verena.mack@link.ch
+41 41 367 73 39

Eve Degen
Director Data Services & Panel LINK

eve.degen@link.ch
+41 41 367 73 62

Dr. André Bruggmann
Co-CEO Crosswind & Geospatial Solutions Expert

andre.bruggmann@crosswind.ch
+41 79 211 57 059

Download Artikel
Swiss Insights News #8

Institute Member von
SWISS INSIGHTS

www.link.ch

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Online-Erhebungen in der Sozialforschung

Während in der Marktforschung reine Online-Interviews, sogenannte Computer-Assisted Web Interviews (CAWI), längst Standard sind, hat sich der Anteil an Online-Interviews in der Sozialforschung in den letzten Jahren vergleichsweise langsam erhöht. Oftmals dominieren hier noch Computer-Assisted Telephone Interviews (CATI), Computer-Assisted Personal Interviews (CAPI), Paper and Pencil Interviews (PAPI) oder verschiedene Mixed-Mode-Ansätze. Dennoch haben gerade in der Schweiz auch einige wichtige Erhebungen in der Sozialforschung wie die Schweizerische Arbeitskräfteerhebung die primäre Erhebungsmethode zu Online-Interviews geändert. Obwohl Online-Interviews gegenüber allen anderen Erhebungsmethoden einen deutlichen Kostenvorteil bieten, setzen viele Behörden noch auf andere Erhebungsmethoden. Dieser Artikel soll aufzeigen, woran dies liegt und wie die mit einem Wechsel verbundenen Herausforderungen adressiert werden können.

Selektionseffekte

Alle genannten Erhebungsmethoden bringen Vor- und Nachteile mit sich. Online-Interviews sind meist die günstigste Erhebungsmethode, während CAPI im Normalfall die kostspieligste Erhebungsmethode darstellt. Die beiden anderen Methoden sind dazwischen anzusiedeln. Während Online-Interviews natürlicherweise nur die Onlinebevölkerung erreichen, erreicht CATI nur Menschen mit Telefon. Mit PAPI und CAPI kann fast die ganze Bevölkerung erreicht werden.

Obwohl grundsätzlich die meisten Erhebungen den Anspruch haben, eine Stichprobe zu generieren, die repräsentativ für eine gewisse Population ist, kann keine der Erhebungsmethoden dies garantieren, solange die Teilnahme an der Erhebung freiwillig ist. Da eine Teilnahmeverweigerung durch die Eingeladenen erfolgt, ist diese nicht zufällig; die Selbstselektion der Teilnehmenden führt damit zu Verzerrungen der Nettostichprobe. Man versucht solche Verzerrungen auszugleichen, indem man gewisse Bevölkerungsteile überproportional einlädt, die Stichproben gewichtet oder einen Mix der Methoden anwendet.

Erhebungsmethodeneffekte

Zusätzlich verzerren die verschiedenen Methoden die Antworten der Teilnehmenden unterschiedlich. Sowohl CATI als auch CAPI sind Methoden, bei denen eine interviewende Person in die Erhebung involviert ist. Studien haben gezeigt, dass dies zu sogenannten Interviewer-Effekten führt, d.h. Teilnehmende antworten eher zurückhaltender und eher im Sinne eines gesellschaftlich gewünschten Ideals. In beiden Methoden tendieren Teilnehmende zudem dazu, zuletzt genannte Antworten überproportional häufig zu wählen. Bei selbstadministrierten Erhebungen wie Online-Interviews und PAPI ist dies genau umgekehrt. Zudem gibt es bei diesen Methoden keine Interviewer-Effekte.

Tabelle 1: Ausschöpfung nach Treatmentgruppen in Welle 2 in Prozent der Nettostichprobe der ersten Welle
Quelle: Eigene Darstellung nach Voorpostel et al. (2020).

Bedeutung der Verzerrungen

Für die richtige Methodenwahl ist es entscheidend, die Grössenordnungen der Verzerrungen zu kennen. Einige Studien nutzen Mixed-Mode-Erhebungen, bei denen sich die Datensätze der unterschiedlichen Teil-Erhebungen vergleichen lassen. Allerdings lassen sich daraus in den meisten Fällen keine sinnvollen Schlüsse ziehen, da die Selektion der Befragungsmethode den Teilnehmenden überlassen wird. So überlagern sich Effekte von Erhebungsmethode und Selektion, die ex-post nicht mehr unterschieden werden können. Zur Unterscheidung dieser beiden Effekte bei einem Erhebungsmethodenwechsel gibt es trotz der hohen Relevanz in der Schweiz kaum Forschung. Eine der wenigen Ausnahmen bildet die Studie von Voorpostel et al. (2020), die in einem experimentellen Design die Umstellung des Schweizer Haushalt-Panel (SHP) von CATI auf Online-Interviews als primäre Erhebungsmethode untersuchten. Für das Experiment wurden drei unterschiedlich grosse zufällige Bruttostichproben gezogen, eine für CATI, eine für einen Mixed-Mode und eine für eine Onlinebefragung. Zur leichteren Lesbarkeit wird hier nicht weiter auf den Mixed-Mode eingegangen. Voorpostel et al. (2020) finden zwar für Online-Interviews mit 38.5% eine initial geringere Teilnahmebereitschaft bei der Rekrutierung als bei CATI mit 48.7%, aber für beide Methoden eine ähnliche Panelsterblichkeit (vgl. Tabelle 1).

Wenig überraschend sind beide Nettostichproben nicht komplett repräsentativ für die Bevölkerung. Tabelle 2 zeigt das Ergebnis zweiseitiger z-Tests, ob die jeweiligen Anteile der Nettostichproben denjenigen der Bruttostichproben entsprechen. In beiden Nettostichproben ist die jüngste Altersgruppe untervertreten. Individuen über 58 Jahre sind in der CATI-Stichprobe übervertreten, während in der Online-Stichprobe diese Altersgruppe keinen signifikanten Unterschied zum Bruttosample aufweist. Bei der Nationalität sind beide Nettostichproben sehr ähnlich verzerrt.

Tabelle 2: Stichprobenanteile nach Treatmentgruppen in Welle 1 (in Prozent)
*p<0.10, **p<0.05, ***p<0.01. Quelle: Eigene Darstellung nach Voorpostel et al. (2020).

Die Online-Interview-Teilnehmenden weisen zwar in allen Wellen und Interviewteilen eine höhere Rate an nicht beantworteten Items auf, aber bei den meisten Variablen resultiert kein Unterschied zwischen den beiden Stichproben. Dies könnte unter anderem auf eine zufällige Antwortwahl der zusätzlich Antwortenden in der CATI-Stichprobe hindeuten.

Der Interviewer-Effekt bei CATI tritt hingegen zum Beispiel bei Gesundheitsfragen in Welle 1 deutlich zu Tage, wie Abbildung 3 zeigt. Interessanterweise verschwindet er aber in Welle 2, d.h. wenn die Teilnehmenden ein zweites Mal befragt werden. Da die Analysemethode versucht, den Selektionseffekt zu kontrollieren, ist es unwahrscheinlich, dass das Verschwinden des Interviewer-Effekts rein aufgrund einer Selektion in der zweiten Welle geschieht. Vielmehr könnte ein Gewöhnungseffekt dieses Phänomen erklären. Also beeinflussen solche Gewöhnungseffekte die intertemporale Vergleichbarkeit von Studien, bei denen Individuen in mehreren Wellen befragt werden, selbst wenn die Methode konstant bleibt.

Abbildung 3: Interviewer-Effekt bei Gesundheitsfragen
Quelle: Eigene Darstellung nach Voorpostel et al. (2020)

Entwicklung Verzerrungen

Während die Effekte auf die Antworten der Teilnehmenden konstant sind, verändern sich die Selektionseffekte mit der Zeit. Die Erreichbarkeit per Festnetztelefon ist in den letzten Jahrzehnten stark gesunken. Es wird versucht, diese sinkende Erreichbarkeit durch Anrufe an zufällig generierte Mobiltelefonnummern auszugleichen. Diese Methode weist allerdings einen sehr hohen Anteil an Teilnahmeverweigerungen auf. Zudem ist es meist nicht möglich, kosteneffizient spezifische Zielgruppen anzusteuern, da auch keine geographische Eingrenzung möglich ist.

Die Online-Erreichbarkeit hingegen hat in den letzten Jahren insbesondere bei älteren Menschen deutlich zugenommen (vgl. Abbildung 4). Es bleibt aber auch hier ein vergleichsweise hoher Anteil an Teilnahmeverweigerungen.

Abbildung 4: Entwicklung Online-Erreichbarkeit
Anmerkung: Aus methodischen Gründen können die Ergebnisse ab Herbst 2012 nicht mit älteren Studien verglichen werden. Ein Vergleich mit den kommenden Jahren ist dagegen möglich. Quelle: Eigene Darstellung nach Bundesamt für Statistik

Herausforderungen der Umstellung auf Online-Interviews

Die Onlineerreichbarkeit hat auch bei vielen Behörden dazu geführt, die Umstellung von Erhebungen auf Online-Interviews oder Mixed-Modes zumindest zu prüfen. Dies ist jedoch längst nicht bei allen der Fall. Für das Beibehalten alter Erhebungsmethoden werden hauptsächlich zwei Gründe aufgeführt: Erstens sei die Erreichbarkeit mittels Online-Interviews in spezifischen Bevölkerungsgruppen noch nicht ausreichend gut. Diese Nichterreichbarkeit sinkt beispielsweise bei älteren Personengruppen seit einigen Jahren deutlich. Bei anderen Methoden wie CATI steigt zugleich die Nichterreichbarkeit gewisser Bevölkerungsgruppen. Das Argument der schwereren Erreichbarkeit mancher Bevölkerungsgruppen durch Online-Interviews schwächt sich folglich immer weiter ab und wird sich vermutlich eher ins Gegenteil kehren. Zweitens sind viele Erhebungen in der Sozialforschung Wellenerhebungen über lange Zeiträume. Bei diesen steht die Entwicklung gewisser Themen im Fokus. Wenn man nun die Erhebungsmethode ändert, ist es aufgrund der genannten Selektions- und Methodeneffekte wahrscheinlich, dass sich die Ergebnisse ändern, da alle Methoden gewisse Verzerrungen mit sich bringen. Die Erhaltung der intertemporalen Vergleichbarkeit dient daher oftmals als Grund für das Beibehalten der ursprünglichen Erhebungsmethode. Dieses Argument greift allerdings zu kurz, da sich Selektionseffekte wie oben beschrieben über die Zeit verändern. Folglich ist die intertemporale Vergleichbarkeit auch bei konstanter Erhebungsmethode nur eine scheinbare.

Die Zukunft

Langfristig werden sich Online-Interviews in der Sozialforschung weiter etablieren. Die Selektionseffekte bei Online-Interviews schwinden, während sie bei anderen Methoden grösser werden. In manchen Bereichen, wo Offliner wichtig sind, wird es zumindest eine Zeit lang noch notwendig sein, die Erhebungen als Mixed-Mode durchzuführen. Hier eignet sich allerdings die Kombination PAPI/Online-Interviews aus methodischer Sicht deutlich besser als CATI/Online-Interviews, da PAPI und Online-Interviews beide selbstadministriert und somit frei von Interviewer-Effekten sind. Doch keine Sorge, Telefone werden ihren Nutzen für die Sozialforschung nicht verlieren, können sie doch als mobiler Zugang zu Online-Befragungen und als Mobilitätstracking-Device dienen.

Referenz
Voorpostel, M., Kuhn, U., Tillmann, R., Monsch, G. A., Antal, E., Ryser, V. A., … & Dasoki, N. (2020). Introducing web in a refreshment sample of the Swiss Household Panel: Main findings from a pilot study. Fors Working Series paper, 2.

Dr. Marcus Roller

Dr. Marcus Roller

Leiter Sozialforschung,
intervista AG

marcus.roller@intervista.ch, +41 31 511 39 12

Der Autor
Dr. Marcus Roller ist Leiter Sozialforschung bei intervista. Er ist promovierter Ökonom und spezialisiert auf quantitative Forschungsmethoden. Er hat an den Universitäten Basel und Bern zu quantitativen Methoden gelehrt und forscht weiterhin zu ökonometrischen Fragestellungen.

Download Artikel
Swiss Insights News #7

Institute Member von
SWISS INSIGHTS

www.intervista.ch

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Einführung von Dynamic Pricing: Messung der Effekte in der Hotelbranche

Hintergrund und Zielsetzungen

Dynamic Pricing findet in vielen Branchen mehr und mehr Verbreitung. Dabei werden die Preise in Abhängigkeit verschiedener Nachfrageparameter fortlaufend angepasst. Insbesondere in der Tourismusbranche ist Dynamic Pricing mittlerweile üblich – z.B. bei Fluggesellschaften oder bei Hotels. Jedoch gibt es immer noch zahlreiche Hotels, auch in der Schweiz, die nicht auf Dynamic Pricing setzen. Gründe hierfür sind unter anderem Unsicherheiten bezüglich geeigneter Softwarelösungen, aber auch bezüglich der Kundenreaktionen.

An diesen Unsicherheiten setzte ein gemeinsames Forschungsprojekt der ZHAW School of Management and Law und der RoomPriceGenie AG an. Die RoomPriceGenie AG bietet eine Softwarelösung für Dynamic Pricing an.

Abbildung 1: Teilnehmende Hotels

Gemeinsam wurden 37 Hotels gewonnen, an diesem Forschungsprojekt teilzunehmen und im Projektzeitraum 2021 und 2022 Dynamic Pricing einzuführen. Abbildung 1 zeigt die geografische Verteilung der teilnehmenden Hotels, wobei die Farben die Kantone kennzeichnen und die Grösse der Kreise die Anzahl der teilnehmenden Hotels je Standort symbolisiert. Es nahmen sowohl Hotels in Städten als auch Hotels in Bergregionen am Projekt teil.

Die Effekte der Einführung von dynamischem Pricing wurden aus drei Perspektiven gemessen:
• Perspektive 1: Veränderung der internen Kompetenzen;
• Perspektive 2: Veränderung der Gästezufriedenheit;
• Perspektive 3: Veränderung der finanziellen Performance.

Perspektive 1: Veränderung der internen Kompetenzen

Die teilnehmenden Hotels wurden zu Beginn des Projekts gebeten, einen Fragebogen auszufüllen, in dem ihre internen Kompetenzen in Bezug auf Pricing sowie ihr wahrgenommener Erfolg im Vergleich zum Wettbewerb anhand etablierter Skalen abgefragt wurden. Nach der Einführung der Softwarelösung und mindestens sechs Monaten Erfahrung mit Dynamic Pricing wurden sie nochmals aufgefordert, ihre Beurteilung abzugeben. Anhand dieser Vorher-Nachher-Messung bei insgesamt 33 Hotels – vertreten durch jeweils eine Person aus dem Management – zeigte sich, dass sich die internen Kompetenzen in Bezug auf Pricing signifikant von 3.6 auf 4.2 (Skala 1-6) verbessert hatten. Ebenfalls erhöhte sich der wahrgenommene Erfolg im Vergleich zum Wettbewerb von 3.4 auf 4.0 (Skala 1-6). Betrachtet man die einzelnen Items, zeigt sich in Tabelle 1 insbesondere eine Verbesserung bei den folgenden Aspekten:
• «Wir verwenden unsere Pricing-Fähigkeiten und -Systeme, um schnell auf Änderungen im Markt zu reagieren.»
• «Wir betreiben ein effektives Pricing.»
• «Wir verwenden Systeme und Tools, um Pricing-Entscheidungen zu unterstützen.»
• «Wir haben einen höheren Umsatz pro verfügbares Zimmer als unsere Wettbewerber.»
• «Wir steigern unseren Umsatz mehr als unsere Wettbewerber.»
• «Wir haben mehr Pricing-Power als unsere Wettbewerber.»

Tabelle 1:
Vorher-Nachher-Messung in Bezug auf die internen Kompetenzen

Doch wie sind die Effekte bei den Gästen? Dies steht nachfolgend im Vordergrund.

Perspektive 2: Veränderung der Gästezufriedenheit

Auch in Bezug auf die Veränderung der Gästezufriedenheit wurde eine Vorher-Nachher-Messung durchgeführt. Die Hotels wurden gebeten, eine einheitliche Gästebefragung zu versenden und mindestens 30 Antworten zu generieren – und zwar vor und nach der Einführung von Dynamic Pricing. Insgesamt 16 Hotels lieferten eine ausreichende Datengrundlage mit insgesamt jeweils mehr als 1’000 Gästeantworten vor und nach der Einführung der Softwarelösung.

Dabei zeigten sich folgende Ergebnisse, wobei eine Gewichtung stattfand, um alle 16 Hotels gleichermassen zu berücksichtigen:
• Die Gesamtzufriedenheit veränderte sich nicht signifikant von 5.21 auf 5.27 (Skala 1-6).
• Die wahrgenommene Preisfairness veränderte sich nicht signifikant von 5.00 auf 4.93 (Skala 1-6).
• Die Weiterempfehlungsabsicht veränderte sich nicht signifikant von 8.82 auf 8.73 (Skala 1-10).

Somit hat die Einführung von Dynamic Pricing keinen Effekt auf die Gästezufriedenheit. Dies liegt unter anderem daran, dass bereits vor der Einführung von Dynamic Pricing 74.5% der befragten Personen glaubten, dass die Preise dynamisch gebildet werden. Nach der Einführung von Dynamic Pricing lag dieser Anteil bei 78.1%. Auch der Net Promoter Score (NPS) blieb nahezu konstant (60.6% vs. 58.4%).
Somit zeigen sich im Hinblick auf die Veränderung der internen Kompetenzen (Perspektive 1) und im Hinblick auf die Veränderung der Gästezufriedenheit (Perspektive 2) Ergebnisse, die für die Einführung von Dynamic Pricing sprechen. Doch können die Hotels auch von einer positiven Veränderung der finanziellen Performance profitieren?

Perspektive 3: Veränderung der finanziellen Performance

Um dies zu untersuchen, wurden die folgenden branchenüblichen Kennzahlen herangezogen:
• Zimmerbelegung bzw. Occupancy (in %)
• Durchschnittsrate bzw. Average Daily Rate (in CHF)
• Umsatz pro verfügbares Zimmer bzw. Revenue Per Available Room (in CHF)

Insgesamt 21 Hotels lieferten diese Kennzahlen für einen Zeitraum von mindestens 6 Monaten vor der Einführung von Dynamic Pricing und von mindestens 8 Monaten nach der Einführung von Dynamic Pricing. Die ersten beiden Monate nach der Einführung der Softwarelösung wurden in der Analyse nicht berücksichtigt, da die Buchungen für Aufenthalte in diesem Zeitraum meist noch vorher getätigt wurden.
Eine aggregierte Analyse zeigt folgende Ergebnisse:
• Die Zimmerbelegung stieg von 47% auf 59%.
• Die Durchschnittsrate stieg von 166 CHF auf 173 CHF.
• Der Umsatz pro verfügbares Zimmer stieg von 89 CHF auf 107 CHF.

Abbildung 2: Vorher-Nachher-Messung in Bezug auf die
finanzielle Performance

Abbildung 2 verdeutlicht diese Ergebnisse. Im Hinblick auf diesen Vorher-Nachher-Vergleich ist jedoch anzumerken, dass es sich um ein einfaches Design ohne Kontrollgruppe handelt, welches weitere externe Effekte nicht vollständig ausschliessen kann.

Limitationen und Implikationen

Diese Limitation sollte in zukünftigen Untersuchungen berücksichtigt werden. Eine Möglichkeit wäre, weitere Hotels für ein Forschungsprojekt zu akquirieren, die jedoch zunächst auf die Einführung von Dynamic Pricing verzichten und als Kontrollgruppe dienen. Alternativ könnten Benchmarks von vergleichbaren Hotels herangezogen werden, die in diesem Forschungsprojekt nicht verfügbar waren.
Trotz dieser Einschränkung ermutigen die Ergebnisse dazu, Dynamic Pricing einzuführen. Hotels können sowohl ihre internen Kompetenzen als auch ihre finanzielle Performance verbessern, ohne dass sich die Gästezufriedenheit verändert. Dies liegt vor allem daran, dass die Gäste bereits erwarten, dass die Preise dynamisch gebildet werden.

In anderen Branchen, in denen Dynamic Pricing weniger verbreitet ist, können die Effekte anders ausfallen, da dann z.B. die wahrgenommene Preisfairness sinken kann, was sich wiederum auf weitere Einstellungs- und Verhaltensgrössen auswirken kann. Dann kann der vorgestellte Ansatz ein hilfreiches Instrument sein, um einen Piloten durchzuführen und die Effekte auf Basis der drei vorgestellten Perspektiven zu messen.

Steffen Mueller

Kontakt
Prof. Dr. Steffen Müller

Dozent, Fachstelle Behavioral Insights & Pricing ZHAW School of Management & Law

steffen.mueller@zhaw.ch
+41 58 934 79 24

Die Autoren

Prof. Dr. Steffen Müller
Dozent, Fachstelle Behavioral Insights & Pricing ZHAW School of Management & Law
Dr. Nina Heim
Dozentin, Fachstelle Behavioral Insights & Pricing ZHAW School of Management & Law
Vera Lenggenhager
Wissenschaftliche Mitarbeiterin, Fachstelle Behavioral Insights & Pricing ZHAW School of Mgm & Law
Dr. Ari Andricopoulos
CEO, RoomPriceGenie AG

Download Artikel
Swiss Insights News #6

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS