SI_News_2025_08 Predictive Eye Tracking_Seite_01

Predictive Eye Tracking: Potenzial und Grenzen

Kann KI reale Blickverläufe ersetzen? Predictive Eye Tracking ermöglicht schnelle, skalierbare Analysen – Präzision, Kontext und Validität bleiben zentrale Herausforderungen.

KI statt realer Testpersonen?

Die Forschung zur visuellen Aufmerksamkeit hat durch Eye Tracking in den vergangenen Jahren einen substanziellen Entwicklungsschub erfahren. Mit der zunehmenden Relevanz von Künstlicher Intelligenz (KI) stellt sich die Frage, ob menschliche Probanden bei der Blickverlaufs-analyse künftig durch KI-basierte Vorhersagemodelle ersetzt werden können. Der vorliegende Beitrag beleuchtet das Potenzial und die Grenzen des «Predictive Eye Trackings», einem Verfahren, bei dem visuelle Aufmerksamkeit auf Basis trainierter Modelle prognostiziert wird – ohne das Testmaterial realen Personen vorzulegen.

Methodenüberblick: Wie messen wir visuelle Aufmerksamkeit?

Zur Erfassung visueller Aufmerksamkeit stehen derzeit drei methodische Ansätze zur Verfügung, die sich hinsichtlich ihrer technischen Anforderungen, Datenqualität sowie Skalierbarkeit unterscheiden.

Eye Tracking mittels Brillenhardware
Die klassische Eye Tracking-Brille liefert hochpräzise Messdaten (Abweichung von 0.5 – 1.5°). Die Messung erfolgt mit einer speziellen Brillenhardware über Infrarotsensoren und Kameras, welche z. B. Pupillenposition und -grösse, Fixationen (das Auge schaut für einen sehr kurzen Moment – ca. 100 bis 600 ms – auf einen Punkt, um visuelle Informationen bewusst aufzunehmen) sowie Augen- und Kopfbewegungen messen. Aufgrund der Mobilität der Hardware eignet sich diese Methode auch für Feldstudien, z. B. zur Analyse des Einkaufsverhaltens am Point of Sale (POS), wobei kontextuelle Einflussfaktoren wie die Umgebung oder Bewegungen einbezogen werden können. Der Nachteil liegt in der begrenzten Skalierbarkeit und den eher hohen Kosten aufgrund der notwendigen Hardware sowie der Rekrutierung realer Teilnehmender.

Webcam-basiertes Eye Tracking
Diese Methode nutzt die integrierten Kameras gängiger digitaler Endgeräte wie Laptops oder Smartphones. Während ein visueller Stimulus (z. B. ein Werbemittel, Verpackungsdesign oder eine Website) präsentiert wird, werden die Blickbewegungen der Teilnehmenden über die Webcam aufgezeichnet. Die Messgenauigkeit ist im Vergleich zur Brille etwas geringer (Abweichung ca. 2 – 5°), kann jedoch durch die Nachbearbeitung mittels KI zumindest partiell kompensiert werden. Kontextfaktoren lassen sich einbeziehen, indem das Eye Tracking mit einer (Online-)Befragung kombiniert wird. So können Blickdaten und Selbstaussagen gemeinsam ausgewertet werden. Weitere grosse Vorteile liegen in der höheren Skalierbarkeit und in der Wirtschaftlichkeit. Allerdings ist auch hier die Rekrutierung realer Testpersonen erforderlich, häufig über Online-Panels, was neben den geringen Softwareaufwendungen zusätzliche Kosten verursacht.

KI-basiertes Predictive Eye Tracking
Im Gegensatz zu den vorangehenden Methoden verzichtet Predictive Eye Tracking vollständig auf die Erhebung neuer Blickdaten. Stattdessen werden KI-Modelle auf Basis historischer Eye Tracking-Datensätze trainiert, um visuelle Aufmerksamkeitsverläufe auf neuen Stimuli vorherzusagen. Die prognostizierte Genauigkeit hängt wesentlich von der Qualität und Herkunft der Trainingsdaten, der verwendeten Modellarchitektur sowie der visuellen Komplexität der Stimuli ab. Kontextfaktoren wie Umgebungsbedingungen oder situationsabhängige Einflüsse können mit dieser Methode nicht erfasst werden. Ihr Hauptvorteil liegt jedoch in der extrem hohen Skalierbarkeit, den sehr geringen Kosten pro Analyse und der unmittelbaren Ergebnisverfügbarkeit – typischerweise innerhalb weniger Minuten.

Funktionsweise von Predictive Eye Tracking: Wichtige Kriterien bei der Wahl eines Anbieters

Die Aussagekraft der Vorhersagen von Predictive Eye Tracking hängt wesentlich von der Datenbasis, der Modellarchitektur und der Transparenz der Anbieter ab:

Input: Qualität der Trainingsdaten
Die Validität eines Predictive Eye Tracking-Modells ist stark abhängig von der Qualität, Repräsentativität und Herkunft der Trainingsdaten:
• Kulturkreis: Die Übertragbarkeit der Modelle auf spezifische Zielmärkte erfordert, dass Trainingsdaten aus einem vergleichbaren Kulturkreis stammen. So sind z. B. asiatische Blickmuster nur bedingt auf europäische Kontexte übertragbar.
• Messmethode: Daten aus Brillen-basiertem Eye Tracking sind in der Regel präziser als solche aus Webcam-Messungen. Modelle, die auf ungenaueren Quellen basieren, können systematische Abweichungen reproduzieren – selbst wenn nachträgliche KI-Korrekturen erfolgen.
• Anwendungskontext: Die Relevanz der Trainingsdaten hängt vom späteren Einsatzzweck ab. Für Fragestellungen im Marketing sind Datensätze aus Consumer Research relevanter als solche aus medizinischen oder sicherheitstechnischen Studien (z. B. Fahr-assistenzsysteme).

Modellqualität
Beim Predictive Eye Tracking kommen KI-Modelle zum Einsatz, die aus vorhandenen Blickdaten lernen und zukünftige Fixationen vorhersagen.
• Modellwahl: Je nach Zielsetzung kommen unterschiedliche KI-Modelle zum Einsatz – von klassischen Machine-Learning-Verfahren bis hin zu komplexen neuronalen Netzwerken oder Hybridmodellen. Je nach Anwendungsfall haben diese Modelle andere Stärken und Schwächen.
• Datenpunkte: Eine hohe Anzahl von Datenpunkten ist nicht zwangsläufig ein Qualitätsmerkmal. Entscheidend ist, was als Datenpunkt definiert ist und wie viele reale Teilnehmende den zugrunde liegenden Datensatz gebildet haben. Einige Anbieter blähen die Eye Tracking-Daten mit externen Daten,
z. B. mit Industry-Benchmarks, auf, was zwar die Datenmenge erhöht, aber nicht unbedingt die Modellgüte verbessert.

Output: Vergleichbarkeit
Typische Outputs von Predictive Eye Tracking Tools sind Vorhersagen von zukünftigen Blickpositionen (Koordinaten), Fixationen und Sakkaden (schnelle Bewegungen zwischen Fixationen, in denen keine Information aufgenommen wird), welche meist in Heat- und Fokus-Karten zusammengefasst werden. Manche Anbieter berechnen eigene KPIs, welche innerhalb der Tools, nicht aber über verschiedene Tools oder Methoden hinweg vergleichbar sind.

Transparenz schafft Vertrauen
Viele Anbieter machen zentrale Informationen zur Herkunft der Trainingsdaten, Modellstruktur oder Validierung nicht öffentlich zugänglich. Dies erschwert eine informierte Bewertung der Vorhersagequalität. Transparente Anbieter, die z. B. Validierungen über unabhängige Benchmarks wie das MIT Saliency Benchmark offenlegen, schaffen hier Vertrauen.

Empirische Überprüfung: Ein Use Case mit Hilcona

GIM Suisse hat gemeinsam mit Hilcona zwei Videospots getestet. Verglichen wurden die Ergebnisse aus Predictive Eye Tracking (Tool: Attention Insight) und Webcam-basiertem Eye Tracking (Tool: RealEye).

Ergebnisvergleich
Abbildung 1: Die realen Messdaten zeigten eine breite Streuung der Aufmerksamkeit, inklusive peripherer Elemente wie Produktvarianten. Die KI-Vorhersage hingegen fokussierte stärker auf zentrale Designelemente (Logo, Call to Action).

Abbildungen 2 & 3: Ein weiteres Beispiel, bei dem der Stimulus Menschen und Gesichter beinhaltet, zeigt, dass bei beiden Methoden der Fokus initial auf Gesichtern liegt bzw. vorhergesagt wird (Abbildung 2). Während reale Personen bei einem nachfolgenden Bildwechsel ihren Blickverlauf flexibel auf das neu eingeblendete Produkt umleiteten (Abbildung 3), blieb die KI-Prognose weiterhin dominant auf das Gesicht fokussiert – ein Hinweis auf potenzielle Übergewichtung einzelner Merkmale durch das Modell («overfitting» auf Gesichter).

Abbildung 1
Abbildung 2

Bildwechsel

Abbildung 3

Potenziale und Grenzen

Die Analyse der Anwendungsbeispiele zeigt, dass KI-basierte Modelle in der Lage sind, zentrale visuelle Aufmerksamkeitsbereiche (Hotspots) mit hoher Zuverlässigkeit zu prognostizieren. In der Darstellung wirken die resultierenden Aufmerksamkeitskarten oft klar strukturiert und visuell fokussiert. Allerdings weisen sie im Vergleich zu real gemessenen Blickverläufen eine geringere Differenzierung auf: Während reale visuelle Exploration durch Mikrobewegungen, Kontextwechsel und periphere Wahrnehmung geprägt ist, tendieren KI-Vorhersagen zur Reduktion auf dominante Muster – was zu einer vereinfachten, mitunter unvollständigen Abbildung der tatsächlichen visuellen Aufmerksamkeit führt.

Potenzial
• Effizienz: Schnelle und kosteneffiziente Analyse visueller Stimuli
• Skalierbarkeit: Gut geeignet für frühe Entwicklungsphasen (z. B. Design, Verpackung, Werbematerial)
• Objektive Ergänzung: Ergänzt qualitative und quantitative Methoden um eine objektive, datenbasierte Ebene zur Analyse visueller Aufmerksamkeit

Grenzen
• Geringere Differenzierung als reale Blickverläufe: Feinheiten realer visueller Exploration (Mikrobewegungen, Randwahrnehmung) werden oft nicht erfasst.
• Tendenz zur Vereinfachung: Nuancen und Kontextinformationen bleiben unberücksichtigt.
• Modellverzerrung durch Training: Überrepräsentation bestimmter Stimulusarten (z. B. Gesichter, Text) kann zu systematischen Bias führen.
• Fehlende Kausalität: Predictive Eye Tracking zeigt, wo Aufmerksamkeit entsteht – nicht warum. Die Interpretation bleibt hypothesenbasiert.

Sibylle Oetiker
Senior Research Manager bei GIM Suisse AG

s.oetiker@g-i-m.com, +41 44 283 18 04

Sibylle Oetiker ist Soziologin und Kommunikationswissenschaftlerin und hat Erfahrung in der Marktforschung, im Marketing und in der strategischen Beratung auf Instituts- und Kundenseite sowie im wissenschaftlichen Umfeld. Sie ist zudem Gründerin eines nachhaltigen Startups.

Download Artikel
Swiss Insights News #25-5

Corporate Member von
SWISS INSIGHTS

https://www.g-i-m.ch

Alle SWISS INSIGHTS News finden Sie hier: SWISS INSIGHTS NEWS

Share this post