Logistische Regression SPSS Anleitung

Wenn Ihre abhängige Variable nur zwei Ausprägungen hat - etwa krank vs. nicht krank, bestanden vs. nicht bestanden oder Kauf vs. kein Kauf -, ist eine lineare Regression der falsche Weg. Genau hier hilft eine logistische Regression. Diese logistische Regression SPSS Anleitung zeigt Ihnen, wie Sie die Analyse in SPSS sauber aufsetzen, rechnen und fachlich korrekt interpretieren, ohne sich in Menüpfaden oder Kennzahlen zu verlieren.

Wann Sie die logistische Regression in SPSS brauchen

Die binäre logistische Regression wird verwendet, wenn das Zielkriterium dichotom ist. Typische Beispiele aus Abschlussarbeiten und Forschungsprojekten sind die Vorhersage einer Diagnose, der Therapieadhärenz, einer Studienabbruchsquote oder der Wahrscheinlichkeit eines bestimmten Kaufverhaltens.

Der große Vorteil liegt darin, dass das Modell keine lineare Zielvariable voraussetzt, sondern Wahrscheinlichkeiten modelliert. SPSS schätzt dabei, wie stark unabhängige Variablen die Chance beeinflussen, dass das Ereignis mit dem Code 1 eintritt. Das ist methodisch passend, aber nur dann, wenn Kodierung, Prädiktoren und Modelllogik stimmen.

Voraussetzungen vor der Analyse

Bevor Sie in SPSS auf Analysieren klicken, lohnt sich eine kurze methodische Prüfung. Die abhängige Variable muss binär kodiert sein. In SPSS bedeutet das idealerweise 0 und 1. Andere Kodierungen wie 1 und 2 sind zwar möglich, führen aber oft zu Missverständnissen bei der Interpretation.

Wichtig ist außerdem, dass die Beobachtungen unabhängig voneinander sind. Wenn Sie Messwiederholungen, gepaarte Daten oder verschachtelte Strukturen haben, reicht das Standardmodell nicht aus. Dann brauchen Sie andere Verfahren, etwa gemischte Modelle oder GEE.

Für metrische Prädiktoren sollte der Zusammenhang mit dem Logit näherungsweise linear sein. Das wird in Einführungen oft übergangen, ist aber in wissenschaftlichen Arbeiten relevant. Wenn dieser Zusammenhang klar nicht linear ist, sollten Variablentransformationen, kategoriale Einteilungen oder Splines geprüft werden.

Auch Multikollinearität ist ein Thema. Wenn mehrere Prädiktoren fast dasselbe messen, werden die Koeffizienten instabil. SPSS zeigt das in der logistischen Regression nicht so komfortabel wie in der linearen Regression. Deshalb ist eine vorgelagerte Prüfung über Korrelationen oder VIF in einem Hilfsmodell oft sinnvoll.

Daten in SPSS richtig vorbereiten

Eine saubere Analyse beginnt nicht im Regressionsfenster, sondern in der Datenansicht. Ihre abhängige Variable sollte klar als Ereignisvariable definiert sein. Prüfen Sie zuerst, welcher Wert das interessierende Ereignis repräsentiert. Wenn in Ihrer Codierung 1 = erkrankt und 0 = nicht erkrankt bedeutet, interpretiert sich das Modell direkt auf das Auftreten der Erkrankung.

Kategoriale unabhängige Variablen müssen ebenfalls korrekt kodiert werden. In SPSS können Sie solche Variablen später im Regressionsdialog als kategorial festlegen. Das Programm erstellt dann intern Dummy-Variablen. Entscheidend ist die Wahl der Referenzkategorie, denn alle Effekte werden relativ zu dieser Referenz berichtet.

Fehlende Werte sollten Sie vorab prüfen. SPSS verwendet standardmäßig listwise deletion. Das heißt: Ein Fall mit fehlendem Wert in nur einer Modellvariable fliegt komplett aus der Analyse. Gerade bei kleineren Stichproben kann das die Power deutlich reduzieren.

Logistische Regression in SPSS durchführen

Die eigentliche logistische Regression in SPSS ist schnell gerechnet. Gehen Sie auf Analysieren, dann Regression und anschließend Binär logistisch. Im neuen Fenster ziehen Sie die abhängige Variable in das Feld Abhängige und die Prädiktoren in das Feld Kovariaten.

Wenn kategoriale Prädiktoren enthalten sind, klicken Sie auf Kategorial und verschieben die betreffenden Variablen in das rechte Feld. Dort legen Sie auch die Referenzkategorie fest. Für viele Forschungsfragen ist die erste oder letzte Kategorie sinnvoll, aber es gibt keine pauschal richtige Lösung. Relevant ist, welche Vergleichsgruppe inhaltlich den meisten Sinn ergibt.

Unter Methode ist meistens Einschluss die beste Wahl, insbesondere für Thesis, Dissertation und Publikation. Automatische Verfahren wie Vorwärts- oder Rückwärtsselektion wirken verlockend, sind aber methodisch oft angreifbar. Wenn Sie Variablen theoretisch begründet ausgewählt haben, sollten diese auch gemeinsam im Modell bleiben.

Über Optionen können Sie Konfidenzintervalle für Exp(B) anfordern. Das sollten Sie praktisch immer tun, weil Odds Ratios ohne Intervall wenig aussagekräftig sind. Zusätzlich sind Klassifikationstabellen und der Hosmer-Lemeshow-Test häufig nützlich, aber nicht jede Kennzahl ist in jeder Arbeit gleich wichtig.

Die wichtigsten SPSS-Tabellen verstehen

Nach dem Rechnen liefert SPSS mehrere Tabellen. Viele davon wirken umfangreicher, als sie für Ihre Arbeit tatsächlich sind. Entscheidend sind meist vier Bereiche: Modellgüte, Omnibustest, Klassifikation und Koeffizienten.

Omnibustest der Modellkoeffizienten

Diese Tabelle zeigt, ob das Gesamtmodell mit den Prädiktoren besser ist als ein Nullmodell ohne Prädiktoren. Ein signifikanter p-Wert spricht dafür, dass Ihr Modell insgesamt einen Beitrag zur Vorhersage leistet. Das ist ein guter Start, ersetzt aber keine inhaltliche Interpretation einzelner Variablen.

Modellzusammenfassung

Hier finden Sie unter anderem Cox & Snell R-Quadrat und Nagelkerkes R-Quadrat. Diese Maße werden oft wie das R-Quadrat der linearen Regression gelesen, sind aber nicht direkt vergleichbar. Sie geben eine grobe Orientierung zur erklärten Varianz, sollten aber in der Ergebnisdarstellung nicht überbetont werden.

Hosmer-Lemeshow-Test

Dieser Test prüft vereinfacht gesagt, ob die beobachteten Daten zum Modell passen. Ein nicht signifikanter p-Wert wird meist als Hinweis auf akzeptablen Fit gelesen. Gleichzeitig hängt der Test stark von der Stichprobengröße ab. Er ist also nützlich, aber kein alleiniges Qualitätsurteil.

Tabelle der Variablen im Modell

Das ist meist die zentrale Tabelle für Ihre Interpretation. Relevant sind hier der Regressionskoeffizient B, der Standardfehler, der Wald-Test, der p-Wert und Exp(B). Exp(B) entspricht dem Odds Ratio.

Ein Beispiel: Wenn Exp(B) = 1,50 für das Alter vorliegt, bedeutet das bei einer Erhöhung um eine Einheit einen 50-prozentigen Anstieg der Odds für das Ereignis - unter Konstanthaltung der übrigen Variablen. Liegt Exp(B) unter 1, sinken die Odds. Bei Exp(B) = 0,70 reduzieren sie sich um 30 Prozent.

Odds Ratios richtig interpretieren

Genau an diesem Punkt passieren in vielen Arbeiten die meisten Fehler. Odds sind nicht dasselbe wie Wahrscheinlichkeiten. Ein Odds Ratio von 2 bedeutet nicht automatisch, dass sich die Wahrscheinlichkeit verdoppelt. Es beschreibt die Veränderung der Chancen, nicht direkt der Prozentwahrscheinlichkeit.

Bei dichotomen Prädiktoren ist die Interpretation meist noch relativ intuitiv. Wenn zum Beispiel Geschlecht mit 0 = männlich und 1 = weiblich kodiert ist und Exp(B) = 1,80 beträgt, dann haben Frauen im Vergleich zu Männern 1,8-fach höhere Odds für das Ereignis - vorausgesetzt, alle anderen Variablen im Modell bleiben konstant.

Bei metrischen Variablen sollten Sie immer prüfen, ob die Skalierung sinnvoll ist. Wenn das Einkommen in Euro eingegeben wurde, ist ein Effekt pro 1 Euro meist inhaltlich wertlos. Dann ist es besser, die Variable vorab in 100-Euro- oder 1000-Euro-Schritte umzuskalieren. Das verändert nicht das Modell, aber die Interpretierbarkeit.

Typische Fehler in einer logistischen Regression SPSS Anleitung

Die häufigsten Probleme sind überraschend banal. Erstens wird die abhängige Variable falsch herum interpretiert, weil unklar ist, welches Ereignis SPSS modelliert. Zweitens werden kategoriale Prädiktoren nicht als kategorial deklariert. Drittens wird ein nicht signifikanter Einzelprädiktor vorschnell als bedeutungslos verworfen, obwohl das Modell insgesamt sinnvoll sein kann.

Ein weiterer Fehler betrifft kleine Stichproben oder seltene Ereignisse. Wenn die Ereigniskategorie nur sehr selten vorkommt, werden Schätzungen instabil. Dann helfen auch formal korrekte Menüeinstellungen wenig. In solchen Fällen muss methodisch geprüft werden, ob das Modell mit den vorhandenen Daten überhaupt tragfähig ist.

Auch die Gleichsetzung von Signifikanz mit Relevanz ist problematisch. Ein sehr kleiner Effekt kann bei großer Stichprobe signifikant werden, aber praktisch kaum Bedeutung haben. Umgekehrt kann ein fachlich relevanter Effekt bei kleiner Stichprobe knapp nicht signifikant sein. Gute Forschung bewertet daher immer Effektgröße, Konfidenzintervall und inhaltlichen Kontext zusammen.

So berichten Sie die Ergebnisse korrekt

Für die Ergebnisdarstellung in einer wissenschaftlichen Arbeit reicht kein Screenshot aus SPSS. Sie sollten das Modell, die Stichprobe und die zentralen Kennzahlen in sauberer Fachsprache formulieren. Dazu gehören die Angabe, dass eine binäre logistische Regression gerechnet wurde, welche Prädiktoren enthalten waren, ob das Gesamtmodell signifikant war und wie die einzelnen Odds Ratios mit Konfidenzintervallen ausfallen.

Ein typischer Ergebnissatz könnte so aussehen: Das Regressionsmodell war insgesamt signifikant und zeigte, dass höhere Werte auf Prädiktor X mit erhöhten Odds für das Auftreten des Ereignisses verbunden waren. Für eine Einheit Anstieg erhöhte sich das Odds Ratio auf 1,42, 95%-KI [1,10; 1,83], p = ,006. Genau die konkrete Formulierung hängt natürlich von Fach, Variablentyp und Modellaufbau ab.

Wenn Sie an einer Thesis, Dissertation oder Publikation arbeiten, lohnt sich hier besondere Sorgfalt. Denn die technische Berechnung in SPSS ist meist der einfache Teil. Schwieriger ist die methodisch korrekte Entscheidung, welche Variablen ins Modell gehören, wie kategoriale Prädiktoren referenziert werden und wie die Ergebnisse belastbar interpretiert werden.

Gerade wenn Zeitdruck, Betreuungsunsicherheit oder Publikationsanforderungen dazukommen, spart eine fachkundige Prüfung oft deutlich mehr Zeit als ein späteres Korrigieren fehlerhafter Modelle. Wenn Sie Ihre logistische Regression in SPSS nicht nur rechnen, sondern sicher begründen und sauber berichten wollen, fordern Sie Ihre Statistikberatung über das Kontaktformular an. Ein klar aufgebautes Modell gibt nicht nur bessere Ergebnisse - es gibt Ihnen auch Ruhe für den nächsten Schritt Ihrer Arbeit.

Zurück zu Easy Statistik Blog