Mit einer Poweranalyse die Stichprobengröße berechnen

Wer eine Studie plant und die Fallzahl nur grob schätzt, riskiert später mehr als eine unglückliche Diskussion im Methodenteil. Wenn Sie eine Power Analyse durchführen und die Stichprobe berechnen wollen, entscheiden Sie bereits vor der Datenerhebung über die Aussagekraft Ihrer Ergebnisse - und oft auch darüber, ob Zeit, Budget und Rekrutierungsaufwand realistisch bleiben.

Power Analyse Stichprobe berechnen - worum es wirklich geht

Die Grundidee ist einfach: Sie möchten genügend Teilnehmende einplanen, um einen tatsächlich vorhandenen Effekt mit hoher Wahrscheinlichkeit zu entdecken. Genau diese Wahrscheinlichkeit beschreibt die Power eines statistischen Tests. Üblicherweise wird eine Teststärke von 80 Prozent oder 90 Prozent angesetzt. Liegt die Fallzahl zu niedrig, bleibt ein vorhandener Effekt möglicherweise unentdeckt. Liegt sie zu hoch, wird die Studie unnötig teuer, aufwendig oder ethisch schwerer zu rechtfertigen.

Gerade in Bachelorarbeiten, Masterarbeiten, Dissertationen und Publikationen sehen wir immer wieder dasselbe Problem: Die Fallzahl wird aus früheren Arbeiten übernommen, aus dem Bauch heraus gewählt oder erst nach Datenerhebung begründet. Methodisch sauber ist das nicht. Eine gute Power-Analyse gehört in die Planungsphase.

Dabei ist wichtig, dass die Berechnung keine isolierte Rechenübung ist. Sie hängt direkt von Ihrer Forschungsfrage, Ihrem Design, Ihrem primären Endpunkt und dem geplanten statistischen Verfahren ab. Wer hier unpräzise formuliert, erhält am Ende eine scheinbar exakte Zahl mit fragwürdiger Grundlage.

Welche Angaben Sie für die Berechnung brauchen

Wenn Sie eine Power Analyse für die Stichprobe berechnen, benötigen Sie meist vier Kernelemente. Erstens den geplanten Test, also zum Beispiel t-Test, Korrelation, lineare Regression, ANOVA, Chi-Quadrat-Test oder logistische Regression. Zweitens das Signifikanzniveau alpha, häufig 0,05. Drittens die gewünschte Power, meist 0,80 oder 0,90. Viertens eine erwartete Effektgröße.

Genau an der Effektgröße scheitert die Praxis am häufigsten. Denn sie lässt sich nicht einfach frei wählen. Wer pauschal einen mittleren Effekt annimmt, weil Cohen das so vorgeschlagen hat, spart zwar Zeit, aber nicht zwingend methodische Kritik. Besser ist es, die Effektgröße aus Pilotdaten, Vorstudien, Metaanalysen oder fachlich plausiblen Minimalunterschieden abzuleiten.

In medizinischen und pharmazeutischen Projekten ist zusätzlich relevant, welcher Unterschied klinisch bedeutsam ist. In psychologischen oder sozialwissenschaftlichen Arbeiten stellt sich eher die Frage, ab welcher Effektstärke die Hypothese theoretisch sinnvoll geprüft wird. Eine statistisch kleine, aber praktisch irrelevante Differenz rechtfertigt nicht automatisch eine große Stichprobe.

So gehen Sie Schritt für Schritt vor

Am Anfang steht nicht die Software, sondern die Präzisierung Ihrer Hauptanalyse. Sie müssen wissen, welche Hypothese Ihre zentrale ist. Planen Sie einen Gruppenvergleich mit zwei unabhängigen Gruppen, brauchen Sie eine andere Berechnung als bei Messwiederholungen oder multipler Regression. Auch die Frage, ob ein einseitiger oder zweiseitiger Test sachlich begründet ist, beeinflusst die Fallzahl.

Danach legen Sie alpha und Power fest. Für die meisten akademischen Arbeiten ist alpha = 0,05 und Power = 0,80 ein sinnvoller Standard. Bei besonders relevanten Studien, teuren Folgestudien oder sensiblen Fragestellungen kann eine höhere Power angemessen sein. Das erhöht allerdings die benötigte Fallzahl zum Teil deutlich.

Im nächsten Schritt bestimmen Sie die Effektgröße. Für einen t-Test könnte das Cohen's d sein, für Korrelationen der erwartete r-Wert, für ANOVA etwa f und für Regressionsmodelle oft f². Hier entscheidet sich, ob Ihre Berechnung belastbar oder nur formal korrekt ist. Eine gute Begründung ist wichtiger als eine möglichst kleine Zielstichprobe.

Erst dann kommt die eigentliche Berechnung, zum Beispiel in GPower, R, SPSS-Syntax, JASP oder Jamovi. Das Tool ist zweitrangig, solange die Eingaben fachlich stimmen. Ein falsch gewähltes Modell liefert auch in schöner Software keine sinnvolle Fallzahl.

Ein einfaches Beispiel zur Orientierung

Angenommen, Sie planen einen t-Test für zwei unabhängige Gruppen, etwa eine Interventionsgruppe und eine Kontrollgruppe. Sie erwarten einen mittleren Effekt von d = 0,5, wählen alpha = 0,05 und eine Power von 0,80. In diesem Fall liegt die benötigte Gesamtstichprobe ungefähr bei 128 Personen, also rund 64 pro Gruppe.

Das klingt zunächst handhabbar. In der Realität müssen Sie aber fast immer Ausfälle einplanen. Wenn Sie mit 15 Prozent Dropout rechnen, reicht eine Zielgröße von 128 nicht aus. Dann sollten Sie entsprechend höher rekrutieren. Genau dieser Punkt fehlt in vielen Arbeiten, obwohl er für die praktische Studienplanung zentral ist.

Noch deutlicher wird der Einfluss der Effektgröße, wenn Sie statt eines mittleren nur einen kleinen Effekt erwarten. Dann steigt die erforderliche Stichprobe schnell stark an. Deshalb ist die Frage nach der realistischen Effektstärke keine Nebensache, sondern der eigentliche Hebel der gesamten Planung.

Häufige Fehler bei der Fallzahlplanung

Der verbreitetste Fehler ist die rückwärts gerichtete Begründung. Erst werden Daten erhoben, dann sucht man nach einer Power-Erklärung. Das ist keine a-priori-Power-Analyse, sondern bestenfalls eine nachträgliche Rechtfertigung. Für Studienplanung, Ethikantrag und sauberen Methodenteil brauchen Sie die Berechnung vor Beginn der Datenerhebung.

Ein zweiter Fehler ist die Vermischung verschiedener Endpunkte. Wenn Ihre Arbeit mehrere Hypothesen enthält, sollten Sie die Fallzahl auf den primären Endpunkt ausrichten. Sonst droht ein unübersichtlicher Methodenteil, in dem mehrere Berechnungen nebeneinanderstehen, aber keine davon wirklich leitend ist.

Drittens werden Modelle oft zu simpel angesetzt. Wer zum Beispiel eine komplexe Regression mit mehreren Kovariaten plant, kann nicht ohne Weiteres die Fallzahl eines einfachen Gruppenvergleichs übernehmen. Ebenso verändern abhängige Messungen, Clusterstrukturen oder ungleiche Gruppengrößen die Anforderungen an die Stichprobe.

Viertens wird die Rekrutierbarkeit zu optimistisch eingeschätzt. Eine methodisch perfekte Zielstichprobe nützt wenig, wenn sie in der verfügbaren Zeit nicht erreichbar ist. Dann braucht es keine kosmetische Begründung, sondern eine ehrliche Anpassung des Designs, etwa eine fokussiertere Fragestellung oder ein effizienteres Messkonzept.

Was tun, wenn Vorstudien fehlen?

Das ist ein typisches Problem bei innovativen Themen, seltenen Populationen oder explorativen Abschlussarbeiten. Wenn keine belastbaren Vorarbeiten vorliegen, sollten Sie die Effektgröße nicht einfach erfinden. Sinnvoller ist eine transparente Herleitung über mehrere Szenarien.

Sie können zum Beispiel eine Sensitivitätsanalyse aufsetzen und prüfen, welche Effekte mit der realistisch verfügbaren Stichprobe überhaupt nachweisbar wären. Das ist besonders dann hilfreich, wenn die Rekrutierung begrenzt ist, etwa in klinischen Settings, bei Spezialgruppen oder im Unternehmenskontext. So zeigen Sie nicht nur, was ideal wäre, sondern auch, welche inferenzstatistische Aussagekraft unter realen Bedingungen erreichbar ist.

Gerade für Abschlussarbeiten ist das oft der bessere Weg als eine künstlich präzise Fallzahl. Prüferinnen und Prüfer sehen in der Regel sehr schnell, ob eine Berechnung fachlich verstanden oder nur formal eingefügt wurde.

Welche Software eignet sich?

Viele kennen GPower, weil es kostenlos und für Standardfälle gut nutzbar ist. Für einfache Designs ist das oft ausreichend. Sobald das Modell komplexer wird, etwa bei gemischten Modellen, speziellen Regressionsansätzen oder Survival-Analysen, stoßen Standardtools jedoch an Grenzen.

Dann sind R oder spezialisierte Verfahren meist die bessere Wahl, vorausgesetzt die Modellierung ist methodisch sauber. Der entscheidende Punkt ist nicht, welches Programm Sie öffnen, sondern ob die Berechnung zu Ihrem tatsächlichen Analyseplan passt. Eine formal erzeugte Zahl ohne methodische Passung wirkt in einer Thesis oder Publikation schnell angreifbar.

Power-Analyse in Thesis, Dissertation und Publikation sauber darstellen

Im Methodenteil sollten Sie knapp, aber präzise formulieren. Nennen Sie den geplanten Test, das Signifikanzniveau, die gewünschte Power, die zugrunde gelegte Effektgröße, deren Begründung und die resultierende Fallzahl. Falls Sie mit Ausfällen rechnen, dokumentieren Sie auch den eingeplanten Aufschlag.

Wichtig ist dabei die Nachvollziehbarkeit. Ein Satz wie „Die Fallzahl wurde mittels Power-Analyse bestimmt“ reicht nicht. Besser ist eine Formulierung, die die Entscheidungsschritte transparent macht. Das stärkt die methodische Glaubwürdigkeit und reduziert Rückfragen im Kolloquium, im Review oder bei der Betreuung.

Wer unsicher ist, sollte die Fallzahlplanung nicht als lästige Formalie behandeln. Genau an dieser Stelle entstehen viele spätere Probleme - von unzureichender Power über widersprüchliche Hypothesentests bis hin zu schwer verteidigbaren Nullbefunden. Eine saubere Planung spart später Diskussionen, Zeit und im besten Fall auch unnötige Datenerhebung.

Wenn Sie Ihre Power-Analyse fachlich korrekt aufsetzen möchten, aber bei Effektgröße, Testwahl oder Software nicht weiterkommen, ist eine individuelle statistische Einordnung meist der schnellste Weg. Easy Statistik unterstützt hier mit Beratung auf Promotionsniveau, diskret und nachvollziehbar. Für eine belastbare Einschätzung Ihrer Studie können Sie einfach über das Kontaktformular eine Statistikberatung anfordern.

Die beste Fallzahl ist nicht die kleinste und nicht die größte, sondern diejenige, die Ihre Forschungsfrage ehrlich trägt. Genau diese Nüchternheit macht am Ende gute empirische Arbeit aus.