Kurzanleitung Statistik

Aufbau einer Studie
  • Wissenschaftliche Fragestellung
  • Datenerhebung (= Beratung durch Statistiker!)
  • Datenaufbereitung
  • Auswertung
Wissenschaftliche Fragestellung

Klinische Versuche

Prognostische Studie

Kontrolliertes Experiment

Ziel:

Bestimmung des Einflusses prognostischen Faktoren bei standardisierter Behandlung

Ziel:

Vergleich von verschiedenen Behandlungen bei standardisierten Gruppen

Datenerhebung

Datendokumentation

Dokumentationsbogen

Karteikartenrecherche

Vorteil:

alle gewünschten Variablen werden erfaßt

Nachteil:

hoher Zeitaufwand

Vorteil:

geringer Zeitaufwand

Nachteil:

nur dokumentierte Daten verfügbar

Als statistische Einheiten unterschiedet man:

Erhebungseinheit: Patient (z. B. Alter, Geschlecht etc.) Untersuchungseinheit: Füllung, Zahn, Parodont (z. B. Flg. material, Ausdehnung, DBA etc.)

Datenaufbereitung am PC
Anforderungen an das Datenfile
  • Standarddatenformat (z. B. SPSS, ASCII, Excel, Access etc.)
  • Kodierungsliste mit allen Ausprägungen (explizit: system missing values, user missing values kodieren!)
  • Einheitlich für gesamte Studie
  • Die Variable selbst muß kodiert sein (z. B. variable label sex “Geschlecht”)
  • Die Ausprägungen der Variblen müssen kodiert sein (z. B. value label 0 “nein”, 1 “ja”)
  • Numerische Kodierung (z. B. statt nein/ja - 0/1)
  • Plausibilitlätskontrolle bei der Eingabe
  • Kreuzvalidierung (Vergleich von 2 Variablen auf unmögliche Kombinationen, z. B. ein fehlender Zahn (Var1) kann nicht vital sein (Var2))
  • Kontrolle der Werte (z. B. anhand von Frequency tables in SPSS)
  • Datenschutz beachten - Kodieren und Sichern von Patientendaten
Datenformate

Textdatei (ASCII)

Empfehlung Kunzelmann, sog. CSV-Format verwenden (CSV = comma separated value). Beim CSV-Format werden die Variablen zeilenweise (ein-/mehrzeilig) gespeichert. Das Ende einer Zeile wird durch Carriage Return gekennzeichnet. Die Variablen werden durch Kommas getrennt (in diesem Fall muß als Dezimaltrennzeichen ein Punkt verwendet werden). Alphanumerische Kodes werden in Anführungszeichen zusammengefaßt.

Tabellenkalkulation (Excel)

Excel ist leicht zu erlernen, ermöglicht einfache Grafiken, nur eingeschränkte Statistikfunktion. Die Flexibilität von Excel ist meiner Meinung nach sein größter Nachteil. So kann man beispielsweise das Form der Zellen beliebig wählen. Hierbei kommt es häufig zu Eingaben, die später nicht mehr mit SPSS bearbeitet werden können. Tip: als Excel 4.0 Tabelle speichern, dann in SPSS importieren.

SPSS

Komplexes Statistikpaket. Schwer zu erlernen. Ohne Programmierkenntnisse schlechte Dokumentation des Arbeitsablaufes.

Mein Tip: In Zusammenarbeit mit Statistiker Datenfile erstellen. Dateneingabe alleine. Auswertung von Statistiker programmieren lassen. SPSS hat eine hohe persönliche Präferenz, da es sehr flexible Auswertungen einschließlich grafischer Darstellung zuläßt. Der größte Nachteil von SPSS ist die häufig unzureichende Qualität der Grafiken (Axis break fehlt, Fehlerbalken fehlen).

Auswertung

Innerhalb unseres Arbeitsbereiches wird der überwiegende Anteil an Fragestellungen durch einfache Statistikfunktionen abgedeckt. Wir unterscheiden:

  • Deskriptive Statistik (z. B. Zählen eines Merkmales)
  • Unterschieds-Hypothesen-prüfende Statistik (z. B. Gruppe A unterscheidet sich von Gruppe B)
  • Zusammenhang-prüfende Statistik (z. B. wenn ich Variable A verändere, dann verändert sich auch Variable B)

Wichtig für die entsprechenden Prüfverfahren ist die Datenqualität oder das Datenniveau:

  • Nominalskala (nur Beschreibung von Merkmalen, ohne quantitative Beziehung, z. B. Angle-Klasse I, II etc.)
  • Ordinalskala (es sind eindeutig gerichtete Unterschiede zwischen den Ausprägungen der Variablen zu erkennen, die allerdings keinen konstante Abstand erkennen lassen, z. B. Lockerungsgrad I, II, III etc.)
  • Intervallskala (der Abstand zwischen verschiedenen Teilen der Skala ist immer gleich groß, z. B. SKD)

Zwei für Anfänger schwer zu erklärende Begriffe sind “parametrische Verfahren” bzw. “nicht-parametrische Verfahren”. Parametrische Verfahren machen viele Annahmen über die Population, aus der die Stichprobe gezogen wurde (also z. B. die Patienten). Eine Annahme ist z. B. daß die Patienten einer normalverteilten Population entstammen. Verfahren mit solchen Annahmen (parametrische Verfahren) lassen nur dann Schlußfolgerungen zu, wenn diese Annahmen (Parameter) erfüllt sind. Andere Verfahren kommen mit weniger Annahmen (Parameter) über die Population aus. Verteilungsfreie Verfahren nennt man auch “nicht-parametrische Verfahren”. Diese Tests werden häufig auch Rangtests genannt. Neben der Verteilung müssen meist auch der Umfang der Stichprobe bzw. die Homogenität untersucht werden. Moderne Rechner erlauben heute enorm rechenintensive, statistische Verfahren ohne diese Annahmen (sog. Randomisierungstests, z. B. nach Fisher-Pitman). Aber das ist dann Aufgabe des Statistikers dies zu entscheiden.

Bei der Auswahl der Tests ist es meist noch wichtig, zu wissen, wie viele Gruppen untersucht werden müssen. Man unterscheidet eine Stichprobe, zwei Stichproben und beliebig viele (k) Stichproben.

Als letztes wichtiges Kriterium muß man unterscheiden, ob es sich um “abhängige” oder “unabhängig Stichproben” handelt. Als grobe Faustregeln gelten: abhängige Stichproben liegen vor, wenn an einer Gruppe wiederholt Messungen durchgeführt wurden. Unabhängige Stichproben liegen bei unterschiedlichen Gruppen vor.

Folgende Tabellen dient nur als Faustregel zur Auswahl eines Testverfahrens. Die Voraussetzungen müssen im Einzelfall geprüft werden.

Nicht-parametrische Verfahren

Datenniveau

1 Stichprobe

2 Stichproben

k Stichproben

   

abhängig

unabhängig

abhängig

unabhängig

Nominal

Chi-Quadrat-Test

McNemar-Test

Fisher-Test

Chi-Quadrat-Test für zwei unabhängige Stichproben

Cochrans-Q-Test

Chi-Quadrat-Test für k unabhängige Stichproben

Ordinal

Kolmogrov-Smirnov-Test

Wilcoxon-Vorzeichenrangtest für abhängige Paare

Mann-Whitney-U-Test

Friedmans-Zwei-Weg-Rangvarianzanalyse

Ein-Weg-Rangvarianzanalyse nach Kruskal-Wallis

Intervall

 

Randomisierungstest für abhängige Paare

Randomisierungstest für zwei unabhängige Stichproben

   

Parametrische Verfahren (Intervallskala ist eine Voraussetzung)

Datenniveau

2 Stichproben

k Stichproben

 

abhängig

unabhängig

abhängig

unabhängig

Intervall

paarweiser t-Test

t-Test für unabhängige Stichproben

 

Varianzanalyse

(ONEWAY)

Alles was über diese Faustregeln hinausgeht, muß mit einem Statistiker besprochen und geklärt werden!

Posted by System Administrator - 25.07.2005