Empfehlungen zur Struktur und der Erfassung der Daten

 

Die folgenden Anmerkungen sollen als Empfehlung verstanden werden. Eine Nichtbeachtung kann jedoch bei der EDV-gestützten Dateneingabe sowohl zu merklichem Mehraufwand führen als auch die spätere Auswertung der Daten erheblich komplizieren.

Ein Kurzfassung dieses Dokuments steht Ihnen hier zum Download zur Verfügung: Empfehlung Primärdaten (Download PDF-Datei)

Datenstruktur

Die gängigen statistischen Auswertungsprogramme (u. a. auch die am IMSIE verfügbaren Programmpakete IBM SPSS® Statistics und SAS®) setzen voraus, dass die zu verarbeitenden Rohdaten in einer "rechteckigen" Datenstruktur angeordnet sind. Darunter versteht man, dass die erhobenen Daten für jeden Fall (d. h. für die Beobachtungseinheiten wie z. B. Patienten) in genau der gleichen Abfolge und Zahl von Merkmalen aufgelistet sind. Die zu einem Fall gehörigen Variablen werden zeilenweise zusammengefasst, wobei die Anzahl der Zeilen der Anzahl der Fälle entspricht. Jedem Merkmal wird dabei ein "Feld" mit geeignet vielen Schreibstellen zum Eintragen der Messungen des Merkmals in der Zeile zugeordnet, so dass die Zahl der Felder pro Zeile genau der Zahl der pro Fall erhobenen Merkmale entspricht. Die Länge der Felder kann von Merkmal zu Merkmal unterschiedlich sein, muss aber so gewählt werden, dass jede denkbare Messung des Merkmals erfasst werden kann. So ließe sich etwa das Merkmal "Körpergröße in [cm]" für Patienten in einem Feld mit drei Stellen für alle denkbaren Messergebnisse erfassen, nicht jedoch in einem Feld mit nur zwei Stellen.

Eine so strukturierte Datei enthält je Fall (= Beobachtungseinheit) eine "Zeile". Die ersten Felder jeder Zeile sind üblicherweise solchen Variablen zugeordnet, mit denen sich die jeweiligen Beobachtungseinheiten pseudo- bzw. anonymisiert eindeutig unterscheiden lassen. Wenn als Beobachtungseinheiten die Patienten einer Stichprobe anzusehen sind, könnten dies etwa die Variablen "Anonymisierte Identifikationsnummer", "Alter", "Geschlecht" usw. sein. Daran schließen sich die Felder an, in denen die Messungen weiterer Merkmale erfasst werden.

Werden einzelne Merkmale für jede Beobachtungseinheit zu verschiedenen Zeitpunkten wiederholt erhoben, wie etwa bei Messung des systolischen Blutdrucks unmittelbar vor und zwei Stunden nach Gabe eines Medikamentes, so muss für dieses Merkmal für jeden Messzeitpunkt ein "eigenes" Feld und somit eine gesonderte Variable zugeordnet werden. Im genannten Beispiel also etwa die Variablen "systolischer Blutdruck vorher" bzw. "systolischer Blutdruck nachher".

 Pat_ID  Alter  SysRR_1  SysRR_2*  Gewicht
 971265  25  124  110  76,0
 975621  30  140  142  56,1
 964521  54  134  9999  84,3

*) fehlender Wert: 9999

Werden alle Merkmale pro Beobachtungseinheit mehr als einmal erhoben, bietet es sich an, diese Erhebungen zeilenweise zu erfassen. Dann werden zwei verschiedene Identifikations-Codes vergeben: einer für jede Beobachtungseinheit (z. B. die Patienten-ID) und einer pro Erhebung (z. B. die Nummer der Untersuchung). Je nach der Art der geplanten statistischen Auswertung ist abzuwägen, in welcher Form Messwiederholungen erfasst werden (Hilfestellung bietet hier der/die statistische Betreuer/in).

 Pat_ID  U_Nr  Alter*  Puls  Gewicht*
 970001  1  25  85  65,1
 970001  2  9999  90  66,2
 975454  1  30  73  72,5
 961111  1  54  68  83,5
 961111  2  9999  60  9999
 961111  3  9999  72  91,5

*) fehlender Wert: 9999

Die resultierende Dateistruktur entspricht anschaulich der Sammlung von Daten als "Karteikasteninhalt", wobei jedem Fall eine Karteikarte (= "Zeile") und jedem erhobenen Merkmal ein festes Feld auf den Karteikarten mit von Fall zu Fall (= von Karte zu Karte) variablem Inhalt (= "Variable") entsprechen.

Außerdem gilt:
  • Neben der eigentlichen Rohdatendatei ist eine vollständige Liste der Variablen und des jeweiligen Wertebereichs sinnvoll (sogenannte Datenbeschreibung).
  • Personendaten müssen grundsätzlich anonymisiert werden (auf keinen Fall Namen erfassen)!
  • Unbedingt sind in diesem Zusammenhang die rechtlichen Regularien zu beachten - Hinweise dazu unter anderem auf den Seiten der jeweilig zuständigen ExternerLink Datenschutzbeauftragten (z. B. ExternerLink Land NRW bzw. ExternerLink Bund) sowie berufsrechtliche Vorgaben bzw. bereichsspezifische Gesetze (siehe auch z. B. ExternerLink hier).

Datenerfassung

Für die Auswertung mit dem Programmpaket IBM SPSS® Statistics besteht die Möglichkeit, die Rohdaten auch mit dem Dateneditor von IBM SPSS® Statistics zu erfassen. Sollten die Rohdaten jedoch mit anderen Programmen (z. B. Microsoft Excel®) erfasst werden, sind folgende Hinweise zu beachten:
  • Variablennamen dürfen maximal 64 Zeichen lang sein, müssen mit einem Buchstaben (A-Z, a-z) beginnen und dürfen keine Umlaute, kein ß und keine Sonderzeichen (z. B. ! % # - usw.) außer dem Unterstrich (_) enthalten.
  • Fehlende Werte ("missing values") sind durch einen speziellen Code zu kennzeichnen.
  • Kalenderdaten dürfen nicht als Textfelder (z. B. Juni 97) eingegeben werden.
  • Klartext ist unter keinen Umständen unmittelbar auswertbar und muss deshalb sinnvoll kodiert werden (z. B. Kinderkrankheiten: 1 = Masern, 2 = Röteln, ...)
  • Felder mit numerischen Variablen dürfen nur Ziffern, das Vorzeichen "+" oder "-" sowie Dezimalpunkt oder -komma enthalten.
  • Können Variablenwerte nicht nur Ziffern, sondern auch alphanumerische Zeichen enthalten (also Zeichenketten wie z. B. "T1a" oder "X1y3"), so dürfen darin nur die Standard-ASCII-Zeichen, also keine Umlaute und kein ß enthalten sein, um die Dateien störungsfrei übertragen zu können.
In Ausnahmefällen und nur bei sehr einfacher Datenstruktur mit sehr wenigen Variablen können die Daten mit Textverarbeitungsprogrammen (z. B. Microsoft Word®) erfasst werden.

Als System-Dateien werden Dateien bezeichnet, die nicht direkt als Textdatei (z. B. im ASCII-Format) lesbar sind, sondern nur von dem jeweiligen speziellen Programmpaket interpretiert werden können. Liegen die Rohdaten als System-Dateien vor, die keinem der am IMSIE unterstützten Standardformate entsprechen, müssen die Daten vor Weiterverarbeitung mit IBM SPSS® Statistics aus den jeweiligen Programmen in portable Dateien transformiert (sog. Exportfiles) oder als ASCII-Dateien ausgegeben werden. Für einen Import von ASCII-Dateien nach IBM SPSS® Statistics müssen folgende Punkte sorgfältig beachtet und vorsichtshalber schon vor der Datenerfassung in dem jeweiligen System hinsichtlich ihrer Erfüllbarkeit überprüft werden:
  • Fehlende Werte (missings) müssen so kodiert werden, dass die portierten Daten von IBM SPSS® Statistics fehlerfrei interpretiert werden können.
  • Die Variablenwerte jedes Falles müssen entweder durch eine freie Stelle, das Tabulatorzeichen oder ein Sonderzeichen getrennt sein oder jeweils in der gleichen Spalte beginnen.
  • Enthält die Datei alphanumerische oder Datums-Variablen, die Sonder- oder Leerzeichen enthalten oder teilweise fehlen, so muss die Anordnung in festen Spalten erfolgen. Die Dateien dürfen außer den Variablenwerten keine weiteren Inhalte (wie z. B. Kopf-, Leer- oder Ergebniszeilen) enthalten.
Die Verwendung eines Tabellenkalkulationsprogramms wie z. B. Microsoft Excel® zur Datenauswertung kann nicht empfohlen werden, da für diese Zwecke leistungsfähige Statistikpakete zur Verfügung stehen.

Wichtige Hinweise

In den Amtlichen Mitteilungen 24⁄2011 ist die "Ordnung der Universität zu Köln zur Sicherung guter wissenschaftlicher Praxis und zum Umgang mit wissenschaftlichem Fehlverhalten vom 22. Juli 2011" veröffentlicht worden:
ExternerLink Download (Download PDF-Datei, Abfragedatum 07.02.2017)

In § 4 heißt es unter anderem, dass die oder der für ein Forschungsprojekt Verantwortliche sicherzustellen hat, dass Primärdaten als Grundlage für Veröffentlichungen auf haltbaren und gesicherten Trägern zehn Jahre in der Institution, in der sie entstanden sind, aufbewahrt werden.

Zudem wird auf die ergänzte und aktualisierte Denkschrift ExternerLink "Sicherung guter wissenschaftlicher Praxis" der Deutschen Forschungsgemeinschaft (DFG) ausdrücklich hingewiesen (zur Datenhaltung: Empfehlung 7; Stand: 07/2013).

 

> Seitenanfang

 

Kontaktformular

IMSIE Webmaster (ja)
Letzte Änderung: 07.02.2017