13 Datenstrukturen

In jeder Programmiersprache gibt es abstrakte Behälter, um verschiedene Arten von Daten zu repräsentieren und mit ihnen zu arbeiten. In klassischen 3GL-Programmiersprachen unterscheidet man fundamentale, zusammengesetzte und selbstdefinierte Datenstrukturen.

Fundamentale Datenstrukturen sind in der Programmiersprache vordefiniert. Typische Beispiele sind Behälter für logische Werte (TRUE, FALSE), ganze Zahlen (int8), die z.B. die 256 Werte von -128 bis 127 repräsentieren, Gleitkommazahlen (single, double) mit unterschiedlicher Genauigkeit, oder Schriftzeichen (a, b), die oft in Anführungszeichen gesetzt werden. Mit diesen grundlegenden Datentypen sind typischerweise passende Operationen verknüpft, wie AND/OR für logische Werte, +, - für Ganzzahlen, +, -, * und \ für Gleitkommazahlen oder die Konkatenation für Zeichen.

Zusammengesetzte Datenstrukturen sind ebenfalls vordefiniert und dienen dazu, mehrere Variablen gleichen Typs zusammenzufassen. Dazu zählen in R zum Beispiel Vektoren, Listen, Arrays, Matrizen und Dataframes. Auch für zusammengesetzte Strukturen existieren spezifische Operationen, wie die Vektorindizierung oder die Matrixmultiplikation.

Schließlich lassen sich in 3GL-Programmiersprachen auch selbstdefinierte Datenstrukturen erstellen. Sie ermöglichen die Anpassung der Programmumgebung an spezifische Anwendungsfälle und sind daher besonders praxisrelevant. In der Regel werden sie aus vordefinierten Strukturen zusammengesetzt und können im Rahmen objektorientierter Programmierung auch mit eigenen Operationen assoziiert sein.

Wenn man eine Programmiersprache erlernt, ist ein erster wichtiger Schritt, sich mit ihren Datenstrukturen zumindest rudimentär vertraut zu machen. Feinheiten in der Datenstrukturrepräsentation wird man dann in der täglichen praktischen Arbeit mit der Programmiersprache kennenlernen. Um sich also mit den Datenstrukturen einer Programmiersprache vertraut zu machen, bieten sich folgende Leitfragen an:

Fundamentale Datenstrukturen

Welche fundamentalen Datenstrukturen bietet die Sprache an?
Welche Operationen darauf sind bereits definiert?
Wie lautet die Syntax zur Definition einer Variable eines fundamentalen Datentyps?
Wie lautet die Syntax, um vordefinierte Operationen aufzurufen?

Zusammengesetzte Datenstrukturen

Welche Container und zugehörige Operationen bietet die Programmiersprache?
Wie lautet die Syntax zum Umgang mit einem Container?

Selbstdefinierte Datenstrukturen

Wie erzeugt man selbstdefinierte Datenstrukturen und zugehörige Operationen?
Wie lautet die Syntax zum Umgang mit einer selbstdefinierten Datenstruktur?

13.1 Datenstrukturen in R

Als 4GL Sprache geht R in seiner Datenstruktur über die klassischen Datenstrukturen von 3GL Sprachen hinaus. In R ist zunächst erstmal alles ein Objekt. Egal, ob es sich um einen einzelnen Wert, einen Vektor, eine Funktion oder eine komplexe Datenstruktur handelt – alles wird von R als Objekt repräsentiert. Allgemein bezeichnet der Begriff des Objekts die Möglichkeit, in einer Sinneinheit sowohl Daten als auch Funktionalität zu repräsentieren. Wir sind hier allerding primär nut an der Datenrepräsentation interessiert.

Generell unterscheidet man in R zwischen atomaren Objekten und rekursiven Objekten. Atomare Objekte bestehen aus Komponenten gleichen Datentyps. Typische Beispiele sind numerische Vektoren, logische Vektoren oder Zeichenketten. Rekursive Objekte hingegen können Komponenten unterschiedlichen Typs enthalten. Dazu gehören insbesondere Listen und Dataframes, die es erlauben, heterogene Daten zusammenzufassen.

Jedes R Objekt lässt sich eindeutig beschreiben durch drei zentrale Eigenschaften: seinen Modus, seine Länge und optional durch weitere Attribute. Der Modus eines Objekts gibt den grundlegenden Datentyp eines Objekts an und ist eng mit dem Typ und der Klasse eines Objekts verwandt, wie im Folgenden erläutert. Neben dem Modus besitzt jedes Objekt eine Länge, die angibt, wie viele Elemente es enthält. Bei einem Vektor ist die Länge zum Beispiel die Anzahl der enthaltenen Werte, bei einer Liste die Zahl ihrer Komponenten. Darüber hinaus können Objekte in R mit zusätzlichen Attributen versehen sein. Attribute sind Metadaten, die zusätzliche Informationen über das Objekt bereitstellen, etwa Namen der Elemente (names), Dimensionen (dim) für Matrizen und Arrays oder Klasseninformationen (class), die für das objektorientierte Programmieren in R relevant sind.

Modus, Typ und Klasse

Die Klassifizierung von Datenstrukturen in R ist etwas komplex, da nebeneinander die Begriffe des Modus, des Typs und der Klasse eines Objekts existieren. In der praktischen Anwendung sind die Feinheiten dieser Klassifizierung meist nicht von Belang, außerdem sind der Modus, Typ und die Klasse eines Objekts auch oft identisch.

Grob gesagt entspricht der Modus der grundlegenden Natur eines Objekts und ist inbesondere so gewählt, dass eine hohe Kompatibilität zum Datenstrukturklassifikationssystem von S (Becker et al. (1988)) besteht. Beispiele für Modi sind numeric, character logical, oder list. Der Modus eines Objektes kann mit der Funktion mode() abgerufen werden, wie folgendes Beispiel zeigt.

mode(42)                            # numeric

[1] "numeric"

mode(1L)                            # numeric

[1] "numeric"

mode("hallo")                       # character

[1] "character"

mode(TRUE)                          # logical

[1] "logical"

mode(list(1, 2, 3))                 # list

[1] "list"

mode(factor(c("a", "b")))           # R Faktor => numeric

[1] "numeric"

mode(Sys.Date())                    # R Datum  => numeric

[1] "numeric"

mode(lm(mpg ~ wt, data=mtcars))     # R Lineares Model => list

[1] "list"

Etwas näher an der internen Repräsentation eines Objekts im Speicher und damit etwas technischerer Natur ist der Typ eines R Objekts. Dies wird insbesondere hinsichtlich Objekten von Modus numeric deutlich. Hier gibt es die klassischen 3GL Typenunterscheidungen integer oder double. Ein anderes Beispiel ist der Modus Faktor. Wie wir an späterer Stelle sehen werden, sehen Faktoren in R für den Nutzer aus wie kategorische Daten, oft von Schriftzeichenart. Ihr Modus ist allerdings numeric und ihr Typ integer. Dies hängt damit zusammen, dass Faktoren in R oft dazu genutzt werden, auf der Benutzterebene experimentelle Bedingungen zu spezifizieren, die meist aussagekräftige Namen wie “Treamtent” oder “Kontrolle” haben, in der Datenanalyse aber durch mathematische Matrizen mit ganzzahligen Einträgen repräsentiert werden. Der Typ eines Objektes kann mit der Funktion typeof() abgerufen werden, wie folgendes Beispiel zeigt. Man beachte die Gemeinsamkeiten und Unterschiede zu den oben aufgerufenen Modi der gleichen Objekte.

typeof(42)                          # double

[1] "double"

typeof(1L)                          # integer

[1] "integer"

typeof("hallo")                     # character

[1] "character"

typeof(TRUE)                        # logical

[1] "logical"

typeof(list(1,2,3))                 # list

[1] "list"

typeof(factor(c("a", "b")))         # R Faktor => integer

[1] "integer"

typeof(Sys.Date())                  # R Datum  => double

[1] "double"

typeof(lm(mpg ~ wt, data=mtcars))   # R Lineares Model = list

[1] "list"

Die Klasse eines Objektes schließlich spezifiziert die Art eines Objektes aus der Perspektive der objekt-orientierten Programmierung in R. Dabei ist es für ein Objekt insbesondere relevant, wie generische Funktionen wie z.B. print() oder summary() mit dem Objekt umgehen. Im Gegensatz zu Modi und Typen können Programmierende die Klasse von Objekten selbst festlegen und so generische Funktionen entwickeln, die auf viele Objektarten anwendbar sind und trotz ihres gleichen Namens mit unterschiedlichen Objekten unterschiedliche Operationen ausführen. Die Klasse eines Objektes kann mit der Funktion class() abgerufen werden, wie folgendes Beispiel zeigt. Man beachte die Gemeinsamkeiten und Unterschiede zu den oben aufgerufenen Modi und Typen der gleichen Objekte.

class(42)                          # numeric

[1] "numeric"

class(1L)                          # integer

[1] "integer"

class("hallo")                     # character

[1] "character"

class(TRUE)                        # logical

[1] "logical"

class(list(1,2,3))                 # list

[1] "list"

class(factor(c("a", "b")))         # R Faktor => "factor"

[1] "factor"

class(Sys.Date())                  # R Datum  => "Date"

[1] "Date"

class(lm(mpg ~ wt, data=mtcars))   # R Lineares Model => "lm"

[1] "lm"

Zusammengefasst lässt sich festhalten: Der Modus beschreibt die allgemeine Art eines Objekts, der Typ beschreibt seine interne, technische Speicherung und die Klasse definiert die Sichtweise von R für die funktionale Verarbeitung des Objekts. Für viele Objekte stimmen diese drei Begriffe weitgehend überein, aber bei speziellen Objekten wie Faktoren, Datumswerten oder benutzerdefinierten Objekten unterscheiden sie sich.

Becker, R. A., Chambers, J. M., & Wilks, A. R. (1988). The New S Language: A Programming Environment for Data Analysis and Graphics (Reprint). Chapman & Hall.