Wieviele Programmiersprachen gibt es, denen sogar die New York Times einen begeisterten Artikel schenkt? Noch dazu, wenn sie sich dem als trocken verrufenen Feld der Statistik widmen?

Die Open Source-Statistiksoftware und Programmiersprache R hat dies geschafft, und mehr noch: Die New York Times bezeichnet sie gar als “Lingua Franca” der Datenanalysten und nennt mit Google, Pfizer und der Bank of America gleich einige prominente Anwender. Höchste Zeit also, sich einmal auf Spurensuche nach R zu begeben.

Erster Anlaufpunkt: die Wikipedia. Der englischsprachige Artikel klärt mich auf, R basiere auf S. Ah ja, natürlich. Ich lese weiter: Die Professoren Ross Ihaka and Robert Gentleman begannen Anfang der Neunziger an der Universität Auckland, die unter Statistikern bekannte Programmiersprache S abzuwandeln. 1996 gab es dann die erste Version, seitdem wird R an immer mehr Hochschulen und Forschungseinrichtungen, aber auch im Unternehmensumfeld eingesetzt.

Ich kenne SPSS als Statistiktool, außerdem gibt es noch das ebenfalls propretiäre “SAS” – die Software des gleichnamigen Anbieters ist quasi Standard. R versucht, SAS den Rang abzulaufen: In klinischen Studien beispielsweise – für die besonders strenge Richtlinien gelten, was etwa die Protokollführung und Auswertung von Untersuchungsergebnissen angeht – wird R immer häufiger zur Validierung der Ergebnisse eingesetzt.

Doch noch einen Schritt zurück: Jahrzehntelang galten Statistiker als einsame Zahlenkönige, die sich durch eine trockene Materie geackert haben. Oft genug wurde auch abwertend über ihre Arbeit gesprochen. Wer kennt nicht den Spruch der gefälschten Statistiken? Heute scheinen Daten jedoch ungeheuer sexy zu sein – und gleichzeitig als riesiger Klumpen nichts mehr wert. Wir alle häufen Unmengen davon allein auf dem heimischen Rechner an, und nicht nur das: Überall hinterlassen wir unsere digitalen Fußabdrücke, oftmals unfreiwillig und unbewusst. Aufbereitet und hübsch miteinander verlinkt ergeben alle Daten wertvolle Informationen und sind damit begehrt: Es gibt diverse Firmen, die wahnsinnig scharf auf unsere Adressen und Einkaufslisten sind. Und für ein paar Prozent Rabatt oder ein Messer-Set, das sie nie gebraucht haben, rücken nicht wenige Menschen diese auch raus. Und da sind noch die Social Networks, in denen die einen private Daten einstellen und die anderen erschnüffeln. Und Google: Na, Google sammelt sowieso alles.

Natürlich gibt es auch gute bzw. moralisch unbedenkliche Gründe, Daten zu sammeln – man denke an die vielen Tausend Versuchsreihen, die es in der Forschung auszuwerten gibt, oder an das Qualitätsmanagement: Hersteller müssen ihre Produkte natürlich ausgiebig testen, bevor sie etwa zuverlässige Aussagen über deren Lebensdauer machen können. Dies basiert immer auf statistischen Berechnungen.

Alle Welt sammelt also Daten – dann muss es auch Menschen geben, die diese auswerten und zu nützlichen Informationen verarbeiten können. Die Welt der Statistik und Datenanalyse werde immer größer, und von trockener Materie könne keine Rede sein, sagt mir auch Rainer Feldmann, den ich inzwischen als Profi im Web recherchiert habe. Rainer Feldmann besitzt ein Beratungsunternehmen, das unter anderem Datenanalysen anfertigt und dazu schon seit mehr als sechs Jahren auch R nutzt.

Rainer Feldmann

Und was die Wikipedia eher stoisch auflistet – enorme Funktionsvielfalt, mehr als 2000 frei herunterladbare Erweiterungspakete, zwei Millionen Anwender weltweit – wird im Gespräch mit Rainer Feldmann plastisch: “R ist zunächst erst einmal (vordergründig) kostenlos, das ist eine der Vorzüge. Dazu kommt aber, dass es wirklich aus der Sicht der Arbeitsprozesse eines Statistikers konzipiert ist. Es unterstützt sehr gut bei der Arbeit. Für eigene Projekte setzen wir fast ausschließlich R ein, z.B. für Befragungen, Prognosen, Auswertungen, um die Datenqualität zu analysieren, zur Modellentwicklung und zum statistischen Data Mining. Bei Arbeiten im Kundenauftrag müssen wir zusätzlich SAS, STATA oder auch MINITAB nutzen.”

Und Rainer Feldmann zeigt mir anhand eines überzeugenden Beispiels, dass R nicht nur kostenlos ist, sondern auch weitere betriebswirtschaftliche Vorteile hat: “Mit einem speziellen Package kann ich R bei Kunden im Hintergrund installieren. Der Kunde arbeitet weiter in seinem gewohnten Excel-Umfeld, gibt über geläufige Befehle seine Daten ein – und R liefert die entsprechenden Grafiken. Mein Kunde spart damit Schulungskosten, bleibt in seiner Arbeitsumgebung und profitiert trotzdem von Rs aussagekräftigeren Grafiken und Darstellungen.”

Wie alle Packages kommt auch dieses von der sehr aktiven Community, die die Software ständig ausbaut, die neue Pakete für Spezialanwendungen, Möglichkeiten zum Export in andere Programme und vieles mehr entwirft und zur Verfügung stellt. Sie hat auch dafür gesorgt, dass ein großes Manko behoben wird: Standardmäßig ist R ohne grafische Benutzeroberfläche ausgerüstet. Dass man bei der Verwendung von Statistiksoftware auch Kenntnisse der Statistik selbst haben sollte, ist nachzuvollziehbar – wenn Nicht-Programmierer aber Befehle über eine Kommandozeile eingeben müssen, kann dies die Verbreitung einer Software verständlicherweise bremsen. Der Anwender kann jedoch auf eine der vielen grafischen Benutzeroberflächen zählen, die frei heruntergeladen und nachinstalliert werden können.

Auf diese Art und Weise bringt es R auf immer mehr User, und es kommen ständig neue hinzu. Was rät Rainer Feldmann denen? “Hilfe bieten zum einen natürlich die Projekt-Homepages: http://cran.r-project.org/ und http://www.r-project.org/. Hier findet man Skripte für jedes Niveau. Übrigens hat R im Vergleich zu anderen Statistikprogrammen eine flache Lernkurve”, sagt er mir. Und: “Wer konkrete Hilfe sucht oder sich austauschen möchte, kann das WIKI oder die FAQs durchforsten oder sich an eine lokale Usergroup wenden.”

Nach Abschluss meiner Reise in die Welt der Zahlen und Daten stelle ich fest: Die Statistik ist nicht nur eine lästige Disziplin, sondern vielmehr eine Kunst. Menschen, die aus einem riesigen Knäuel an Daten nützliche Informationen machen können, sind Virtuosen. Und: R ist das verbindende Glied zwischen Statistikern und Programmierern. Mit Kommandozeile und GUI ausgerüstet können beide Gruppen der Software Grafiken und Analysen entlocken, und wieder einmal ist es die große Open Source-Gemeinde, die der Entwicklung den richtigen Schub gibt.

Zur Person: Diplom-Volkswirt Rainer Feldmann führt mit einem Kollegen das Beratungsunternehmen “Quantitative Analysen Krämer Feldmann GmbH” mit dem Schwerpunkt in der Durchführung statistischer Analysen. In den letzten Jahren hat die Beratung von Unternehmen hinsichtlich Nutzung und Implementierung statistischer Verfahren in Unternehmensprozessen an Bedeutung gewonnen. Die QA GmbH unterstützt bei der Erstellung von Pflichtenheften und bei der Auswahl statistischer Softwarelösungen sowie deren Implementierung – insbesondere bei der Nutzung und Implementierung von Prognosesystemen. Außerdem wird Schulung und Coaching in der Nutzung statistischer Methoden und Programmpaketen wie R angeboten. Ihre Anwendungsschwerpunkte liegen in der Marktforschung, Vertriebssteuerung, Produktgestaltung sowie in der Qualitätskontrolle und -sicherung. Als inhaltliche, methodische Besonderheit sei noch die Anwendung Bayesianischer Methoden erwähnt. Weiterhin ist Rainer Feldmann Ansprechpartner für die Usergroup “R im Norden (RiN)”, die  im Aufbau begriffen ist.

Bücher zum Thema: Von O’Reilly ist soeben  “R in a Nutshell” erschienen. Zudem  gibt es das etwas andere Lehrbuch “Datenanalyse von Kopf bis Fuß” und “Statistik von Kopf bis Fuß”.

2 Antworten

  1. [...] einiger Zeit stellte ich Ihnen an dieser Stelle die Datenbanksoftware R vor. Nun habe ich mit Bruno Hopp gesprochen, der zum einen auf einen [...]

  2. [...] aufgrund seiner Funktionsvielfalt herausragend. Im Januar 2011 stellten wir sie daher auch schon hier im Blog ausführlich vor – und veröffentlichten Joseph Adlers Nachschlagewerk. Leider setzte sich R in diesem Jahr [...]

Hinterlassen Sie einen Kommentar - eine Freischaltung ist nur beim ersten Mal erforderlich.