Wissenschaftler forschen an «Big-Data»-Strategien

Wissenschaftler forschen an «Big-Data»-Strategien
Martial Trezzini Wissenschaftler forschen an «Big-Data»-Strategien

Bei der Erkundung des Weltraums, in der Klima- und Energieforschung oder in der Medizin fallen riesige Datenmengen an. Dieser wachsende Datenhunger der Wissenschaft stellt die Informatik vor die Herausforderung, mit intelligenter Software die wirklich relevanten Informationen aus der Masse von Daten zu fischen.

«Ähnlich wie bei den immer größeren Privatsammlungen von digitalen Fotos geht es um die Frage: Wie kann ich diese Datenmengen passend verwalten?» fragte der Leiter des wissenschaftlichen Rechenzentrums am Karlsruher Institut für Technologie (KIT), Achim Streit, am Donnerstag auf einer Tagung über «Big Data» in der Wissenschaft. Forschern müsse es möglichst einfach gemacht werden, ihre Informationen für gezielte Zugriffe aufzubereiten, sagte Streit im Gespräch mit der Nachrichtenagentur dpa.

Beim KIT-Rechenzentrum gehen nach Angaben Streits etwa 10 bis 15 Prozent der Daten ein, die beim LHC-Teilchenbeschleuniger am Europäischen Kernforschungszentrum (CERN) bei Genf erzeugt werden. Das Rechenzentrum hält dafür 12 Petabyte (12 000 Terabyte) an Festplattenspeicher und 18 Petabyte an Bandspeicher für Archivzwecke bereit.

Noch mehr Daten wird das Radioteleskop Square Kilometre Array (SKA) erzeugen, ein internationales Projekt, das ab 2019 schrittweise in Betrieb genommen wird. Das Teleskop werde pro Sekunde 700 Terabyte an Daten produzieren, sagte auf der Karlsruher Tagung Chris Mattmann vom Jet Propulsion Laboratory der amerikanischen Raumfahrtbehörde NASA. Für die Auswertung dieser Datenmassen sei ein völlig neues Big-Data-Konzept erforderlich, das von der Hardware über die Echtzeit-Analyse bis zur effizienten Speichersystemen reiche. Die Software dafür müsse nach dem Open-Source-Prinzip für alle Wissenschaftler frei verfügbar sein.

Ein Problem bei der Analyse und Speicherung von Forschungsergebnissen ist die ständig wachsende Zahl von Dateiformaten. «Jeden Tag kommen neue Dateiformate heraus», sagte Mattmann. Im Internet seien mehr als 18 000 unterschiedliche Dateiformate verbreitet. «Wir brauchen intelligentere Technologien, um sinnvoll mit dieser Vielfalt von Dateiformaten umzugehen», erklärte der Software-Designer.

Veranstalter der Tagung am KIT war das LSDMA-Projekt (Large-Scale Data Management and Analysis) der Helmholtz-Gesellschaft. In diesem Vorhaben verfolgen die Universitäten Hamburg, Ulm, Heidelberg, Berlin, Dresden und Frankfurt zusammen mit dem KIT und drei weiteren Forschungszentren der Helmholtz-Gemeinschaft das Ziel, den Umgang mit großen Datenmengen in der Wissenschaft zu verbessern.

Die Entwicklung neuartiger Werkzeuge für Datenanalysen ist das Ziel des ebenfalls am KIT angesiedelten Smart Data Innovation Labs (SDIL), in dem Wissenschaft und Wirtschaft eng zusammenwirken. An der Initiative im Rahmen des IT-Gipfels der Bundesregierung sind unter anderem SAP, die Software AG, Siemens und Microsoft beteiligt.