Skip to content

koala

Kooperatives Langzeitarchiv.

koala kann in Kombination mit einem bereits existierenden Daten-Repository ein Langzeitarchiv für digitale Daten formen. Es ist nicht dazu gedacht direkt Endbenutzer zu bedienen, sondern als Backend-Dienst in einer Serviceorientierten Architektur (SOA) zu fungieren. Die Erfassung von technischen Metadaten für die zu archvierenden Daten muss dem Ingest vorgelagert erfolgen, da die Form vom jeweiligen Anwendungsfall abhängig ist.

koala-logo

© aratehortua - stock.adobe.com

Anwendungsfallbeispiel

Die GWDG ist Kooperationspartner der Deutschen Nationalbibliothek (DNB) im Bereich der digitalen Langzeitarchivierung. Die DNB ist die zentrale Archivbibliothek und das nationalbibliografische Zentrum der Bundesrepublik Deutschland. Die Bibliothek hat die Aufgabe, deutschsprachige Medienwerke zu sammeln, zu inventarisieren, zu erschließen und bibliografisch zu verzeichnen, auf Dauer zu sichern und für die Allgemeinheit nutzbar zu machen. Hierzu zählen Werke in "körperlicher" als auch "unkörperlicher" (digitaler) Form. Vgl.: Gesetz über die Deutsche Nationalbibliothek (DNBG)

Workflow:

Der Produzenz digitaler Artefakte (z.B. ein Verlag) stellt der DNB ein Buch in einem digitalen Format (z.B. epub) zur Verfügung. Die DNB führt daraufhin grundlegende Validierungen aus, extrahiert technische Metadaten wie beispielsweise die Formatversion und erstellt ein "Submission information package" (SIP). Ein SIP ist eine Archivdatei wie zip oder tar die Inhalts- und Metadaten in einer bestimmten Struktur enthält.

Das SIP wird an koala übersendet und weiteren Prüfungen unterzogen. Unter anderem: Checksummen, XML-Schemata. Anschließend wird es nativ im IBM Spectrum Protect (SP) gespeichert. SP kann mit vielen verschiedenen Speichersystemen wie Band/Dateisystem/Object storage umgehen. Je nach aktueller Konfiguration werden die Daten SP-seitig außerdem zu weiteren Standorten und Medien repliziert um die Integrität der Daten langfristig sicherzustellen.

use-case

Dashboard

koala verfügt über ein administratives Web-Interface um den Gesamtzustand des Systems zu verfolgen und administrative Tätigkeiten auszuführen. Siehe: adm

dashboard

Features

  • Schnell und skalierbar, Siehe: Deployment
  • Einfache Inbetriebnahme und Aktualisierungen mit docker images. Siehe: Installation
  • DIAS-kompatibel. Siehe: api
  • REST-API. Siehe: api
  • Simple blob storage
  • Nutzt bewährte Open-Source-Komponenten. Siehe: Architecture
  • Unterstützt mehrere Speicher-Backends: Bandspeicher mit IBM Spectrum Protect (vorheriger Name: Tivoli Storage Manager), Dateisystem.
  • Unterstützt mehrere SIP Formate: zip, tar, tar.gz, 7z.
  • Sichere Verbindungen: TLS für das Webinterface und API; SFTP für die SIP-Übertragung
  • Unterstützt mehrere Authentifizierungsmethoden: Lokale Datenbank, LDAP, Single Sign-On. Siehe: Authentication
  • Administratives Webinterface für: Live Statistiken, Administrative Aufgaben, Auditierung. Siehe: Administration
  • Unterstützt das Importieren von DROID Signaturen, DROID
  • Metriken: Die Apps exportieren prometheus Metriken. Unter anderem: requests/sec, ingest_duration, ingest_errors

Akteure

Es gibt zwei Arten von Akteuren die das koala System grundsätzlich verwenden:

  • Ein API client ist eine entfernte Applikation welche die REST- und SFTP-Schnittstelle bedient, um Pakete einzuspielen oder abzurufen.

  • Ein Admin ist eine Person die koala per Webinterface bedient. Dort kann dieser das laufende System überwachen. Unter anderem den Status der laufenden Applikationen einsehen und Live-Informationen über die wachsende Anzahl und Größe des Archivs verfolgen.

use-case

Weitere Informationen