JPEG2000 als Digitalisierungs- und Langzeitarchivierungsformat

Gelesen:

van der Knijff, Johan (2011): JPEG2000 for Long-term Preservation. JP2 as a Preservation Format. In: D-Lib Magazine 17 (5/6). Online verfügbar unter http://www.dlib.org/dlib/may11/vanderknijff/05vanderknijff.html, zuletzt geprüft am 31.5.2011.

Zusammenfassung:

JPEG 2000 wird immer öfter als Digitalierungsdateiformat in Bibliotheken eingesetzt. Prominente Beispiele sind die Koninklijke Bibliotheek der Niederlande, die British Library und die Library of Congress, die JP2-Dateien als Ersatz für unkomprimiertes TIFF sehen. TIFF ist aber im Augenblick noch immer das am meisten genutzte Bild-Dateiformat für die Langzeitarchivierung.
Der Artikel stellt sich die Frage, inwieweit JP2-Dateien den Ansprüchen der Langzeitarchierung genügen. Es nutzt nichts, viel Geld und andere Ressourcen für die Digitalisierung von Kulturgütern auszugeben, wenn die digitalisierten Daten in ein paar Jahren oder Jahrzehnten nicht mehr angezeigt werden können, wenn eine Migration in andere Datenformate nur mit Informationsverlust möglich ist, oder wenn eine Emulation nur schwierig durchzuführen ist. Für die Beurteilung der Langzeitarchivierungsqualitäten des Dateiformats schaut der Autor auf zwei Aspekte des Dateiformats, einmal auf die Möglichkeit Farbprofile in der Datei aufzunehmen und zweitens die Möglichkeit Information zur Auflösung im Dateikopf zu notieren. Beide Aspekte spielen eine wichtige Rolle in der Langzeitarchivierung von Bilddaten.
Was Farbprofile betrifft, so ist es bei JP2-Dateien nur möglich, „Input“-Profile aufzunehmen, nicht aber andere Profile, hauptsächlich „Display“-Profile. Der Autor kommt zum Schluss: „a literal interpretation of the format specification limits the use of ICC profiles to such a degree that any serious colour management becomes impossible in JP2. For colour imagery, the only colour space that can be handled without using ICC profiles is sRGB. Full-colour printed materials often contain colours that cannot be represented in the sRGB colour space. […] The JP2 format is unsuitable for applications that require colour support beyond sRGB.“
Dazu kommt, das verschiedene JPEG2000-encoder das Farbmanagement auf unterschiedlichste Weise angehen. Einige betten gar keine ICC-Profile ein, andere betten auch „Display“-Profile als „Input“-Profile ein (weichenalso die JPEG2000-Spezifikation auf) und wieder andere erlauben nur das Einbetten von sogenannten „Input“-Profilen. Viele Encoder erstellen auch JPX- anstatt JP2-Dateien. JPX ist eine Erweiterung des JP2-Formats, aber nur wenige Decoder unterstützen JPX, so dass die Erweiterungen meistens gar nicht genutzt werden können. JPX ist also kein Format, dass für die Langzeitarchivierung genutzt werden kann.
Was die Auflösungsinformation in den Kopfzeilen der JP2-Dateien betrifft, so ist die Situation komplexer als bei anderen Datenformaten, denn es wird zwischen zwei unterschiedlichen Auflösungstypen unterschieden. Beide sind optional und jedes Bild kann irgendein, beide oder keine der Auflösungsinformationen beinhalten. Einmal kann die „capture resolution“ verzeichnet werden, zweitens eine „display resolution“. Es gibt einige Probleme mit den Definitionen dieser Auflösungen, aber auch kein Mapping der Auflösungsinformationen zwischen JP2 und anderen Bildformaten. Außerdem benutzt kein JPEG2000-Encoder die Auflösungsfelder so, wie die Spezifikation es vorschreibt.
Was bedeutet das nun für die Langzeitarchivierung? Was die Farbprofile betrifft, so kann man, wenn man die Spezifikation wörtlich nimmt, keine ICC-Farbrofile außer sRGB benutzen. Was die Auflösungsinfomation betrifft, so könnte diese in zukünftigen Migrationen verloren gehen.
Der Autor schlägt einige Lösungen vor. Viele Probleme könnten behoben werden, wenn kleine Änderungen an der JPEG2000-Spezifikation vorgenommen würden, z.B. in dem man sie mit der neusten ICC-Spezifikation abstimmt. Außerdem sollten Software-Autoren angehalten werden, ihre En- und Decoder der (angepassten) Spezifikation zu genügen.
Bis zu einem solchen Zeitpunkt schlägt der Autor vor, dass Institutionen, die das JP2-Format nutzen wollen folgende Information dokumentieren:

  • Welches Dateiformat wird genutzt? (JP2, JPX?)
  • Beinhalten die Bilder ICC-Profile?
  • Welches sind die Eigenschaften dieser ICC-Profile?
  • Werden ICC-Profile mit der „Restricted“- oder „Any ICC“-Methode eingebettet?
  • Beinhalten die Bilder mehrere Versionen der ICC-Profile?
  • Welche Felder (wenn überhaupt) werden benutzt um Information zur Bildauflösung zu speichern?
  • Welche Software wurde benutzt um die Bilddateien zu erstellen?

Außer der letzten Frage können alle Fragen benutzt werden, wenn man ExifTool und JHOVE benutzt. Diese Dokumentation kann also weitgehend automatisiert werden.
Nur mit einer solchen Dokumentation kann man Langzeitarchivierungsrisiken richtig abschätzen. Außerdem kann die Information dazu dienen mittelfristig eine Migration vorzunehmen, z.B. eine Normalisation um einer ergänzten JPEG2000-Spezifikation zu genügen.
Außerdem empfiehlt der Autor neuen und fortlaufenden Digitalisierungsprojekten folgendes:

  • Vermeide JPX
  • bette ICC-Profile ein und benutze dazu die „Restricted“-Methode
  • vermeide mehrere ICC-Profile