Seit langem besteht die Idee, die umfangreichen Materialien der beiden Enquete-Kommissionen online verfügbar zu machen. Der Aufwand (und damit die anfallenden Kosten) einer solchen Umsetzung sind allerdings beträchtlich, so dass es noch bis zum November des Jahres 2017 dauerte, bis die Bundesstiftung Aufarbeitung dieses umfangreiche Projekt aktiv in Angriff nehmen konnten.
Über das Projekt – Ingenieurbüro noesis GbR
Vorbemerkung
Als wir die Anfrage erhielten, ein Angebot einzureichen für die technische Umsetzung eines Portals, welches die seinerzeit nur als gedruckte Bücher (32 Bände, ca. 30.000 Seiten) bzw. auf CD vorhandenen Materialien der beiden Enquete-Kommissionen zur „Aufarbeitung der SED-Diktatur“ im Internet durchsuchbar zur Verfügung stellt, hatten wir sofort großes Interesse an dieser spannenden Aufgabe.
Prozessierung
Zunächst musste entschieden werden, wie die Texte aus den PDFs in maschinenlesbare Dateien überführt werden sollten. Nach einigen Recherchen entschieden wir uns, die Software Tika (https://tika.apache.org/) dafür zu verwenden, weil der Einsatz einer (guten) OCR-Software für diesen Zweck einerseits zu aufwendig gewesen wäre und andererseits trotzdem die Möglichkeit von OCR-Fehlern enthalten hätte. Nachteil der gewählten Lösung war allerdings, dass alle Formatierungen (Fettschrift, Tabellen, Fußnoten, Illustrationen etc.) bei dem Verfahren verloren gingen und demzufolge manuell wieder hergestellt werden mussten.
Eine zusätzliche Herausforderung bestand darin, dass die Silbentrennungszeichen als normale Bindestriche umgesetzt wurden und dadurch die Zusammenfassung von getrennten Begriffen (für den Suchindex) einige Überlegungen und programmtechnische Implementierungen erforderte: nicht alle Bindestriche am Zeilenende konnten entfallen, es waren Konstruktionen wie marxistisch-leninistisch oder Arbeiter-und-Bauern-Staat zu berücksichtigen.
Bei der Übertragung der Inhaltsverzeichnisse der einzelnen Bände stießen wir auf weitere Probleme: in den PDFs waren die Verzeichnisse teilweise unvollständig bzw. ungenau und mussten manuell korrigiert werden. Hinzu kamen noch fehlende Seiten (was die Seiten-Nummerierung durcheinander brachte), sowie Satz- und Druckfehler in den Originalen. Teilweise mussten zusätzlich Anpassungen am Layout der Seiten vorgenommen werden, um die Inhalte an die (mobile) Web-Ansicht anzupassen (siehe Web-Umsetzung).
Wir haben alle diese Dinge nach bestem Vermögen korrigiert (bzw. sind noch dabei), aber natürlich kann bei der Menge an Material das eine oder andere übersehen worden sein. Sollten Sie einen Fehler entdecken, informieren Sie uns bitte, damit wir ihn korrigieren können.
Danksagung
Wir danken unseren engagierten Helferinnen und Helfern, die die Erstkorrektur vornahmen, vor allem Oscar Lieder, Simon (Alfons) Vogt, Holm Landrock, Róza Hajdú-Molnár, Franziska Vesely, Franziska Döring und Violetta Wohland.
Zudem möchten wir uns bei dem Projektteam der Bundesstiftung Aufarbeitung für die stets respektvolle und konstruktive Zusammenarbeit bei der Durchführung des Projekts bedanken – es hat Spaß gemacht, dieses Portal gemeinsam an den Start zu bringen.
Knut Lohse und Helmut Wohland
Ingenieurbüro noesis GbR
Oktober 2018