Nationaal programma voor het behoud van het papieren erfgoed

Hoe controleer je digitale bestanden op de inhoud?

Advertentie uit de Indische Courant van 1 september 1938

Bij digitaliseren hoort controleren. Voor het traject Archieven en Collecties gaat dat in een aantal stappen. De Koninklijke Bibliotheek (KB) controleert de beeldkwaliteit en digitale integriteit, daarna ontvangt de instelling de batches voor de inhoudelijke controle. Welke aspecten worden door de instelling gecontroleerd en wat is een handige methode?

De instelling

Metamorfoze vraagt aan de instelling om de inhoudelijke controle uit te voeren omdat zij het archief/de collectie het beste kent en beschikt over het originele materiaal. De controle kan per batch, per aantal batches of over het geheel van het project (alle batches tegelijkertijd) plaats vinden. Dat is afhankelijk van de voorkeur van de instelling, bijvoorbeeld van de beschikbaarheid van medewerkers.

Steekproef en foutmarges

De meeste instellingen kiezen voor  een steekproefsgewijze aanpak maar het is ook mogelijk om alle bestanden te controleren. De grootte van een steekproef is afhankelijk van de omvang en aard van het archief/de collectie. Een goed uitgangspunt is tussen de 5 en 10% van de bestanden. 

Omdat bij een massadigitaliseringsproject altijd een aantal fouten worden gemaakt (bijvoorbeeld pagina’s die bij het scannen worden overgeslagen) is een foutmarge van 0% niet reëel. Voor de volledigheid en volgorde is 2 op de 1000 een goed uitgangspunt. Dat betekent dat er op de 1000 pagina’s 2 mogen worden gemist of in een verkeerde volgorde staan. De bestandsnaamgeving moet overigens wel 100% foutloos zijn. De instelling is vrij om zelf de grootte van de steekproef en foutmarge vast te stellen. 

Controles

Metamorfoze vraagt de instelling om in ieder geval de volgende punten te controleren, altijd op basis van hele inventarisnummers:

  • Volledigheid: zijn alle pagina’s binnen een inventarisnummer gedigitaliseerd?
  • Soort afgeleiden: zijn de gewenste afgeleide bestanden geleverd? (zoals OCR, JPEG).
  • Bestandsnaam afgeleiden: hebben de afgeleiden bestanden de juiste bestandsnaam? 
  • Volgnummering: hiervoor moeten de bestanden worden geopend. Klopt de volgorde van de bestanden?
  • Inhoud bestanden: ook hiervoor moeten de bestanden worden geopend. Bevat het bestand de afbeelding die het volgens de bestandsnaam zou moeten hebben? Is de juiste pagina van het juiste inventarisnummer afgebeeld?

Daarnaast is het raadzaam om extra aandacht te geven aan uitzonderingen, zoals materiaal met afwijkende formaten, en specifieke afspraken die in de scaninstructies zijn vastgesteld, zoals het wel of niet scannen van blanco pagina’s. 

De instelling noteert de resultaten van de inhoudelijke controle in een formulier en stuurt dit aan de coördinator Metamorfoze. Bij een afgekeurde batch overleggen de instelling en Metamorfoze over de herstelacties die moeten worden genomen. Na goedkeuring worden de batches aan het Nationaal Archief geleverd voor de duurzame opslag.

Zie voor informatie over de inhoudelijke controle van de batches van een Archieven en Collecties-project het document: Toelichting inhoudelijke controle