BITi 00.0 OCR-Validierung / Parsing
Inhaltsverzeichnis
Bezieht sich auf folgende Fehlerbedingungen im Matterhorn-Protokoll
Testbarkeit Mensch
MP 08-001: Text, der über OCR erstellt wurde, enthält erhebliche Fehler.
MP 08-002: Text, der über OCR erstellt wurde, ist nicht getaggt.
Testbarkeit Software
MP 01-007: Der Wert des Suspects-Eintrags ist auf true gesetzt.
- PAC Fehlermeldung:
- Suspects-Eintrag ist gesetzt
- Suspects entry is set
- PAC Fehlermeldung:
- ISO 32000-1 14.8.1
- PAC Fehlermeldung:
- PDF-Dokument ist nicht als getaggt gekennzeichnet
- Document is not marked as tagged
- PAC Fehlermeldung:
- ISO 32000-1
- PAC Fehlermeldung:
- PDF-Dokument nicht lesbar
- Error while parsing the PDF Document
- PAC Fehlermeldung:
Was wird geprüft?
- Der durch OCR in eine maschinenlesbare Form übertragene Text muss mit dem gescannten Text vollständig übereinstimmen.
- Durch Taggen wurde auf der semantischen Ebene eine nachvollziehbare Entsprechung des sichtbaren Inhalts geschaffen.
- Das PDF Dokument ist lesbar.
- Der Suspect-Eintrag wird gesetzt, wenn bei der optischen Zeichenerkennung (OCR) die Interpretation eines Zeichens nicht schlüssig ist.
Warum wird das geprüft?
Moderne OCR-Systeme behalten das ursprüngliche Layout der Seite und erstellen ein PDF, das sowohl das ursprünglich eingescannte Bild als auch eine durchsuchbare Textversion enthält. Nur bei völliger Übereinstimmung mit dem Original kann ein Screenreader den Text korrekt ausgeben. Tags, die nicht entsprechend ihrer Semantik verwendet werden (z. B. ein Überschriften-Tag wie H1 zum Hervorheben von Teilen eines Absatzes), führen bei Menschen, die auf semantische Informationen angewiesen sind (z.B. Screenreader-Nutzer) zu Missverständnissen bis hin zum Informationsverlust. Das soll durch korrektes Taggen vermieden werden. Das Dokument muss als getaggt markiert sein, weil einige Viewer oder Screenreader ein PDF-Dokument erst als getaggt wahrnehmen, wenn diese Markierung vorhanden ist.
Wie wird geprüft?
Prüfung
Öffnen Sie das zu prüfende Dokument mit PAC.
MP 08-001:
Klicken Sie auf Screenreader Preview. Vergleichen Sie das Originaldokument mit der Screenreader Vorschau. Entscheiden Sie, ob eine Korrektur des Dokuments sinnvoll ist oder ob die Fehler so gravierend sind, dass Sie an dieser Stelle abbrechen.
MP 08-002:
Erscheint die Fehlermeldung: „This PDF is not tagged: Not accessible at all“ ist eine weitere Prüfung nur möglich, wenn Sie das PDF nachträglich taggen. (Siehe Vorschlag zur Korrektur.)
Vorschlag zur Korrektur:
Adobe Acrobat Pro XI
Rufen Sie über Werkzeuge-Aktionsassistent den Menüpunkt barrierefrei machen auf. Der Assistent führt Sie durch die notwendigen Schritte. Alternativ können Sie das Dokument über Werkzeuge – Texterkennung - In dieser Datei“ und anschließend über die Ein-/Ausgabehilfe - Tags zu Dokument hinzufügen nachträglich taggen.
Adobe Acrobat DC
Taggen Sie das Dokument über Werkzeuge – Schützen und standardisieren – Barrierefreiheit – Dokument automatisch taggen. Führen Sie anschließend eine Vollständige Prüfung durch und beheben Sie die angezeigten Fehler wie in den entsprechenden Prüfschritten beschrieben.
Zusätzliche Informationen
- Die Ergebnisse des nachträglichen Taggings sind in der Regel bei Weitem nicht ausreichend. Korrigieren Sie das Dokument mit Hilfe der Korrekturvorschläge der anderen Prüfschritte.
- WCAG-Techniken für PDF, Einfach für Alle