BITi 00.0 OCR-Validierung / Parsing

Aus BIT inklusiv Wiki und Test-Case-Datenbank
Wechseln zu: Navigation, Suche

Bezieht sich auf folgende Fehlerbedingungen im Matterhorn-Protokoll

Testbarkeit Mensch

  • MP 08-001: Text, der über OCR erstellt wurde, enthält erhebliche Fehler.
  • MP 08-002: Text, der über OCR erstellt wurde, ist nicht getaggt.

Testbarkeit Software

  • MP 01-007: Der Wert des Suspects-Eintrags ist auf true gesetzt.
    • PAC Fehlermeldung:
      • Suspects-Eintrag ist gesetzt
      • Suspects entry is set
  • ISO 32000-1 14.8.1
    • PAC Fehlermeldung:
      • PDF-Dokument ist nicht als getaggt gekennzeichnet
      • Document is not marked as tagged
  • ISO 32000-1
    • PAC Fehlermeldung:
      • PDF-Dokument nicht lesbar
      • Error while parsing the PDF Document

Was wird geprüft?

  • Der durch OCR in eine maschinenlesbare Form übertragene Text muss mit dem gescannten Text vollständig übereinstimmen.
  • Durch Taggen wurde auf der semantischen Ebene eine nachvollziehbare Entsprechung des sichtbaren Inhalts geschaffen.
  • Das PDF Dokument ist lesbar.
  • Der Suspect-Eintrag wird gesetzt, wenn bei der optischen Zeichenerkennung (OCR) die Interpretation eines Zeichens nicht schlüssig ist.

Warum wird das geprüft?

Moderne OCR-Systeme behalten das ursprüngliche Layout der Seite und erstellen ein PDF, das sowohl das ursprünglich eingescannte Bild als auch eine durchsuchbare Textversion enthält. Nur bei völliger Übereinstimmung mit dem Original kann ein Screenreader den Text korrekt ausgeben. Tags, die nicht entsprechend ihrer Semantik verwendet werden (z. B. ein Überschriften-Tag wie H1 zum Hervorheben von Teilen eines Absatzes), führen bei Menschen, die auf semantische Informationen angewiesen sind (z.B. Screenreader-Nutzer) zu Missverständnissen bis hin zum Informationsverlust. Das soll durch korrektes Taggen vermieden werden. Das Dokument muss als getaggt markiert sein, weil einige Viewer oder Screenreader ein PDF-Dokument erst als getaggt wahrnehmen, wenn diese Markierung vorhanden ist.

Wie wird geprüft?

Prüfung

Öffnen Sie das zu prüfende Dokument mit PAC.

MP 08-001 über OCR erstelltes Dokument enthält erhebliche Fehler

Klicken Sie auf Screenreader Preview. Vergleichen Sie das Originaldokument mit der Screenreader Vorschau. Entscheiden Sie, ob eine Korrektur des Dokuments sinnvoll ist oder ob die Fehler so gravierend sind, dass Sie an dieser Stelle abbrechen.

MP 08-002:

Erscheint die Fehlermeldung: „This PDF is not tagged: Not accessible at all“ ist eine weitere Prüfung nur möglich, wenn Sie das PDF nachträglich taggen. (Siehe Vorschlag zur Korrektur.)

Vorschlag zur Korrektur:

Adobe Acrobat Pro XI

Rufen Sie über Werkzeuge-Aktionsassistent den Menüpunkt barrierefrei machen auf. Der Assistent führt Sie durch die notwendigen Schritte. Alternativ können Sie das Dokument über Werkzeuge – Texterkennung - In dieser Datei“ und anschließend über die Ein-/Ausgabehilfe - Tags zu Dokument hinzufügen nachträglich taggen.

Adobe Acrobat DC

Taggen Sie das Dokument über Werkzeuge – Schützen und standardisieren – Barrierefreiheit – Dokument automatisch taggen. Führen Sie anschließend eine Vollständige Prüfung durch und beheben Sie die angezeigten Fehler wie in den entsprechenden Prüfschritten beschrieben.

Zusätzliche Informationen

  • Die Ergebnisse des nachträglichen Taggings sind in der Regel bei Weitem nicht ausreichend. Korrigieren Sie das Dokument mit Hilfe der Korrekturvorschläge der anderen Prüfschritte.
  • WCAG-Techniken für PDF, Einfach für Alle

zurück zur Liste der Prüfschritte