BITi 00.0 OCR-Validierung / Parsing

Aus BIT inklusiv Wiki und Test-Case-Datenbank
Version vom 6. August 2016, 17:02 Uhr von Petra (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „== BITi 00.0 OCR-Validierung / Parsing == === Anwendbarkeit des Prüfschritts === Der Prüfschritt ist anwendbar, wenn das Dokument über OCR erstellt wurde. =…“)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

BITi 00.0 OCR-Validierung / Parsing

Anwendbarkeit des Prüfschritts

Der Prüfschritt ist anwendbar, wenn das Dokument über OCR erstellt wurde.

Bewertungsalternativen

erfüllt, nicht erfüllt

Hinweis zur Bewertung:

Der Prüfschritt ist erfüllt, wenn die in den unten gelisteten Prüfpunkten genannten Aspekte nicht zutreffen.

Abwertung möglich?

Ja

Bezieht sich auf folgende Fehlerbedingungen im Matterhorn-Protokoll

Testbarkeit Mensch

• *08-001: Text, der über OCR erstellt wurde, enthält erhebliche Fehler.

Testbarkeit Software

• *01-007: Der Wert des Suspects-Eintrags ist auf true gesetzt. • **PAC Fehlermeldung:  ***Suspects entry is set • *08-002: Text, der über OCR erstellt wurde, ist nicht getaggt. • **PAC Fehlermeldung:  ***This PDF is not tagged: Not accessible at all • *PAC Fehlermeldung: • **Error while parsing the PDF Document

Was wird geprüft?

• *Der durch OCR in eine maschinenlesbare Form übertragene Text muss mit dem gescannten Text vollständig übereinstimmen. • *Durch Tagging wurde auf der semantischen Ebene eine nachvollziehbare Entsprechung des sichtbaren Inhalts geschaffen. • *Das PDF Dokument ist lesbar. • *Der Suspect-Eintrag wird gesetzt, wenn bei der optischen Zeichenerkennung (OCR) die Interpretation eines Zeichens nicht schlüssig ist.

Warum wird das geprüft?

Texte, die per OCR verarbeitet wurden, enthalten in der Ausgabe meist noch die eingescannten Schriftgrafiken. Der dahinter liegende maschinenlesbare Text wurde in versteckter Form dem Dokument beigefügt. Nur bei völliger Übereinstimmung mit dem Original kann ein Screenreader den Text korrekt ausgeben. Tags, die nicht entsprechend ihrer Semantik verwendet werden (z. B. ein Überschriften-Tag wie H1 zum Hervorheben von Teilen eines Absatzes), führen bei Menschen, die auf semantische Informationen angewiesen sind (z.B. Screenreader-Nutzer) zu Missverständnissen bis hin zum Informationsverlust. Das soll durch korrektes Taggen vermieden werden.

Wie wird geprüft?

Prüfung

Öffnen Sie das zu prüfende Dokument mit PAC.

08-001:

Klicken Sie auf Screenreader Preview. Vergleichen Sie das Originaldokument mit der Screenreader Vorschau. Entscheiden Sie an dieser Stelle, ob eine weitere Prüfung des Dokuments sinnvoll ist oder ob die Fehler so gravierend sind, dass die Prüfung an dieser Stelle abgebrochen wird.

08-002:

Erscheint die Fehlermeldung: „This PDF is not tagged: Not accessible at all“ oder „Error while parsing the PDF Document“, brechen Sie die Prüfung ab.