BITi 00.0 OCR-Validierung / Parsing: Unterschied zwischen den Versionen
Petra (Diskussion | Beiträge) |
Petra (Diskussion | Beiträge) |
||
Zeile 35: | Zeile 35: | ||
===== 08-002: ===== | ===== 08-002: ===== | ||
Erscheint die Fehlermeldung: „This PDF is not tagged: Not accessible at all“ oder „Error while parsing the PDF Document“, brechen Sie die Prüfung ab. | Erscheint die Fehlermeldung: „This PDF is not tagged: Not accessible at all“ oder „Error while parsing the PDF Document“, brechen Sie die Prüfung ab. | ||
− | [[Prüfschritte|zurück zur Liste der Prüfschritte]] | + | *[[Prüfschritte|zurück zur Liste der Prüfschritte]] |
Version vom 27. September 2016, 15:40 Uhr
Inhaltsverzeichnis
BITi 00.0 OCR-Validierung / Parsing
Anwendbarkeit des Prüfschritts
Der Prüfschritt ist anwendbar, wenn das Dokument über OCR erstellt wurde.
Bewertungsalternativen
erfüllt, nicht erfüllt
Hinweis zur Bewertung:
Der Prüfschritt ist erfüllt, wenn die in den unten gelisteten Prüfpunkten genannten Aspekte nicht zutreffen.
Abwertung möglich?
Ja
Bezieht sich auf folgende Fehlerbedingungen im Matterhorn-Protokoll
Testbarkeit Mensch
• *08-001: Text, der über OCR erstellt wurde, enthält erhebliche Fehler.
Testbarkeit Software
• *01-007: Der Wert des Suspects-Eintrags ist auf true gesetzt. • **PAC Fehlermeldung: ***Suspects entry is set • *08-002: Text, der über OCR erstellt wurde, ist nicht getaggt. • **PAC Fehlermeldung: ***This PDF is not tagged: Not accessible at all • *PAC Fehlermeldung: • **Error while parsing the PDF Document
Was wird geprüft?
• *Der durch OCR in eine maschinenlesbare Form übertragene Text muss mit dem gescannten Text vollständig übereinstimmen. • *Durch Tagging wurde auf der semantischen Ebene eine nachvollziehbare Entsprechung des sichtbaren Inhalts geschaffen. • *Das PDF Dokument ist lesbar. • *Der Suspect-Eintrag wird gesetzt, wenn bei der optischen Zeichenerkennung (OCR) die Interpretation eines Zeichens nicht schlüssig ist.
Warum wird das geprüft?
Texte, die per OCR verarbeitet wurden, enthalten in der Ausgabe meist noch die eingescannten Schriftgrafiken. Der dahinter liegende maschinenlesbare Text wurde in versteckter Form dem Dokument beigefügt. Nur bei völliger Übereinstimmung mit dem Original kann ein Screenreader den Text korrekt ausgeben. Tags, die nicht entsprechend ihrer Semantik verwendet werden (z. B. ein Überschriften-Tag wie H1 zum Hervorheben von Teilen eines Absatzes), führen bei Menschen, die auf semantische Informationen angewiesen sind (z.B. Screenreader-Nutzer) zu Missverständnissen bis hin zum Informationsverlust. Das soll durch korrektes Taggen vermieden werden.
Wie wird geprüft?
Prüfung
Öffnen Sie das zu prüfende Dokument mit PAC.
08-001:
Klicken Sie auf Screenreader Preview. Vergleichen Sie das Originaldokument mit der Screenreader Vorschau. Entscheiden Sie an dieser Stelle, ob eine weitere Prüfung des Dokuments sinnvoll ist oder ob die Fehler so gravierend sind, dass die Prüfung an dieser Stelle abgebrochen wird.
08-002:
Erscheint die Fehlermeldung: „This PDF is not tagged: Not accessible at all“ oder „Error while parsing the PDF Document“, brechen Sie die Prüfung ab.