BITi 00.0 OCR-Validierung / Parsing: Unterschied zwischen den Versionen

Aus BIT inklusiv Wiki und Test-Case-Datenbank
Wechseln zu: Navigation, Suche
K (Änderte den Schutz von „BITi 00.0 OCR-Validierung / Parsing“ ([Bearbeiten=Nur automatisch bestätigten Benutzern erlauben] (unbeschränkt) [Verschieben=Nur automatisch bestätigten Benutzern erlauben] (unbeschränkt)))
 
(32 dazwischenliegende Versionen von 3 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
== BITi 00.0 OCR-Validierung / Parsing ==
+
{{PDF_00_0}}
=== Anwendbarkeit des Prüfschritts ===
 
Der Prüfschritt ist anwendbar, wenn das Dokument über OCR erstellt wurde.
 
=== Bewertungsalternativen ===
 
erfüllt, nicht erfüllt
 
==== Hinweis zur Bewertung: ====
 
Der Prüfschritt ist erfüllt, wenn die in den unten gelisteten Prüfpunkten genannten Aspekte nicht zutreffen.
 
==== Abwertung möglich? ====
 
Ja
 
=== Bezieht sich auf folgende Fehlerbedingungen im Matterhorn-Protokoll ===
 
==== Testbarkeit Mensch ====
 
• *08-001: Text, der über OCR erstellt wurde, enthält erhebliche Fehler.
 
==== Testbarkeit Software ====
 
• *01-007: Der Wert des Suspects-Eintrags ist auf true gesetzt.
 
• **PAC Fehlermeldung:
 
 ***Suspects entry is set
 
• *08-002: Text, der über OCR erstellt wurde, ist nicht getaggt.
 
• **PAC Fehlermeldung:
 
 ***This PDF is not tagged: Not accessible at all
 
• *PAC Fehlermeldung:
 
• **Error while parsing the PDF Document
 
 
=== Was wird geprüft? ===
 
=== Was wird geprüft? ===
*Der durch OCR in eine maschinenlesbare Form übertragene Text muss mit dem gescannten Text vollständig übereinstimmen.
+
*Der durch OCR in eine maschinenlesbare Form übertragene Text muss mit dem gescannten Text vollständig übereinstimmen.
*Durch Tagging wurde auf der semantischen Ebene eine nachvollziehbare Entsprechung des sichtbaren Inhalts geschaffen.
+
*Durch Taggen wurde auf der semantischen Ebene eine nachvollziehbare Entsprechung des sichtbaren Inhalts geschaffen.
*Das PDF Dokument ist lesbar.
+
*Das PDF Dokument ist lesbar.
*Der Suspect-Eintrag wird gesetzt, wenn bei der optischen Zeichenerkennung (OCR) die Interpretation eines Zeichens nicht schlüssig ist.
+
*Der Suspect-Eintrag wird gesetzt, wenn bei der optischen Zeichenerkennung (OCR) die Interpretation eines Zeichens nicht schlüssig ist.
=== Warum wird das geprüft? ===
+
 
Texte, die per OCR verarbeitet wurden, enthalten in der Ausgabe meist noch die eingescannten Schriftgrafiken. Der dahinter liegende maschinenlesbare Text wurde in versteckter Form dem Dokument beigefügt. Nur bei völliger Übereinstimmung mit dem Original kann ein Screenreader den Text korrekt ausgeben.
+
===Warum wird das geprüft? ===
 +
Moderne OCR-Systeme behalten das ursprüngliche Layout der Seite und erstellen ein PDF, das sowohl das ursprünglich eingescannte Bild als auch eine durchsuchbare Textversion enthält. Nur bei völliger Übereinstimmung mit dem Original kann ein Screenreader den Text korrekt ausgeben.
 
Tags, die nicht entsprechend ihrer Semantik verwendet werden (z. B. ein Überschriften-Tag wie H1 zum Hervorheben von Teilen eines Absatzes), führen bei Menschen, die auf semantische Informationen angewiesen sind (z.B. Screenreader-Nutzer) zu Missverständnissen bis hin zum Informationsverlust. Das soll durch korrektes Taggen vermieden werden.
 
Tags, die nicht entsprechend ihrer Semantik verwendet werden (z. B. ein Überschriften-Tag wie H1 zum Hervorheben von Teilen eines Absatzes), führen bei Menschen, die auf semantische Informationen angewiesen sind (z.B. Screenreader-Nutzer) zu Missverständnissen bis hin zum Informationsverlust. Das soll durch korrektes Taggen vermieden werden.
=== Wie wird geprüft? ===
+
Das Dokument muss als getaggt markiert sein, weil einige Viewer oder Screenreader ein PDF-Dokument erst als getaggt wahrnehmen, wenn diese Markierung vorhanden ist.
==== Prüfung ====
+
===Wie wird geprüft?===
 +
====Prüfung====
 
Öffnen Sie das zu prüfende Dokument mit PAC.
 
Öffnen Sie das zu prüfende Dokument mit PAC.
===== 08-001: =====
+
=====MP 08-001 - über OCR erstelltes Dokument enthält erhebliche Fehler=====
Klicken Sie auf Screenreader Preview. Vergleichen Sie das Originaldokument mit der Screenreader Vorschau. Entscheiden Sie an dieser Stelle, ob eine weitere Prüfung des Dokuments sinnvoll ist oder ob die Fehler so gravierend sind, dass die Prüfung an dieser Stelle abgebrochen wird.
+
Klicken Sie auf Screenreader Preview. Vergleichen Sie das Originaldokument mit der Screenreader Vorschau. Entscheiden Sie, ob eine Korrektur des Dokuments sinnvoll ist oder ob die Fehler so gravierend sind, dass Sie an dieser Stelle abbrechen.
===== 08-002: =====
+
<h5>MP 08-002 - Dokument enthält keine Tags</h5>
Erscheint die Fehlermeldung: „This PDF is not tagged: Not accessible at all“ oder „Error while parsing the PDF Document“, brechen Sie die Prüfung ab.
+
Erscheint die Fehlermeldung: „This PDF is not tagged: Not accessible at all“ ist eine weitere Prüfung nur möglich, wenn Sie das PDF nachträglich taggen.
*[[Inhaltsverzeichnis|zurück zur Liste der Prüfschritte]]
+
(Siehe Vorschlag zur Korrektur.)
 +
 
 +
=== Vorschlag zur Korrektur ===
 +
====MP 08-002 Dokument enthält keine Tags====
 +
=====Adobe Acrobat Pro XI =====
 +
Rufen Sie über Werkzeuge-Aktionsassistent den Menüpunkt barrierefrei machen auf.
 +
Der Assistent führt Sie durch die notwendigen Schritte.
 +
Alternativ können Sie das Dokument über Werkzeuge – Texterkennung - In dieser Datei“ und anschließend über die Ein-/Ausgabehilfe - Tags zu Dokument hinzufügen nachträglich taggen.
 +
 
 +
=====Adobe Acrobat DC =====
 +
Taggen Sie das Dokument über Werkzeuge – Schützen und standardisieren – Barrierefreiheit – Dokument automatisch taggen. Führen Sie anschließend eine Vollständige Prüfung durch und beheben Sie die angezeigten Fehler wie in den entsprechenden Prüfschritten beschrieben.
 +
 
 +
====Zusätzliche Informationen====
 +
*Die Ergebnisse des nachträglichen Taggings sind in der Regel bei Weitem nicht ausreichend. Korrigieren Sie das Dokument mit Hilfe der Korrekturvorschläge der anderen Prüfschritte.
 +
*[https://www.einfach-fuer-alle.de/wcag2.0/uebersetzungen/WCAG20-TECHS/PDF7/ WCAG-Techniken für  PDF, Einfach für Alle]
 +
 
 +
[[Prüfschritte|zurück zur Liste der Prüfschritte]]

Aktuelle Version vom 25. Oktober 2016, 13:08 Uhr

Bezieht sich auf folgende Fehlerbedingungen im Matterhorn-Protokoll

Testbarkeit Mensch

  • MP 08-001: Text, der über OCR erstellt wurde, enthält erhebliche Fehler.
  • MP 08-002: Text, der über OCR erstellt wurde, ist nicht getaggt.

Testbarkeit Software

  • MP 01-007: Der Wert des Suspects-Eintrags ist auf true gesetzt.
    • PAC Fehlermeldung:
      • Suspects-Eintrag ist gesetzt
      • Suspects entry is set
  • ISO 32000-1 14.8.1
    • PAC Fehlermeldung:
      • PDF-Dokument ist nicht als getaggt gekennzeichnet
      • Document is not marked as tagged
  • ISO 32000-1
    • PAC Fehlermeldung:
      • PDF-Dokument nicht lesbar
      • Error while parsing the PDF Document

Was wird geprüft?

  • Der durch OCR in eine maschinenlesbare Form übertragene Text muss mit dem gescannten Text vollständig übereinstimmen.
  • Durch Taggen wurde auf der semantischen Ebene eine nachvollziehbare Entsprechung des sichtbaren Inhalts geschaffen.
  • Das PDF Dokument ist lesbar.
  • Der Suspect-Eintrag wird gesetzt, wenn bei der optischen Zeichenerkennung (OCR) die Interpretation eines Zeichens nicht schlüssig ist.

Warum wird das geprüft?

Moderne OCR-Systeme behalten das ursprüngliche Layout der Seite und erstellen ein PDF, das sowohl das ursprünglich eingescannte Bild als auch eine durchsuchbare Textversion enthält. Nur bei völliger Übereinstimmung mit dem Original kann ein Screenreader den Text korrekt ausgeben. Tags, die nicht entsprechend ihrer Semantik verwendet werden (z. B. ein Überschriften-Tag wie H1 zum Hervorheben von Teilen eines Absatzes), führen bei Menschen, die auf semantische Informationen angewiesen sind (z.B. Screenreader-Nutzer) zu Missverständnissen bis hin zum Informationsverlust. Das soll durch korrektes Taggen vermieden werden. Das Dokument muss als getaggt markiert sein, weil einige Viewer oder Screenreader ein PDF-Dokument erst als getaggt wahrnehmen, wenn diese Markierung vorhanden ist.

Wie wird geprüft?

Prüfung

Öffnen Sie das zu prüfende Dokument mit PAC.

MP 08-001 - über OCR erstelltes Dokument enthält erhebliche Fehler

Klicken Sie auf Screenreader Preview. Vergleichen Sie das Originaldokument mit der Screenreader Vorschau. Entscheiden Sie, ob eine Korrektur des Dokuments sinnvoll ist oder ob die Fehler so gravierend sind, dass Sie an dieser Stelle abbrechen.

MP 08-002 - Dokument enthält keine Tags

Erscheint die Fehlermeldung: „This PDF is not tagged: Not accessible at all“ ist eine weitere Prüfung nur möglich, wenn Sie das PDF nachträglich taggen. (Siehe Vorschlag zur Korrektur.)

Vorschlag zur Korrektur

MP 08-002 Dokument enthält keine Tags

Adobe Acrobat Pro XI

Rufen Sie über Werkzeuge-Aktionsassistent den Menüpunkt barrierefrei machen auf. Der Assistent führt Sie durch die notwendigen Schritte. Alternativ können Sie das Dokument über Werkzeuge – Texterkennung - In dieser Datei“ und anschließend über die Ein-/Ausgabehilfe - Tags zu Dokument hinzufügen nachträglich taggen.

Adobe Acrobat DC

Taggen Sie das Dokument über Werkzeuge – Schützen und standardisieren – Barrierefreiheit – Dokument automatisch taggen. Führen Sie anschließend eine Vollständige Prüfung durch und beheben Sie die angezeigten Fehler wie in den entsprechenden Prüfschritten beschrieben.

Zusätzliche Informationen

  • Die Ergebnisse des nachträglichen Taggings sind in der Regel bei Weitem nicht ausreichend. Korrigieren Sie das Dokument mit Hilfe der Korrekturvorschläge der anderen Prüfschritte.
  • WCAG-Techniken für PDF, Einfach für Alle

zurück zur Liste der Prüfschritte