Hauptinhalt

Volltexterkennung digitalisierter Texte

Einführung in die Volltexterkennung mit Tesseract OCR

Veranstaltungsdaten

24. Mai 2018 12:00 – 24. Mai 2018 14:00

Universitätsbibliothek Deutschhausstraße 9, Gruppenraum Nr. 50

In diesem Workshop lernen Sie, wie Sie aus Digitalisaten historischer Quellentexte computerlesbare Texte erstellen.

Digitalisate liegen oftmals nur als Bilddateien (jpg, tiff, pdf) vor. Mithilfe von spezieller OCR (Optical Character Recognition)-Software lassen sich diese Bilddateien in Text umwandeln. Eine quelloffene (open source) Texterkennungssoftware ist Tesseract OCR.

Inhalte des Workshops:

  • Installation von Tesseract OCR, 
  • Installation eines Graphischen Benutzungsprogramms (GUI) für Tesseract OCR
  • Texterkennung ausgewählter Digitalisate verschiedener Sprachen, Formate und Layouts.

Voraussetzungen

Da im Digital Learning Lab auch Programme ausprobiert werden sollen, die nicht auf den vom HRZ betreuten Rechnern installiert sind, müssen Sie Ihren eigenen Rechner (Laptop, Macbook, ...) mitbringen!

Anmeldung

Melden Sie sich bitte vor dem Workshop an (Kontaktdaten s.u.).

Eine Anmeldung hilft uns, die Workshops besser vorzubereiten. Sie können allerdings auch ohne Anmeldung spontan dazukommen.

Wenn Sie sich anmelden, geben Sie uns noch ein paar Infos mit:

  • Was für ein Rechner und Betriebssystem bringen Sie mit?
  • Haben Sie schon Vorkenntnisse in dem Thema?
  • Was studieren Sie?

Weitere Informationen zum Learning Lab finden Sie auf der Seite "Wie funktioniert das Lab?"

Referierende

Dr. Timo Glaser, Universitätsbibliothek

Kontakt