Hauptinhalt
Volltexterkennung digitalisierter Texte
Einführung in die Volltexterkennung mit Tesseract OCR
Veranstaltungsdaten
24. Mai 2018 12:00 – 24. Mai 2018 14:00
Termin herunterladen (.ics)
Universitätsbibliothek Deutschhausstraße 9, Gruppenraum Nr. 50
In diesem Workshop lernen Sie, wie Sie aus Digitalisaten historischer Quellentexte computerlesbare Texte erstellen.
Digitalisate liegen oftmals nur als Bilddateien (jpg, tiff, pdf) vor. Mithilfe von spezieller OCR (Optical Character Recognition)-Software lassen sich diese Bilddateien in Text umwandeln. Eine quelloffene (open source) Texterkennungssoftware ist Tesseract OCR.
Inhalte des Workshops:
- Installation von Tesseract OCR,
- Installation eines Graphischen Benutzungsprogramms (GUI) für Tesseract OCR
- Texterkennung ausgewählter Digitalisate verschiedener Sprachen, Formate und Layouts.
Voraussetzungen
Da im Digital Learning Lab auch Programme ausprobiert werden sollen, die nicht auf den vom HRZ betreuten Rechnern installiert sind, müssen Sie Ihren eigenen Rechner (Laptop, Macbook, ...) mitbringen!
Anmeldung
Melden Sie sich bitte vor dem Workshop an (Kontaktdaten s.u.).
Eine Anmeldung hilft uns, die Workshops besser vorzubereiten. Sie können allerdings auch ohne Anmeldung spontan dazukommen.
Wenn Sie sich anmelden, geben Sie uns noch ein paar Infos mit:
- Was für ein Rechner und Betriebssystem bringen Sie mit?
- Haben Sie schon Vorkenntnisse in dem Thema?
- Was studieren Sie?
Weitere Informationen zum Learning Lab finden Sie auf der Seite "Wie funktioniert das Lab?"
Referierende
Dr. Timo Glaser, Universitätsbibliothek