Datum/Uhrzeit: bis Uhr
Ort: Strohsackpassage, Raum 5.55

Der Workshop ist eine gemeinsame Veranstaltung des Digital Lab am ReCentGlobe und der Sächsischen Akademie der Wissenschaften zu Leipzig (SAW).

Hier geht es zur Anmeldung

Der Workshop wird gehalten von Eliese-Sophia Lincke, Juniorprofessorin für Computerphilologie & Data Science der Sprachen der Alten Welt an der FU Berlin, und Florian Langhanki vom Zentrum für Philologie und Digitalität der U Würzburg und Mitglied des OCR4all-Projektteams.

Die Arbeit in den Humanities erfolgt häufig mit historischen Quellen in Form von gedruckten und handschriftlichen Texten. Meist liegen diese nur in Scans von sehr unterschiedlicher Qualität vor, was die weitere Bearbeitung einschränkt, insbesondere etwa die Volltextsuche oder Verfahren der quantitativen Analyse. Hierzu muss zunächst ein maschinenlesbarer Volltext erstellt werden. Der Workshop gibt einen Überblick über den aktuellen Stand zu Methoden, Tools und Ansätzen zur automatischen Texterkennung und einen praktischen Einblick mit Hands-on-Elementen in die an der Universität Würzburg entwickelte freie Software OCR4all (eine Alternative zu "Transkribus"). OCR4all kombiniert verschiedene Open-Source-Lösungen, um einen vollautomatischen Arbeitsablauf für die automatische Texterkennung von historischem gedrucktem (optical character recognition, OCR) und handschriftlichem (handwritten text recognition, HTR) Material bereitzustellen. In jeder Phase des Workflows kann der:die Benutzer:in mit den Ergebnissen interagieren, um Fehler zu minimieren und das Endergebnis zu optimieren.