Lemmatisierung und Zählung von Worthäufigkeiten

bearbeitet von: Eugen Stroh

 

Mit dieser Arbeit wird das Ziel verfolgt, die französische Übersetzung von J. B. Chabot der Chronik von Michael dem Syrer vollständig zu lemmatisieren und anhand der Lemmata die Wortfrequenzen zu ermitteln.

 

Das soll eine explorative Analyse des Textes ermöglichen, aus der wissenschaftliche Thesen aufgestellt werden können.

 

Dazu soll ein Tool entwickelt werden, das I/O-Operationen beherrscht sowie Aufarbeitung der Daten zur Lemmatisierung und die Lemmatisierung selbst. Für für die Ausarbeitung eines ersten Prototypen wurde KNIME verwendet, die Implementierung soll dann vollständig in Python erfolgen. Für die Lemmatisierung des Französischen wird das Python-Modul „Pattern“ verwendet, das vom CLiPS-center der Universität von Antwerpen entwickelt wurde.

 

Pattern ist darüber hinaus in der Lage, auch deutsche Texte zu lemmatisieren. Weiteres Ziel ist daher, Module zur Lemmatisierung des Deutschen in das entstandene Tool zu integrieren.
Das Tool bzw. die Module sollen auch über die Lemmatisierung der Chronik hinaus verwendbar sein und modular erweiterbar.