Treffer: Data Matching zur Verbesserung der Datenqualität im Stammdatenumfeld
1243348607
From OAIster®, provided by the OCLC Cooperative.
Weitere Informationen
Diese Arbeit behandelt das Thema unsauberer Daten in Stammdatensystemen in Bezug auf Duplikate von Unternehmensbezeichnungen. Als Duplikat wird nicht nur der engere Sinn dergleichen juristischen Gesellschaft gesehen, sondern auch die Erkennung der Zugehörigkeit zu einer Unternehmensgruppe aufgrund ähnlicher Bezeichnungen. Es werden keine organisatorischen Untersuchungen zur Vermeidung von Duplikaten angestellt, die Analyse betrachtet einzig die Aufarbeitung bereits entstandener Datensätze, eingeschränkt auf die Unternehmensbezeichnungen. Dazu wird die Theorie von String Matching Algorithmen im Allgemeinen sowie im Detail anhand von Levenshtein, Jaro-Winkler, Jaccard und TF-IDF Methoden erarbeitet. Untersuchungen werden in Python umgesetzt, der Fokus liegt hierbei einerseits auf der Qualität der Ausgabe sowie der benötigten Rechenzeit.*****This thesis deals with the topic of dirty data in master data systems in relation to duplicates of company names. Duplicates are not only seen as in the sense of the same legal entity, but also as recognition of group affiliations based on similar names. No organizational investigations are carried out to avoid duplicates, the analysis only considers the processing of data records that have already been created, restricted to the company names themselves. For this purpose, the theory of string matching algorithms in general as well as in detail using Levenshtein, Jaro-Winkler, Jaccard and TF-IDF methods will be examined. Implementations are concluded in Python, the focus relies on the quality of the output as well as the required computing time.