Treffer: Data Matching zur Verbesserung der Datenqualität im Stammdatenumfeld

Title:
Data Matching zur Verbesserung der Datenqualität im Stammdatenumfeld
Authors:
Publisher Information:
2020; Wiener Neustadt
Added Details:
Trausmuth, Robert Begutachter
Document Type:
E-Ressource Electronic Resource
Physical Description:
126 S.
Availability:
Open access content. Open access content
Other Numbers:
ATHWN oai:cdm21065.contentdm.oclc.org:p21065coll5/870
1243348607
Contributing Source:
BIBLIOTHEK DER FACHHOCHSCHULE WIENER NE
From OAIster®, provided by the OCLC Cooperative.
Accession Number:
edsoai.on1243348607
Database:
OAIster

Weitere Informationen

Diese Arbeit behandelt das Thema unsauberer Daten in Stammdatensystemen in Bezug auf Duplikate von Unternehmensbezeichnungen. Als Duplikat wird nicht nur der engere Sinn dergleichen juristischen Gesellschaft gesehen, sondern auch die Erkennung der Zugehörigkeit zu einer Unternehmensgruppe aufgrund ähnlicher Bezeichnungen. Es werden keine organisatorischen Untersuchungen zur Vermeidung von Duplikaten angestellt, die Analyse betrachtet einzig die Aufarbeitung bereits entstandener Datensätze, eingeschränkt auf die Unternehmensbezeichnungen. Dazu wird die Theorie von String Matching Algorithmen im Allgemeinen sowie im Detail anhand von Levenshtein, Jaro-Winkler, Jaccard und TF-IDF Methoden erarbeitet. Untersuchungen werden in Python umgesetzt, der Fokus liegt hierbei einerseits auf der Qualität der Ausgabe sowie der benötigten Rechenzeit.*****This thesis deals with the topic of dirty data in master data systems in relation to duplicates of company names. Duplicates are not only seen as in the sense of the same legal entity, but also as recognition of group affiliations based on similar names. No organizational investigations are carried out to avoid duplicates, the analysis only considers the processing of data records that have already been created, restricted to the company names themselves. For this purpose, the theory of string matching algorithms in general as well as in detail using Levenshtein, Jaro-Winkler, Jaccard and TF-IDF methods will be examined. Implementations are concluded in Python, the focus relies on the quality of the output as well as the required computing time.