Treffer: Data Matching zur Verbesserung der Datenqualität im Stammdatenumfeld

Title:

Data Matching zur Verbesserung der Datenqualität im Stammdatenumfeld

Authors:

Humer, Philipp

Publisher Information:

2020; Wiener Neustadt

Added Details:

Trausmuth, Robert Begutachter

Document Type:

E-Ressource Electronic Resource

Physical Description:

126 S.

Index Terms:

String Matching, Unscharfe Suche, Editierdistanz, TF-IDF, String matching, Fuzzy search, MIT, Diplomarbeit (MA) JG18

Availability:

Open access content. Open access content

Other Numbers:

ATHWN oai:cdm21065.contentdm.oclc.org:p21065coll5/870
1243348607

Contributing Source:

BIBLIOTHEK DER FACHHOCHSCHULE WIENER NE
From OAIster®, provided by the OCLC Cooperative.

Accession Number:

edsoai.on1243348607

Database:

OAIster

Weitere Informationen

Diese Arbeit behandelt das Thema unsauberer Daten in Stammdatensystemen in Bezug auf Duplikate von Unternehmensbezeichnungen. Als Duplikat wird nicht nur der engere Sinn dergleichen juristischen Gesellschaft gesehen, sondern auch die Erkennung der Zugehörigkeit zu einer Unternehmensgruppe aufgrund ähnlicher Bezeichnungen. Es werden keine organisatorischen Untersuchungen zur Vermeidung von Duplikaten angestellt, die Analyse betrachtet einzig die Aufarbeitung bereits entstandener Datensätze, eingeschränkt auf die Unternehmensbezeichnungen. Dazu wird die Theorie von String Matching Algorithmen im Allgemeinen sowie im Detail anhand von Levenshtein, Jaro-Winkler, Jaccard und TF-IDF Methoden erarbeitet. Untersuchungen werden in Python umgesetzt, der Fokus liegt hierbei einerseits auf der Qualität der Ausgabe sowie der benötigten Rechenzeit.*****This thesis deals with the topic of dirty data in master data systems in relation to duplicates of company names. Duplicates are not only seen as in the sense of the same legal entity, but also as recognition of group affiliations based on similar names. No organizational investigations are carried out to avoid duplicates, the analysis only considers the processing of data records that have already been created, restricted to the company names themselves. For this purpose, the theory of string matching algorithms in general as well as in detail using Levenshtein, Jaro-Winkler, Jaccard and TF-IDF methods will be examined. Implementations are concluded in Python, the focus relies on the quality of the output as well as the required computing time.

Treffer: Data Matching zur Verbesserung der Datenqualität im Stammdatenumfeld

Weitere Informationen

Links

Zusatz-Funktionen