Treffer: Data mining, cleaning, feature extraction, and machine learning approaches for big data in electronic health records : liver cancer risk factor analysis and model explainability

Title:

Data mining, cleaning, feature extraction, and machine learning approaches for big data in electronic health records : liver cancer risk factor analysis and model explainability

Authors:

Kouremenou, Eleftheria Georgia, Κουρεμένου, Ελευθερία Γεωργία

Contributors:

Kyriazis, Dimosthenis, Κυριαζής, Δημοσθένης, Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων, Πληροφοριακά Συστήματα και Υπηρεσίες

Publisher Information:

Πανεπιστήμιο Πειραιώς

Publication Year:

2023

Collection:

University of Piraeus: Dione / Πανεπιστημίο Πειραιώς: Διώνη

Subject Terms:

Explainability, PySpark, Liver cancer, Apache Spark, Parallel processing, Machine learning, Data cleaning, Data mapping, Big data

Document Type:

Dissertation master thesis

File Description:

application/pdf

Language:

English

Relation:

https://dione.lib.unipi.gr/xmlui/handle/unipi/15692; http://dx.doi.org/10.26267/unipi_dione/3114

DOI:

10.26267/unipi_dione/3114

Availability:

https://dione.lib.unipi.gr/xmlui/handle/unipi/15692
https://doi.org/10.26267/unipi_dione/3114

Rights:

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα ; http://creativecommons.org/licenses/by-nc/3.0/gr/

Accession Number:

edsbas.2C3F77BD

Database:

BASE

Weitere Informationen

Στην ακόλουθη διπλωματική, προτείνουμε μια ολοκληρωμένη μεθοδολογία που χρησιμοποιεί προηγμένα μοντέλα μηχανικής μάθησης και τεχνικές επεξεργασίας μεγάλων δεδομένων για την πρόβλεψη του καρκίνου του ήπατος. Πραγματοποιήσαμε αρχικά καθαρισμό και χαρτογράφηση δεδομένων σε ένα τεράστιο σύνολο δεδομένων, χρησιμοποιώντας εργαλεία όπως το Apache Sedona Spark και το Google Colab για να βελτιστοποιήσουμε τη σύνδεση και την επεξεργασία αυτών των μεγάλων πόρων δεδομένων. Ένα ουσιαστικό μέρος της μεθοδολογίας μας περιελάμβανε τη μετάφραση και τη μετατροπή των τιμών αίματος από μια γλώσσα στα αγγλικά και από χαρακτήρες σε διπλή μορφή. Επιπλέον, υπολογίσαμε τη μέση τιμή των αποτελεσμάτων αίματος κάθε ασθενή. Το σύνολο δεδομένων μας αποτελείται από αρχεία ασθενών με και χωρίς καρκίνο. Εάν το αρχείο ενός ασθενούς υπάρχει στο σύνολο δεδομένων του καρκίνου, εκχωρούμε y = 1, υποδεικνύοντας την παρουσία καρκίνου. Διαφορετικά, y=0, υποδηλώνοντας μη καρκινικό. Τα προγνωστικά μας μοντέλα λαμβάνουν υπόψη διάφορους εξωτερικούς παράγοντες που μπορεί να συμβάλλουν στην ασθένεια και μεταφράζουν τα πρωτόκολλα icd9 και icd10 , όπως επιπλοκές από χρήση ναρκωτικών, χειρουργική επέμβαση, αφαίρεση οργάνων, καθώς και δημογραφικούς παράγοντες όπως η ηλικία και το φύλο και καταστάσεις υγείας όπως η κίρρωση , ηπατίτιδα Β . Αυτοί οι παράγοντες αξιολογήθηκαν χρησιμοποιώντας διάφορα μοντέλα μηχανικής μάθησης, συμπεριλαμβανομένων της μάθησης χωρίς επίβλεψη, της εποπτευόμενης μάθησης, του LightGBM, του XGBoost, του Support Vector Machine και του Gradient Boosting. Τα αποτελέσματα των μοντέλων αξιολογήθηκαν και συγκρίθηκαν, με τα πιο σημαντικά χαρακτηριστικά που βρέθηκαν να περιλαμβάνουν την ηλικία, την οικογενειακή κατάσταση (MER), τον τύπο του φύλου και τις προαναφερθείσες καταστάσεις υγείας. Τέλος, περιλαμβάνουμε μια ισχυρή εφαρμογή Επεξήγησης. ; In this Thesis, we propose a comprehensive methodology that employs advanced machine learning models and big data processing techniques for predicting liver cancer. We first performed data cleaning and ...

Treffer: Data mining, cleaning, feature extraction, and machine learning approaches for big data in electronic health records : liver cancer risk factor analysis and model explainability

Weitere Informationen

Links

Zusatz-Funktionen