Treffer: Χρήση μηχανικής εκμάθησης για την ανάλυση μεγάλου όγκου δεδομένων αεροπορικών πτήσεων ; Application of machine learning for the analysis of large-scale airline flight datasets

Title:
Χρήση μηχανικής εκμάθησης για την ανάλυση μεγάλου όγκου δεδομένων αεροπορικών πτήσεων ; Application of machine learning for the analysis of large-scale airline flight datasets
Contributors:
Schizas, Iraklis
Publication Year:
2026
Collection:
University of Patras: Nemertes
Document Type:
other/unknown material
File Description:
application/pdf
Language:
Greek, Modern (1453-)
Rights:
Accession Number:
edsbas.91902B3B
Database:
BASE

Weitere Informationen

Η ακριβής πρόβλεψη των καθυστερήσεων πτήσεων αποτελεί μία από τις σημαντικότερεςπροκλήσεις για τη σύγχρονη αεροπορική βιομηχανία, με άμεσο αντίκτυπο στο λειτουργικόκόστος των αεροπορικών εταιρειών και στην εμπειρία του επιβατικού κοινού. Η παρούσαδιπλωματική εργασία πραγματεύεται το ζήτημα αυτό αξιοποιώντας τεχνολογίες ΜεγάλωνΔεδομένων (Big Data). Συγκεκριμένα, αναπτύχθηκε ένα ολοκληρωμένο σύστημαπρόβλεψης καθυστερήσεων βασισμένο στο πλαίσιο του Apache Spark και τη βιβλιοθήκημηχανικής μάθησης MLlib (PySpark). Για την εκπαίδευση των μοντέλων χρησιμοποιήθηκε ένα σύνολο ιστορικών δεδομένων539.383 πτήσεων. Η μεθοδολογία περιλάμβανε προηγμένες τεχνικές μηχανικήςχαρακτηριστικών (feature engineering), όπως η Στατιστική Κωδικοποίηση (Target Encoding) για τη διαχείριση κατηγορικών μεταβλητών υψηλής πληθυσμιακότητας και η διακριτοποίηση χρονικών δεδομένων. Ιδιαίτερη έμφαση δόθηκε στην αντιμετώπιση της ανισορροπίας των κλάσεων (class imbalance) μέσω μιας δυναμικής μεθόδου στάθμισης κόστους (dynamic class weighting).Συγκρίθηκαν δύο αλγόριθμοι συνόλου: Random Forest (RF) και Gradient Boosted Trees(GBT). Τα πειραματικά αποτελέσματα κατέδειξαν την υπεροχή του αλγορίθμου GBT, οοποίος σημείωσε ακρίβεια 64.78% και AUC 0.70, έναντι 64.02% και 0.68 αντίστοιχα του RF. Επιπλέον, αποδείχθηκε η επιχειρησιακή βιωσιμότητα του συστήματος, καθώς ο χρόνοςπρόβλεψης για 100.000 πτήσεις δεν υπερέβη τα 4 λεπτά σε συμβατικό υπολογιστικό εξοπλισμό. Η εργασία καταλήγει στο συμπέρασμα ότι η συνδυαστική χρήση του ApacheSpark με τεχνικές Boosting αποτελεί μια αποδοτική λύση για την ανάλυση αεροπορικών δεδομένων μεγάλης κλίμακας. ; Accurate predictoon of flight delays is a critical challenge for the modern aviation industry, directly impacting airline operating costs and passenger experience. This diploma thesis addresses this issue by leveraging Big Data technologies. Specifically, a comprehensive delayprediction system was developed based on the Apache Spark framework and the MLlib machine learning library (PySpark).A historical dataset comprising ...