Βάσεις Δεδομένων και Εξόρυξη Δεδομένων
Μέρος Α: Θεωρία
(i) Εισαγωγή στις Βάσεις Δεδομένων, SQL. (ii) Προετοιμασία Δεδομένων. Καθαρισμός των δεδομένων (data cleaning). Συμπλήρωση ελλιπών τιμών. (iii) Επιβλεπόμενη μάθηση: Δέντρα απόφασης, Kοντινότεροι γείτονες, μπεϋζιανοί αλγόριθμοι, σύγκριση μεθόδων ταξινόμησης, ομάδες ταξινομητών. (iv) Παλινδρόμηση: Πολλαπλή γραμμική παλινδρόμηση, Δέντρα προβλέψεων, Νευρωνικά Δίκτυα. (v) Επιλογή ανεξάρτητων μεταβλητών: Μέθοδοι φίλτρου και περιτυλίγματος, Μέθοδος Ανάλυσης Κύριων Συνιστωσών. (vi) Μη-επιβλεπόμενη μάθηση: Συσταδοποίηση (Clustering), Μοντέλα Ιεραρχικής Συσταδοποίησης και Πυκνότητας. (vii) Κανόνες συσχέτισης, Αραιοί πίνακες. (viii) Μεγάλα Δεδομένα (Big Data): Hadoop και MapReduce.
Μέρος Β: Εργαστήριο
Η γλώσσα R για την Επιστήμη των Δεδομένων, Queries σε πολλαπλούς πίνακες με την εντολή JOIN, Τελεστές. Subqueries. Σύνδεση με R, Χρήση πακέτων της R: sqldf, lattice, ggplot2, dplyr, party, C50, Rattle, mlr, randomForest, rpart, caret, factoextra, cluster, fpc, arules, arulesViz, RHadoop.