04/03/2025
5.9 C
Serres

Η ελληνική γλώσσα διαθέτει σήμερα επτά εκατομμύρια μοναδικές λέξεις

Η ελληνική γλώσσα διαθέτει σήμερα περίπου επτά εκατομμύρια μοναδικές λέξεις! Πρόκειται για αποτέλεσμα «εξόρυξης», όχι βεβαίως με σκαπάνη ή εκρηκτικά, αλλά με τις εκρηκτικές τεχνολογικές εφαρμογές της τεχνητής νοημοσύνης και της εξόρυξης δεδομένων (data mining).

Για να βρεθεί ο συγκεκριμένος αριθμός λέξεων χρησιμοποιήθηκαν καινοτόμες μέθοδοι τεχνητής νοημοσύνης, όπως για παράδειγμα βαθιά νευρωνικά δίκτυα (υπολογιστικά δίκτυα που μιμούνται τους βιολογικούς νευρώνες) πάνω σε κείμενα από 170 εκατ. ιστοσελίδες.

Ο αριθμός των επτά εκατ. δεν αφορά ρίζες, αλλά διαφορετικές λέξεις (π.χ. «άνθρωπος» και «άνθρωποι» είναι δύο διαφορετικές λέξεις).

Δράστης αυτής της γλωσσικής ψηφιακής ανασκαφής είναι η ερευνητική ομάδα «Εξόρυξης Δεδομένων» του Τμήματος Πληροφορικής του Οικονομικού Πανεπιστημίου Αθηνών (ΟΠΑ), στο πλαίσιο έργου το οποίο υλοποιήθηκε για λογαριασμό της Εθνικής Βιβλιοθήκης με χρηματοδότηση του Ιδρύματος Νιάρχου.

«Συμβάλλαμε στην παραγωγή καινοτομικών ψηφιακών γλωσσολογικών πόρων για την ελληνική γλώσσα, όπως το λεξικό που, από όσο γνωρίζουμε, είναι το μεγαλύτερο σε ψηφιακή μορφή. Ταυτόχρονα, καθώς στηρίζεται στο σύνολο του πρόσφατου περιεχομένου του Διαδικτύου, αποδίδει ουσιαστικά την τρέχουσα μορφή της γλώσσας.

BMW2grand coupe afoi ioannidi serres

Για παράδειγμα, υπάρχουν καινοφανείς λέξεις όπως “θερμογαλβανισμένη” ή “ενταλματοποιηθέντα”, οι οποίες πιθανότατα δεν υπάρχουν στα παραδοσιακά λεξικά αλλά παράγονται από την πρόσφατη εξέλιξη της γλώσσας», λέει στην «Κ» ο καθηγητής Μιχάλης Βαζιργιάννης, ο οποίος διευθύνει την ερευνητική ομάδα.

Στο έργο συνεισέφεραν οι συνεργάτες της ομάδας Π. Μελαδιανός και Σ. Ούτσιος. Ο κ. Βαζιργιάννης βρίσκεται από το 2013 με σχέση παράλληλης απασχόλησης στη Γαλλία, έχει θέση διακεκριμένου καθηγητή στο Πολυτεχνείο του Παρισιού (Ecole Polytechnique), όπου διευθύνει την ομάδα Επιστήμης Δεδομένων (Data Science and Mining).

Ο καθηγητής Μιχάλης Βαζιργιάννης διευθύνει την ερευνητική ομάδα «Εξόρυξης Δεδομένων» του Τμήματος Πληροφορικής του ΟΠΑ.


Η ομάδα Εξόρυξης Δεδομένων του ΟΠΑ προχώρησε και σε ενθέσεις ελληνικών λέξεων (word embeddings), οι οποίες υπολογίζουν την ομοιότητα μεταξύ λέξεων στο σημασιολογικό επίπεδο.

«Για παράδειγμα η λέξη “Ελλάδα” και “Αθήνα” είναι σημασιολογικά συναφείς γιατί συνυπάρχουν συχνά σε πολλά κείμενα.

Με αυτόν τον τρόπο επιτυγχάνεται καλύτερη απόδοση σε λειτουργίες αναζήτησης σε κείμενα, όπως για παράδειγμα σε μηχανές αναζήτησης στο Διαδίκτυο», εξηγεί ο κ. Βαζιργιάννης.

Το έργο της ομάδας είναι πολυσχιδές και με διεθνείς διακρίσεις, με πιο πρόσφατο το βραβείο καλύτερης δημοσίευσης, που κατέκτησε στο διεθνές συνέδριο τεχνητής νοημοσύνης IJCAI 2018, ένα από τα κυριότερα σε διεθνές επίπεδο.


Η δημοσίευσή τους με θέμα την «ομοιότητα γραφημάτων στηριγμένη στον εκφυλισμό» (στην οποία συμμετέχουν οι συνεργάτες δρ Ι. Νικολέντζος, Σ. Λημνιός και Π. Μελαδιανός) πήρε το βραβείο διακεκριμένης δημοσίευσης σε σύνολο 700 δημοσιεύσεων που έγιναν αποδεκτές στο συνέδριο (υποβλήθηκαν πάνω από 4.500 εργασίες).

«Ζούμε στην εποχή των γραφημάτων. Η τεχνητή νοημοσύνη στηρίζεται σημαντικά στη χρήση γραφημάτων τα οποία κάνουν εφικτή την αποδοτική αναπαράσταση πολλαπλών μορφών πληροφορίας: δίκτυα κοινωνικά, αλλά και ηλεκτρικά, συγκοινωνιακά, βιολογικά.

Για παράδειγμα σε ένα κοινωνικό δίκτυο (π.χ. Facebook) οι χρήστες είναι οι κόμβοι του γραφήματος και οι ακμές/συνδέσεις αναπαριστούν σχέσεις (π.χ. φιλίας) μεταξύ τους», λέει ο κ. Βαζιργιάννης, η ομάδα του οποίου έχει επινοήσει τη μέθοδο Graph of Words, δηλαδή αναπαράσταση κειμένων μέσω γραφημάτων.

Πολλαπλές εφαρμογές

«Η καινοτομική μέθοδος που παρουσιάσαμε στο συνέδριο IJCAI έχει πολλαπλές εφαρμογές. Για παράδειγμα μπορεί να αξιοποιηθεί για την πρόβλεψη απάτης σε δίκτυα πληρωμών, καταγράφοντας ύποπτες συναλλαγές και διακλαδώσεις.

Σε αυτό το σημείο έδειξαν ιδιαίτερο ενδιαφέρον οι διεθνείς εταιρείες κοινωνικών δικτύων στα οποία μπορεί να γίνει και μεταφορά χρημάτων χωρίς διαμεσολάβηση τραπεζών, όπου και μπορούν να παρατηρηθούν φαινόμενα απάτης.

Επίσης, η μέθοδός μας μπορεί να αξιοποιηθεί σε εφαρμογές μελέτης κοινοτήτων σε κοινωνικά δίκτυα, πρόβλεψης λειτουργικότητας πρωτεϊνών σε βιολογικά δεδομένα και ούτω καθεξής», εξηγεί ο κ. Βαζιργιάννης.

Η ερευνητική ομάδα επεκτείνει τη δουλειά της σε περιβάλλον βαθιών νευρωνικών δικτύων (Deep Learning) με στόχο την αξιοποίηση μεγάλων ποσοτήτων δεδομένων για την εξαγωγή κρυμμένων σχέσεων και μορφών γνώσης. Το μέλλον προδιαγράφεται συναρπαστικό.

Το μακροβιότερο πείραμα στον κόσμο: Τρέχει από το 1927 και πλέον μεταδίδεται σε live streaming

Ο γιος, όταν πέθανε ο πατέρας του, έστειλε τη μητέρα του σε ένα γηροκομείο. Μια μέρα, τον καλούν λέγοντας του ότι η μητέρα του πέθαινε!

Από την Ευρωπαϊκή Επιτροπή 12μηνη επιτήρηση στο ΟΠΕΚΕΠΕ για σοβαρές παρατυπίες

Πηγή:destora

Ακολουθήστε το e-vima.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις


ΡΟΗ ΕΙΔΗΣΕΩΝ.

 

Νεκρός σε περιοχή των Σερρών εντοπίστηκε ο 77χρονος αγνοούμενος από την Καβάλα

Νεκρός εντοπίστηκε, στον Προφήτη Ηλία του Δήμου Αμφίπολης Σερρών, ο 77χρονος από τη Λυδία Καβάλας, ο οποίος αγνοούνταν από τις 27 Φεβρουαρίου. Η σύζυγος...

Eurostat: Στο 3% ο πληθωρισμός στην Ελλάδα τον Φεβρουάριο

Στην ευρωζώνη, ο πληθωρισμός παρουσίασε επίσης μικρή πτώση, φτάνοντας στο 2,4% σε ετήσια βάση τον Φεβρουάριο, από 2,5% τον Ιανουάριο. Ο ετήσιος πληθωρισμός στην Ελλάδα...

Κούλουμα σε όλη την Ελλάδα: Χαρταετοί, σαρακοστιανά εδέσματα και γλέντια

Σαρακοστιανά εδέσματα, υπαίθρια τραπέζια, λαγάνες, μουσική και χορός σε όλη την Ελλάδα - Και φέτος τα «κούλουμα» των Αθηναίων στον λόφο του Φιλοπάππου Καθαρά Δευτέρα και...

Το έθιμο του πετάγματος Χαρταετού τη Καθαρά Δευτέρα

Ενα από τα πιο γνωστά έθιμα το οποίο περνά από γενιά σε γενιά είναι και αυτό του πετάγματος του χαρταετού. Ολοι λίγο ή πολύ...

Διαβάστε επίσης

Δείτε επίσης.

 

Eurostat: Στο 3% ο πληθωρισμός στην Ελλάδα τον Φεβρουάριο

Στην ευρωζώνη, ο πληθωρισμός παρουσίασε επίσης μικρή πτώση, φτάνοντας στο 2,4% σε ετήσια βάση τον Φεβρουάριο, από 2,5% τον Ιανουάριο. Ο ετήσιος πληθωρισμός στην Ελλάδα...

Θεσσαλονίκη: Επίθεση κουκουλοφόρων στα γραφεία των βουλευτών της ΝΔ Καράογλου και Παππά

Οι δράστες χτύπησαν τα δύο γραφεία που βρίσκονται στην περιοχή του Βαρδάρη Ομάδες κουκουλοφόρων χτύπησαν το μεσημέρι της Παρασκευής τα γραφεία των βουλευτών Β΄ Θεσσαλονίκης...

ΔΕΥΑΣ: Διακοπή υδροδότησης στο Σκούταρι

Λόγω αναγκαίων εργασιών στη γεώτρηση της Τ.Κ. Σκουτάρεως, στα πλαίσια του έργου «Ενιαία διαχείριση εξωτερικών υδραγωγείων Τ.Κ. Σκουτάρεως, Κωνσταντινάτου, Αγ. Ελένης και Πεπονιάς», την...

Συνέχισε να διαβάζεις