Εξαγωγή Πληροφορίας από Κείμενα

Διεπιστημονικό-Διαπανεπιστημιακό Μεταπτυχιακό Πρόγραμμα «ΤΕΧΝΟΓΛΩΣΣΙΑ»

Εξαγωγή Πληροφορίας από Κείμενα

Ακαδημαϊκό έτος: 2013-2014, Εαρινό εξάμηνο

Ενδεικτικό Πρόγραμμα

		Διάλεξη	Εργαστήριο
1	6 Μαΐου	Β. Καρκαλέτσης, Γ. Πετάσης Γλωσσική Τεχνολογία: Γενική Επισκόπηση και ιστορική αναδρομή. Βασικές Έννοιες. Σύνολα χαρακτήρων και UNICODE. Διαφάνειες: Lecture-1.pdf	Εκφώνηση Άσκησης 1 (15%). Εργαστήριο Άσκησης 1.
2	13 Μαΐου	Γ. Πετάσης Εξαγωγή Πληροφορίας (ΕΠ). Κύριες υποεργασίες ΕΠ. Αξιολόγηση συστημάτων ΕΠ. Αρχιτεκτονική συστημάτων ΕΠ. Προσεγγίσεις ανάπτυξης συστημάτων ΕΠ. Διαφάνειες: Lecture-2.pdf	Παράδοση Άσκησης 1. Συζήτηση Άσκησης 1.
3	13 Μαΐου	Γ. Πετάσης Πλατφόρμες Επεξεργασίας Φυσικής Γλώσσας. Η πλατφόρμα επεξεργασίας φυσικής γλώσσας "'Ελλογον". Μορφολογική Ανάλυση (Ι). Διαφάνειες: Lecture-3-EllogonForLinguists.pdf, Lecture-3.pdf	Παράδοση Άσκησης 1. Συζήτηση Άσκησης 1.
4	20 Μαΐου	Γ. Πετάσης: Μορφολογική Ανάλυση (ΙI). Συντακτική Ανάλυση (I). Διαφάνειες: Lecture-3.pdf, Lecture-4.pdf, Lecture-4-Tcl.pdf, Lecture-4-DevelopingEllogonComponents.pdf	Εκφώνηση Άσκησης 2 (20%). Εργαστήριο Άσκησης 2.
	27 Μαΐου	Δεν θα γίνει διάλεξη λόγω απουσίας διδασκόντων.
5	3 Ιουν.	Γ. Πετάσης: Συντακτική Ανάλυση (II). Διαφάνειες: Lecture-4.pdf	Παράδοση Άσκησης 2. Εκφώνηση Άσκησης 3 (30%).
6	10 Ιουν.	Γ. Πετάσης: Σημασιολογική Ανάλυση. Σημασιολογική Αποσαφήνιση. Διαφάνειες: Lecture-5.pdf, Exercise 3.zip	Εργαστήριο Άσκησης 3.
7	17 Ιουν.	Γ. Πετάσης: Ανάλυση Πραγματείας. Διαφάνειες: Lecture-6.pdf, ReadingPapers.pdf	Παράδοση Άσκησης 3. Εκφώνηση Άσκησης 4 (35%).
8	24 Ιουν.	Γ. Πετάσης: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας (I). Διαφάνειες: Lecture-7.pdf	Συζήτηση Άσκησης 3. Εργαστήριο Άσκησης 4.
9	1 Ιουλ.	Γ. Πετάσης: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας (II). Διαφάνειες: Lecture-8.pdf	Συζήτηση Άσκησης 4.
10	8 Ιουλ.	Γ. Πετάσης, Β. Καρκαλέτσης: Αναγνώριση Ονομάτων Οντοτήτων. Αναγνώριση Περιγραφών, Ρόλων, Αναφορών. Κατασκευή γλωσσικών εργαλείων. Γλωσσική επεξεργασία πολυμεσικών δεδομένων.	Παράδοση Άσκησης 4.

Προφορική εξέταση:

Ο χρόνος προφορικής εξέτασης της κάθε ομάδας είναι 20 λεπτά:

Ώρα	Ομάδα
12:20-12:40	Kορασίδη, Πουλή,Τριανταφύλλου
12:40-13:00	Δεληγιάννης Μιλτιάδης, Μαργαρίτη Ελπινίκη, Φεργάδης Άρης
13:00-13:20	Κεραμιτζή Χαρά, Κωτσακόπουλος Χρήστος, Χατζηκουμή Ειρήνη
13:20-13:40	Κασαπάκη Ευαγγελία, Κούτσικος Λουκάς, Κοσμάς Χριστόφορος, Μπερούκας Λάμπρος
13:40-14:00	Καρβουνιάρη Δ., Κωλέττη Ε., Παπαθανασοπούλου Γ.
14:00-14:20	Κατσαργύρη Βάσια, Φραγκάκης Γιώργος, Ζάκης Γιώργος
14:20-14:40	Στριπέλη Αιμιλία, Χορόζογλου Γεώργιος, Κούκης Νικόλαος
14:40-15:00	Μ.Κ. Μπιτινής, Ι. Γιάχος, Ν. Καψάλης

Η προφορική εξέταση θα γίνει στις 8 Ιουλίου 2014, στην αίθουσα του εργαστηρίου πληροφορικής, στον 8ο όροφο.

Ασκήσεις

Άσκηση 1: Από τις 4 πλατφόρμες που αναφέρθηκαν στην Διάλεξη 1 (GATE, Ellogon, NLTK, UIMA), κάθε ομάδα καλείται να επιλέξει την πλατφόρμα που θα υλοποιήσει τις υπόλοιπες ασκήσεις, με δεδομένο ότι οι επόμενες ασκήσεις θα αφορούν εργασίες εξαγωγής πληροφορίας από κείμενα στην ελληνική γλώσσα. Κάθε ομάδα καλείται να παρουσιάσει τους λόγους που επέλεξε μια πλατφόρμα, σε μια ολιγόλεπτη παρουσίαση (5 λεπτών) την Τρίτη 13/5/2014.

Άσκηση 2: Στην πλατφόρμα (ή πλατφόρμες αν έχουν επιλεγεί περισσότερες από μία) που επιλέχθηκε κατά την άσκηση 1, καλείστε να υλοποιήσετε ένα άρθρωμα επεξεργασίας φυσικής γλώσσας για την εκάστοτε πλατφόρμα, το οποίο να υλοποιεί έναν αναγνωριστή γνωστών ονομάτων οντοτήτων (gazetteer list lookup) βασισμένο σε λίστες/καταλόγους γνωστών ονομάτων (gazetteer lists). Ο αναγνωριστής αυτός θα πρέπει να:

Διαβάζει ένα σύνολο από λίστες, οι οποίες θα βρίσκονται σε όλες σε έναν φάκελο.
Κάθε λίστα θα έχει όνομα της μορφής "<κατηγορία>.txt".
Κάθε λίστα θα περιέχει κείμενο σε UTF-8, με κάθε γραμμή να περιέχει ένα όνομα γνωστής οντότητας.

Παράδειγμα λίστας: Αρχείο "person_first_name.txt"

γιώργος

γεώργιος

γεώργιο

βαγγέλης

βαγγέλη

...

Ο αναγνωριστής θα πρέπει να εντοπίζει κάθε όνομα που βρίσκεται μέσα σε κάθε αρχείο, και να τα χαρακτηρίζει (επισημειώνει) με την κατηγορία, που προκύπτει από το όνομα του αρχείου, χωρίς την κατάληξη ".txt". Ο εντοπισμός πρέπει να γίνεται ανεξάρτητα από το αν το όνομα είναι γραμμένο με κεφαλαίους, ή πεζούς χαρακτήρες.

Για παράδειγμα, το άρθρωμα θα πρέπει να χαρακτηρίζει σαν "person_first_name" όλες τις εμφανίσεις σε κείμενα της 1^ης γραμμής του αρχείου του παραδείγματος "γιώργος", όπως "Γιώργος", "ΓΙΩΡΓΟΣ", ΓιΩρΓοΣ", κ.α.

Το άρθρωμα πρέπει να εντοπίζει όλες τις εμφανίσεις, όλων των γραμμών ενός αρχείου, για όλα τα αρχεία του φακέλου, ενώ θα πρέπει να μπορεί να χειρίζεται κείμενα που περιέχουν περισσότερες από μία γλώσσες (π.χ. ελληνικά και αγγλικά). Το άρθρωμα που θα δημιουργήσετε θα πρέπει να περιέχει εκτενείς λίστες από κατηγορίες χρήσιμες για την αναγνώριση ονομάτων οντοτήτων, όπως ονόματα προσώπων, τοποθεσιών, ημερομηνιών, οργανισμών, εταιριών, αλλά και διάφορων προσδιοριστών (designators).

Άσκηση 3: Στην πλατφόρμα (ή πλατφόρμες αν έχουν επιλεγεί περισσότερες από μία) που επιλέχθηκε κατά την άσκηση 1, καλείστε να υλοποιήσετε ένα άρθρωμα επεξεργασίας φυσικής γλώσσας για την εκάστοτε πλατφόρμα, το οποίο να υλοποιεί έναν αναγνωριστή ονομάτων οντοτήτων (named entity recogniser) βασισμένο σε μηχανική μάθηση. Το άρθρωμα θα πρέπει να κάνει χρήση του αναγνωριστή γνωστών ονομάτων οντοτήτων (gazetteer list lookup) που δημιουργήθηκε στην άσκηση 2.

Παρατήρηση: Αν αποφασίσετε να χρησιμοποιήσετε την πλατφόρμα Ελλογον, παρακαλείστε να χρησιμοποιήσετε την πιο πρόσφατη έκδοση της πλατφόρμας Ελλογον, ακολουθώντας τις οδηγίες εγκατάστασης μέσω subversion: http://www.ellogon.org/index.php/support/installing-ellogon/install-ellogon-from-svn

Άσκηση 4: Στην άσκηση αυτή πρέπει να εκτελεστεί μια βιβλιογραφική έρευνα/επισκόπηση με θέμα την εξαγωγή συσχετίσεων (relation extraction). Κάθε ομάδα καλείται να εντοπίσει έναν αριθμό επιστημονικών εργασιών (όσες και τα μέλη που απαρτίζουν την ομάδα) που έχουν δημοσιευτεί σε διεθνή περιοδική ή διεθνή συνέδρια, την τελευταία 5ετία (2008-2014). Οι εργασίες πρέπει να αφορούν την εργασία της εξαγωγής συσχετίσεων από κείμενα (relation extraction from texts). Κάθε ομάδα πρέπει να παραδώσει μια αναφορά, όπου θα περιγράφονται συνοπτικά οι εργασίες, απαντώντας τις ερωτήσεις που περιγράφηκαν στο εργαστήριο του σεμιναρίου 7. Η εργασία μπορεί να είναι είτε στην Ελληνική, είτε στην Αγγλική γλώσσα.

Ανακοινώσεις

Οι διαλέξεις του μαθήματος γίνονται κάθε Τρίτη, 12:00-15:00. Η πρώτη ώρα (12:00-13:00) αφορά συχνά το εργαστήριο του μαθήματος.

Οι διαλέξεις 2 και 3 θα γίνουν την Τρίτη 13 Μαΐου, 13:00-18:00.

Την Τρίτη 27 Μαΐου δεν θα γίνει διάλεξη.