ΣΧΗΜΑΤΟΠΟΙΗΣΗ

 
Περιγραφή
Δραστηριότητες
Επικοινωνία
Επίδειξη

Ολοκληρωμένο περιβάλλον ανάπτυξης και αξιοποίησης των ελεγχομένων υπογλωσσών της ελληνικής

Πρόγραμμα ΕΠΕΤ-ΙΙ, Μέτρο 2.3, Δράση Γλωσσική τεχνολογία, Γενική Γραμματεία Έρευνας και Τεχνολογίας (ΓΓΕΤ)
Ανάδοχος Φορέας Ινστιτούτο Επεξεργασία του Λόγου (ΙΕΛ)
Συνεργαζόμενοι Φορείς Εθνικό Μετσόβειο Πολυτεχνείο
Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών, ΕΚΕΦΕ "Δημόκριτος"
UNISOFT A.E.
ALTEC
Επιστημονικός Υπεύθυνος ΕΚΕΦΕ "Δ" Κωνσταντίνος Δ. Σπυρόπουλος

Aντικείμενο του έργου

Στόχος του έργου ΣΧΗΜΑΤΟΠΟΙΗΣΗ ήταν η κατασκευή ενός πιλοτικού ελεγκτή ύφους της Ελληνικής κατάλληλου για την συγγραφή πρωτογενών Ελληνικών τεχνικών κειμένων αλλά  και για την μετάφραση τεχνικών κειμένων από την (ελεγχόμενη) Αγγλική καθώς επίσης και η ολοκλήρωση του ελεγκτή μέσα σε έναν εμπορικό επεξεργαστή κειμένου.

Το Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού του ΕΚΕΦΕ "Δ" ανέπτυξε έναν τέτοιο ελεγκτή τον οποίο και ενσωμάτωσε σε συνεργασία με τους εταίρους UNISOFT και ΙΕΛ στον επεξεργαστή κειμένου MS-Word 2000.

Στο σχήμα απεικονίζονται τα στάδια επεξεργασία του ελεγκτή ο οποίος συνεργάζεται με τον επεξεργαστή κειμένου MS Word. Συγκεκριμένα:

  • Το κείμενο μετατρέπεται σε μία αναπαράσταση XML στην οποία αποθηκεύεται η πληροφορία σχετικά με τη μορφή του κειμένου (στυλ, γραμματοσειρές, μεγέθη, διαστήματα, κλπ.). Αποθηκεύεται μόνο εκείνη η πληροφορία που είναι απαραίτητη για τον έλεγχο μορφής όπως προδιαγράφεται σε ένα DTD (Document Type Definition) το οποίο αποτελεί τμήμα της ελεγχόμενης γλώσσας.
  • Η XML αναπαράσταση «διαβάζεται» από την πλατφόρμα γλωσσικής τεχνολογίας που χρησιμοποιήθηκε για την ανάπτυξη του ελεγκτή. Η «ανάγνωση» αυτή είναι απαραίτητα για την εφαρμογή των διαφόρων γλωσσικών εργαλείων, τόσο για τη γλωσσική επεξεργασία όσο και για το γλωσσικό έλεγχο.
  • Το κείμενο υφίσταται γλωσσική επεξεργασία (ΓΕΚ) κατά την οποία προστίθενται γλωσσικές επισημειώσεις που αφορούν τις λεκτικές μονάδες (tokens), τις προτάσεις, τα γραμματικά χαρακτηριστικά των λεκτικών μονάδων.
  • Χρησιμοποιώντας τις γλωσσικές επισημειώσεις της ΓΕΚ, ο ελεγκτής εφαρμόζει τους διάφορους γλωσσικούς ελέγχους τα αποτελέσματα των οποίων καταγράφονται σε ένα αρχείο λαθών.
  • Ο ελεγκτής «διαβάζει» τα γλωσσικά λάθη από το αρχείο λαθών και στη συνέχεια πραγματοποιεί τον έλεγχο μορφής σύμφωνα με το DTD.
  • Ο ελεγκτής απεικονίζει τα λάθη (γλωσσικά και μορφής) χρησιμοποιώντας τις δυνατότητες που παρέχει για τον σκοπό αυτό ο επεξεργαστής κειμένου MS Word.