ენის მონოლინგვური კორპუსის სინტაქსური ანოტაციისათვის
გავეცნოთ Synpathy პროგრამულ პაკეტს, რომელიც
მაქს პლანკის ფსიქოლინგვისტიკის ინსტიტუტშის მიერ იქნა შემუშავებული ჰოლანდიაში. იგი
ეფუძნება TIGER კვლევითი პროექტისათვის შექმნილ SyntaxViewer პროგრამულ პაკეტს. დაწვრილებითი ინფორმაცია აღნიშნული
კომპიუტერული პროდუქტის შესახებ განათავსებულია ვებგვერდზე: http://www.mpi.nl/tools/synpathy.html.
მონოლინგვური ტექსტი Synpathy–ის შესავალზე წარმოდგენილია TIGER-XML-ფორმატში აღწერილი
ფაილების სახით, რომელთა შედგენის პრინციპებს უკვე გავეცანით მე–6 თავის შესწავლისას.
მონოლინგვური ხეების ბანკები,
რომლებიც TIGER-XML ფორმატში არის ხსენებულ ფორმატში კონვერტირებული ხეები წარმოადგენს
მძლავრ, მონაცემთა ბაზაზე ორიენტირებული გრაფის მსგავს სტრუქტურებს. TIGER-XML ხის გრაფში ყოველ „ფოთოლს“ (=ტოკენი) და ყოველ კვანძს
(=ლინგვისტური შემადგენელი) აქვს საკუთარი, ყველასგან განსხვავებული სახელწოდება
(identifier).
კონკრეტული ენობრივად ანოტირებული
წინადადებების ნიმუში, რომელიც მომზადებულია Synphaty პროგრამული პაკეტით TIGER
XML-ფორმატში (.tig გაფართოებით), შეიძლება ჰოლანდიური ენის წინადადების მაგალითზე
ვაჩვენოთ:
სინტაქსური ანოტაციის გამოსავალი შედეგი TIGER XML- ფორმატში გვეძლევა. TIGER XML- ფორმატზე
დაყრდნობით სინტაქსური ანოტაციის გრაფიკულად გამოსახვა შეიძლება TIGERSearch პროგრამის მეშვეობით,
რომელიც წარმოგვიდგენს ორიენტირებულ აციკლური ტიპის გრაფს:
1) ყოველ სიტყვას მიესადაგება გრამატიკული ინფორმაცია,
რომელიც შეიცავს მისი შესატყვისი მეტყველების ნაწილის აღმნიშვნელ თეგს შესაბამის თეგსიაში (Tagset):
2) სინტაქსური სტრუქტურა კოდირებულია ხის მსგავსი გრაფის ფორმით კვანძებითა და წიბოების (edge) ხაზებით.
როგორც სურათიდან ნათლად ჩანს, სიტყვები წინადადებაში მორფოლოგიურად ანოტირებულია
მეტყველების ნაწილების თეგების (POS)-ის საშუალებით. ხის კვანძები მონიშნულია შემადგენლების სინტაქსური კატეგორიების საფუძველზე. კვანძების
ერთმანეთთან მაკავშირებელი ხაზების მონიშვნა
ხორციელდება მათზე სინტაქსური შვილობილი ფუნქციების შესაბამის მშობელ-კვანძებზე ჭდეების დატანით.
© სტატია ამოღებულია ო. კაპანაძის სალექციო კურსიდან.
No comments:
Post a Comment