<>TIGER-XML კორპუსი

ლინგვისტური კორპუსის წარმოსადგენად სხვადსხვა ფორმატი არსებობს. ასევე არის რამდენიმე ფორმატი სინაქსურად ანოტირებული კონკრეტული Penn Treebank, Susanne, Negra კორპუსებისათვის, რომელთაც ემატებათ სხვადასხვა სინტაქსური პარსერის გამოსავალისათვის შემუშავებული ფორმატები.
TIGER-XML ფორმატი შეიქმნა როგორც უალედური ფორმატი, ანუ „ინტერფეისი“. იგი TIGER–ის კორპუსის აღსაწერი ფორმალური ენის XML–ზე დაფუძნებული ქვეენის ევივალენტია.  კორპუსის აღწერასთან ერთად, TIGER-XML ფორმატს შეუძლია წარმოადგინოს კორპუსში ძიების შედეგად მიღებული შედეგები.
იმისათვის, რომ TIGER-ის ძიების მოდულმა იმუშაოს კორპუსის მიმართ, იგი წინასწარ TIGER-XML ფორმატში უნდა იყოს კოდირებული. მეტი მოხერხებულობისათვის მისმა შემქმნელებმა შეიმუშავეს კორპუსის ფილტრები (ანუ TIGER-XML–ში გადასაყვანი კონვერტორები) ბევრი გავრცელებული ხეთა ბანკისა და პარსერის სისტემის გამოსავალი ფორმატისათვის, როგორიც არის ფრჩხილების საშუალებით წარმოდგენის PennTreebank, NeGra ფორმატი და ა.შ. ამდენად, TIGER-XML–ის შესახებ  დაწვრილებით ცოდნა აუცილებელია მისი კონვერტირების პროცედურებისათვის.
მახასიათებელთა მნიშვნელობები, რომლებიც ატრიბუტი–მნიშვნელობა წყვილით არის წარმოდგენილი, არ შეიძლება იქნეს გამოტოვებული. თუ რაიმე მახასიათებლის მნიშვნელობას, ან წიბოს ჭდეს, არ აქვს აზრი რაიმე ტოკენის ან შიდა კვანძისათვის (მაგ., წამოდგენილი წინადადებისათვის morph მახასიათებელი ზოგჯერ არ არის აღწერილი), მის ნაცვლად რაიმე შინაარსის მატარებლი სიმბოლო უნდა იქნეს გამოყენებული. ასევე რეკომენებულია, გამოვიყენოთ სიმბოლო, რომელიც გვხვდება  ერთი ფორმატიდან მეორეში გადამყვან ფილტრებში. ასეთი მახასიათებლის მნიშვნელობა ან წიბოს ჭდე შეიძლება შეიკვეცოს, როდესაც   TIGERGraphViewer–ის საშუალებით ძიების შედეგად კორპუსის რაიმე  გრაფის დათვალიერებას ვახდენთ.

პირველ სქემაში ნაჩვენები პროგრამული კოდი TIGER XML- ფორმატში Synphaty–ის გრაფიკული ინტერფეისის საშუალებით მოგვცემს შემდეგ ხის სტრუქტურას:
 TIGER  XML -ფორმატში კოდირებული გერმანული წინადადების გრაფიკული სახე ეკრანზე

© სტატია ამოღებულია ო. კაპანაძის სალექციო კურსიდან. 

No comments:

Post a Comment