<>კორპუსის ანოტირება TIGER XML ფორმატით

ერთ–ერთ ფართოდ გამოყენებულ ფორმატს კორპუსის ანოტაციისათვის წარმოადგენს TIGER-XML ფორმატი., რომელიც  შეიქმნა როგორც ინტერფეისი ანუ შუალედური ფორმატი. იგი TIGER–ის კორპუსის აღსაწერი ფორმალური ენის XML–ზე დაფუძნებული ქვეენის ექვივალენტია.  კორპუსის აღწერასთან ერთად TIGER-XML ფორმატს შეუძლია წარმოადგინოს კორპუსში ძიების შედეგად მიღებული შედეგები.
 TIGER-XML–ის დოკუმენტი პროგრამული ფაილის სახით, რომელიც აღწერს წინადადების სინტაქსურ ანოტაციას,  ორი ნაწილისაგან შედგება. სათაურის ნაწილში (header) წარმოდგენილია კორპუსის აღწერა და ზოგიერთი მეტა-ინფორმაცია. დოკუმენტის ძირითად ნაწილში მოცემულია კორპუსის გრაფების განმარტება და მათი ანოტაცია. კორპუსში ძიების შედეგების წარმოდგენა ასევე შეიძლება იქნეს მოცემული TIGER-XML ფორმატში.
 თითოეული წინადადებისათვის TIGER-XML ფორმატის შესატყვისი „სათაურისა“ და „სხეულისაგან“ შედგება. “სათაური“ მოიცავს მეტაინფორმაციას, როგორიც არის, მაგ.: კორპუსის სახელწოდება, თარიღი, ავტორი, ასევე  ახსნა-განმარტებები გამოყენებული თეგებისათვის და ა.შ. „სხეულის" ნაწილი მოიცავს:  (1)ტერმინალურ ერთეულებს (ხის „ფოთლებს“), რომლებიც წარმოდგენილია ცალკეული სიტყვებით, მეტყველების ნაწილების თეგებით და სათანადო მახასიათებლებით ატრიბუტების სახით; (2)არატერმინალურ ერთეულებს, რომლებიც  შესაბამის კვანძებს და წიბოებს შორის დამაკავშირებელ ხაზებს  აღწერენ.

კორპუსის სათაური

კორპუსის სათაური ორი ნაწილისაგან შედგება. კორპუსის შესახებ ზოგადი მეტა ინფორმაცია კოდირებულია სათაურის პირველ ნაწილში: კორპუსის სახელწოდება, ავტორი, თარიღი, მოკლე აღწერა, ფორმატი და ისტორია. კორპუსის შესახებ მეტა ინფორმაციის გამოტანა მომხმარებლისათვის ხორციელდება TIGERSearch (ძიების) ხელსაწყოს მიერ, როდესაც მისთვის ხელმისაწვდომი კორპუსის წარდგენა ხდება. კორპუსის ID (სადენტიფიაციო მაჩვენებელი), რომელიც შეიძლება იხილოთ (<corpus id="TESTCORPUS>) ქვემოთ, უნდა იყოს ერთადერთი მთელი ინდექსირებული კორპუსის მიმართ, ანუ იგი არ უნდა მეორდებოდეს.

<corpus id="TESTCORPUS">
<head>
  <meta>
    <name>Test corpus</name>
    <author>Wolfgang Lezius</author>
    <date>April 2003</date>
    <description>illustrates the TIGER-XML format</description>
    <format>NeGra format, version 3</format>
    <history>first version</history>
  </meta>
  ...
</head>
...
</corpus>

კორპუსის სათაურის მეორე ნაწილი იძლევა ინფორმაციას კორპუსში გამოყენებული მახასიათებლების შესახებ. მახასიათებლების აღწერა სავალდებულოა კორპუსის ინდექსირებისათვის, რასაც TIGERRegistry–ის ხელსაწყო ახდენს. მახასიათებელთა მნიშვნელობები და თეგების მოკლე ახსნა შეიძლება აქვე იქნეს ჩამოთვლილი. მსგავსი მეტა ინფორმაცია,  როგორც კორპუსის დოკუმენტაცია შეიძლება გამოიყენოს TIGERSearch–ის გამომყენებლის გრაფიკულმა ინტერფეისმა. თუ ჩათვლით, რომ არ არის აუცილებელი კორპუსის ყველა მახასიათებლის მნიშვნელობების სიის წარმოდგენა, შეგვიძლია საერთოდ გამოვტოვოთ შესაბამისი მახასიათებლის მნიშვნელობა.

მომდევნო მაგალითში მახასიათებელი word  ტერმინალური კვანძის (T), ხოლო ატრიბუტი cat, როგორც არატერმინალური კვანძის (NT) მახასიათებელი. თუ მახასიათებელი გამოყენებულია ორივე შემთხვევაში - როგორც ტერმინალურ, ისე არატერმინალურ კვანძში (მაგალითად, case), მაშინ მისი განსაზღვრის არეს FREC ეწოდება (შდრ., საძიებო ენის აღწერა ქვემო ნაწილში). მახასიათებლის მნიშვნელობის აღწერის ელემენტის ინტერპრეტაცია გულისხმობს, რომ იგი მახასიათებლის მნიშვნელობას გადმოგვცემს. შესაძლო წიბოთა ჭდეების აღწერა ხდება <edgelabel>, ხოლო მეორადი წიბოების<secedgelabel> ელემენტით.
<head>
 ...
  <annotation>
    <feature name="word" domain="T"/>
    <feature name="pos" domain="T">
      <value name="ART">determiner</value>
      <value name="ADV">adverb</value>
      <value name="KOKOM">conjunction</value>
      <value name="NN">noun</value>
      <value name="PIAT">indefinite attributive pronoun</value>
      <value name="VVFIN">finite verb</value>
    </feature>

    <feature name="morph" domain="T">
      <value name="Def.Fem.Nom.Sg"/>
      <value name="Fem.Nom.Sg.*"/>
      <value name="Masc.Akk.Pl.*"/>
      <value name="3.Sg.Pres.Ind"/>
      <value name="--">not bound</value>
    </feature>

    <feature name="cat" domain="NT">
      <value name="AP">adjektive phrase</value>
      <value name="AVP">adverbial phrase</value>
      <value name="NP">noun phrase</value>
      <value name="S">sentence</value>
    </feature>

    <edgelabel>
      <value name="CC">comparative complement</value>
      <value name="CM">comparative concjunction</value>
      <value name="HD">head</value>
      <value name="MO">modifier</value>
      <value name="NK">noun kernel modifier</value>
      <value name="OA">accusative object</value>
      <value name="SB">subject</value>
    </edgelabel>

  </annotation>

</head>

კორპუსის ძირითადი ნაწილი

მონაცემთა მოცემული მოდელი ეფუძნება ე.წ. სინტაქსურ გრაფებს, ანუ ორიენტირებულ აციკლურ გრაფებს ერთი ძირეული კვანძით. შესაბამისად, კორპუსის გრაფები არ შეიძლება იქნეს კოდირებული ერთმანეთში მოთავსებული XML–ის ელემენტებით. ამ შეზღუდვიდან გამოსავალია ყველა ტერმინალური და არატერმინალური კვანძის  სიის აღწერა და წიბოების ექსპლიციტურად - ელემენტების სახით კოდირება. მომდევნო ნიმუში გვიჩვენებს კორპუსისათვის გრაფის კოდირებას.
მაგალითისათვის ვიღებთ გერმანულ წინადადებას:
Die Tagug hat mehr Teilnehmer als ja zufor
(lit. “კრებას ესწრებოდა უფრო მეტი მონაწილე, ვიდრე ოდესმე”)
და  წარმოვადგენთ მისი ანოტაციის ვარიანტს:

<body>

<s id="s5">
  <graph root="s5_504">
    <terminals>
      <t id="s5_1" word="Die" pos="ART" morph="Def.Fem.Nom.Sg"/>
      <t id="s5_2" word="Tagung" pos="NN" morph="Fem.Nom.Sg.*"/>
      <t id="s5_3" word="hat" pos="VVFIN" morph="3.Sg.Pres.Ind"/>
      <t id="s5_4" word="mehr" pos="PIAT" morph="--"/>
      <t id="s5_5" word="Teilnehmer" pos="NN" morph="Masc.Akk.Pl.*"/>
      <t id="s5_6" word="als" pos="KOKOM" morph="--"/>
      <t id="s5_7" word="je" pos="ADV" morph="--"/>
      <t id="s5_8" word="zuvor" pos="ADV" morph="--"/>
    </terminals>
    <nonterminals>
      <nt id="s5_500" cat="NP">
        <edge label="NK" idref="s5_1"/>
        <edge label="NK" idref="s5_2"/>
      </nt>
      <nt id="s5_501" cat="AVP">
        <edge label="CM" idref="s5_6"/>
        <edge label="MO" idref="s5_7"/>
        <edge label="HD" idref="s5_8"/>
      </nt>
      <nt id="s5_502" cat="AP">
        <edge label="HD" idref="s5_4"/>
        <edge label="CC" idref="s5_501"/>
      </nt>
      <nt id="s5_503" cat="NP">
        <edge label="NK" idref="s5_502"/>
        <edge label="NK" idref="s5_5"/>
      </nt>
      <nt id="s5_504" cat="S">
        <edge label="SB" idref="s5_500"/>
        <edge label="HD" idref="s5_3"/>
        <edge label="OA" idref="s5_503"/>
      </nt>
    </nonterminals>
  </graph>
</s>

</body>
სქემა 1:  TIGER  XML -ფორმატში კოდირებული  წინადადება

© სტატია ამოღებულია ო. კაპანაძის სალექციო კურსიდან. 

No comments:

Post a Comment