Wymowa Leksykon Specyfikacja - Pronunciation Lexicon Specification

Wymowy Leksykon Specyfikacja (PLS) jest W3C Zalecenie, który został zaprojektowany w celu umożliwienia interoperacyjnych specyfikację informacji wymowa zarówno dla rozpoznawania mowy i syntezy mowy silników w obrębie aplikacji przeglądania głos. Język ma być łatwy w użyciu przez programistów przy jednoczesnym wspieraniu dokładną specyfikację informacji wymowa do użytku międzynarodowego.

Język pozwala jeden lub więcej Wymowy dla słowa lub frazy, które zostaną określone przy użyciu standardowej wymowa alfabetu lub w razie potrzeby stosując specyficzne alfabetów sprzedawca. Wymowy są zgrupowane w dokumencie PLS, które mogą odwoływać się od innych języków znaczników, takich jak Rozpoznawanie mowy gramatyki Specyfikacja SRGS i Speech Synthesis Markup Language SSML .

Stosowanie

Oto przykład dokument PLS:

 <?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
     xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
       http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
     alphabet="ipa" xml:lang="en-US">
   <lexeme>
     <grapheme>judgment</grapheme>
     <grapheme>judgement</grapheme>
     <phoneme>ˈdʒʌdʒ.mənt</phoneme>
     <!-- IPA string is:
       "&#x02C8;d&#x0292;&#x028C;d&#x0292;&#x002E;m&#x0259;nt" --> 
   </lexeme>
   <lexeme>
     <grapheme>fiancé</grapheme>
     <grapheme>fiance</grapheme>
     <phoneme>fiˈɒns.eɪ</phoneme>
     <!-- IPA string is:
       "fi&#x02C8;&#x0252;ns&#x002E;e&#x026A;" --> 
     <phoneme>ˌfiː.ɑːnˈseɪ</phoneme>
     <!-- IPA string is:
       "&#x02CC;fi&#x02D0;&#x002E;&#x0251;&#x02D0;n&#x02C8;se&#x026A;" --> 
   </lexeme>
 </lexicon>

które mogłyby być wykorzystane do poprawy TTS , jak pokazano w poniższym SSML 1.0 dokumentu:

 <?xml version="1.0" encoding="UTF-8"?>
 <speak version="1.0" 
     xmlns="http://www.w3.org/2001/10/synthesis" 
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
     xsi:schemaLocation="http://www.w3.org/2001/10/synthesis
       http://www.w3.org/TR/speech-synthesis/synthesis.xsd"
     xml:lang="en-US">
   <lexicon uri="http://www.example.org/lexicon_defined_above.xml"/>
   <p> In the judgement of my fiancé, Las Vegas is the best place for a honeymoon.
       I replied that I preferred Venice and didn't think the Venetian casino was an
       acceptable compromise.</p>
 </speak>

ale również w celu poprawy ASR w następujących SRGS 1,0 gramatycznych:

 <?xml version="1.0" encoding="UTF-8"?>
 <grammar version="1.0"
     xmlns="http://www.w3.org/2001/06/grammar"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.w3.org/2001/06/grammar 
       http://www.w3.org/TR/speech-grammar/grammar.xsd"
     xml:lang="en-US" root="movies" mode="voice">
   <lexicon uri="http://www.example.org/lexicon_defined_above.xml"/>
   <rule id="movies" scope="public">
     <one-of>
             <item>Terminator 2: Judgment Day</item> 
             <item>My Big Fat Obnoxious Fiance</item> 
             <item>Pluto's Judgement Day</item>
     </one-of> 
   </rule>
 </grammar>

Typowe przykłady użycia

Wiele Wymowy dla tego samego ortografii

Dla ASR systemów powszechne jest polegać na wielu wymowę tego samego słowa lub frazy, aby poradzić sobie z odmian wymowy obrębie języka. W języku Lexicon wymowy, wymowy wielokrotne są reprezentowane przez więcej niż jedną <fon> (lub <ps>) elementu w tym samym <leksem> elementu.

W poniższym przykładzie słowo „Newton” ma dwa możliwe wymowy.

 <?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
      xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
      xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
        http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
      alphabet="ipa" xml:lang="en-GB">
   <lexeme>
     <grapheme>Newton</grapheme>
     <phoneme>ˈnjuːtən</phoneme>
     <!-- IPA string is: "&#x02C8;nju&#x02D0;t&#x0259;n" -->
     <phoneme>ˈnuːtən</phoneme>
     <!-- IPA string is: "&#x02C8;nu&#x02D0;t&#x0259;n" -->
   </lexeme>
 </lexicon>

wiele orthographies

W niektórych sytuacjach istnieją alternatywne reprezentacje tekstowe dla tego samego słowa lub frazy. Może to wynikać z kilku przyczyn. Patrz punkt 4.5 PLS o szczegóły. Ponieważ te przedstawiają, że mają takie same znaczenia (w przeciwieństwie do homofony), zaleca się, aby być reprezentowane przy użyciu pojedynczego <leksem> element, który zawiera wiele grafemy.

Oto dwa proste przykłady wielu orthographies: Alternatywna pisownia w angielskim słowie i wielu pismach japońskiego słowa.

 <?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
      xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
      xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
        http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
      alphabet="ipa" xml:lang="en-US">
   <!-- English entry showing how alternative spellings are handled -->
   <lexeme>
     <grapheme>colour</grapheme>
     <grapheme>color</grapheme>
     <phoneme>ˈkʌlər</phoneme>
     <!-- IPA string is: "&#x2c8;k&#x28c;l&#x259;r" -->
   </lexeme>
 </lexicon>

 <?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
      xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
      xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
        http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
      alphabet="ipa" xml:lang="jp">
   <!-- Japanese entry showing how multiple writing systems are handled
          romaji, kanji and hiragana orthographies -->
   <lexeme>
     <grapheme>nihongo</grapheme>
     <grapheme>日本語</grapheme>
     <grapheme>にほんご</grapheme>
     <phoneme>ɲihoŋɡo</phoneme>
     <!-- IPA string is: "&#x272;iho&#x14b;&#x261;o" -->
   </lexeme>
 </lexicon>

Homofony

Większość języków mają homofony , słowa o tej samej wymowie, lecz różnych znaczeniach (i ewentualnie różnych pisowni), na przykład „ziarno” i „CEDE”. Zaleca się, aby te być reprezentowane różnych leksemów.

 <?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
      xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
      xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
        http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
      alphabet="ipa" xml:lang="en-US">
   <lexeme>
     <grapheme>cede</grapheme>
     <phoneme>siːd</phoneme>
     <!-- IPA string is: "si&#x02D0;d" -->
   </lexeme>
   <lexeme>
     <grapheme>seed</grapheme>
     <phoneme>siːd</phoneme>
     <!-- IPA string is: "si&#x02D0;d" -->
   </lexeme>
 </lexicon>

homografia

Większość języków mają rozmowę z różnych znaczeń, ale w tym samym pisowni (i czasami różne wymowy), zwany homografia . Na przykład w języku angielskim słowo bas (ryba) i bas słowo (w muzyce) mają identyczną pisownię ale różne znaczenia i wymowy. Mimo to zaleca się, że te słowa są reprezentowane za pomocą oddzielnych <leksem> elementy, które wyróżniają się różnymi wartościami atrybutu roli (patrz punkt 4.4 z PLS 1.0), jeśli autor wymowa leksykon nie chce odróżnić tych dwóch słów mogli być po prostu przedstawiona jako alternatywne wymowy w tym samym <leksem> elementu. W tym ostatnim przypadku TTS procesor nie jest w stanie odróżnić, kiedy stosuje się pierwszy lub drugi transkrypcji.

W tym przykładzie wymowy w homograph „bass” są widoczne.

 <?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
      xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
      xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
        http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
      alphabet="ipa" xml:lang="en-US">
   <lexeme>
     <grapheme>bass</grapheme>
     <phoneme>bæs</phoneme>
     <!-- IPA string is: b&#x00E6;s -->
     <phoneme>beɪs</phoneme>
     <!-- IPA string is: be&#x026A;s -->
   </lexeme>
 </lexicon>

Zauważ, że angielski zawiera liczne przykłady par rzeczownik-czasownik, które mogą być traktowane albo jako homografia lub jako alternatywne wymowę, w zależności od preferencji autora. Dwa przykłady są rzeczownik / czasownik „śmieci” i / „adres” rzeczownik czasownik.

 <?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
      xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
      xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
        http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
      xmlns:mypos="http://www.example.org/my_pos_namespace"
      alphabet="ipa" xml:lang="en-US">
   <lexeme role="mypos:verb">
     <grapheme>refuse</grapheme>
     <phoneme>rɪˈfjuːz</phoneme>
     <!-- IPA string is: "r&#x026A;&#x02C8;fju&#x02D0;z" -->
   </lexeme>
   <lexeme role="mypos:noun">
     <grapheme>refuse</grapheme>
     <phoneme>ˈrɛfjuːs</phoneme>
     <!-- IPA string is: "&#x02C8;r&#x25B;fju&#x02D0;s" -->
   </lexeme>
 </lexicon>

Wymowa przez ortografii

Dla pewnego słowa i wyrażenia, wymowa może być szybko i łatwo wyrażona jako sekwencję innych orthographies . Programista nie musi posiadać wiedzę językową, lecz korzysta z wymowy , które są już wstępnie dostępny. Do wyrażania wymowy pomocą innych orthographies przycisk <ps> elementu może być zastosowany.

Funkcja ta może być bardzo przydatna do czynienia z ekspansją akronim.

 <?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
      xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
      xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
        http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
      alphabet="ipa" xml:lang="en-US">
   <!-- 
     Acronym expansion
   -->
   <lexeme>
     <grapheme>W3C</grapheme>
     <alias>World Wide Web Consortium</alias>
   </lexeme>
   <!-- 
     number representation
   -->
   <lexeme>
     <grapheme>101</grapheme>
     <alias>one hundred and one</alias>
   </lexeme>
   <!-- 
     crude pronunciation mechanism
   -->
   <lexeme>
     <grapheme>Thailand</grapheme>
     <alias>tie land</alias>
   </lexeme>
   <!-- 
     crude pronunciation mechanism and acronym expansion
   -->
   <lexeme>
     <grapheme>BBC 1</grapheme>
     <alias>be be sea one</alias>
   </lexeme>
 </lexicon>

Stan i przyszłość

  • PLS 1,0 osiągnął status rekomendacji W3C na 14 października 2008 r.

Zobacz też

Referencje

Linki zewnętrzne