Lista dziecięcych korpusów mowy - List of children's speech corpora
Corpus mowy dziecka jest mowa corpus pierwszy język dokumentowania nabycia język . Takie bazy danych są wykorzystywane do opracowywania wspomaganych komputerowo systemów uczenia się języków oraz do charakteryzowania mowy dzieci w różnym wieku . Mowa dzieci różni się nie tylko w zależności od języka, ale także regionu w danym języku. Może być również inny dla określonych grup, takich jak dzieci autystyczne, zwłaszcza gdy bierze się pod uwagę emocje. Dlatego dla różnych populacji potrzebne są różne bazy danych. Corpora jest dostępna dla amerykańskiego i brytyjskiego angielskiego, a także dla wielu innych języków europejskich.
Przegląd mowy dziecięcej Corpora
W poniższej tabeli przedział wiekowy można opisać w kategoriach ocen szkolnych. „K” oznacza „przedszkole”, a „G” oznacza „klasę”. Na przykład przedział wiekowy „K – G10” odnosi się do mówców w wieku od przedszkola do klasy 10.
Ta tabela jest oparta na artykule z konferencji Interspeech, 2016. Ten artykuł online ma na celu dostarczenie interaktywnej tabeli dla czytelników oraz miejsca, w którym informacje o korpusach mowy dzieci mogą być stale aktualizowane przez społeczność zajmującą się badaniem mowy.
Ciało | Autor | Języki | # Głośniki | # Utt. | Trwanie | Zakres wieku | Data | Uwagi |
---|---|---|---|---|---|---|---|---|
Boulder Learning — MyST Corpus (v0.4.0) | Cole i in. | język angielski | 1371 | 228 874 | ~393h | G3 - G5 | 2019 | dialogowa interakcja między uczniem a wirtualnym korepetytorem na tematy naukowe; zazwyczaj 20-40 minut (zegar ścienny) czas trwania sesji; około 49% wypowiedzi zostało transkrybowanych, a więcej jest w trakcie transkrypcji. zachęcani wolontariusze. dostępne bezpłatnie do badań; mieszkanie 10 000 USD do użytku komercyjnego. |
CMU Kids Corpus | Eskenazy | język angielski | 24M, 52F | 5180 | 6 - 11 | 1997 | ||
CSLU Korpus mowy dla dzieci | Shobaki | język angielski | 1100 | 1017 | K - G10 | 2007 | ||
PF-STAR Dziecięcy Korpus Przemówień | Russell | Język angielski, | 158 | ~14,5h | 4 - 14 | 2006 | transkrypcje na poziomie słów | |
CALL-SLT | Rayner | Niemiecki | 5000 | 2014 | ||||
PIŁKA | Kazemgadeh | język angielski | 256 | 5000 | 40h | K - G4 | 2005 | częściowo nienatywna mowa |
CASS_CHILD | Gao | Mandarynka | 23 | 1 - 4 | 2012 | transkrypcje fonetyczne | ||
Korpus mowy dla dzieci CU do czytania i monitowania | Hagen | język angielski | 663 | ~100 | K - G5 | 2001 | składa się z pojedynczych słów, zdań i krótkiej spontanicznej opowieści; transkrypcje na poziomie słów | |
Korpus fabularny CU | Hagen | język angielski | 106 | 5000 | 40h | G3 - G5 | 2003 | składa się z podpowiedzi do opowiadania i spontanicznego, wypowiedzianego streszczenia materiału; transkrypcje na poziomie słów |
Corpus Opatrzności | Demuth | język angielski | 6 | 363 godz | 1 - 3 | 2006 | spontaniczne interakcje mowy matka-dziecko; szeroka transkrypcja fonetyczna | |
Lyon Corpus | Demuth | Francuski | 4 | 185h | 1 - 3 | 2007 | spontaniczne interakcje mowy matka-dziecko; szeroka transkrypcja fonetyczna | |
Korpus Demutha Sesotho | Demuth | Sesoto | 4 | ~13250 | 98h | 2 - 4 | 1992 | spontaniczne interakcje mowy rodziny/rówieśników; oznakowane morfologicznie |
CHIEDE | Garrote | hiszpański | 59 | 15444 | ~8h | 2008 | spontaniczna rozmowa, wywiady osobiste, interakcja dorosły – dziecko; transkrypcje ortogonalne; automatyczna transkrypcja fonologiczna | |
TIDIGITS | Leonarda | język angielski | 326 (101 dzieci) | 6 - 15 | 1993 | mieszanka głośników dla dorosłych i dzieci | ||
Korpus emocji FAU Aibo | Steidl | Niemiecki | 51 | 9h | 10 - 13 | z adnotacjami ludzkimi z 11 kategoriami emocji | ||
Szwedzki korpus NICE | dzwon | 5580 | 8 - 15 | 2005 | składa się z interakcji dziecko-maszyna i dorosły-dziecko; transkrypcje ortograficzne | |||
SingaKids-mandaryński | Chen | Mandarynka | 255 | 79 843 | 125h | 7 - 12 | 2016 | transkrypcje słowne i telefoniczne; oceny biegłości z adnotacjami ludzkimi |
CFSC | Pascual | Filipiński | 57 | ~8h | 6-11 | 2012 | składa się z mowy czytanej przez dzieci; zawiera zarówno dobrą wymowę, jak i błędy w czytaniu; częściowo transkrybowany na poziomy słów i fonemów |