Lista dziecięcych korpusów mowy - List of children's speech corpora

Corpus mowy dziecka jest mowa corpus pierwszy język dokumentowania nabycia język . Takie bazy danych są wykorzystywane do opracowywania wspomaganych komputerowo systemów uczenia się języków oraz do charakteryzowania mowy dzieci w różnym wieku . Mowa dzieci różni się nie tylko w zależności od języka, ale także regionu w danym języku. Może być również inny dla określonych grup, takich jak dzieci autystyczne, zwłaszcza gdy bierze się pod uwagę emocje. Dlatego dla różnych populacji potrzebne są różne bazy danych. Corpora jest dostępna dla amerykańskiego i brytyjskiego angielskiego, a także dla wielu innych języków europejskich.

Przegląd mowy dziecięcej Corpora

W poniższej tabeli przedział wiekowy można opisać w kategoriach ocen szkolnych. „K” oznacza „przedszkole”, a „G” oznacza „klasę”. Na przykład przedział wiekowy „K – G10” odnosi się do mówców w wieku od przedszkola do klasy 10.

Ta tabela jest oparta na artykule z konferencji Interspeech, 2016. Ten artykuł online ma na celu dostarczenie interaktywnej tabeli dla czytelników oraz miejsca, w którym informacje o korpusach mowy dzieci mogą być stale aktualizowane przez społeczność zajmującą się badaniem mowy.

Ciało Autor Języki # Głośniki # Utt. Trwanie Zakres wieku Data Uwagi
Boulder Learning — MyST Corpus (v0.4.0) Cole i in. język angielski 1371 228 874 ~393h G3 - G5 2019 dialogowa interakcja między uczniem a wirtualnym korepetytorem na tematy naukowe; zazwyczaj 20-40 minut (zegar ścienny) czas trwania sesji; około 49% wypowiedzi zostało transkrybowanych, a więcej jest w trakcie transkrypcji. zachęcani wolontariusze. dostępne bezpłatnie do badań; mieszkanie 10 000 USD do użytku komercyjnego.
CMU Kids Corpus Eskenazy język angielski 24M, 52F 5180 6 - 11 1997
CSLU Korpus mowy dla dzieci Shobaki język angielski 1100 1017 K - G10 2007
PF-STAR Dziecięcy Korpus Przemówień Russell Język angielski, 158 ~14,5h 4 - 14 2006 transkrypcje na poziomie słów
CALL-SLT Rayner Niemiecki 5000 2014
PIŁKA Kazemgadeh język angielski 256 5000 40h K - G4 2005 częściowo nienatywna mowa
CASS_CHILD Gao Mandarynka 23 1 - 4 2012 transkrypcje fonetyczne
Korpus mowy dla dzieci CU do czytania i monitowania Hagen język angielski 663 ~100 K - G5 2001 składa się z pojedynczych słów, zdań i krótkiej spontanicznej opowieści; transkrypcje na poziomie słów
Korpus fabularny CU Hagen język angielski 106 5000 40h G3 - G5 2003 składa się z podpowiedzi do opowiadania i spontanicznego, wypowiedzianego streszczenia materiału; transkrypcje na poziomie słów
Corpus Opatrzności Demuth język angielski 6 363 godz 1 - 3 2006 spontaniczne interakcje mowy matka-dziecko; szeroka transkrypcja fonetyczna
Lyon Corpus Demuth Francuski 4 185h 1 - 3 2007 spontaniczne interakcje mowy matka-dziecko; szeroka transkrypcja fonetyczna
Korpus Demutha Sesotho Demuth Sesoto 4 ~13250 98h 2 - 4 1992 spontaniczne interakcje mowy rodziny/rówieśników; oznakowane morfologicznie
CHIEDE Garrote hiszpański 59 15444 ~8h 2008 spontaniczna rozmowa, wywiady osobiste, interakcja dorosły – dziecko; transkrypcje ortogonalne; automatyczna transkrypcja fonologiczna
TIDIGITS Leonarda język angielski 326 (101 dzieci) 6 - 15 1993 mieszanka głośników dla dorosłych i dzieci
Korpus emocji FAU Aibo Steidl Niemiecki 51 9h 10 - 13 z adnotacjami ludzkimi z 11 kategoriami emocji
Szwedzki korpus NICE dzwon 5580 8 - 15 2005 składa się z interakcji dziecko-maszyna i dorosły-dziecko; transkrypcje ortograficzne
SingaKids-mandaryński Chen Mandarynka 255 79 843 125h 7 - 12 2016 transkrypcje słowne i telefoniczne; oceny biegłości z adnotacjami ludzkimi
CFSC Pascual Filipiński 57 ~8h 6-11 2012 składa się z mowy czytanej przez dzieci; zawiera zarówno dobrą wymowę, jak i błędy w czytaniu; częściowo transkrybowany na poziomy słów i fonemów

Zobacz też

Bibliografia