Lista dziecięcych korpusów mowy - List of children's speech corpora

Corpus mowy dziecka jest mowa corpus pierwszy język dokumentowania nabycia język . Takie bazy danych są wykorzystywane do opracowywania wspomaganych komputerowo systemów uczenia się języków oraz do charakteryzowania mowy dzieci w różnym wieku . Mowa dzieci różni się nie tylko w zależności od języka, ale także regionu w danym języku. Może być również inny dla określonych grup, takich jak dzieci autystyczne, zwłaszcza gdy bierze się pod uwagę emocje. Dlatego dla różnych populacji potrzebne są różne bazy danych. Corpora jest dostępna dla amerykańskiego i brytyjskiego angielskiego, a także dla wielu innych języków europejskich.

Przegląd mowy dziecięcej Corpora

W poniższej tabeli przedział wiekowy można opisać w kategoriach ocen szkolnych. „K” oznacza „przedszkole”, a „G” oznacza „klasę”. Na przykład przedział wiekowy „K – G10” odnosi się do mówców w wieku od przedszkola do klasy 10.

Ta tabela jest oparta na artykule z konferencji Interspeech, 2016. Ten artykuł online ma na celu dostarczenie interaktywnej tabeli dla czytelników oraz miejsca, w którym informacje o korpusach mowy dzieci mogą być stale aktualizowane przez społeczność zajmującą się badaniem mowy.

Ciało	Autor	Języki	# Głośniki	# Utt.	Trwanie	Zakres wieku	Data	Uwagi
Boulder Learning — MyST Corpus (v0.4.0)	Cole i in.	język angielski	1371	228 874	~393h	G3 - G5	2019	dialogowa interakcja między uczniem a wirtualnym korepetytorem na tematy naukowe; zazwyczaj 20-40 minut (zegar ścienny) czas trwania sesji; około 49% wypowiedzi zostało transkrybowanych, a więcej jest w trakcie transkrypcji. zachęcani wolontariusze. dostępne bezpłatnie do badań; mieszkanie 10 000 USD do użytku komercyjnego.
CMU Kids Corpus	Eskenazy	język angielski	24M, 52F	5180		6 - 11	1997
CSLU Korpus mowy dla dzieci	Shobaki	język angielski	1100	1017		K - G10	2007
PF-STAR Dziecięcy Korpus Przemówień	Russell	Język angielski,	158		~14,5h	4 - 14	2006	transkrypcje na poziomie słów
CALL-SLT	Rayner	Niemiecki		5000			2014
PIŁKA	Kazemgadeh	język angielski	256	5000	40h	K - G4	2005	częściowo nienatywna mowa
CASS_CHILD	Gao	Mandarynka	23			1 - 4	2012	transkrypcje fonetyczne
Korpus mowy dla dzieci CU do czytania i monitowania	Hagen	język angielski	663	~100		K - G5	2001	składa się z pojedynczych słów, zdań i krótkiej spontanicznej opowieści; transkrypcje na poziomie słów
Korpus fabularny CU	Hagen	język angielski	106	5000	40h	G3 - G5	2003	składa się z podpowiedzi do opowiadania i spontanicznego, wypowiedzianego streszczenia materiału; transkrypcje na poziomie słów
Corpus Opatrzności	Demuth	język angielski	6		363 godz	1 - 3	2006	spontaniczne interakcje mowy matka-dziecko; szeroka transkrypcja fonetyczna
Lyon Corpus	Demuth	Francuski	4		185h	1 - 3	2007	spontaniczne interakcje mowy matka-dziecko; szeroka transkrypcja fonetyczna
Korpus Demutha Sesotho	Demuth	Sesoto	4	~13250	98h	2 - 4	1992	spontaniczne interakcje mowy rodziny/rówieśników; oznakowane morfologicznie
CHIEDE	Garrote	hiszpański	59	15444	~8h		2008	spontaniczna rozmowa, wywiady osobiste, interakcja dorosły – dziecko; transkrypcje ortogonalne; automatyczna transkrypcja fonologiczna
TIDIGITS	Leonarda	język angielski	326 (101 dzieci)			6 - 15	1993	mieszanka głośników dla dorosłych i dzieci
Korpus emocji FAU Aibo	Steidl	Niemiecki	51		9h	10 - 13		z adnotacjami ludzkimi z 11 kategoriami emocji
Szwedzki korpus NICE	dzwon		5580			8 - 15	2005	składa się z interakcji dziecko-maszyna i dorosły-dziecko; transkrypcje ortograficzne
SingaKids-mandaryński	Chen	Mandarynka	255	79 843	125h	7 - 12	2016	transkrypcje słowne i telefoniczne; oceny biegłości z adnotacjami ludzkimi
CFSC	Pascual	Filipiński	57		~8h	6-11	2012	składa się z mowy czytanej przez dzieci; zawiera zarówno dobrą wymowę, jak i błędy w czytaniu; częściowo transkrybowany na poziomy słów i fonemów

Languages

In other projects

Lista dziecięcych korpusów mowy - List of children's speech corpora

Przegląd mowy dziecięcej Corpora

Zobacz też

Bibliografia