Rzeczywistą tabelę z informacjami o różnych bazach danych przedstawiono w tabeli 2.
Tabela 2: Przegląd baz danych innych niż natywne
Ciało
Autor
Dostępne o
Języki
#Głośnicy
Język ojczysty
#Utt.
Trwanie
Data
Uwagi
JESTEM
UE
mi
Dut i inne
100h
nagrania ze spotkań
ATR-Gruhn
Gruhn
ATR
mi
96
CGFJ Ind
15000
2004
ocena biegłości
BAS Dziwny Corpus 1+10
ELRA
sol
139
50 krajów
7500
1998
Restauracja Berkeleyley
ICSI
mi
55
GIHCFSJ
2500
1994
Wiadomości z transmisji
LDC
mi
1997
Cambridge-Witt
Witt
U. Cambridge
mi
10
JIKS
1200
1999
Cambridge-Ye
Człek
U. Cambridge
mi
20
do
1600
2005
Wiadomości dla dzieci
Tomokiyo
CMU
mi
62
JC
7500
2000
częściowo spontaniczny
KLIPY-IMAG
Dębnik
KLIPY-IMAG
fa
15
CV
6h
2006
CLSU
LDC
mi
22 kraje
5000
2007
telefoniczny, spontaniczny
CMU
CMU
mi
64
sol
452
0,9h
niedostępne
Krzyżowe Miasta
Schaden
U. Bochum
EFGI Cze Dut
161
EFGIS
72000
133 godz
2006
nazwy miast
Książę-Arslan
Arslan
Uniwersytet Książęcy
mi
93
15 krajów
2200
1995
częściowo rozmowa telefoniczna
ERJ
Minematsu
U. Tokio
mi
200
jot
68000
2002
ocena biegłości
Fischer
LDC
mi
wiele
200h
rozmowa telefoniczna
Dopasuj
Dopasuj
U. Edynburg
FIN Gre
10
mi
700
1995
nazwy miast
Fraenki
U. Erlangen
mi
19
sol
2148
Hiszpanie
Byrne
mi
22
S
20h
1998
częściowo spontaniczny
HLTC
HKUST
mi
44
do
3h
2010
dostępne na żądanie
IBM-Fischer
IBM
mi
40
SFGI
2000
2002
cyfry
iCALL
Chen
I 2 R, A*STAR
do
305
24 kraje
90841
142 godz
2015
transkrypcje fonetyczne i tonalne (w Pinyin), oceny biegłości
WYSPA
Atwell
UE/ELDA
mi
46
żołnierz amerykański
4000
18h
2000
Jowisz
Zue
MIT
mi
nieznany
nieznany
5146
1999
rozmowa telefoniczna
K-SEK
Rhee
SiTEC
mi
nieznany
K
2004
LDC WSJ1
LDC
10
800
1h
1994
Skok
Jelito
Uniwersytet w Münsterze
NA PRZYKŁAD
127
41 różnych
73,941 słów
12h
2003
ZAMGLENIE
ELRA
EFG
75
Dut
2200
1996
NATO HIWIRE
NATO
mi
81
F Gre IS
8100
2007
czysta mowa
NATO M-ATC
Gołąb
NATO
mi
622
FGIS
9833
17h
2007
ciężki hałas w tle
NATO N4
NATO
mi
115
nieznany
7,5h
2006
ciężki hałas w tle
Onomastyka
D Dut EFG Gre INPS Swe
(121000)
1995
tylko leksykon
PF-STAR
U. Erlangen
mi
57
sol
4627
3,4h
2005
mowa dzieci
Gwiazda słoneczna
UE
mi
100
GSIPD
40000
1992
przemówienie parlamentu
TC-STAR
Heuvel
ELDA
ES
nieznany
Kraje UE
13h
2006
wiele zestawów danych
PRZETRZĄSAĆ
Lamel
ELDA
mi
40(188)
wiele
10h (47h)
1994
euromowa 93
TLTS
DARPA
ZA
mi
1h
2004
Tokio-Kikuko
U. Tokio
jot
140
10 krajów
35000
2004
ocena biegłości
Czasownik
U. Monachium
mi
44
sol
1,5h
1994
bardzo spontaniczna
VODIS
UE
FG
178
FG
2500
1998
o nawigacji samochodowej
WP arabski
Rocca
LDC
ZA
35
mi
800
1h
2002
WP rosyjski
Rocca
LDC
R
26
mi
2500
2h
2003
WP hiszpański
Morgan
LDC
S
mi
2006
WSJ mówił
mi
10
nieznany
800
1993
Legenda
W tabeli nienatywnych baz danych zastosowano skróty nazw języków. Są one wymienione w Tabeli 1. Tabela 2 podaje następujące informacje o każdym korpusie: Nazwa korpusu, instytucja, w której korpus można uzyskać lub przynajmniej powinny być dostępne dalsze informacje, język, którym faktycznie posługują się użytkownicy , liczba mówców, ojczysty język mówców, całkowita liczba nieojczystych wypowiedzi w korpusie, czas trwania części nieojczystej w godzinach, data pierwszego publicznego odwołania się do tego korpusu, dowolny tekst podkreślenie szczególnych aspektów tej bazy danych oraz odniesienie do innej publikacji. Odniesienie w ostatniej dziedzinie dotyczy w większości przypadków artykułu, który jest szczególnie poświęcony opisowi tego korpusu przez pierwotnych kolekcjonerów. W niektórych przypadkach nie udało się zidentyfikować takiego papieru. W takich przypadkach powołana jest praca, która korzysta z tego korpusu.
Niektóre wpisy są puste, a inne oznaczone jako nieznane. Różnica polega na tym, że puste wpisy odnoszą się do atrybutów, których wartość po prostu nie jest znana. Nieznane wpisy wskazują jednak, że w samej bazie danych nie są dostępne żadne informacje o tym atrybucie. Jako przykład w bazie danych pogodowych Jowisza nie podano informacji o pochodzeniu głośników. Dlatego te dane byłyby mniej przydatne do weryfikacji wykrywania akcentu lub podobnych problemów.
Tam, gdzie to możliwe, nazwa jest standardową nazwą korpusu, dla niektórych mniejszych korpusów nie było jednak ustalonej nazwy i dlatego trzeba było stworzyć identyfikator. W takich przypadkach stosuje się połączenie instytucji i kolekcjonera bazy danych.
W przypadku, gdy bazy danych zawierają mowę natywną i nienatywną, wymieniane są tylko atrybuty nienatywnej części korpusu. Większość korpusów to zbiory mowy czytanej. Jeśli zamiast tego korpus składa się częściowo lub całkowicie z wypowiedzi spontanicznych, jest to wspomniane w kolumnie Specials.