Stosunek K a /K s -Ka/Ks ratio

W genetyki The K / k s stosunek , znany również jako omów lub d N / d S wskaźnika , jest używane do wyznaczenia równowagi między neutralnej mutacji , selekcji w filtr i korzystnych mutacji działających na zestawie homologicznych genów kodujących białka . Jest obliczany jako stosunek liczby podstawień nonsynonymous za nonsynonymous miejscu (K a ) w danym okresie czasu, do liczby synonimicznych podstawień na synonimem miejscu (K y ), w tym samym czasie. Zakłada się, że te ostatnie są neutralne, tak że stosunek wskazuje na równowagę netto między szkodliwymi i korzystnymi mutacjami. Wartości K, a / K y znacznie powyżej 1, jest mało prawdopodobne, bez co najmniej niektóre z mutacji, co jest korzystne. Jeśli korzystne mutacje są uważane zrobić mały wkład, a następnie K s szacuje stopień ewolucyjnego przymusu .

Kontekst

Wybór działa na zmienności fenotypów, które często są wynikiem mutacji białek -coding genów . Kod genetyczny jest zapisywany w sekwencji DNA w kodonach , grupy trzech nukleotydów . Każdy kodon reprezentuje pojedynczy aminokwas w łańcuchu białkowym. Jest jednak więcej kodonów (64) niż aminokwasów występujących w białkach (20), więc wiele kodonów jest faktycznie synonimami. Na przykład kodony DNA TTT i TTC oba kodują aminokwas fenyloalaninę , więc zmiana z trzeciego T na C nie ma żadnego wpływu na powstałe białko. Z drugiej strony kodon GAG koduje kwas glutaminowy, podczas gdy kodon GTG koduje walinę , więc zmiana ze środkowego A na T zmienia wynikowe białko na lepsze lub (bardziej prawdopodobne) gorsze, więc zmiana nie jest synonim. Zmiany te ilustrują poniższe tabele.

K A / k s środki proporcjach względnych szybkości podstawień synonimami nonsynonymous w określonym miejscu.

Mutacja punktowa powodując synonimiczne podstawienie
Rodzaj konstrukcji Przed Reszta Po Wynik
Kodon w sekwencji DNA TTT nieszkodliwa mutacja;
Synonimiczna substytucja    
TTC
↓ kody dla ↓ kody dla   ↓ kody dla
Aminokwas w białku Fenyloalanina   brak zmiany Fenyloalanina Normalne białko, normalne funkcjonowanie
Mutacja punktowa powodując nonsynonymous podstawienie
Rodzaj konstrukcji Przed Reszta Po Wynik
Kodon w sekwencji DNA KNEBEL mutacja missense ;
Substytucja niesynonimiczna
GTG
↓ kody dla ↓ kody dla   ↓ kody dla
Aminokwas w białku Kwas glutaminowy   Zmiana strukturalna Walina             Zmienione białko może, ale nie musi, wyrządzić szkody
(np. choroby) lub dać nową korzyść

Metody

Sposoby oceny K A i k s użyć dopasowanie sekwencji z dwóch lub więcej sekwencji nukleotydowych homologicznych genów, które kodują białka (raczej niż przełączniki genetyczne kontrolowanie rozwoju lub współczynnik aktywności innych genów). Metody można podzielić na trzy grupy: metody przybliżone, metody maksymalnego prawdopodobieństwa i metody liczenia. Jednakże, o ile porównywane sekwencje nie są daleko spokrewnione (w takim przypadku przeważają metody maksymalnego prawdopodobieństwa), klasa zastosowanej metody ma minimalny wpływ na uzyskane wyniki; ważniejsze są założenia zawarte w wybranej metodzie.

Przybliżone metody

Metody przybliżone obejmują trzy podstawowe etapy: (1) zliczenie liczby miejsc synonimicznych i niesynonimicznych w dwóch sekwencjach lub oszacowanie tej liczby przez pomnożenie długości sekwencji przez proporcję każdej klasy podstawień; (2) liczenie liczby podstawień synonimicznych i niesynonimicznych; oraz (3) korygowanie wielokrotnych podstawień.

Te kroki, zwłaszcza te ostatnie, wymagają przyjęcia uproszczonych założeń, jeśli mają być osiągnięte obliczeniowo; z powodów omówionych później nie jest możliwe dokładne określenie liczby wielokrotnych podstawień.

Metody maksymalnego prawdopodobieństwa

Podejście maksymalnego prawdopodobieństwa wykorzystuje teorię prawdopodobieństwa do jednoczesnego wykonania wszystkich trzech kroków. Szacuje parametry krytyczne, w tym rozbieżność między sekwencjami i stosunek przejścia/transwersji, poprzez wydedukowanie najbardziej prawdopodobnych wartości, które dadzą dane wejściowe.

Metody liczenia

W celu ilościowego określenia liczby podstawień, można zrekonstruować sekwencję przodków i zapisać wywnioskowane zmiany w miejscach (liczenie proste – prawdopodobnie dostarczy niedoszacowania); dopasowanie współczynników substytucji w ośrodkach do z góry określonych kategorii ( podejście bayesowskie ; słabe dla małych zbiorów danych); oraz generowanie indywidualnej szybkości podstawienia dla każdego kodonu (kosztowna obliczeniowo). Biorąc pod uwagę wystarczającą ilość danych, wszystkie trzy z tych podejść będą dążyć do tego samego wyniku.

Interpretowanie wyników

K / k s Wskaźnik stosuje ustalenie kierunku i wielkości naturalnej selekcji działającego w genach kodujących białka. Stosunek większy niż 1 implikuje dobór pozytywny lub darwinowski (kierujący zmianą); mniej niż 1 oznacza oczyszczającą lub stabilizującą selekcję (działanie przeciwko zmianie); a stosunek dokładnie 1 oznacza wybór neutralny (tj. brak). Jednak połączenie pozytywnej i oczyszczającej selekcji w różnych punktach genu lub w różnych momentach jego ewolucji może się wzajemnie znosić. Wynikowa wartość uśredniona może maskować obecność jednej z selekcji i obniżać pozorną wielkość innej selekcji.

Oczywiście konieczne jest przeprowadzenie analizy statystycznej, aby określić, czy wynik różni się istotnie od 1, czy też może wystąpić jakakolwiek widoczna różnica w wyniku ograniczonego zestawu danych. Odpowiedni test statystyczny dla metody aproksymacyjnej polega na aproksymacji dN − dS aproksymacją normalną i określeniu, czy 0 mieści się w centralnym obszarze aproksymacji. Bardziej zaawansowane techniki prawdopodobieństwo może być wykorzystywane do analizy wyników o maksymalnej analizy prawdopodobieństwa przez przeprowadzenie testu chi-kwadrat odróżnić modelu zerowej (K / K y = 1) i obserwowane wyniki.

Pożytek

K / K s wskaźnik jest mocniejszy test neutralnego modelu ewolucji niż wiele innych dostępnych w genetyce populacyjnej , ponieważ wymaga mniej założeń.

Komplikacje

Często występuje systematyczne odchylenie w częstotliwości wymiany różnych nukleotydów , ponieważ niektóre mutacje są bardziej prawdopodobne niż inne. Na przykład, niektóre linie mogą zamieniać C na T częściej niż zamieniają C na A. W przypadku aminokwasu asparaginy , który jest kodowany przez kodony AAT lub AAC, wysoki kurs wymiany C->T zwiększy proporcję podstawień synonimicznych w tym kodonie, podczas gdy wysoki kurs wymiany C→A zwiększy częstość podstawień niesynonimicznych. Ponieważ dość powszechne jest, że przejścia (T↔C i A↔G) są faworyzowane w stosunku do transwersji (innych zmian), modele muszą uwzględniać możliwość niejednorodnych kursów walutowych. Niektóre prostsze metody przybliżone, takie jak metody Miyata & Yasunaga i Nei & Gojobori, pomijają ich uwzględnienie, co generuje szybszy czas obliczeniowy kosztem dokładności; metody te będą systematycznie przeszacowywać N i zaniżać S.

Ponadto może występować błąd systematyczny, zgodnie z którym pewne kodony są preferowane w genie, ponieważ pewna kombinacja kodonów może poprawić wydajność translacji.

Ponadto, w miarę upływu czasu, możliwe jest, że witryna zostanie poddana wielokrotnym modyfikacjom. Na przykład kodon może zmienić się z AAA→AAC→AAT→AAA. Nie ma sposobu na wykrycie wielu podstawień w jednym miejscu, dlatego oszacowanie liczby podstawień jest zawsze niedoszacowane. Ponadto w powyższym przykładzie w miejscu trzecim wystąpiły dwie substytucje niesynonimiczne i jedna substytucja synonimiczna; jednakże, ponieważ podstawienia przywróciły oryginalną sekwencję, nie ma dowodów na jakiekolwiek podstawienie. Wraz ze wzrostem czasu rozbieżności między dwiema sekwencjami rośnie również ilość wielokrotnych podstawień. Zatem „długie gałęzie” w analizie dN/dS mogą prowadzić do niedoszacowania zarówno dN, jak i dS, a im dłuższa gałąź, tym trudniej jest skorygować wprowadzony szum. Oczywiście kolejność przodków jest zwykle nieznana, a dwie porównywane linie rodowe ewoluowały równolegle od czasu ich ostatniego wspólnego przodka. Efekt ten można złagodzić, konstruując sekwencję przodków; dokładność tej sekwencji jest zwiększona dzięki dużej liczbie sekwencji pochodzących od tego wspólnego przodka, aby ograniczyć jej sekwencję metodami filogenetycznymi .

Metody, które uwzględniają błędy w wykorzystaniu kodonów i szybkości przejścia/transwersji są znacznie bardziej niezawodne niż te, które tego nie robią.

Ograniczenia

Chociaż K / k s stosunek jest dobrym wskaźnikiem presji selekcyjnej na poziomie sekwencji zmianę ewolucyjną często ma miejsce w regionie regulatorowym genu, który ma wpływ na wysokość, czas lub lokalizacji ekspresji genu. K / K s analiza nie wykryje taką zmianę. Obliczy tylko presję selekcyjną w obrębie regionów kodujących białka. Ponadto selekcja, która nie powoduje różnic na poziomie aminokwasów – na przykład selekcja równoważąca – nie może być wykryta za pomocą tych technik.

Inną kwestią jest to, że heterogeniczność w genie może utrudniać interpretację wyniku. Na przykład, jeśli k a / K s = 1, może być ze względu na wybór swobodnej lub chimera pozytywnej selekcji i oczyszczanie w locus. Rozwiązanie to ograniczenie byłoby zastosowanie K a / k s analizy w wielu gatunków w poszczególnych kodonów.

K / K s metoda wymaga dość silnego sygnału w celu wykrycia wybór. W celu wykrycia wybór pomiędzy liniach, to wybór, uśrednione dla wszystkich miejsc w sekwencji musi wytwarzać K / k s większy niż jedną dość atut jeżeli regiony genu są silnie konserwowane. W celu wykrycia wybrane w określonych miejscach, a K / k s stosunek powinien być większy niż jeden, gdy uśredniona dla wszystkich zawartych liniach w tym miejscu-co oznacza, że musi ona pod presją selektywną wszystkich badanych liniach. Ograniczenie to może być łagodzony przez umożliwienie K / k s Szybkość podjąć wiele wartości drugiej stron i pomiędzy liniach; włączenie większej liczby linii również zwiększa moc podejścia opartego na miejscach.

Ponadto w sposobie tym brakuje możliwości rozróżnienia między pozytywnymi i negatywnymi niesynonimowymi podstawieniami. Niektóre aminokwasy są do siebie chemicznie podobne, podczas gdy inne podstawienia mogą umieszczać aminokwas o zupełnie innych właściwościach w stosunku do jego prekursora. W większości sytuacji mniejsza zmiana chemiczna jest bardziej prawdopodobna, aby umożliwić białku dalsze funkcjonowanie, a duża zmiana chemiczna prawdopodobnie zakłóci strukturę chemiczną i spowoduje nieprawidłowe działanie białka. Jednak włączenie tego do modelu nie jest proste, ponieważ związek między substytucją nukleotydu a skutkami zmodyfikowanych właściwości chemicznych jest bardzo trudny do określenia.

Dodatkową troską jest to, że wpływ czasu musi zostać włączony do analizy, jeśli porównywane rodowody są blisko spokrewnione; dzieje się tak, ponieważ dobór naturalny może potrzebować wielu pokoleń, aby „wyplenić” szkodliwe mutacje z populacji, zwłaszcza jeśli ich wpływ na dopasowanie jest słaby. Ogranicza to przydatność K a / k s stosunku do porównywania ściśle związane populacji.

Indywidualne podejście do kodonów

Dodatkowe informacje można zebrać przez określenie K a / k s stosunek poszczególnych kodonów w obrębie sekwencji genu. Na przykład region dostrajania częstotliwości opsyny może znajdować się pod zwiększoną presją selekcyjną, gdy gatunek kolonizuje i adaptuje się do nowego środowiska, podczas gdy region odpowiedzialny za inicjowanie sygnału nerwowego może podlegać selekcji oczyszczającej. W celu wykrywania tego rodzaju efekty, można by dogodnie obliczyć K a / k s stosunek w każdym miejscu. Jest to jednak kosztowne obliczeniowo i w praktyce, liczba K o / k s zajęcia są ustalone, a każda strona jest przypisana do klasy najlepiej dopasowany.

Pierwszy etap identyfikacji, czy pozytywny wybór działa na stronach jest porównanie testu, kiedy K / k s stosunek jest ograniczony do wynosić <1, we wszystkich miejscach na to, w którym może przyjąć dowolną wartość, i sprawdzić, czy umożliwiając K / K s przekroczenie 1 w niektórych witrynach poprawia dopasowanie modelu. Jeśli jest to przypadek, to tereny wpasowania w klasie gdzie K / K s > 1 są kandydatami do doświadczać pozytywnego wyboru. Ta forma testu może albo zidentyfikować miejsca, które można zbadać w dalszych badaniach laboratoryjnych w celu określenia możliwej presji selekcyjnej; lub, strony uważa się, że funkcjonalne znaczenie można przypisać do innego K A / K s zajęcia przed modelu jest prowadzony.

Uwagi

Bibliografia

Dalsza lektura

Linki zewnętrzne