Sekwencjonowanie trzeciej generacji - Third-generation sequencing

Sekwencjonowanie trzeciej generacji (znane również jako sekwencjonowanie długiego odczytu ) to klasa metod sekwencjonowania DNA, które są obecnie aktywnie rozwijane.

Technologie sekwencjonowania trzeciej generacji mają zdolność generowania znacznie dłuższych odczytów niż sekwencjonowanie drugiej generacji. Taka przewaga ma krytyczne implikacje zarówno dla nauki o genomie, jak i ogólnie dla badań nad biologią. Jednak dane sekwencjonowania trzeciej generacji mają znacznie wyższe wskaźniki błędów niż poprzednie technologie, co może skomplikować składanie genomu w dół i analizę uzyskanych danych. Technologie te są aktywnie rozwijane i oczekuje się, że nastąpi poprawa wysokiego poziomu błędów. Stwierdzono, że w przypadku aplikacji, które są bardziej odporne na współczynniki błędów, takich jak wywoływanie wariantów strukturalnych, sekwencjonowanie trzeciej generacji przewyższa istniejące metody.

Obecne technologie

Technologie sekwencjonowania o innym podejściu niż platformy drugiej generacji zostały po raz pierwszy opisane jako „trzeciej generacji” w latach 2008-2009.

Obecnie w centrum rozwoju technologii sekwencjonowania trzeciej generacji znajduje się kilka firm, a mianowicie Pacific Biosciences , Oxford Nanopore Technology , Quantapore (CA-USA) i Stratos (WA-USA). Firmy te stosują zasadniczo różne podejścia do sekwencjonowania pojedynczych cząsteczek DNA.

W ramach projektu PacBio opracowano platformę sekwencjonowania pojedynczych cząsteczek sekwencjonowania w czasie rzeczywistym (SMRT) , opartą na właściwościach falowodów trybu zerowego . Sygnały są w postaci emisji światła fluorescencyjnego z każdego nukleotydu włączonego przez polimerazę DNA związaną z dnem dołka zL.

Technologia Oxford Nanopore polega na przepuszczeniu cząsteczki DNA przez nanoskalową strukturę porów, a następnie pomiarze zmian w polu elektrycznym otaczającym pory; podczas gdy Quantapore ma inne zastrzeżone podejście do nanoporów. Stratos Genomics rozdziela zasady DNA za pomocą polimerowych wstawek „ Xpandomers ”, aby ominąć wyzwanie sygnału do szumu podczas odczytu ssDNA z nanoporów.

Godne uwagi jest również podejście Helicos do fluorescencji pojedynczych cząsteczek, ale jesienią 2015 roku firma ogłosiła upadłość .

Zalety

Dłuższe czytanie

W porównaniu z obecną generacją technologii sekwencjonowania, sekwencjonowanie trzeciej generacji ma oczywistą przewagę w postaci znacznie dłuższych odczytów. Oczekuje się, że te dłuższe odczyty złagodzą liczne wyzwania obliczeniowe związane z montażem genomu, rekonstrukcją transkrypcji i metagenomiką wśród innych ważnych dziedzin współczesnej biologii i medycyny.

Powszechnie wiadomo, że genomy eukariotyczne, w tym naczelne i ludzkie, są złożone i mają dużą liczbę długich, powtarzających się regionów. Krótkie odczyty z sekwencjonowania drugiej generacji muszą uciekać się do strategii aproksymacyjnych, aby wywnioskować sekwencje w długich zakresach dla składania i wywoływania wariantów genetycznych. Odczyty końców par zostały wykorzystane przez sekwencjonowanie drugiej generacji do zwalczania tych ograniczeń. Jednak dokładne długości fragmentów końców par są często nieznane i również muszą być aproksymowane. Dzięki umożliwieniu długich odczytów, technologie sekwencjonowania trzeciej generacji mają wyraźne zalety.

Epigenetyka

Markery epigenetyczne to stabilne i potencjalnie dziedziczne modyfikacje cząsteczki DNA, które nie znajdują się w jego sekwencji. Przykładem jest metylacja DNA w miejscach CpG, która, jak stwierdzono, wpływa na ekspresję genów. Innym przykładem są modyfikacje histonów. Obecna generacja technologii sekwencjonowania opiera się na technikach laboratoryjnych, takich jak sekwencjonowanie ChIP, do wykrywania markerów epigenetycznych. Techniki te obejmują znakowanie nici DNA, łamanie i filtrowanie fragmentów zawierających markery, a następnie sekwencjonowanie. Sekwencjonowanie trzeciej generacji może umożliwić bezpośrednie wykrywanie tych markerów ze względu na ich charakterystyczny sygnał z pozostałych czterech zasad nukleotydowych.

Przenośność i szybkość

Przenośny sekwencer genów MinION, Oxford Nanopore Technologies

Inne ważne zalety technologii sekwencjonowania trzeciej generacji to przenośność i szybkość sekwencjonowania. Ponieważ wymagana jest minimalna obróbka wstępna próbki w porównaniu do sekwencjonowania drugiej generacji, można zaprojektować mniejsze urządzenia. Firma Oxford Nanopore Technology wprowadziła niedawno na rynek sekwencer MinION . Ta maszyna do sekwencjonowania ma mniej więcej rozmiar zwykłego dysku flash USB i można z niej łatwo korzystać po podłączeniu do laptopa. Ponadto, ponieważ proces sekwencjonowania nie jest zrównoleglony między regionami genomu, dane mogą być zbierane i analizowane w czasie rzeczywistym. Te zalety sekwencjonowania trzeciej generacji mogą być odpowiednie w warunkach szpitalnych, gdzie wymagane jest szybkie gromadzenie i analiza danych na miejscu.

Wyzwania

Sekwencjonowanie trzeciej generacji, w obecnej formie, stoi przed ważnymi wyzwaniami, głównie związanymi z dokładną identyfikacją zasad nukleotydowych; wskaźniki błędów są nadal znacznie wyższe w porównaniu do sekwencjonowania drugiej generacji. Wynika to na ogół z niestabilności zaangażowanej maszynerii molekularnej. Na przykład w technologii jednocząsteczkowej i sekwencjonowania w czasie rzeczywistym PacBio cząsteczka polimerazy DNA ulega coraz większemu uszkodzeniu w miarę zachodzenia procesu sekwencjonowania. Dodatkowo, ponieważ proces ten przebiega szybko, sygnały emitowane przez poszczególne bazy mogą być zamazane sygnałami z sąsiednich baz. Stanowi to nowe wyzwanie obliczeniowe do odszyfrowania sygnałów, a w konsekwencji do wywnioskowania sekwencji. W tym celu z pewnym sukcesem wykorzystano na przykład metody, takie jak ukryte modele Markowa .

Przeciętnie różne osobniki populacji ludzkiej mają około 99,9% swoich genów. Innymi słowy, w przybliżeniu tylko jedna na tysiąc zasad różniłaby się między dwiema osobami. Wysokie poziomy błędów związane z sekwencjonowaniem trzeciej generacji są nieuchronnie problematyczne w celu scharakteryzowania indywidualnych różnic występujących między członkami tego samego gatunku.

Montaż genomu

Składanie genomu to rekonstrukcja całych sekwencji DNA genomu. Odbywa się to zwykle za pomocą dwóch zasadniczo różnych podejść.

Wyrównanie odniesienia

Gdy dostępny jest genom referencyjny, tak jak w przypadku człowieka, nowo zsekwencjonowane odczyty można po prostu dopasować do genomu referencyjnego w celu scharakteryzowania jego właściwości. Takie składanie w oparciu o referencje jest szybkie i łatwe, ale ma tę wadę, że „ukrywa” nowe sekwencje i warianty o dużej liczbie kopii. Ponadto genomy referencyjne nie istnieją jeszcze dla większości organizmów.

Montaż de novo

Montaż de novo jest alternatywnym podejściem do montażu genomu w celu dopasowania odniesienia. Odnosi się do rekonstrukcji całych sekwencji genomu w całości z odczytów surowej sekwencji. Ta metoda zostałaby wybrana, gdy nie ma genomu referencyjnego, gdy gatunek danego organizmu jest nieznany, jak w metagenomice , lub gdy istnieją interesujące warianty genetyczne, które mogą nie zostać wykryte przez dopasowanie genomu referencyjnego.

Biorąc pod uwagę krótkie odczyty generowane przez obecną generację technologii sekwencjonowania, montaż de novo jest głównym problemem obliczeniowym. Zwykle podchodzi się do tego poprzez iteracyjny proces znajdowania i łączenia odczytów sekwencji z rozsądnymi nakładami. Aby rozwiązać ten problem, zastosowano różne techniki obliczeniowe i statystyczne, takie jak wykresy de bruijna i wykresy konsensusu układu nakładania się. Niemniej jednak, ze względu na wysoce powtarzalny charakter genomów eukariotycznych, dokładna i kompletna rekonstrukcja sekwencji genomu w montażu de novo pozostaje wyzwaniem. Jako możliwe rozwiązanie zaproponowano odczyty końców par , chociaż dokładna długość fragmentów jest często nieznana i musi być aproksymowana.

Składanie hybrydowe – wykorzystanie odczytów z platform sekwencjonowania 3. generacji z krótkimi odczytami z platform 2. generacji – może być wykorzystane do rozwiązania niejednoznaczności istniejących w genomach uprzednio zmontowanych przy użyciu sekwencjonowania drugiej generacji. Krótkie odczyty drugiej generacji były również wykorzystywane do korygowania błędów występujących w długich odczytach trzeciej generacji.

Montaż hybrydowy

Długie długości odczytu oferowane przez sekwencjonowanie trzeciej generacji mogą złagodzić wiele wyzwań, przed którymi stoją obecnie zespoły genomowe de novo. Na przykład, jeśli cały powtarzalny region można jednoznacznie zsekwencjonować w jednym odczycie, nie będzie wymagane żadne wnioskowanie obliczeniowe. Zaproponowano metody obliczeniowe w celu złagodzenia problemu wysokich poziomów błędów. Na przykład w jednym badaniu wykazano, że składanie de novo genomu drobnoustrojów przy użyciu samego sekwencjonowania PacBio działa lepiej niż sekwencjonowanie drugiej generacji.

Sekwencjonowanie trzeciej generacji może być również stosowane w połączeniu z sekwencjonowaniem drugiej generacji. Takie podejście jest często określane jako sekwencjonowanie hybrydowe. Na przykład, długie odczyty z sekwencjonowania trzeciej generacji mogą być wykorzystane do rozwiązania niejednoznaczności, które istnieją w genomach wcześniej złożonych przy użyciu sekwencjonowania drugiej generacji. Z drugiej strony, krótkie odczyty drugiej generacji zostały wykorzystane do poprawienia błędów występujących w długich odczytach trzeciej generacji. Ogólnie rzecz biorąc, wykazano, że to hybrydowe podejście znacząco poprawia złożenie genomu de novo.

Markery epigenetyczne

Metylacja DNA (DNAm) – kowalencyjna modyfikacja DNA w miejscach CpG prowadząca do przyłączenia grup metylowych – jest najlepiej poznanym elementem maszynerii epigenetycznej . Modyfikacje DNA i wynikająca z nich ekspresja genów mogą się różnić w zależności od typu komórki, rozwoju czasowego, pochodzenia genetycznego, mogą zmieniać się pod wpływem bodźców środowiskowych i są dziedziczne. Po odkryciu DNAm naukowcy odkryli również jego korelację z chorobami takimi jak rak i autyzm . W tym kontekście etiologii choroby DNAm jest ważną ścieżką dalszych badań.

Zalety

Obecnie najpowszechniejsze metody badania stanu metylacji wymagają testu fragmentującego DNA przed standardowym sekwencjonowaniem drugiej generacji na platformie Illumina . W wyniku krótkiej długości odczytu tracone są informacje dotyczące dłuższych wzorców metylacji. Technologie sekwencjonowania trzeciej generacji oferują możliwość sekwencjonowania w czasie rzeczywistym pojedynczych cząsteczek dłuższych odczytów oraz wykrywania modyfikacji DNA bez wyżej wymienionego testu.

Technologia PacBio SMRT i Oxford Nanopore mogą używać niezmienionego DNA do wykrywania metylacji.

Oxford Nanopore Technologies minion został wykorzystany do wykrywania DNAM. Gdy każda nić DNA przechodzi przez por, wytwarza sygnały elektryczne, które, jak stwierdzono, są wrażliwe na zmiany epigenetyczne w nukleotydach, a do analizy danych MinION wykorzystano ukryty model Markowa (HMM) w celu wykrycia DNA 5-metylocytozyny (5mC) modyfikacja. Model został wytrenowany przy użyciu syntetycznie zmetylowanego DNA E. coli, a otrzymane sygnały zmierzono technologią nanoporów. Następnie wytrenowany model został użyty do wykrycia 5mC w odczytach genomowych MinION z ludzkiej linii komórkowej, która miała już metylom referencyjny. Klasyfikator ma dokładność 82% w losowo wybranych pojedynczych miejscach, która wzrasta do 95%, gdy stosowane są bardziej rygorystyczne progi.

Inne metody dotyczą różnych typów modyfikacji DNA przy użyciu platformy MinION. Stoiber i in. zbadali 4-metylocytozynę (4mC) i 6-metyloadeninę (6mA) wraz z 5mC, a także stworzyli oprogramowanie do bezpośredniej wizualizacji surowych danych MinION w sposób przyjazny dla człowieka. Tutaj odkryli, że u E. coli , która ma znany metylom , do podziału i statystycznej analizy surowych sygnałów elektrycznych MinION można wykorzystać okna zdarzeń o długości 5 par zasad. Prosty test U Manna-Whitneya może wykryć zmodyfikowane części sekwencji E. coli , a także dalej podzielić modyfikacje na regiony 4mC, 6mA lub 5mC.

Wydaje się prawdopodobne, że w przyszłości surowe dane MinION będą wykorzystywane do wykrywania wielu różnych znaczników epigenetycznych w DNA.

Sekwencjonowanie PacBio zostało również wykorzystane do wykrycia metylacji DNA. Na tej platformie szerokość impulsu – szerokość impulsu światła fluorescencyjnego – odpowiada określonej podstawie. W 2010 roku wykazano, że odstępy między impulsami w próbkach kontrolnych i metylowanych są różne, a dla każdego typu metylacji istnieje „sygnatura” szerokości impulsu. W 2012 roku za pomocą platformy PacBio scharakteryzowano miejsca wiązania metylotransferaz DNA . Wykrycie N6-metylacji w C. elegans pokazano w 2015 metylacji DNA w N 6 -adenina pomocą platformy PacBio w mysich zarodkowych komórek macierzystych został pokazany w 2016.

Inne formy modyfikacji DNA – od metali ciężkich, utlenianie lub uszkodzenia UV – są również możliwymi kierunkami badań przy użyciu sekwencjonowania trzeciej generacji Oxford Nanopore i PacBio.

Wady

Przetwarzanie surowych danych – takie jak normalizacja do mediany – było potrzebne na surowych danych MinION, zmniejszając możliwości technologii w czasie rzeczywistym. Spójność sygnałów elektrycznych nadal stanowi problem, co utrudnia dokładne nazwanie nukleotydu. MinION ma niską przepustowość; ponieważ trudno jest uzyskać wielokrotne nakładające się odczyty, prowadzi to dalej do problemów z dokładnością wykrywania dalszych modyfikacji DNA. Zarówno ukryty model Markowa, jak i metody statystyczne stosowane z surowymi danymi MinION wymagają wielokrotnych obserwacji modyfikacji DNA w celu wykrycia, co oznacza, że ​​poszczególne zmodyfikowane nukleotydy muszą być konsekwentnie obecne w wielu kopiach genomu, np. w wielu komórkach lub plazmidach w próbce.

Również w przypadku platformy PacBio, w zależności od oczekiwanej metylacji, potrzeby w zakresie pokrycia mogą się różnić. Według stanu na marzec 2017 r. inne czynniki epigenetyczne, takie jak modyfikacje histonów, nie zostały odkryte przy użyciu technologii trzeciej generacji. Dłuższe wzorce metylacji są często tracone, ponieważ nadal trzeba zmontować mniejsze kontigi.

Transkryptomika

Transkryptomika to badanie transkryptomu , zwykle poprzez scharakteryzowanie względnej obfitości cząsteczek informacyjnego RNA w badanej tkance. Zgodnie z centralnym dogmatem biologii molekularnej , informacja genetyczna przepływa z dwuniciowych cząsteczek DNA do jednoniciowych cząsteczek mRNA, gdzie można je łatwo przełożyć na funkcjonalne cząsteczki białka. Badając transkryptom, można uzyskać cenny wgląd w regulację ekspresji genów.

Podczas gdy poziomy ekspresji jako poziom genu można mniej lub bardziej dokładnie zobrazować za pomocą sekwencjonowania drugiej generacji, informacja o poziomie transkrypcji nadal pozostaje ważnym wyzwaniem. W konsekwencji rola alternatywnego splicingu w biologii molekularnej pozostaje w dużej mierze nieuchwytna. Technologie sekwencjonowania trzeciej generacji mają obiecujące perspektywy w rozwiązaniu tego problemu poprzez umożliwienie sekwencjonowania cząsteczek mRNA na ich pełnej długości.

Splicing alternatywny

Alternatywny splicing (AS) to proces, w którym pojedynczy gen może spowodować powstanie wielu różnych transkryptów mRNA, aw konsekwencji różnych translacji białek. Niektóre dowody sugerują, że AS jest zjawiskiem wszechobecnym i może odgrywać kluczową rolę w określaniu fenotypów organizmów, zwłaszcza u złożonych eukariontów; wszystkie eukarionty zawierają geny składające się z intronów, które mogą podlegać AS. W szczególności oszacowano, że AS występuje w 95% wszystkich ludzkich genów wieloeksonowych. AS ma niezaprzeczalny potencjał wpływania na niezliczone procesy biologiczne. Postęp wiedzy w tej dziedzinie ma krytyczne implikacje dla badań nad biologią w ogóle.

Rekonstrukcja transkrypcji

Obecna generacja technologii sekwencjonowania wytwarza tylko krótkie odczyty, co nakłada ogromne ograniczenia na zdolność wykrywania różnych transkryptów; krótkie odczyty muszą być poddane inżynierii wstecznej w oryginalnych transkryptach, które mogłyby dać początek wynikowym obserwacjom odczytu. Zadanie to jest dodatkowo komplikowane przez wysoce zmienne poziomy ekspresji w transkryptach, a w konsekwencji zmienne pokrycie odczytu w sekwencji genu. Ponadto egzony mogą być współdzielone między poszczególnymi transkryptami, co zasadniczo uniemożliwia jednoznaczne wnioskowanie. Istniejące metody obliczeniowe dokonują wnioskowania na podstawie akumulacji krótkich odczytów w różnych lokalizacjach sekwencji, często przyjmując założenia upraszczające. Spinki do mankietów mają oszczędne podejście, starając się wyjaśnić wszystkie odczyty za pomocą jak najmniejszej liczby transkrypcji. Z drugiej strony StringTie próbuje jednocześnie oszacować obfitość transkrypcji podczas gromadzenia odczytów. Te metody, choć rozsądne, mogą nie zawsze identyfikować prawdziwe transkrypcje.

Badanie opublikowane w 2008 r. obejmowało 25 różnych istniejących protokołów rekonstrukcji transkryptów. Jego dowody sugerują, że istniejące metody są na ogół słabe w składaniu transkryptów, chociaż zdolność do wykrywania pojedynczych egzonów jest stosunkowo nienaruszona. Według szacunków średnia czułość wykrywania eksonów w 25 protokołach wynosi 80% dla genów Caenorhabditis elegans . Dla porównania, czułość identyfikacji transkryptów spada do 65%. W przypadku ludzi badanie wykazało średnią czułość wykrywania eksonów na poziomie 69%, a czułość wykrywania transkryptów wynosiła średnio zaledwie 33%. Innymi słowy, w przypadku człowieka istniejące metody są w stanie zidentyfikować mniej niż połowę wszystkich istniejących transkryptów.

Technologie sekwencjonowania trzeciej generacji wykazały obiecujące perspektywy w rozwiązaniu problemu wykrywania transkryptów oraz szacowania liczebności mRNA na poziomie transkryptów. Chociaż współczynniki błędów pozostają wysokie, technologie sekwencjonowania trzeciej generacji mają możliwość generowania znacznie dłuższych długości odczytu. Firma Pacific Bioscience wprowadziła platformę iso-seq, proponując sekwencjonowanie cząsteczek mRNA na ich pełnej długości. Przewiduje się, że Oxford Nanopore przedstawi podobne technologie. Problem z wyższymi wskaźnikami błędów można złagodzić dzięki dodatkowym krótkim odczytom wysokiej jakości. To podejście zostało wcześniej przetestowane i zgłoszone w celu zmniejszenia wskaźnika błędów ponad trzykrotnie.

Metagenomika

Metagenomika to analiza materiału genetycznego odzyskanego bezpośrednio z próbek środowiskowych.

Zalety

Główną zaletą technologii sekwencjonowania trzeciej generacji w metagenomice jest szybkość sekwencjonowania w porównaniu z technikami drugiej generacji. Szybkość sekwencjonowania jest ważna na przykład w warunkach klinicznych (tj. identyfikacja patogenów ), aby umożliwić skuteczną diagnozę i szybkie działania kliniczne.

MinION firmy Oxford Nanopore wykorzystano w 2015 r. do wykrywania metagenomicznego patogenów w czasie rzeczywistym w złożonych próbkach klinicznych o wysokim poziomie tła. Pierwszy odczyt wirusa Ebola (EBV) został zsekwencjonowany 44 sekundy po zebraniu danych. Istniało jednolite mapowanie odczytów do genomu; co najmniej jeden odczyt zmapowany do >88% genomu. Stosunkowo długie odczyty pozwoliły na sekwencjonowanie prawie kompletnego genomu wirusa z wysoką dokładnością (97-99% identyczności) bezpośrednio z pierwotnej próbki klinicznej.

Powszechnym markerem filogenetycznym w badaniach różnorodności społeczności drobnoustrojów jest gen 16S rybosomalnego RNA . Do sekwencjonowania tego genu użyto zarówno platformy MinION, jak i PacBio SMRT. W tym kontekście wskaźnik błędów PacBio był porównywalny z krótszymi odczytami z platform sekwencjonowania 454 i MiSeq firmy Illumina.

Wady

Wysoki wskaźnik błędów MinION (~10-40%) uniemożliwił identyfikację markerów oporności na środki przeciwdrobnoustrojowe , dla których konieczna jest rozdzielczość pojedynczego nukleotydu. Z tego samego powodu nie zidentyfikowano patogenów eukariotycznych . Problemem jest również łatwość przenoszenia zanieczyszczeń przy ponownym użyciu tej samej komory przepływowej (standardowe protokoły mycia nie działają). Unikalne kody kreskowe mogą pozwolić na większą liczbę multipleksacji. Ponadto przeprowadzenie dokładnej identyfikacji gatunków bakterii , grzybów i pasożytów jest bardzo trudne, ponieważ mają one wspólną większą część genomu, a niektóre różnią się tylko o <5%.

Koszt sekwencjonowania na bazę jest nadal znacznie wyższy niż koszt MiSeq. Jednak perspektywa uzupełnienia referencyjnych baz danych o sekwencje o pełnej długości z organizmów poniżej granicy wykrywalności z podejścia Sangera ; mogłoby to znacznie pomóc w identyfikacji organizmów w metagenomice.

Bibliografia