Masywne sekwencjonowanie równoległe - Massive parallel sequencing

Masowe sekwencjonowanie równoległe lub masowo równoległe sekwencjonowanie to jedno z kilku wysokoprzepustowych podejść do sekwencjonowania DNA wykorzystujących koncepcję masowo równoległego przetwarzania; nazywa się to również sekwencjonowaniem nowej generacji ( NGS ) lub sekwencjonowaniem drugiej generacji . Niektóre z tych technologii pojawiły się w latach 1994-1998 i są dostępne na rynku od 2005 roku. Technologie te wykorzystują zminiaturyzowane i zrównoleglone platformy do sekwencjonowania od 1 miliona do 43 miliardów krótkich odczytów (50-400 zasad każdy) na cykl przyrządu.

Wiele platform NGS różni się konfiguracjami inżynieryjnymi i chemią sekwencjonowania. Dzielą one techniczny paradygmat masowego równoległego sekwencjonowania za pomocą przestrzennie oddzielonych, klonalnie amplifikowanych matryc DNA lub pojedynczych cząsteczek DNA w komórce przepływowej . Ten projekt bardzo różni się od sekwencjonowania Sangera – znanego również jako sekwencjonowanie kapilarne lub sekwencjonowanie pierwszej generacji – które opiera się na elektroforetycznym rozdzielaniu produktów zakańczania łańcucha wytwarzanych w poszczególnych reakcjach sekwencjonowania.

Platformy NGS

Sekwencjonowanie DNA z komercyjnie dostępnymi platformami NGS przeprowadza się na ogół w następujących etapach. Po pierwsze, biblioteki sekwencjonowania DNA są generowane przez amplifikację klonalną metodą PCR in vitro . Po drugie, DNA jest sekwencjonowany przez syntezę , tak że sekwencja DNA jest określana raczej przez dodanie nukleotydów do nici komplementarnej niż przez chemię zakończenia łańcucha. Po trzecie, przestrzennie posegregowane, amplifikowane matryce DNA są sekwencjonowane jednocześnie w sposób masowo równoległy, bez konieczności etapu fizycznego rozdziału. Chociaż te kroki są wykonywane na większości platform NGS, każda z nich wykorzystuje inną strategię.

Równoległość reakcji sekwencjonowania NGS generuje setki od megazasad do gigazasad odczytów sekwencji nukleotydów w jednym przebiegu aparatu. Umożliwiło to drastyczny wzrost dostępnych danych sekwencyjnych i fundamentalną zmianę podejścia do sekwencjonowania genomu w naukach biomedycznych. Nowo pojawiające się technologie i instrumenty NGS dodatkowo przyczyniły się do znacznego obniżenia kosztów sekwencjonowania, zbliżając się do poziomu 1000 USD na sekwencjonowanie genomu .

Od 2014 r. dostępne na rynku masowo równoległe platformy sekwencjonowania i ich funkcje zostały podsumowane w tabeli. Ponieważ tempo technologii NGS szybko się rozwija, specyfikacje techniczne i ceny ulegają zmianom.

Illumina HiSeq 2000 maszyna do sekwencjonowania
Platformy NGS
Platforma Przygotowanie szablonu Chemia Maksymalna długość odczytu (podstawy) Czasy pracy (dni) Maks. GB na przebieg
Roche 454 Clonal-emPCR Pirosekwencjonowanie 400‡ 0,42 0,40-0,60
Tytan GS FLX Clonal-emPCR Pirosekwencjonowanie 400‡ 0,42 0,035
Illumina MiSeq Wzmocnienie mostka klonalnego Odwracalny terminator barwnika 2x300 0,17-2,7 15
Illumina HiSeq Wzmocnienie mostka klonalnego Odwracalny terminator barwnika 2x150 0,3-11 1000
Analizator genomu Illumina IIX Wzmocnienie mostka klonalnego Odwracalny terminator barwnika 2x150 2-14 95
Life Technologies SOLiD4 Clonal-emPCR 8-merowa łańcuchowa ligacja oligonukleotydów 20-45 4-7 35-50
Life Technologies Jon Proton Clonal-emPCR Natywne dNTP, detekcja protonów 200 0,5 100
Pełna genomika Siatkowane nanokulki DNA 9-merowa niełańcuchowa ligacja oligonukleotydów 7x10 11 3000
Heliskop Helicos Biosciences Pojedyncza cząsteczka Odwracalny terminator barwnika 35‡ 8 25
Bionauki Pacyfiku SMRT Pojedyncza cząsteczka Fosfolinkowane fluorescencyjne nukleotydy 10 000 ( N50 ); 30 000+ (maks.) 0,08 0,5


Notowane są czasy przebiegu i wydajność w gigabazie (Gb) na przebieg dla sekwencjonowania pojedynczego końca. Czasy działania i wyjścia w przybliżeniu podwajają się podczas wykonywania sekwencjonowania sparowanego. ‡Średnia długość odczytu dla platform Roche 454 i Helicos Biosciences.

Metody przygotowania szablonów dla NGS

Do przygotowania matryc do reakcji NGS stosuje się dwie metody: matryce amplifikowane pochodzące z pojedynczych cząsteczek DNA i matryce z pojedynczą cząsteczką DNA. W przypadku systemów obrazowania, które nie mogą wykryć pojedynczych zdarzeń fluorescencji, wymagana jest amplifikacja matryc DNA. Trzy najpowszechniejsze metody amplifikacji to emulsyjna PCR (emPCR), toczące się koło i amplifikacja w fazie stałej. Ostateczny rozkład szablonów może być losowy przestrzennie lub na siatce.

Emulsja PCR

W metodach emulsyjnej PCR biblioteka DNA jest najpierw generowana poprzez losową fragmentację genomowego DNA. Jednoniciowe fragmenty DNA (szablony) są przyłączane do powierzchni kulek za pomocą adapterów lub łączników, a jedna kulka jest przyłączana do pojedynczego fragmentu DNA z biblioteki DNA. Powierzchnia kulek zawiera sondy oligonukleotydowe z sekwencjami komplementarnymi do adapterów wiążących fragmenty DNA. Perełki są następnie rozdzielane na kropelki emulsji woda-olej. W wodnej emulsji woda-olej każda z kropelek wychwytujących jedną kulkę jest mikroreaktorem PCR, który wytwarza powielone kopie pojedynczej matrycy DNA.

Nanokulki z siatki toczącego się koła

Po amplifikacji populacji pojedynczych cząsteczek DNA przez amplifikację toczącego się koła w roztworze następuje wychwytywanie na siatce plamek o rozmiarach mniejszych niż unieruchomione DNA.

Generowanie kolonii DNA (amplifikacja mostkowa)

Startery przedni i wsteczny są kowalencyjnie przyłączone z dużą gęstością do szkiełka w komórce przepływowej. Stosunek starterów do matrycy na nośniku określa gęstość powierzchniową amplifikowanych klastrów. Komórka przepływowa jest wystawiona na działanie odczynników do wydłużania opartego na polimerazie , a priming zachodzi, gdy wolny/dystalny koniec zligowanego fragmentu "mostuje" z komplementarnym oligo na powierzchni. Powtarzająca się denaturacja i wydłużanie skutkuje zlokalizowaną amplifikacją fragmentów DNA w milionach oddzielnych miejsc na powierzchni komórki przepływowej. Amplifikacja w fazie stałej wytwarza 100–200 milionów przestrzennie oddzielonych klastrów matrycowych, zapewniając wolne końce, z którymi następnie hybrydyzuje się uniwersalny starter do sekwencjonowania, aby zainicjować reakcję sekwencjonowania. Technologia ta została zgłoszona do patentu w 1997 r. w genewskim instytucie badań biomedycznych Glaxo-Welcome (GBRI) przez Pascala Mayera  [ fr ] , Erica Kawashimę i Laurenta Farinelli, a po raz pierwszy została publicznie zaprezentowana w 1998 r. W 1994 r. Chris Adams a Steve Kron złożył patent na podobną, ale nieklonalną metodę amplifikacji powierzchniowej, nazwaną „amplifikacją mostkową”, zaadaptowaną do amplifikacji klonalnej w 1997 roku przez Churcha i Mitrę.

Szablony jednocząsteczkowe

Protokoły wymagające amplifikacji DNA są często kłopotliwe do wdrożenia i mogą wprowadzać błędy sekwencjonowania. Przygotowanie matryc jednocząsteczkowych jest prostsze i nie wymaga PCR, co może wprowadzać błędy we amplifikowanych matrycach. Sekwencje docelowe bogate w AT i GC często wykazują błąd amplifikacji, co powoduje ich niedostateczną reprezentację w uliniowieniach i złożeniach genomu. Szablony z pojedynczą cząsteczką są zazwyczaj unieruchamiane na stałych podłożach przy użyciu jednego z co najmniej trzech różnych podejść. W pierwszym podejściu przestrzennie rozmieszczone pojedyncze cząsteczki starterów są kowalencyjnie przyłączone do stałego nośnika. Matryca, która jest przygotowywana przez losową fragmentację materiału wyjściowego na małe rozmiary (na przykład ~200-250 bp) i dodanie wspólnych adapterów do końców fragmentów, jest następnie hybrydyzowana z unieruchomionym starterem. W drugim podejściu, przestrzennie rozmieszczone matryce jednocząsteczkowe są kowalencyjnie przyłączane do stałego nośnika przez uruchamianie i wydłużanie jednoniciowych, jednocząsteczkowych matryc z unieruchomionych starterów. Wspólny starter jest następnie hybrydyzowany z matrycą. W każdym podejściu polimeraza DNA może wiązać się z unieruchomioną konfiguracją startera matrycy, aby zainicjować reakcję NGS. Oba powyższe podejścia są wykorzystywane przez firmę Helicos BioSciences. W trzecim podejściu przestrzennie rozmieszczone cząsteczki pojedynczej polimerazy są przyłączone do stałego nośnika, z którym związana jest cząsteczka matrycy będącej starterem. Takie podejście jest stosowane przez Pacific Biosciences. W tej technice można stosować większe cząsteczki DNA (do dziesiątek tysięcy par zasad), aw przeciwieństwie do dwóch pierwszych podejść, trzecie podejście może być stosowane z metodami czasu rzeczywistego, co skutkuje potencjalnie dłuższymi długościami odczytu.

Podejścia do sekwencjonowania

Pirosekwencjonowanie

W 1996 roku Pål Nyrén i jego uczeń Mostafa Ronaghi z Królewskiego Instytutu Technologicznego w Sztokholmie opublikowali swoją metodę pirosekwencjonowania . Pirosekwencjonowanie to nieelektroforetyczna metoda bioluminescencyjna, która mierzy uwalnianie nieorganicznego pirofosforanu poprzez proporcjonalne przekształcenie go w światło widzialne za pomocą szeregu reakcji enzymatycznych. W przeciwieństwie do innych podejść do sekwencjonowania, które wykorzystują zmodyfikowane nukleotydy do zakończenia syntezy DNA, metoda pirosekwencjonowania manipuluje polimerazą DNA poprzez pojedyncze dodanie dNTP w ograniczonych ilościach. Po włączeniu komplementarnego dNTP polimeraza DNA wydłuża starter i zatrzymuje się. Synteza DNA jest ponownie inicjowana po dodaniu następnego komplementarnego dNTP w cyklu dozowania. Kolejność i intensywność pików świetlnych są rejestrowane jako flowgramy, które ujawniają podstawową sekwencję DNA.

Sekwencjonowanie za pomocą odwracalnej chemii terminatorów

To podejście wykorzystuje odwracalne dNTP związane z terminatorem w cyklicznej metodzie, która obejmuje włączanie nukleotydów, obrazowanie fluorescencyjne i rozszczepianie. Znakowany fluorescencyjnie terminator jest obrazowany, gdy każdy dNTP jest dodawany, a następnie odcinany w celu umożliwienia włączenia następnej zasady. Te nukleotydy są chemicznie blokowane tak, że każda inkorporacja jest unikalnym zdarzeniem. Po każdym etapie włączania zasady następuje etap obrazowania, a następnie zablokowana grupa jest usuwana chemicznie w celu przygotowania każdej nici do następnego włączenia przez polimerazę DNA. Ta seria kroków jest kontynuowana przez określoną liczbę cykli, określoną przez ustawienia urządzenia zdefiniowane przez użytkownika. Grupy blokujące 3' zostały pierwotnie pomyślane jako odwrócenie enzymatyczne lub chemiczne. Metoda chemiczna była podstawą maszyn Solexa i Illumina. Sekwencjonowanie za pomocą odwracalnej chemii terminatorów może być cyklem czterokolorowym, takim jak stosowany przez Illumina/Solexa, lub cyklem jednokolorowym, takim jak stosowany przez Helicos BioSciences. Firma Helicos BioSciences zastosowała „wirtualne terminatory”, które są niezablokowanymi terminatorami z drugim analogiem nukleozydowym, który działa jako inhibitor. Terminatory te mają odpowiednie modyfikacje grup terminujących lub hamujących, tak że synteza DNA kończy się po dodaniu pojedynczej zasady.

Sekwencjonowanie przez ligację za pośrednictwem enzymów ligazy

W tym podejściu reakcja wydłużania sekwencji nie jest przeprowadzana przez polimerazy, ale raczej przez ligazę DNA i sondy kodowane jedną zasadą lub sondy kodowane dwiema zasadami. W swojej najprostszej postaci sonda znakowana fluorescencyjnie hybrydyzuje ze swoją sekwencją komplementarną sąsiadującą ze starterem. Następnie dodaje się ligazę DNA w celu połączenia sondy znakowanej barwnikiem ze starterem. Sondy nie poddane ligacji są wypłukiwane, po czym następuje obrazowanie fluorescencyjne w celu określenia tożsamości zligowanej sondy. Cykl można powtórzyć albo stosując rozszczepialne sondy w celu usunięcia barwnika fluorescencyjnego i regeneracji grupy 5'-PO4 do kolejnych cykli ligacji (ligacja łańcuchowa) lub przez usunięcie i hybrydyzację nowego startera z matrycą (ligacja bez łańcucha).

Fosfolinkowane fluorescencyjne nukleotydy lub sekwencjonowanie w czasie rzeczywistym

Pacific Biosciences obecnie prowadzi tę metodę. Metoda sekwencjonowania w czasie rzeczywistym polega na obrazowanie ciągłego wprowadzania do farbowania znakowanych nukleotydów podczas syntezy DNA: cząsteczki polimerazy pojedynczy DNA są przymocowane do dolnej powierzchni poszczególnych czujników światłowodowych zerowej tryb (detektorów ZMW), które może uzyskać informację o sekwencji, przy jednoczesnym phospholinked nukleotydów są włączane do rosnącej nici startera. Pacific Biosciences wykorzystuje unikalną polimerazę DNA, która lepiej integruje fosfolinki nukleotydów i umożliwia ponowne sekwencjonowanie zamkniętych okrągłych matryc. Podczas gdy dokładność pojedynczego odczytu wynosi 87%, dokładność konsensusu została wykazana na poziomie 99,999% przy długości odczytu wielu kilobaz. W 2015 roku Pacific Biosciences wypuściło nowy instrument do sekwencjonowania o nazwie Sequel System, który zwiększa wydajność około 6,5-krotnie.

Zobacz też

Bibliografia