Nowe generacje metod generowania Dna
Sekwencjonowanie dna daje bezosredni dostep do informacji genetycznej:
Badamy strukture, funkcjonowanie i ewolucje genomow
Wyszukiwanie genow zaangazowanych w ksztalcenie danych cech
Pozwala rekonstruowac filogeneze
Ocena bioroznorodnosci dowolnych organizmow
Analiza adaptacji na poziomie genomu
Nauka biomedyczna
NGS na naszych oczach zmienia biologie i medycyne
SEKWENCJONOWANIE SANGERA (A SEKWENCJONOWANIE NOWEJ GENERACJI (NGS))
To technologia, ktora jest uzywana od 30 lat. Polega na dekodowaniu sekwencji dna przez dobudowywanie
nici komplementarnej. Potrzebujemy kawalka sekwencji, ktory jest oddzielony od innych. Starter
sekwencjonujacy+enzymsynteza
Matryca->wysoka temp->obnizamy temp->w 60° polimeraza dobydowywuje kolejne nukleotydy. Fragment
komplementarny do matrycy. Ten proces zachodzi cyklicznie. Na kazdej matrycy zachodzi ten sam proces.
Wszystkie fragmenty o danej dlugosci beda mialy ten sam kolor. Dzieki temu mozemy odczytac ta
sekwencje DNA.
Ten proces jest dokladny, precyzyjny i dobrze poznany.
Wada jest przygotowanie matrycy. Samo sekwencjonowanie – trudne do miniaturyzacji i paralelizacji:
ograniczona wydajnosc.
Projekty genomowe do 2005r. dzieki sekw.Sangera
Human Genome Project (HGP)- cel: genom czlowieka w 1 dzien za 1000$
NGS: roznorodne technologie umozliwiajace sekwencjonowanie zlozonych mieszanin DNA; nie wymaga
indywidualnego przygotowywania matrycy. Zazwyczaj stosunkowo krotkie sekwencje.
Etapy procedury:
1. przygotowanie matrycy: fragmentacja i selekcja fragmentow, przylaczenie adapterow, selekcja
jednoniciowych fragmentow
2. amplifikacja klonalna: produkujemy z kazdej czasteczki tysiace kopii oddzielonych od siebie; nie zawsze
jest konieczna
3. sekwencjonowanie DNA: synteza nici komplementarnej przez polimeraze DNA, rozne sposoby detekcji
(odczytania) sygnalu
TECHNOLOGIA 454: pierwsza technologia: zaczynamy od puli DNAfragmentacja np ultradzwiekami
ligacja adapterow, wybor fragmentow i denaturacja wiazanie do kulek (1 fragment-1 kulka: sa
komplementarne do adapterow)mieszanie z PCR=lancuchowa reakcja polimerazy ktora pozwala robic
kopie fragmentow DNA. PCR w emulsji: efekt taki ze klonalnie namnozony DNA ok. 10^7 kopii
Reakcja sekwencjonujaca: pirosekwencjonowanie. Maszyna sekwenator sklada sie z trzech czesci: miejsce
gdzie klada sie te kulki, system ktory pompuje odczynniki potrzebne do reakcji, system obrazowania ktory
wykrywa sygnal. W 454 sygnalem jest swiatlo.
APS ATP+ lucyferaza (enzym)+lucyferyna= swiatlo
Wada 454: wysoki koszt na zasade
ION TORRENT/ION PROTON: zasada podobna do 454; sygnal jest w postaci zmian PH. Urzadzenie nie
zawiera optyki, nie modyfikuje nukleotydow, elektroniczna detekcja sygnalu. Ta technika pojawila sie w
2010.
ILLUMINA: amplifikacja „mostkowa” na szkielku; nie ma amplifikacji DNA w emulsji lub na kulkach, lecz na
szkielku. DNA przygotowane z przylaczonymi adapterami. Do szkielka przylaczone kowalencyjnie fragmenty
DNA. (
Startery przytwierdzone do szkielkadodanie jednoniciowej matrycy z adapterami na koncachreplikacja
matrycy (powstaje dwuniciowy fragment)denaturacja- matryca przytwierdzona przylaczenie do
starteraelongacja.
Ten proces powtarza sie wielokrotnie. Sekwencjonowanie z odwracalnymi terminatorami: odplukanie
niewykorzystanych terminatorow i obrazowanie; odciecie terminatora z barwnikiem- lancuch gotowy do
kolejnego wydluzenia.
Maszyna Illumina: do 600mld zasad w jednej analizie; mozliwosc odczytow 100par zasad z obu stron
kazdego fragmentu DNA; trwa dosc dlugo 5-11 dni w zaleznosci od dlugosci odczytu; najczestsze bledy:
podstawienia.
Technika dosc tania.
PACIFIC BIOSCIENCES: martwa technologia, droga i wymaga skomplikowanego sprzetu. Pozwala
sekwencjonowac pojedyncze czasteczki DNA. Przylaczenie nukleotydu do lancuchu DNA produkuje blask
swiatla w danym kolorze. W teorii oferuje bardzo dlugie odczyty >1000 zasad.
ZMV na jednorazowych chipach. Wysoka czestosc bledow: ok 15%-zlozona analiza, wielokrotne
sekwencjonowanie.
„OSOBISTE” SEKWENATORY
Tansze, mniejsze wersje urzadzen dostosowane do potrzeb pojedynczych laboratoriow
Mniejsza przepustowosc
Tansze i szybsze
GS Junior Roche(454), MiSeq Illumina, Ion Torrent Life Technologies
PRZYSZLOSC NGS?
Sekwencjonowanie dlugich fragmentow (50-100kb) dramatycznie ulatwiloby skladanie
Nanopory
Mapowanie optyczne
Wiele technologii moze i bedzie koegzystowac
Koszty sekwencjonowania ludzkiego genomu spadaja dramatycznie nie jak opisywane przez Prawo
Moore’a na skali logarytmicznej
POWODZ DANYCH
Ogromne ilosci danych sekwencjonowanych mozna uzyskac szybko i tanio ale nie mozna zachowac
wszystkich danych. Dane generowane sa w konkretnym celu
DO CZEGO PRZYDAJE SIE NGS?
Poznawanie Genomow patogenow
Resekwencjonowanie genomow – choroby, farmakogenomika – zamiast GWAS
Sekwencjonowanie eksomow – wykrywanie rzadkich mutacji w genach kodujacych bialka (ok.1-3%)
Genomy wymarlych gatunkow
Mikrobiom czlowieka i metagenomika
Sekwencjonowanie amplikonow – np. HLA, mutacja somatyczne, nowotwory
Badanie ekspresji – RNAseq – zamiast mikromacierzy
Porownanie: Genomy nowotworowe a „normalne”
ANALIZA DANYCH Z NGS
Sekwencjonowanie de novo – chcemy ustalic sekwencje nukleotydow w genomie dotychczas
niezsekwencjonowanego gatunku – SKLADANIE (assembling)
Resekwencjonowanie – mamy juz sekwencje genomu danego gatunku – MAPOWANIE (mapping)
Potrzebujemy automatyczne sposoby analizy jakosci sekwencji
Basecallers – „nazywaja” zasady i przypisuja do nich jakosc
Phred-scores QV =-10log
10
P; P-prawdopodobienstwo, ze zasada zostala odczytana blednie; 10 – 1/10 ze
bleldnie, 20 – 1/100 ze blednie...
SKLADANIE GENOMOW DE NOVO
Byloby stosunkowo proste gdyby pojedyncze odczyty byly dlugie, sekwencjonowanie odbywalo sie bez
bledow (bledy czeste 0.1-10%) i jesli genomy nie zawieralyby powtorzen. Dlatego skladanie de novo jest
trudne i wymaga ekstra informacji: klonowanie w wektorach o duzej ilosci, biblioteki sparowanych koncow
Sposoby:
-Na zakladke (overlap-based approach9 – problem NP-zupelny – gigantyczny wzrost zloznosci obliczeniowej
wraz ze wzrostem ilosci danych
-Poprzez grafy de Bruijna – duzo latwiejsze obliczeniowo
ELEMENTY POWTARZALNE W GENOMACH powstaja w wyniku duplikacji, moga byc wynikiem
niedoskonalosci rekombinacji mejotycznej (nierowny crossing over) lub aktywnosci elementow rychomych.
Efektem dzialalnosci tych sil jest pojawianie sie paralogow (frammenti simili in più posti nella stessa
sequenza)
MAPOWANIE: odczyty sa przypasowywane do sekwencji referencyjnej – duzo prostsze obliczeniowo,
istnieja wydajne algorytmy; wyniki mapowania w formacie SAM lub BAM
Resekwencjonuje sie po to zeby odkryc ZMIENNOSC: na podstawie roznic w stosunku do referencji
PRZEGLADARKI GENOMOW:
UCSC
ENSEMBL
NCBI Map Viewer
Anotowany genom
Wizualizacja genomow
Dodawanie informacji
PROJEKT ENCODE
Identyfikacja funkcjonalnych elementow w genomie czlowieka
Ogromna role w projekcie odgrywa sekwencjonowanie nowej generacji
3% bialka, 60%transkrypcja
REGIONY WIAZANIA BIALEK – ChIPseq
Identyfikacja miejsc gdzie przyczepiaja sie elementy transkrypcyjne
ADAPTACJE U TYBETANCZYKOW:
Sekwencjonowanie eksomow (>90% genow kodujacych bialka, eksony i czesci intronow) 50 Tybetanczykow
z Chinczykami Han i Dunczykami
1000genomes.org
Projekt
Cel: stworzenie podstaw kompletnej genomiki i genetyki czlowieka; opracowanie narzedzi ktore pozwola
analizowac dane genomowe; zdefiniowanie struktury haplotypowej genomu; medycyna genomowa
ANALIZA EKSPRECJI –RNAseq
Nie wykorzystuje mikromacierzy.
Chcemy sie dowiedziec jaki jest poziom poszczegolnych genow
Izolujemy RNA
Wyciagamy mRNA
RNA przepisujemy na cDNA
Odczytujemy poziom ekspresji sekwencjionowania