Analiza sekwencji biologicznych 1
dr inż. Marcin Pacholczyk
W trakcie dwiczenia poznamy podstawowe metody obliczeniowe służące poszukiwaniu
informacji na temat sekwencji nukleotydów lub aminokwasów. Do podstawowych zadao w analizie
sekwencji należą m.in. identyfikacja genów na podstawie sekwencji, poszukiwanie podobieostwa
genów, określanie jakie białko koduje dany gen czy przewidywanie funkcji genu poprzez
poszukiwanie podobnego genu o znanej funkcji w innym organizmie.
Statystyki sekwencji
Jedną z pierwszych czynności po zsekwencjonowaniu fragmentu DNA jest ustalenie zawartości
nukleotydów w sekwencji oraz określenie położenia tzw. otwartych ramek odczytu (ang. ORFs).
Zadania do wykonania:
Analiza kompozycji sekwencji nukleotydów
1. Na stronie internetowej NCBI (www.ncbi.nlm.nih.gov) znajdź informacje na temat ludzkiego
genomu mitochondrialnego. Można posłużyd się bazą Entrez Genome (homo sapiens
mitochondrion). Strony internetowe można wyświetlad również za pomocą Matlaba –
poleceniem web.
2. Pobierz z bazy danych sekwencję ludzkiego genomu mitochondrialnego (polecenie
getgenbank z opcją SequenceOnly). Zmienne utworzone w Matlabie można zapisywad na
dysk poleceniem save oraz odczytywad poleceniem load.
3. Wykreśl gęstości monomerów w genomie za pomocą polecenia ntdensity, a następnie
wyznacz liczbę poszczególnych nukleotydów w sekwencji prostej poleceniem basecount oraz
odwrotnej komplementarnej utworzonej poleceniem seqrcomplement. Odpowiedz na
pytanie czy genom jest AT czy GC bogaty?
4. W celu wizualizacji gęstości nukleotydów na wykresie kołowym wywołaj polecenie
basecount z opcją chart pie.
5. Wyznacz liczbę dimerów w genomie i wykreśl ją na wykresie słupkowym za pomocą
polecenia basecount z opcją chart bar.
6. Określ liczbową zawartośd trinukleotydów (kodonów) w genomie za pomocą polecenia
codoncount
7. Wyświetl informację o wykorzystaniu poszczególnych kodonów w genomie za pomocą
polecenia codonbias z opcją pie
8. Wyznacz ilośd kodonów dla możliwych sześciu ramek odczytu i wykreśl rezultaty na
wykresach typu heat map. Do wykonania zadania wykorzystaj polecenie codoncount z
opcjami frame, reverse i figure.
9. Wyspy CpG, czyli regiony o dużej koncentracji CpG, znajdują się w prawie 70% przypadków w
regionach promotorów ludzkich genów. Wyznacz położenie wysp CpG za pomocą polecenia
cpgisland z opcją plot.
10. Sekwencje DNA często zwierają tzw. fragmenty palindromowi, jednak definicja palindromu
jest tu nieco inna niż w przypadku słów czy zdao. Palindrom w DNA oznacza sekwencje, która
jest tożsama z sekwencją komplementarną czytaną wspak. Często regiony palindromowe
rozpoznawane są przez enzymy restrykcyjne. Znajdź palindromy za pomocą polecenia
palindromes.
S t r o n a
| 2
Otwarte ramki odczytu
1. Wyświetl otwarte ramki odczytu za pomocą polecenia seqshoworfs. Gdy porównamy wynik z
liczbą genów podaną na stronie NCBI, okaże się, że liczba genów jest mniejsza od
spodziewanej. Jest to spowodowane faktem, iż w przypadku mitochondriów kręgowców
używany jest kod genetyczny odmienny od standardowego. Wyświetl ponownie otwarte
ramki odczytu, tym razem wykorzystując opcje GeneticCode (Vertebrate Mitochondrial) oraz
alternativestart.
2. W pierwszej ramce odczytu można zauważyd dwie duże otwarte ramki odczytu. Pierwsza
rozpoczynająca się od indeksu 4471 (gen ND2), a druga od 5905 (gen COX1). Jeżeli rezultat
polecenia seqshoworfs zapiszemy do zmiennej, powstanie struktura z indeksami początków i
kooców otwartych ramek odczytu. Znajdź koniec otwartej ramki odczytu zaczynającej się od
indeksu 4471, a następnie sekwencję genu ND2 zapisz w osobnej zmiennej. Można to zrobid
stosując operator zakresu nowa_zmienna= stara_zmienna(indeks_startu:index_stopu).
3. Określ rozkład kodonów w sekwencji ND2 za pomocą polecenia codoncount, a następnie
sprawdź jakich kodonów jest najwięcej i jakim aminokwasom odpowiadają. Można skorzystad
z polecenia aminolookup z opcją code.
4. Przeprowadź translację sekwencji ND2 na sekwencję aminokwasową, stosując polecenie
nt2aa. Nie zapomnij wskazad odpowiedniego kodu genetycznego (Vertebrate Mitochondrial).
5. Spróbuj znaleźd na stronie NCBI oficjalną sekwencję aminokwasową dla genu ND2. Czy jest
ona zgodna z wynikiem otrzymanym w Matlabie? Jeżeli znamy tzw. Accesion number
sekwencji można ją pobrad z bazy danych za pomocą polecenia getgenpept.
6. W celu zbadania kompozycji aminokwasowej badanej sekwencji, wyświetl ją na wykresie, za
pomocą polecenia aacount z opcją chart bar.
7. Określ kompozycję atomową i masę molekularną sekwencji, za pomocą poleceo odpowiednio
atomiccomp oraz molweight. Czy jesteś w stanie odnaleźd właściwą sekwencję w bazie
danych, wyłącznie na podstawie powyższych danych?
8. Powrórz punkty 2-7 dla genu COX1.
Wykonywanie części zadao może ułatwid graficzna przeglądarka sekwencji biologicznych,
wywoływana poleceniem seqtool.
Sprawozdanie oprócz rozwiązao i odpowiedzi na postawione w instrukcji pytania, powinno zawierad
skrypty Matlaba umożliwiające realizację określonych zadao.