Analiza sekwencji biologicznych 1
dr inż. Marcin Pacholczyk
W trakcie dwiczenia poznamy podstawowe metody obliczeniowe służące poszukiwaniu
informacji na temat sekwencji nukleotydów lub aminokwasów. Do podstawowych zadao w analizie
sekwencji należą m.in. identyfikacja genów na podstawie sekwencji, poszukiwanie podobieostwa
genów, określanie jakie białko koduje dany gen czy przewidywanie funkcji genu poprzez
poszukiwanie podobnego genu o znanej funkcji w innym organizmie.
Statystyki sekwencji
Jedną z pierwszych czynności po zsekwencjonowaniu fragmentu DNA jest ustalenie zawartości
nukleotydów w sekwencji oraz określenie położenia tzw. otwartych ramek odczytu (ang. ORFs).
Zadania do wykonania:
Analiza kompozycji sekwencji nukleotydów
1. Na stronie internetowej NCBI (www.ncbi.nlm.nih.gov) znajdz informacje na temat ludzkiego
genomu mitochondrialnego. Można posłużyd się bazą Entrez Genome (homo sapiens
mitochondrion). Strony internetowe można wyświetlad również za pomocą Matlaba
poleceniem web.
2. Pobierz z bazy danych sekwencję ludzkiego genomu mitochondrialnego (polecenie
getgenbank z opcją SequenceOnly). Zmienne utworzone w Matlabie można zapisywad na
dysk poleceniem save oraz odczytywad poleceniem load.
3. Wykreśl gęstości monomerów w genomie za pomocą polecenia ntdensity, a następnie
wyznacz liczbę poszczególnych nukleotydów w sekwencji prostej poleceniem basecount oraz
odwrotnej komplementarnej utworzonej poleceniem seqrcomplement. Odpowiedz na
pytanie czy genom jest AT czy GC bogaty?
4. W celu wizualizacji gęstości nukleotydów na wykresie kołowym wywołaj polecenie
basecount z opcją chart pie.
5. Wyznacz liczbę dimerów w genomie i wykreśl ją na wykresie słupkowym za pomocą
polecenia basecount z opcją chart bar.
6. Określ liczbową zawartośd trinukleotydów (kodonów) w genomie za pomocą polecenia
codoncount
7. Wyświetl informację o wykorzystaniu poszczególnych kodonów w genomie za pomocą
polecenia codonbias z opcją pie
8. Wyznacz ilośd kodonów dla możliwych sześciu ramek odczytu i wykreśl rezultaty na
wykresach typu heat map. Do wykonania zadania wykorzystaj polecenie codoncount z
opcjami frame, reverse i figure.
9. Wyspy CpG, czyli regiony o dużej koncentracji CpG, znajdują się w prawie 70% przypadków w
regionach promotorów ludzkich genów. Wyznacz położenie wysp CpG za pomocą polecenia
cpgisland z opcją plot.
10. Sekwencje DNA często zwierają tzw. fragmenty palindromowi, jednak definicja palindromu
jest tu nieco inna niż w przypadku słów czy zdao. Palindrom w DNA oznacza sekwencje, która
jest tożsama z sekwencją komplementarną czytaną wspak. Często regiony palindromowe
rozpoznawane są przez enzymy restrykcyjne. Znajdz palindromy za pomocą polecenia
palindromes.
S t r o n a | 2
Otwarte ramki odczytu
1. Wyświetl otwarte ramki odczytu za pomocą polecenia seqshoworfs. Gdy porównamy wynik z
liczbą genów podaną na stronie NCBI, okaże się, że liczba genów jest mniejsza od
spodziewanej. Jest to spowodowane faktem, iż w przypadku mitochondriów kręgowców
używany jest kod genetyczny odmienny od standardowego. Wyświetl ponownie otwarte
ramki odczytu, tym razem wykorzystując opcje GeneticCode (Vertebrate Mitochondrial) oraz
alternativestart.
2. W pierwszej ramce odczytu można zauważyd dwie duże otwarte ramki odczytu. Pierwsza
rozpoczynająca się od indeksu 4471 (gen ND2), a druga od 5905 (gen COX1). Jeżeli rezultat
polecenia seqshoworfs zapiszemy do zmiennej, powstanie struktura z indeksami początków i
kooców otwartych ramek odczytu. Znajdz koniec otwartej ramki odczytu zaczynającej się od
indeksu 4471, a następnie sekwencję genu ND2 zapisz w osobnej zmiennej. Można to zrobid
stosując operator zakresu nowa_zmienna= stara_zmienna(indeks_startu:index_stopu).
3. Określ rozkład kodonów w sekwencji ND2 za pomocą polecenia codoncount, a następnie
sprawdz jakich kodonów jest najwięcej i jakim aminokwasom odpowiadają. Można skorzystad
z polecenia aminolookup z opcją code.
4. Przeprowadz translację sekwencji ND2 na sekwencję aminokwasową, stosując polecenie
nt2aa. Nie zapomnij wskazad odpowiedniego kodu genetycznego (Vertebrate Mitochondrial).
5. Spróbuj znalezd na stronie NCBI oficjalną sekwencję aminokwasową dla genu ND2. Czy jest
ona zgodna z wynikiem otrzymanym w Matlabie? Jeżeli znamy tzw. Accesion number
sekwencji można ją pobrad z bazy danych za pomocą polecenia getgenpept.
6. W celu zbadania kompozycji aminokwasowej badanej sekwencji, wyświetl ją na wykresie, za
pomocą polecenia aacount z opcją chart bar.
7. Określ kompozycję atomową i masę molekularną sekwencji, za pomocą poleceo odpowiednio
atomiccomp oraz molweight. Czy jesteś w stanie odnalezd właściwą sekwencję w bazie
danych, wyłącznie na podstawie powyższych danych?
8. Powrórz punkty 2-7 dla genu COX1.
Wykonywanie części zadao może ułatwid graficzna przeglądarka sekwencji biologicznych,
wywoływana poleceniem seqtool.
Sprawozdanie oprócz rozwiązao i odpowiedzi na postawione w instrukcji pytania, powinno zawierad
skrypty Matlaba umożliwiające realizację określonych zadao.
Wyszukiwarka
Podobne podstrony:
Przydatność markerów SNP do analiz materiału biologicznego o wysokim stopniu degradacjiAnaliza alkaloidów cisa pospolitego w materiale biologicznym z zastosowaniem metod chromatograficzny„Genetyczny odcisk palca zwierząt i roślin” Analiza DNA śladów biologicznych niepochodzących od człbiologia analizaAnaliza Matematyczna 2 ZadaniaanalizaANALIZA KOMPUTEROWA SYSTEMÓW POMIAROWYCH — MSEAnaliza stat ścianki szczelnejAnaliza 1Analiza?N Ocena dzialan na rzecz?zpieczenstwa energetycznego dostawy gazu listopad 09Analizowanie działania układów mikroprocesorowychAnaliza samobójstw w materiale sekcyjnym Zakładu Medycyny Sądowej AMB w latach 1990 2003biologiczne skutki promieniowania jonizujacegoAnaliza ekonomiczna spółki Centrum Klima S Aroprm ćwiczenie 6 PROGRAMOWANIE ROBOTA Z UWZGLĘDNIENIEM ANALIZY OBRAZU ARLANGFinanse Finanse zakładów ubezpieczeń Analiza sytuacji ekonom finansowa (50 str )Metody i techniki stosowane w biologii molekularnejwięcej podobnych podstron