Analiza sekwencji biologicznych 1

background image

Analiza sekwencji biologicznych 1

dr inż. Marcin Pacholczyk

W trakcie dwiczenia poznamy podstawowe metody obliczeniowe służące poszukiwaniu

informacji na temat sekwencji nukleotydów lub aminokwasów. Do podstawowych zadao w analizie
sekwencji należą m.in. identyfikacja genów na podstawie sekwencji, poszukiwanie podobieostwa
genów, określanie jakie białko koduje dany gen czy przewidywanie funkcji genu poprzez
poszukiwanie podobnego genu o znanej funkcji w innym organizmie.


Statystyki sekwencji


Jedną z pierwszych czynności po zsekwencjonowaniu fragmentu DNA jest ustalenie zawartości
nukleotydów w sekwencji oraz określenie położenia tzw. otwartych ramek odczytu (ang. ORFs).

Zadania do wykonania:

Analiza kompozycji sekwencji nukleotydów

1. Na stronie internetowej NCBI (www.ncbi.nlm.nih.gov) znajdź informacje na temat ludzkiego

genomu mitochondrialnego. Można posłużyd się bazą Entrez Genome (homo sapiens
mitochondrion). Strony internetowe można wyświetlad również za pomocą Matlaba –
poleceniem web.

2. Pobierz z bazy danych sekwencję ludzkiego genomu mitochondrialnego (polecenie

getgenbank z opcją SequenceOnly). Zmienne utworzone w Matlabie można zapisywad na
dysk poleceniem save oraz odczytywad poleceniem load.

3. Wykreśl gęstości monomerów w genomie za pomocą polecenia ntdensity, a następnie

wyznacz liczbę poszczególnych nukleotydów w sekwencji prostej poleceniem basecount oraz
odwrotnej komplementarnej utworzonej poleceniem seqrcomplement. Odpowiedz na
pytanie czy genom jest AT czy GC bogaty?

4. W celu wizualizacji gęstości nukleotydów na wykresie kołowym wywołaj polecenie

basecount z opcją chart pie.

5. Wyznacz liczbę dimerów w genomie i wykreśl ją na wykresie słupkowym za pomocą

polecenia basecount z opcją chart bar.

6. Określ liczbową zawartośd trinukleotydów (kodonów) w genomie za pomocą polecenia

codoncount

7. Wyświetl informację o wykorzystaniu poszczególnych kodonów w genomie za pomocą

polecenia codonbias z opcją pie

8. Wyznacz ilośd kodonów dla możliwych sześciu ramek odczytu i wykreśl rezultaty na

wykresach typu heat map. Do wykonania zadania wykorzystaj polecenie codoncount z
opcjami frame, reverse i figure.

9. Wyspy CpG, czyli regiony o dużej koncentracji CpG, znajdują się w prawie 70% przypadków w

regionach promotorów ludzkich genów. Wyznacz położenie wysp CpG za pomocą polecenia
cpgisland z opcją plot.

10. Sekwencje DNA często zwierają tzw. fragmenty palindromowi, jednak definicja palindromu

jest tu nieco inna niż w przypadku słów czy zdao. Palindrom w DNA oznacza sekwencje, która
jest tożsama z sekwencją komplementarną czytaną wspak. Często regiony palindromowe
rozpoznawane są przez enzymy restrykcyjne. Znajdź palindromy za pomocą polecenia
palindromes.

background image

S t r o n a

| 2

Otwarte ramki odczytu

1. Wyświetl otwarte ramki odczytu za pomocą polecenia seqshoworfs. Gdy porównamy wynik z

liczbą genów podaną na stronie NCBI, okaże się, że liczba genów jest mniejsza od
spodziewanej. Jest to spowodowane faktem, iż w przypadku mitochondriów kręgowców
używany jest kod genetyczny odmienny od standardowego. Wyświetl ponownie otwarte
ramki odczytu, tym razem wykorzystując opcje GeneticCode (Vertebrate Mitochondrial) oraz
alternativestart.

2. W pierwszej ramce odczytu można zauważyd dwie duże otwarte ramki odczytu. Pierwsza

rozpoczynająca się od indeksu 4471 (gen ND2), a druga od 5905 (gen COX1). Jeżeli rezultat
polecenia seqshoworfs zapiszemy do zmiennej, powstanie struktura z indeksami początków i
kooców otwartych ramek odczytu. Znajdź koniec otwartej ramki odczytu zaczynającej się od
indeksu 4471, a następnie sekwencję genu ND2 zapisz w osobnej zmiennej. Można to zrobid
stosując operator zakresu nowa_zmienna= stara_zmienna(indeks_startu:index_stopu).

3. Określ rozkład kodonów w sekwencji ND2 za pomocą polecenia codoncount, a następnie

sprawdź jakich kodonów jest najwięcej i jakim aminokwasom odpowiadają. Można skorzystad
z polecenia aminolookup z opcją code.

4. Przeprowadź translację sekwencji ND2 na sekwencję aminokwasową, stosując polecenie

nt2aa. Nie zapomnij wskazad odpowiedniego kodu genetycznego (Vertebrate Mitochondrial).

5. Spróbuj znaleźd na stronie NCBI oficjalną sekwencję aminokwasową dla genu ND2. Czy jest

ona zgodna z wynikiem otrzymanym w Matlabie? Jeżeli znamy tzw. Accesion number
sekwencji można ją pobrad z bazy danych za pomocą polecenia getgenpept.

6. W celu zbadania kompozycji aminokwasowej badanej sekwencji, wyświetl ją na wykresie, za

pomocą polecenia aacount z opcją chart bar.

7. Określ kompozycję atomową i masę molekularną sekwencji, za pomocą poleceo odpowiednio

atomiccomp oraz molweight. Czy jesteś w stanie odnaleźd właściwą sekwencję w bazie
danych, wyłącznie na podstawie powyższych danych?

8. Powrórz punkty 2-7 dla genu COX1.


Wykonywanie części zadao może ułatwid graficzna przeglądarka sekwencji biologicznych,
wywoływana poleceniem seqtool.

Sprawozdanie oprócz rozwiązao i odpowiedzi na postawione w instrukcji pytania, powinno zawierad
skrypty Matlaba umożliwiające realizację określonych zadao.


Wyszukiwarka

Podobne podstrony:
Analiza sekwencji biologicznych Nieznany (2)
ANALIZA KOSZTU BIOLOGICZNEGO WYKONYWANEJ PRACY
Przydatność markerów SNP do analiz materiału biologicznego o wysokim stopniu degradacji
06 ANALIZA SEKWENCJI CZLOWIEKA A
analiza, Studia - biologia spec.biochemia UMCS, Biologia komórki i molekularna, Technika histologicz
Instrukcja II rok, Biotechnologia, Współczesne metody analizy materiału biologicznego
Analiza powietrza Biologiczne c Nieznany (2)
8b analiza sekwencyjna białek
ANALIZA KOSZTU BIOLOGICZNEGO WYKONYWANEJ PRACY
Bąbol Pokora, Prośniak Przydatność markerów SNP do analiz materiału biologicznego o wysokim stopniu
8b analiza sekwencyjna białek
8b Analiza sekwencyjna bia
Szybka analiza amfetaminy w ludzkim materiale biologicznym z wykorzystaniem metody mikroekstrakcj
CW 2 Analiza PCK, Turystyka uzdrowiskowa i odnowa biologiczna
„Genetyczny odcisk palca zwierząt i roślin” Analiza DNA śladów biologicznych niepochodzących od czło

więcej podobnych podstron