bioinf, bioinf kol 1 grupaD (1)

Bioinformatyka

Kolokwium 1, grupa D

11.05.2015

Imię:___x

Nazwisko:___x

Instrukcje

Wypełnij odpowiednie miejsca w niniejszym pliku odpowiedziami. Zmień nazwę pliku według schematu:

Imie_Nazwisko_bioinf_kolokwium1_grupa_D

Plik wyślij na adres mbereta@pk.edu.pl

Zadania

Za jakiego organizmu pochodzi, jaki gen i jakie białko koduje następujący fragment sekwencji:

GTGTTTACCCTTAATTTATTCCTGTATATTATTCCAATCCTATTAGCAGTAGCTTTTCTA

ACTTTAATCGAACGAAAAGTTCTAGGTTATATACAATTTCGAAAAGGGCCAAACATTGTA

GGACCATATGGATTACTTCAACCATTCGCTGATGCAATTAAATTATTCACTAAAGAACCT

CTTCAACCTCTTACATCTTCCTGATCTATATTTATCTTAGCCCCAATTTTAGCACTTACC

ATTGCCCTAACAATCTGAACCCCACTACCCATACCAAATGCACTTCTAGACTTAAACCTG

GGTCTATTGTTTATTCTCTCTATATCAGGCCTATCAGTATACTCGATCCTATGATCAGGA

TGAGCATCCAATTCAAAATACGCTTTAGTAGGAGCTCTACGAGCTGTAGCCCAAACAATC

TCATATGAAGTTACACTAGCAATTATTCTATTATCCGTTATACTAATTAATGGTTCTTAC

ACCATAAAAACTCTTTCTATCACACAAGAAAACTTATGACTGATTTTTACAACATGACCT

TTAGCTATAATATGATTTATCTCAACCCTAGCAGAGACTAATCGAGCTCCCTTTGACTTA

ACAGAAGGGGAATCTGAACTAGTATCAGGATTTAACGTTGAATACGCATCAGGCCCATTT

GCCATATTCTTTCTAGCAGAATATGCTAATATCATCGCCATAAATGCCTTAACAACTATT

TTATTTTTAGGTTCATCTATAAGCCTATTAACTCCTAATATTAATACCTTAATTTTTGTG

ATCAAAACTCTTCTACTAACTATCACATTCTTATGAATCCGAGCTTCGTATCCTCGCTTT

CGATACGACCAACTTATATACCTCCTATGAAAAAATTTCTTACCTTTAACATTAGCTCTA

TGCCTATGATTTATCTCTATACCAATTTCAATGTCATGCATTGCGCCACAAATATAA

Odpowiedź:

Organizm: _______________

Gen: ____________________

Białko: __________________

Z archiwum ENA pobierz rekord o numerze dostępu AF193276. Wczytaj plik do programu UGENE. Odpowiedz na pytania

Ile razy w sekwencji genu pol występuje wzorzec „GGGAG”. Ewentualne wyniki wyszukiwania tego wzorca nie powinny na siebie zachodzić. _5_____
Na jakiej pozycji zaczyna się ostatnie wystąpienie wzorca z punktu a? _3118________
Jaka jest długość najdłuższego powtarzającego się wzorca w genie tat? ____11__
Ile jest takich powtórzeń wzorców? _____4____
Wypisz pierwszy i ostatni z tych powtarzających się wzorców: ___CAGGAAGCACT_______oraz ____GAATAAAACAA______
Wypisz kolejno wszystkie odległości w jakich pojawiają się powtórzenia znalezione w punkcie d: ___5467-5477, 6978-6988 / 5496-5506, 6954-6964 / 5528-5538, 5705-5715 / 6481-6491, 6657-6667____________

Przeanalizuj sekwencje z pliku zad3_sekwencje.fasta.

Z której sekwencji (sekwencja_2, sekwencja_3 czy sekwencja_4) pochodzi krótsza sekwencja sekwencja_1? _____sekwencja_3______
Jaka zmiana/zmiany została wprowadzona w sekwencji_1 w stosunku do dłuższej oryginalnej sekwencji, wskazanej jako odpowiedź w punkcie (a) (mutacja/insercja/delecja/inna)? ________delecja__
Jakiego fragmentu/fragmentów dotyczy punkt (b)? ____CGAAACC sekwencji_3 do A sekwencji_1_______

Wykorzystaj dane z pliku CytBProt.txt oraz algorytm dopasowania pary sekwencji Smitha-Watermana ze strony http://www.ebi.ac.uk/Tools/psa/ (macierz BLOSUM62, kara za utworzenie przerwy 10, kara za wydłużenie przerwy 0.5) i odpowiedz na pytanie: z sekwencji kodującej białko jakiego organizmu z największym prawdopodobieństwem pochodzi poniższy fragment sekwencji aminokwasów:

HIGRGLYYTSYLHESTWNIGVILMATAFGGYVLPWGQMSFWGAAVITNLLSATPYVGSTVVPWIWGGPSVDNATLALHFLLPFALLAS

Psa
Rekina
Aligatora
Żaby

Odpowiedź: ______C. aligator_____

Dla najlepszego dopasowania, jaka jest:

Jakość dopasowania: ______441.0_____
Długość lokalnego dopasowania: _____96_____
Liczba wstawionych przerw: _____8________
Wartość procentowego podobieństwa: _____89,6%________

Sekwencja z pliku zad5_sekwencja.fasta zawiera nieznany gen. Wiadomo, że jest on podobny do genu pewnego organizmu, którego kompletny mitochondrialny genom znajduje się w bazie.

Znajdź w bazie ENA rekord, o którym mowa powyżej. Jaki jest jego numer dostępu? ____AJ242872_
Do jakiego genu ze znalezionego rekordu najbardziej jest podobny nieznany gen? _____CAB4509__
Jaka jest długość genu znalezionego w punkcie b? __525____
Wykonaj dopasowanie nieznanego genu oraz genu znalezionego w punkcie b. Użyj wersji globalnej algorytmu dopasowania pary sekwencji przy karze za rozpoczęcie przerwy 5 oraz karze za wydłużenie przerwy 0.5. Nie uwzględniaj kar za przerwy na początku oraz końcu dopasowania. Jakie są:

Jakość otrzymanego dopasowania __2390.5_
Liczba wstawionych przerw __34_
Długość dopasowania _528__
Wartość procentowego podobieństwa __92,8%_

Wykonaj dopasowanie poniższej sekwencji oraz translacji genu znalezionego w punkcie b. Użyj wersji lokalnej algorytmu dopasowania pary sekwencji przy karze za rozpoczęcie przerwy 5 oraz karze za wydłużenie przerwy 1.0. Użyj macierzy punktacji BLOSUM90.

MMQLMLYASTLITSFIFIQMNHPLAMGLMLLIQTIQICMLTGLMAKSFWFSYILFLIFLGGMKLTTILVLFIYVTSLASNEMFSLSMSLFIFSMILIINLMTILILLDKSSISFFIQNNEMQSIYNLNMFLQENSLNLQKLYNYPTNLMNYLLITLIAVVKITKLFYGPLRPMN

Jakie są:

Jakość otrzymanego dopasowania __953.0_
Liczba wstawionych przerw __20_
Długość dopasowania _184__
Wartość procentowego podobieństwa __89,1%_

Wyszukiwarka