Bioinformatyka
Kolokwium 1, grupa D
11.05.2015
Imię: x
Nazwisko: x
Instrukcje
Wypełnij odpowiednie miejsca w niniejszym pliku odpowiedziami. Zmień nazwę pliku według schematu:
Imie_Nazwisko_bioinf_kolokwium1_grupa_D
Plik wyślij na adres mbereta@pk.edu.pl
Zadania
Za jakiego organizmu pochodzi, jaki gen i jakie białko koduje następujący fragment sekwencji:
GTGTTTACCCTTAATTTATTCCTGTATATTATTCCAATCCTATTAGCAGTAGCTTTTCTA
ACTTTAATCGAACGAAAAGTTCTAGGTTATATACAATTTCGAAAAGGGCCAAACATTGTA
GGACCATATGGATTACTTCAACCATTCGCTGATGCAATTAAATTATTCACTAAAGAACCT
CTTCAACCTCTTACATCTTCCTGATCTATATTTATCTTAGCCCCAATTTTAGCACTTACC
ATTGCCCTAACAATCTGAACCCCACTACCCATACCAAATGCACTTCTAGACTTAAACCTG
GGTCTATTGTTTATTCTCTCTATATCAGGCCTATCAGTATACTCGATCCTATGATCAGGA
TGAGCATCCAATTCAAAATACGCTTTAGTAGGAGCTCTACGAGCTGTAGCCCAAACAATC
TCATATGAAGTTACACTAGCAATTATTCTATTATCCGTTATACTAATTAATGGTTCTTAC
ACCATAAAAACTCTTTCTATCACACAAGAAAACTTATGACTGATTTTTACAACATGACCT
TTAGCTATAATATGATTTATCTCAACCCTAGCAGAGACTAATCGAGCTCCCTTTGACTTA
ACAGAAGGGGAATCTGAACTAGTATCAGGATTTAACGTTGAATACGCATCAGGCCCATTT
GCCATATTCTTTCTAGCAGAATATGCTAATATCATCGCCATAAATGCCTTAACAACTATT
TTATTTTTAGGTTCATCTATAAGCCTATTAACTCCTAATATTAATACCTTAATTTTTGTG
ATCAAAACTCTTCTACTAACTATCACATTCTTATGAATCCGAGCTTCGTATCCTCGCTTT
CGATACGACCAACTTATATACCTCCTATGAAAAAATTTCTTACCTTTAACATTAGCTCTA
TGCCTATGATTTATCTCTATACCAATTTCAATGTCATGCATTGCGCCACAAATATAA
Odpowiedź:
Organizm: _______________
Gen: ____________________
Białko: __________________
Z archiwum ENA pobierz rekord o numerze dostępu AF193276. Wczytaj plik do programu UGENE. Odpowiedz na pytania
Ile razy w sekwencji genu pol występuje wzorzec „GGGAG”. Ewentualne wyniki wyszukiwania tego wzorca nie powinny na siebie zachodzić. 5
Na jakiej pozycji zaczyna się ostatnie wystąpienie wzorca z punktu a? 3118
Jaka jest długość najdłuższego powtarzającego się wzorca w genie tat? 6
Ile jest takich powtórzeń wzorców? 1091
Wypisz pierwszy i ostatni z tych powtarzających się wzorców: ATGGAG oraz GACCCG
Wypisz kolejno wszystkie odległości w jakich pojawiają się powtórzenia znalezione w punkcie d: _______________
Przeanalizuj sekwencje z pliku zad3_sekwencje.fasta.
Z której sekwencji (sekwencja_2, sekwencja_3 czy sekwencja_4) pochodzi krótsza sekwencja sekwencja_1? 3
Jaka zmiana/zmiany została wprowadzona w sekwencji_1 w stosunku do dłuższej oryginalnej sekwencji, wskazanej jako odpowiedź w punkcie (a) (mutacja/insercja/delecja/inna)? delecja
Jakiego fragmentu/fragmentów dotyczy punkt (b)? CGAAACC
Wykorzystaj dane z pliku CytBProt.txt oraz algorytm dopasowania pary sekwencji Smitha-Watermana ze strony http://www.ebi.ac.uk/Tools/psa/ (macierz BLOSUM62, kara za utworzenie przerwy 10, kara za wydłużenie przerwy 0.5) i odpowiedz na pytanie: z sekwencji kodującej białko jakiego organizmu z największym prawdopodobieństwem pochodzi poniższy fragment sekwencji aminokwasów:
HIGRGLYYTSYLHESTWNIGVILMATAFGGYVLPWGQMSFWGAAVITNLLSATPYVGSTVVPWIWGGPSVDNATLALHFLLPFALLAS
Psa
Rekina
Aligatora
Żaby
Odpowiedź: c. Aligatora
Dla najlepszego dopasowania, jaka jest:
Jakość dopasowania: 441.0
Długość lokalnego dopasowania: 96
Liczba wstawionych przerw: 8
Wartość procentowego podobieństwa: 89.6%
Sekwencja z pliku zad5_sekwencja.fasta zawiera nieznany gen. Wiadomo, że jest on podobny do genu pewnego organizmu, którego kompletny mitochondrialny genom znajduje się w bazie.
Znajdź w bazie ENA rekord, o którym mowa powyżej. Jaki jest jego numer dostępu? _____
Do jakiego genu ze znalezionego rekordu najbardziej jest podobny nieznany gen? CAB4
Jaka jest długość genu znalezionego w punkcie b? 525 bp
Wykonaj dopasowanie nieznanego genu oraz genu znalezionego w punkcie b. Użyj wersji globalnej algorytmu dopasowania pary sekwencji przy karze za rozpoczęcie przerwy 5 oraz karze za wydłużenie przerwy 0.5. Nie uwzględniaj kar za przerwy na początku oraz końcu dopasowania. Jakie są:
Jakość otrzymanego dopasowania 2390.5
Liczba wstawionych przerw 34
Długość dopasowania 528
Wartość procentowego podobieństwa 92,8%
Wykonaj dopasowanie poniższej sekwencji oraz translacji genu znalezionego w punkcie b. Użyj wersji lokalnej algorytmu dopasowania pary sekwencji przy karze za rozpoczęcie przerwy 5 oraz karze za wydłużenie przerwy 1.0. Użyj macierzy punktacji BLOSUM90.
MMQLMLYASTLITSFIFIQMNHPLAMGLMLLIQTIQICMLTGLMAKSFWFSYILFLIFLGGMKLTTILVLFIYVTSLASNEMFSLSMSLFIFSMILIINLMTILILLDKSSISFFIQNNEMQSIYNLNMFLQENSLNLQKLYNYPTNLMNYLLITLIAVVKITKLFYGPLRPMN
Jakie są:
Jakość otrzymanego dopasowania 953.0
Liczba wstawionych przerw 20
Długość dopasowania 184
Wartość procentowego podobieństwa 89,1%