background image

 

 

Możliwości 
biblioteki 
Biopython

background image

 

 

Co to jest Biopython?

czytać pliki o rozszerzeniach(*.fasta,*gbk), 

parsować pliki(fasta,gbk) z sekwencjami,

wyszukiwać informacje w biologicznych bazach danych,

pobierać poszczególne informacje oraz całe rekordy z 

biologicznych baz danych,

tworzyć sekwencje DNA, RNA oraz wykonywać na nich różne 

operacje (complement DNA, revers DNA, translation, 

transcryption itp.),

tworzyć konwersje pomiędzy danymi w formacie fasta i gbk,

tworzyć całe rekordy w różnych formatach i zapisywać je do 

plik,

porównywać sekwencje DNA lub sekwencje białkowe,

Biopython

 jest dość popularna biblioteka języka Python, która ma 

ułatwiać codzienną prace bioinformatyka, pozwalając mu na łatwe 
wywoływanie typowych funkcji z poziomu języka skryptowego. Dzięki tej 
bibliotece można:

background image

 

 

Czytanie plików z danymi 
biologicznymi

Po zaimportowaniu odpowiedniego modułu można w łatwy sposób za pomocą
funkcji for przeczytać cały plik o rozszerzeniu fasta lub gbk i wyodrębnić z niego
poszczególne informacje.

Po wykonaniu powyższego kodu powinniśmy otrzymać coś podobnego:

background image

 

 

Wyszukiwanie informacji w 
biologicznych bazach danych

Wykonanie tegoż kawałka kodu spowoduje wypisanie na ekranie nr ID
znalezionych publikacji o Biopython w bazie PubMed.

background image

 

 

Pobieranie całego rekordu z bazy 
danych

background image

 

 

Operacje na sekwencjach

Wynik powinien być następujący:

background image

 

 

Konwersja pomiędzy plikami fasta 
i gbk

Wykonanie tego skryptu powinno zaowocować powstaniem nowego pliku.

Zawartość
folderu 
przed 
wykonaniem
skryptu

Zawartość
tego samego
folderu po 
wykonaniu
skryptu

background image

 

 

Tworzenie nowych rekordów i zapis 
do pliku

Gdy interpreter języka Python przetworzy tenże skrypt powinien
powstać nowy plik o nazwie „my_example.faa”

background image

 

 

Porównywanie sekwencji

 

Jeśli sekwencja pytająca jest zapisana w bazie NCBI to wystarczy podać jej
nr ID aby sprawdzić czy istnieją inne sekwencje do niej podobne.

Alternatywnie jeśli mamy sekwencje DNA na naszym dysku i chcemy sprawdzić
czy istnieją inne podobne sekwencje wystarczy wczytać nasz plik w formacie fasta
i użyć go jako sekwencje pytającą

Należy być ostrożnym podczas używania funkcji result_handle.read() ponieważ można ją wywołać tylko raz,
kolejne wywołanie tej funkcji spowoduje zwrócenie pustego ciągu znaków. Dlatego warto wyniki porówania
zapisać na dysk w formacie XML i potem je poddawać parsowaniu i analizie.

background image

 

 

Bibliografia

[1] Biopython Tutorial and Cookbook

http://biopython.org/DIST/docs/tutorial/Tutorial.html#htoc16

[2] Biopython Wiki

http://www.biopython.org/wiki/Main_P

age

[3] Biopython Documentation

http://www.biopython.org/DIST/docs/a

pi/


Document Outline