Możliwości
biblioteki
Biopython
Co to jest Biopython?
czytać pliki o rozszerzeniach(*.fasta,*gbk),
parsować pliki(fasta,gbk) z sekwencjami,
wyszukiwać informacje w biologicznych bazach danych,
pobierać poszczególne informacje oraz całe rekordy z
biologicznych baz danych,
tworzyć sekwencje DNA, RNA oraz wykonywać na nich różne
operacje (complement DNA, revers DNA, translation,
transcryption itp.),
tworzyć konwersje pomiędzy danymi w formacie fasta i gbk,
tworzyć całe rekordy w różnych formatach i zapisywać je do
plik,
porównywać sekwencje DNA lub sekwencje białkowe,
jest dość popularna biblioteka języka Python, która ma
ułatwiać codzienną prace bioinformatyka, pozwalając mu na łatwe
wywoływanie typowych funkcji z poziomu języka skryptowego. Dzięki tej
bibliotece można:
Czytanie plików z danymi
biologicznymi
Po zaimportowaniu odpowiedniego modułu można w łatwy sposób za pomocą
funkcji for przeczytać cały plik o rozszerzeniu fasta lub gbk i wyodrębnić z niego
poszczególne informacje.
Po wykonaniu powyższego kodu powinniśmy otrzymać coś podobnego:
Wyszukiwanie informacji w
biologicznych bazach danych
Wykonanie tegoż kawałka kodu spowoduje wypisanie na ekranie nr ID
znalezionych publikacji o Biopython w bazie PubMed.
Pobieranie całego rekordu z bazy
danych
Operacje na sekwencjach
Wynik powinien być następujący:
Konwersja pomiędzy plikami fasta
i gbk
Wykonanie tego skryptu powinno zaowocować powstaniem nowego pliku.
Zawartość
folderu
przed
wykonaniem
skryptu
Zawartość
tego samego
folderu po
wykonaniu
skryptu
Tworzenie nowych rekordów i zapis
do pliku
Gdy interpreter języka Python przetworzy tenże skrypt powinien
powstać nowy plik o nazwie „my_example.faa”
Porównywanie sekwencji
Jeśli sekwencja pytająca jest zapisana w bazie NCBI to wystarczy podać jej
nr ID aby sprawdzić czy istnieją inne sekwencje do niej podobne.
Alternatywnie jeśli mamy sekwencje DNA na naszym dysku i chcemy sprawdzić
czy istnieją inne podobne sekwencje wystarczy wczytać nasz plik w formacie fasta
i użyć go jako sekwencje pytającą
Należy być ostrożnym podczas używania funkcji result_handle.read() ponieważ można ją wywołać tylko raz,
kolejne wywołanie tej funkcji spowoduje zwrócenie pustego ciągu znaków. Dlatego warto wyniki porówania
zapisać na dysk w formacie XML i potem je poddawać parsowaniu i analizie.
Bibliografia
[1] Biopython Tutorial and Cookbook
http://biopython.org/DIST/docs/tutorial/Tutorial.html#htoc16
[2] Biopython Wiki
http://www.biopython.org/wiki/Main_P
age
[3] Biopython Documentation
http://www.biopython.org/DIST/docs/a
pi/