FASTA, czyli „z czym to się je”
Zamieszczony przez: Jarek w: Bioinformatyka
Przykładowy plik FASTA
FASTA, to określenie popularnego tekstowego formatu danych (zwanego również Pearson), w którym składuje się informacje dotyczące sekwencji nukleotydowych lub peptydowych. Pojedyncze nukleotydy lub aminokwasy są reprezentowane przez pojedyncze litery.
Standardowy plik fasta może zawierać od jednej do kilkudziesięciu, albo i więcej sekwencji.
Każda z nich poprzedzona jest wierszem rozpoczynającym się od symbolu ”>”. Znak ten ułatwia automatyczne przetwarzanie danych w formacie fasta. Dalej linia ta zawiera nazwę, numer rekordu z bazy danych, z której została pobrana sekwencja, identyfikator, komentarz itp. Następne wiersze składają się na sekwencję. Każdy z nich nie powinien być dłuższy niż 120 znaków. Zazwyczaj mają one około 80 symboli.
Pliki fasta mogą mieć różne rozszerzenia w zależności od przeznaczenia:
fasta, fa, fsa. - ogólne zastosowanie
fna - sekwencje kwasów nukleotydowych
ffn - genomowe sekwencje kodujące
faa - sekwencje aminokwasów
frn - sekwencje niekodującego RNA
Dane w formacie fasta są często wykorzystywane np. w różnorakich przyrównaniach poszczególnych sekwencji. Do tego celu służą programy typu: CLUSTAL, LOCARNA, R-COFFEE, MARNA, ale to już trochę inna bajka.
Przykładowy plik z przyrównaniem sekwencji