(Gdy znaleźliśmy sekwencje to nie jest cała sprawa, bo musimy teraz napisać funkcje tej sekwencji. )Kiedy poznano genom drożdży można było też opisać gen, przypisać sekwencji znaczenie genu I określono 6 tysięcy ,z tego dla około połowy można było przypisać punkty ,czyli ten stopień (wydaje się na tyle ważny ,albo oczywisty ,że gdy określamy sekwencje genu to od razu wiemy jak ona wygląda. Otóż nie! To są dwie niezależne sprawy, dwa jakby niezależne problemy. A więc w jaki sposób identyfikuje się sekwencje genu w sekwencji poznanej genomu(otrzymanej sekwencji genomu) . Najprostszym sposobem jest sposób, w którym wykorzystujemy sekwencje białka ,jeśli mamy informacje o 1 rzędowym białku to naturalnie przetransponowanie jej na sekwencje cDNA jest dość proste i wtedy można wyłowić z całej informacji tą która odpowiadania sekwencji cDNA. Jeśli nie posiadamy takiej informacji o 1-rzędowej strukturze białka musimy w jakiś inny sposób tą sekwencje genu określić, jest to proste, otóż i tak i nie. Zacznijmy od tego ,że przypomnijmy sobie iż DNA horrendalne(?) może być odczytane na 6 sposobów jako ramka odczytu . Zarówno 1 jak i 2 nić może być odczytana niezależnie ,dlatego otrzymujemy 3 różne ramki odczytu . Oskanowanie sekwencji czy odczytywanie sekwencji może być robione przez patrzenie na sekwencje ale jest to uciążliwe , więc robi się te analizy przy użyciu technik bioinformatycznych. Zatem jak określić ramkę odczytu? Są tu możliwe 2 różne strategie: 1- dotyczą odczytu ramek genów prokariotycznych ,sytuacja prosta . Otóż z analiz statystycznych można określić jaka jest średnia długość ramki odczytu dla różnych genów np. dla E.coli jest 317 kodonów, dla Saccharomyces 483 a dla człowieka 450 kodony i wychodząc z tej informacji można poszukiwać ramki odczytu w genomach prokariotycznych. Po prostu analizuje się wszystkie możliwe ramki odczytu, rozpoczynając od szukania przesuniecia i szuka się tych które są dostatecznie długie ,ich długość będzie odpowiadała temu co wiemy o ramkach odczytu prokariotycznych. Trzeba zauważyć ,że jak sekwencja nie jest czytana w ramce odczytu to pojawiają się kodony stopu i te kodony są tak nagromadzone iż ramki odczytu które są generowane przez te kodony stopu to te ramki są bardzo krótkie . Jeżeli zaczniemy czytać ramke właściwą to kodon stopu nie pojawia się zbyt często. (cos tam o schemacie) To znaczy ,że mamy coś to nie jest ramką odczytu wobec ramki odczytu która była podana wcześniej bo odpowiednią ramką odczytu E.coli jest 317 kodonów. Takie czytania dokonuje się przy minimalnie 100 kodonach dla genów prokariotycznych. Zwykle te odczyty właśnie prowadzą do takich wyników które są pokazane, przy różnym rozpoczęci odczytywania, otrzymuje się długie i krótkie ramki odczytu. W przypadku prokariotycznego genomu poszukiwanie ramek jest proste, bo pomiędzy genami sekwencje Intergenowe są bardzo krótkie tak że ten punkt informacyjny dodatkowy jest bardzo nieznaczący. Dlatego dla genomu prokariotycznego zwykły skaning wystarcza aby znaleźć właściwe sekwencje genu.
Przy genach eukariotycznych tworzą się przeróżne problemy. Przy schemacie gen eukariotyczny zawiera sekwencje intronowe i eksonowe , jeżeli gen zawiera jeden albo wiecej intronów to oczywiście on nie jest jedną ciągłą ramką odczytu i gdybyśmy po prostu wyszli właściwe trafiając w sekwencje tego eksonu ,z odczytem ramki i …?.bysmy go dalej wchodząc na sekwencje intronowi to co by się stało? Od razu pojawiłyby się jakieś sekwencje kodonu stopu i wniosek byłby błędny bo wnioskowalibyśmy że te sekwencje nie są sekwencjami genu. Do tego jeszcze dochodzi problem z długością intronów i eksonów ,wiele eksonów jest krótszych niż te ramki minimalne odczytu jakich używa się przy analizie prokariotycznej, czyli mają Ponizej 100 kodonów ,a nawet poniżej 50. Pokazywał jakieś ilustracje gdzie na całą sekwencje genu eksony były bardzo krótkie a introny były bardzo duże. Także czytanie na tej ilustracji sekwencji wgłąb intronów prowadzi do kodonów stopu i nieprawdziwych wniosków. Także w jaki sposób jest identyfikowana sekwencja genu eukariotycznego? Są rózne możliwe sposoby, powiemy o kilku z nich:
1-kryterium jest wykorzystywanie kodonów, przypomne ze kodony, nie wszystkie potencjalne kodony dla Danego aminokwasy są w każdym organizmie równie często i chętnie wykorzystywane ,np. dla Leu mamy kodony następujące : TTA, TTG, CTG, CCC, CTC ,CTA ale dla człowieka kodon który najszczesciej jest wykorzystywany jest CTG a bardzo rzadko wykorzystywane są takie jak TTA CTA, z kolei dla Val która ma 4 kodony najczęsciej wykorzystywane są CTG , 4-krotnie częście niż CTA . Dlaczego tak jest? Niewiadomo. A jaka jest rola biologiczna, czemu ewolucja tak pobiegła? Niewiadomo. Natomiast ta informacja ta pozwala na identyfikowanie prawdziwych, realnych sekwencji eksonu, bo ona będą zwierały trójki które są charakterystyczne dla danego organizmu. Gdybyśmy wzieli jakąś sekwencje dowolną z genomu człowieka przetłumaczyli na język kodonów i zauważylibyśmy że w tym tłumaczenia tkwi cały szereg nietypowych kodonów to moglibyśmy stwierdzić że ™łumaczenie jest błędne. W sekwencjach intronowychz któ®ej takie trójki oczywiście nic nie znaczą ,ale mogą istnieć.
Następna informacją który można brac pod uwagę przy identyfikacje genu eukariotycznego są sekwencje rozgraniczające, graniczne pomiędzy intronami i eksonami, na biologii molekularnej była mowa że na granicy pomiędzy intronem na 5’ koncu i 3’ można wyróżnić charakterystyczne sekwencje, które na schemacie są napisane jako sekwencja konsensusowe, czyi uzgodnione uwspólnine. Oczywiście w Realu te sekwencje się różna ,nie są takie konsensusowe ale ją podobne a wiedza na temat tej sekwencji umozliwia czasami na wyekstrahowanie informacji o granicy sekwencji intronowej i eksonowej,zarówno na 5’ i 3’ koncu. w niektórych intronach mamy charakterystyczne elementy wewnątrz ,które pozwalają na rozróżnienie sekwencji intronowej.
Następnym element który może umożliwić identyfikacje sekwencji genu ,są sekwencje regulatorowe. Poznano jest podczas badania funkcji poszczególnych genu, a ta informacje pozwala nam poszukiwać sekwencje regulatorowe w poznanej sekwencji genomu. Oczywiście również te mają wersje realną i wersje konsensusową, które przy pomocy technik bioinformatycznych można wyróżnić w ten sposób znaleźć sekwencje która jest sekwencją promotorową i wiem gdzie go szukać.
Dodatkową strategią może być występowanie wysp CTG , u wielu genomów kręgowców charakterystycznym elementen są wyspy CTG czyli powtarzające jest ciągi reszt C i G ,takie ciągi powtarzają się wielokrotnie i tworzą wyspye które nazywamy mianem wysp CTG. Mają one wyraźnie wiekszy udział niż przeciętna sekwencja i są zlokalizowane około 1000 par zasad od początku sekwencji i np. dla człowieka genomu stwierdzona od 40-50 % genów sąsiaduje z wyspami CTG i dla kręgowców jest charakterystyczny element genomu. Także jeżeli odnajduje się bardzo charakterystyczne sekwencje to można się inspirować do szukania sekwencji genu w sekwencji sąsiadującej w wyspą CTG.
Gdy mamy już za sobą wstępne poszukiwania to możemy przejść do wykonania poszukania homologów, czy analize homologii. Sprowadza się ona do tego iż sekwencja genu jest porównywana z sekwencjami innych genów które są zdeponowane w bazach. Co jest inspiracją ? otóż prosta obserwacja ewolucyjna zgodnie z którą geny których produkty pełnią zbliżone funkcje powinny mieć porównywalne sekwencje, a więc nawet jeżeli porównujemy sekwencje organizmów które są bardzo odmienienie odnajdujemy pewną homologie. Geny homologiczne wywodzą się od wspólnego przodka i z czasem w tych genach w różnych organizmach powstały różnice na skutek presji ewolucyjne która prowadziła do wyspecjalizowania produktu i w ten sposób powstał inny zestaw genów. często przy poszukiwaniu sekwencji homologicznych porównuje się ze sobą nie sekwencje samego genu ,ale również sekwencje białka, 1 rzędową które jest otrzymywana po translacji insilico sekwencji genu. Np. jeżeli sekwencja ma długość około 200 aminokwasów jest identyczna w 30% sekwencji to mówimy że z dużym prawdopodobieństwem porównywane geny w postaci produktów są homologiczne. Porównywanie samych sekwencji DNA często prowadzi do większego podobieństwa niż ma ono rzeczywiście znaczenie które przy porównaniu sekwencji białkowej. Czemu służy analiza homologii? Otóż przejdzmy do sekwencji genomu metod właściwych analizy prokariotycznej czy eukariotycznej ,teraz przeszykujemy bazy w celu znalezienia genów homologicznej jeżeli znajdujemy takie które są homogiczne , tzn jest szansa że sekwencja którą zidentyfikowaliśmy jest sekwencja rzeczywistego genu jest wieksza niż jakbyśmy nie znaleźli żadnego genu. Po prostu nie można oczekiwać żeby gen był wyjątkowy ,właściwy tylko jednemu genowi. Wyobraźmy sobie że znajdujemy ramke odczytu, gen w wyniku analizy homologii i nie ma go w bazach to oznaczyłoby że mamy problem i musimy opublikować to w czasopiśmie jeżeli mamy farta, bo może odkryliśmy nowy gen.
Metoda przeprowadzania analizy homologicznej , jest analiza w której porównujemy ze sobą genomy. Także bierzemy sekwencje genomu którą mamy opisane i porównujemy to z genomem homologicznego organizmu. W prawdzie poszczególne organizmu ewoluowały niezależnie ,ale wiele ze stosowanych porównań genomu ,że w bardzo zbliżonych ewolucyjnie organizmów architektura genomu jest bardzo podobna. Co to znaczy? Tzn że jeżeli porównamy ze sobą 2 bardzo spokrewnione organizmy i popatrzymy jak są dystrybuowane geny ,to naglę w nowo poznawanym genomie (na górze)znajdujemy coś co jest bardzo krótką ramką ,bardzo krótkim genem to długie nie ma odpowiednika w tym genie który był wcześniej pisany , to jest informacja która skutkuje nie tylko podejrzliwość lub odrzuceniem tej sekwencji jako sztucznej wynikającej ze złego sposoby analizy. Do tego jeszcze zauważyć można ,ze struktura intron-ekson też jest bardzo często podoba w genach które występują w pokrewnych organizmach, czyli na tej podstawie też można wnosić że mamy do czynienia z rzeczywistym genem. Ten typ analizy ,o którym mówimy nosi nazwę genomiki porównawcze i w ten sposób stosując ją zdobywano informacje dla różnych typów saccharomyces , te o których mówimy to drożdze piekarskie , jakieś jeszcze typy itp. Porównanie między genomami drożdzy pokazało że mamy doczynienia z autentycznymi ramkami odczytu. Dla drożdży piekarskich jest około 500 ramek odczytu zostało odrzuconych, w wyniki analizy okazało się że są nieobecne.
W jaki sposób określana jest funkcja genu którego funkcji nie znamy. Po opisaniu samego genu musimy określić funkcje. A wiec najprościej jest wtedy gdy mamy gen homologiczny . często jednak jest tak że nie mamy genu homologicznego ,albo istnieje i nie znamy jego funkcji także. O takich genach o których genach funkcji nie można opisać mówimy że są sierotami lub genami sierocymi. a przypisanie funkcji tych genów będzie możliwe wydedukowanie funkcje będzie na podstawie sekwencji trzeciorządowej. Natomiast struktura drugorzedowa ,alfa helisy których beta są nie uporządkowane?… na pdostawie strukturzy pierwszorzędowej nie jest proste istnieje bardzo wiele metod bioinformatycznych , jeżeli jedna sekwencje poddamy analizie to rzadko zdarza się tak że dwa różne narzędzi podają obecność alfa helisy lub struktury beta w tym samym miejscu struktury. Wiec poszukiwanie funkcji wydaje się trudniejsze ,potrzebne są eksperymenty tradycyjne.
Pierwszy typ badań jest na górze schematu jest klasycznym sposobem badania. Mianowicie jest to konwencjonalna analiza genetyczna w której fenotyp jest na początku czyli mamy jakaś obserwacje np. morfologia organizmu czy budowa ,szlak biochemicznych cokolwiek jest zmienione i teraz od fenotypu identyfikujemy mutanty które temu fenotypowi odpowiadają ,na koncu jest znalezienie genu który jest odpowiedzialny za zmieniony fenotyp. Często takie zmienione fenotypy ulegają zmianie po przez techniki które prowadzą do wywołania mutacji przez UV czy działanie czynnikami chemicznymi ,a więc niezależnie od tego czy są naturalne czy wyidukowane ,szukaliśmy określony gen. Czyli gdybyśmy chcieli to podsumować w tym klasycznym badaniu genetycznym celem było znalezieniu genu które były zmienione, zmutowane i których skutkiem mutacji był określonym fenotyp.
Natomiast w genetyczne odwrotnej nie klasycznej, mamy zupełnie odwrotny kierunek wychdzimy od genu i chcemy poznac jego funkcje,następnie ten gen jest mutownych i następnie patrzymy jakie to ma skutki. Droga odwrotna najpierw mutacja później skutek.
Jak można najprościej takie badania przeprowadzić? Jaka jest ich idea? Ilustracja na schemacie powyżej. Przeważnie istotą nie jest wprowadzanie mutacji punktowych (subtelnych ;), tylko po prostu gen jest całkowicie tłumaczony, jego funkcja jest tłumaczona, przez zniszczenie jego sekwencji. Najczęściej przez rekombinację homologiczną. Schemat nie jest dokładny, raczej to zapis idei.
Widzimy chromosomalny DNA(gen) i wektor. Istotą wektora jest to, że po pierwsze on zawiera sekwencje homologiczne, identyczne do sekwencji występujących w genie. Są to z reguły sekwencje na końcach lub zbliżone do końców. Pomiędzy tymi sekwencjami jest fragment, który nie ma nic ma wspólnego z genem, coś jak obce DNA. Istotą eksperymentu jest to, że zachodzi rekombinacja homologiczna, wywiązana przez sekwencje na końcach w wektorze. One odnajdują w komórce sekwencje identyczne w genie i następnie przez rekombinację homologiczną gen jest zastępowany przez sekwencję wektora, przez co nie mamy (czegoś? Chyba produktu) genu. Lecz to nie jest takie proste, jeżeli choćby pomyślimy o organizmach eukariotycznych, które z reguły są diploidalne, to musimy pamiętać o tym, żeby widzieć efekt rzeczywisty wyłączenia funkcji jakiegoś genu, to musimy dokonać wymiany dla obu alleli. Jest to wykonalne (profesor nie kończył tego, powiedział, że jest to bardziej szczegółowe).
Konkretny przykład w przypadku drożdży. Szczególnie chętnie tą wymianę, inaktywację genu można dokonać w komórkach drożdżowych, ponieważ w drożdżach saccharomyces proces rekombinacji homologicznej jest bardzo łatwy do przeprowadzenia, w przeciwieństwie do komórek ludzkich. W drożdżach jest to efektywny proces (zastąpienie genu sekwencją niewłaściwą).
Patrząc na schemat powyżej: można zobaczyć wektor, który jest używany do inaktywacji genu drożdżowego. Widzimy dwa miejsca restrykcyjne R1 i R2. Korzystając z ich można wbudować do wektora fragmenty sekwencji drożdżowych. To są fragmenty homologiczne do wybranego genu, czyli ten który chcemy inaktywować, służy nam jako źródło tych sekwencji. Pojawiają się sekwencję w wektorze. Wg schematu poprzedniego powinna być sekwencja niewspólna z sekwencją inaktywowaną i tak też jest tutaj. Widzimy sekwencję, która jest oznaczona jako genRi jest to sekwencja, która nadaje komórcę drożdżowej odporność na antybiotyk gentamycyny (nie jestem pewna dokładnie) i zauważmy, że gen ten jest pod kontrolą i kółeczko to promotor, który jest aktywny. Nie jest ważne na jaki to antybiotyk jest odporność, ale ważne po co. Otóż sekwencja, która nadaje odporność ma dwie funkcje: jedna to nie jest sekwencja genu, który inaktywujemy, więc funkcja genu zostanie zniesiona. Po drugie sekwencja ta oporności, która może być ekspresjonowana, ze względu na promotor i może zajść rekombinacja i na stałe wbudowany gen o chromosomu, to jest ekspresjonowane białko, które nadaje komórkom cechę oporności. W ten sposób możemy wyselekcjonować komórki, w których pozostała rekombinacja, ponieważ tam, gdzie rekombinacja nie zaszła, komórki na pożywce z antybiotykiem zginą.
Rekombinacja w komórkach drożdżowych jest procesem prostym, łatwym, względnie często występujących porównując np. z komórkami ludzkimi.
Inaktywujemy tylko jeden allel. I nie musi być to inaktywacja letalna. Aby była letalna musiałaby być komórka haploidalna lub diploidalne z dwoma kopiami wymienionymi.
W warunkach głodu drożdże tworzą spory. Z jednej komórki diploidalnej powstają 4 spory i dwie będą miały jedną wersję allelu, a dwie inną. Można je pod mikroskopem wyjąć i umieścić na pożywce. W dwóch mamy zmienioną wersję i w dwóch typu dzikiego. Jeżeli mutacja miała charakter letalny to zobaczymy po pewnym czasie tylko dwie komórki. W ten prosty sposób możemy określić który gen dla komórki drożdżowej jest kluczowy. Genów kluczowych nie było aż tak dużo.
Drugim przykładem inaktywacji genu jest inaktywacja genu w myszach (brak ilustracji). Są one używane chętnie do badań, bo żyją względnie krótko i można obserwować ich cykl życiowy, a przy tym są ssakami. Tutaj wykorzystujemy rekombinację homologiczną oraz z selekcji. Rekombinację przeprowadza się z embrionalnych komórkach macierzystych, które są wszczepiane następnie do macicy myszki, która jest matką zastępczą i ostatecznie otrzymuje się linię, które są homocytotyczne (dwa allele).
Badanie transkryptomu. Transkryptom to efekt ekspresji genów. Jak można go poznać? Złym pomysłem jest sporządzenie biblioteki cDNA.
Jakościowa wiedza, czyli które geny, jakie są transkrybowane, a ilościowa w jakim stopniu są transkrybowane, których więcej, których mniej.
Pierwsza metoda to metoda SAGE (seryjna analiza ekspresji genów). Jest to metoda, w której na początku potrzebujemy próbkę mRNA. mRNA jest przetwarzane przez odwrotną transkryptazę do cDNA. Otrzymujemy dscDNA. Następnie trawimy preparat enzymem, który rozpoznaje sekwencję Alu. Po trawieniu otrzymujemy na końcu cDNA, która jest kompatybilna, komplementarna z linkerem. Linker ma ważną cechę, bo w nim jest umieszczona sekwencja rozpoznawana przez enzym restrykcyjny VF1 (chyba). Enzym jest enzymem restrykcyjnym drugiej klasy, typowym, tylko różni się tym, że trawi w odległości 10-14 nukleotydów, czyli w obrębie cDNA. Otrzymujemy odcinki o znanej długości, średniej koło 12 par zasad.
Istotą tego co do tej pory się stało, jest to żeby otrzymać reprezentacyjne fragmenty, aby nie analizować całej sekwencji cDNA, tylko aby mieć krótkie fragmenty, żeby można je szybko poznać.
Dalej, te uwolnione DNA, są obmywane ze złoża, następnie są ligowane za sobą i dostajemy długą strukturę, reprezentujące poszczególne transkrypty. Taki fragment jest sekwencjowany. Po tym mamy podzielone fragmenty, bo oddzielają je fragmenty enzymu restrykcyjnego. Po zsekencjonowaniu identyfikujemy transkrypty. Możemy też wyciągnąć wnioski o ilośc, lecz są to informacje względne.
Kolejna metoda: metoda mikromacierzy. Po raz pierwszy wykorzystana przy transkrypcie drożdży. Używamy immbilizowanego cDNA i próbki genów, które są hybrydyzowane. Następnie przy odpowiedniej długości fali, możemy zobaczyć, gdzie hybrydyzuje z odpowiednią nicią komplementarną cDNA.
Pokrewną techniką jest technika DNA chipy. Wykorzystywana jest głównie w przypadku złożonych transkryptów. Fragmenty genów są zastępowane róznymi oligonukleotydami. Synteza tego jest prowadzona bezpośrednio na płytce krzemowej gdzie w określone pozycje są nanoszone sekwencje oligonukleotydów odpowiadające sekwencjom określonych genów. Można tak umieścić nawet koło 20-30 tys oligonukleotydów. Można tutaj też wyciągnąć wnioski odnośnie różnic.