5. CHARAKTERYSTYKA SEKWENCJI DNA W CHROMOSOMIE.
Zlozonosc kinetyczna. Badajac sklad DNA bardzo wczesnie stwierdzono, ze w chromosomach mozna znalezc « elementy » (ciagi nukleotydow) unikalne, oraz takie, ktore powtarzaja sie wielokrotnie. Badania powtarzalnosci sekwencji prowadzono oznaczajac szybkosc renaturacji DNA tzn. reakcji polegajacej na odtwarzaniu podwojnej spirali z jednoniciowych czasteczek otrzymanych przez denaturacje pocietego na krotkie segmenty, DNA. Renaturacja zachodzi tym szybciej im stezenie czasteczek o sekwencjach komplementarnych w roztworze jest wieksze. Maja one wtedy wieksza szanse zderzenia sie. W roztworze DNA stezenie fragmentow niosacych « elementy » obecne w chromosomie w wielu kopiach jest wieksze niz stezenie fragmentow unikalnych. W wyniku tego krzywa przedstawiajaca postep renaturacji ludzkiego DNA w czasie (kinetyke renaturacji) jest multimodalna tzn. zawiera szereg skladowych kinetycznych, z ktorych kazda odpowiada renaturacji pewnej frakcji genomu o okreslonej stalej reakcji renaturacji (ryc. 5 - 1). Stala ta jest wyrazana zwykle w postaci Cot1/2. Rowna sie ona iloczynowi czasu « t » potrzebnego do zrenaturowania polowy czasteczek danej frakcji DNA, w standardowych warunkach temperatury, stezenia soli i pH, oraz stezenia poczatkowego DNA « Co ». Cot1/2 wynosi kilka sekund dla sekwencji powtarzajacych sie w genomie wielokrotnie a kilka dni dla sekwencji unikalnych. Istnieje szereg roznych typow sekwencji powtarzajacych sie. Prokariota zawieraja niewielka ilosc (kilka procent) takich sekwencji, w genomach zwierzat i roslin sekwencje powtarzajace stanowia niekiedy glowna mase chromosomu, a jednokomorkowe Eukariota takie jak drozdze S. cerevisiae zajmuja pozycje posrednia. Analiza kinetyki renaturacji ma dzis glownie wartosc historyczna, ale pozwolila ona w swoim czasie zidentyfikowac glowne skladniki genomu.
Sekwencje powtarzajace sie moga miec rozna dlugosc jednostki powtarzalnosci : od jednej pary zasad (pz) do tysiecy (kilobase, kb) a nawet milionow (megabase, Mb) par zasad. Roznia sie rowniez czestoscia powtorzen, organizacja (sekwencje rozproszone lub zorganizowane w bloki), geneza i funkcja (ryc. 5 - 2, 5 - 5).
Sekwencje unikalne. Podzial na sekwencje powtarzajace sie i unikalne jest w pewnym stopniu arbitralny. Podczas ewolucji pewne segmenty chromosomu ulegaly duplikacji i laczyly sie z innymi segmentami. Niekiedy kopie duplikowanych segmentow zmienily funkcje, akumulowaly mutacje niezaleznie od siebie, na skutek czego w obecnie zyjacych organizmach sa bardzo rozne i z trudem mozna poznac, ze sa one spokrewnione. W szczegolnosci uwaza sie np. ze geny kodujace bialka, ktorych jest w genomie ludzkim kilkadziesiat tysiecy sa (z pewnymi wyjatkami) sekwencjami unikalnymi mimo, ze powstaly wszystkie z kilkuset egzonow, ktore ulegaly duplikacjom, mutacjom punktowym i « tasowaniu », laczac sie podczas ewolucji w rozne kombinacje.
Amplikony. Proces duplikacji czy multiplikacji segmentow genomu zdarza sie dosc czesto. W komorkach organizmow wyzszych hodowanych przez kilka pokolen w obecnosci zwiazkow toksycznych stwierdza sie niekiedy na chromosomach obecnosc jednorodnie barwiacych sie segmentow HSR (homogenously staining regions) nieobecnych w komorkach wyjsciowych. Pojawiaja sie rowniez w nich acentryczne minichromosomy DM (double minute). HSR i DM zawieraja wielka ilosc kopii duzych segmentow DNA o dlugosci 1Mb lub dluzszych, w obrebie ktorych znajduje sie zazwyczaj gen, ktorego ekspresja pozwala na zneutralizowanie efektu czynnika toksycznego obecnego w medium. Te struktury zwane sa amplikonami. W komorkach nowotworow traktowanych lekami antynowotworowymi pojawiaja sie amplikony zawierajace gen kodujacy MRP (multidrug resistance-associated protein), co pociaga za soba synteze wielu kopii czasteczek bialka wywolujacego opornosc na te leki. W komorkach obserwuje sie czasem pojawianie sie regionow amplifikowanych zawierajacych onkogeny co przyczynia sie do niekontrolowanej proliferacji tych komorek. Amplifikacja zachodzi albo poprzez wielokrotna inicjacje replikacji w jednym lub kilku sasiadujacych replikonach podczas jednego cyklu komorkowego, badz przez niewzajemny crossing-over. Mozna sadzic, ze podobny proces byl rowniez zrodlem powstania w chromosomach regionow zawierajacych wielka ilosc kopii genow kodujacych rybosomalny RNA oraz histony.
Satelity. Sposrod wielu klas sekwencji powtarzajacych sie pierwsze zostaly opisane sekwencje satelitarne. Obserwowano je w postaci drobnych frakcji towarzyszacych glownej frakcji genomu podczas wirowania w roztworach soli metali ciezkich (ryc. 5 - 3, 5 - 4). Wystepuja praktycznie u wszystkich organizmow wyzszych i stanowia niekiedy nawet do polowy DNA chromosomalnego. Sekwencje nukleotydowe satelitow (z reguly bardzo rozne u roznych gatunkow) sa zbudowane z wielokrotnie powtarzajacych sie krotkich podjednostek. Satelita kraba Cancer borealis ma sekwencje typu poli-dAT, Drosophila virilis ma trzy rozne satelity o siedmionukleotydowych jednostkach powtarzalnosci. U czlowieka najlepiej poznane sa cztery glowne klasy satelitow zwane I, II, III i alfa, ktorych jednostki powtarzalnosci sa trudniejsze do zdefiniowania poniewaz, w odroznieniu od satelitow krabow czy owadow, u kregowcow obserwuje sie hierarchiczna organizacje elementow powtarzajacych sie. Tak wiec mozna czesto wyroznic w DNA satelitarnym krotkie kilkunukleotydowe sekwencje, ktore zostaly w trakcie ewolucji powtorzone kilkakrotnie tworzac blok, ktory stawal sie nastepna podjednostka o dlugosci kilkudziesieciu nukleotydow. Ta podjednostka drugiego rzedu, po nagromadzeniu pewnej ilosci mutacji punktowych, ulegala kolejnemu namnozeniu i kolejnym mutacjom itd.
DNA typu satelitarnego ewoluuje szybko, tak, ze zblizone gatunki maja niekiedy zupelnie rozne satelity. Znajduja sie one w centromerach oraz w regionach subtelomerowych chromosomow organizmow wyzszych. Przez pewien czas istnialy watpliwosci co do tego czy pelnia one jakas funkcje zwazywszy na to, ze ich sekwencje nukleotydowe oraz dlugosci sa bardzo roznorodne (np. dlugosc bloku sekwencji satelity I obecnego w centromerze chromosomu 21 czlowieka wykazuje zmiennosc osobnicza w granicach od 420 do 5600 kb nawet u osob nalezacych do tej samej rodziny). Przyjmuje sie obecnie, ze ta funkcja jest tworzenie heterochromatyny a wiec regionow chromosomu, w ktorych wlokno chromatynowe jest silnie skondensowane. Wydaje sie, ze jeden z satelitow, satelita alfa, jest elementem niezbednym do utworzenia funkcjonalnego centromeru u czlowieka. Posiada on szesnastonukleotydowa sekwencje typu konsensus zwana kaseta CENP-B, ktora jest specyficznie rozpoznawana przez typowe dla centromeru bialko CENP-B (centromeric protein B). Kompleks jaki tworzy to bialko z kaseta CENP-B ma prawdopodobnie udzial w budowie struktury centromeru. Sekwencja spokrewniona z kaseta CENP-B znaleziona zostala w satelicie mniejszym (minor) myszy i w satelitarnej sekwencji obecnej w centromerach chromosomow ryzu. Z drugiej strony nie stwierdzono aby genetycznie modyfikowane myszy typu « knock-out », z genomu ktorych usunieto gen kodujacy bialko CENP-B, roznily sie czymkolwiek od myszy normalnych. Prawdopodobnie nie jest wiec to bialko niezastapione.
Molekularny mechanizm rekombinacji. Satelitarne DNA ewoluuja w genomie dzieki rekombinacji typu niewzajemny crossing-over co prowadzi do ich ekspansji w chromosomie. Rekombinacja zachodzaca w linii zarodkowej glownie podczas mejozy nalezy do podstawowych procesow decydujacych o ksztalcie genomu. Jej mechanizm na poziomie molekularnym zostal poznany u drozdzy S. cerevisiae ale prawdopodobnie jej przebieg jest bardzo zblizony u innych organizmow z czlowiekiem wlacznie. Wskazuje na to struktura chromosomu, ktory w czasie mejozy przybiera postac kompleksu synaptonemalnego a takze fakt, ze elementy homologiczne do kluczowych skladnikow systemu enzymatycznego odpowiedzialnego za przebieg rekombinacji mejotycznej zostaly odnalezione u drosofili, myszy i u czlowieka. Model rekombinacji mejotycznej tlumaczacy obserwowane fakty doswiadczalne i postulujacy dwuniciowe przeciecie DNA jako pierwszy etap rekombinacji zaproponowany zostal przez Szostaka i wsp. Oparli sie oni na znajomosci mechanizmu molekularnego konwersji genow zachodzacego podczas przelaczania typu koniugacyjnego u drozdzy (ryc 5 - 6).
Drozdze moga byc utrzymywane w hodowli zarowno jako diploidy jak i haploidy. Drozdze haploidalne istnieja w postaci dwoch typow koniugacyjnych a i . W sprzyjajacych warunkach drozdze haploidalne typu a i lacza sie tworzac diploid, ktory w przy braku czynnikow odzywczych w srodowisku przechodzi mejoze i sporuluje. Pojedynczy spor typu a daje komorke matke (M) i komorke corke (D). Kiedy komorka matka dzieli sie powtornie, zarowno ona sama jak i jej nastepna corka (D2) moze dokonac przelaczenia typu koniugacyjnego (i stac sie Mata ). Pierwsza corka (D1) moze dokonac przelaczenia gdy stanie sie matka. W normalnych warunkach komorki powstale po dwoch podzialach zachowuja kontakt i moga ulec koniugacji z utworzeniem dwoch diploidow. Jesli komorki zostana oddzielone zanim nastapi koniugacja mozna obserwowac proces przelaczania przez szereg pokolen. Komorki, ktore raz ulegly przelaczeniu moga tego dokonac jeszcze raz, zawsze parami, w nowym pokoleniu. Przelaczenie dokonuje sie w ten sposob, ze okolo 750 pz. z regionu Y zostaje zastapione przez okolo 650 pz. DNA z regionu Ya skopiowanych z wyciszonej kopii genu HMRa oddalonego o okolo 100 kpz. To zastapienie zachodzi w sposob wysoce specyficzny z udzialem nukleazy HO (homothallic, ryc. 5 - 7), ktora rozpoznaje i przecina specyficzne sekwencje DNA obecna w lokusie MAT na granicy pomiedzy Y i Z1 (ryc. 5 - 8). Identyczne sekwencje nukleotydowe znajduja sie w HML i HMR, ale specyficzna struktura chromatyny, ktora wycisza te loci inhibuje nukleaze HO. Wyciszanie loci HML i HMR jest zalezne od sasiadujacych miejsc (regulacja typu cis) E i I oddalonych o kilkaset par zasad od miejsc wyciszanych. Przelaczanie MATa do MAT odbywa sie w sposob analogiczny przy uzyciu donora HML oddalonego o okolo 200 kpz na przeciwleglym ramieniu tego samego chromosomu. Region W i Z2 obecne sa w lokusie MAT i HML a nieobecne w HMR. Zrozumienie tego mechanizmu pozwolilo na zaproponowanie modelu mechanizmu rekombinacji mejotycznej (ryc. 5 - 9, 5 - 10). Sadzi sie, ze ekspansja i kontrakcja satelitarnego DNA wynika z nieuprawnionej rekombinacji (ryc 5 - 11)
Minisatelity. Oddzielna klase sekwencji powtarzajacych sie reprezentuja minisatelity czasem zwane VNTR (variable number tandem repeats). Dlugosc ich jednostki powtarzalnosci wynosi zwykle 10 do 30 pz. Tworza one bloki o dlugosci 103 do 104 pz. rozproszone w roznych miejscach genomu. Charakteryzuja sie wyjatkowym polimorfizmem jesli chodzi o dlugosc blokow (mechanizm kontrakcji i ekspansji przedstawiony jest na ryc. 5 - 11) co powoduje, ze kazdy osobnik z wyjatkiem blizniat monozygotycznych posiada inny, latwy do zidentyfikowania wzor minisatelitow. Najbardziej znane minisatelity sa bogate w guanine i naleza do rodziny, ktora wykazuje pewne podobienstwo do sekwencji bakteryjnych « chi » odgrywajacych role w rekombinacji. Minisatelity w genomie ludzkim sa niekiedy homologiczne do minisatelitow znalezionych w genomach innych gatunkow. Wyjatkowo duzy polimorfizm minisatelitow znalazl zastosowanie w identyfikacji materialu biologicznego w analizach sadowych oraz w ustalaniu ojcostwa ludzi, rasowych psow i koni. Poczatkowo porownywano tylko dlugosc blokow minisatelitow u roznych osobnikow. Nowa wersja tej techniki korzysta z tego, ze niektore z minisatelitow, zbudowane sa z blokow rozniacych sie nieznacznie sekwencja. Analiza typu MVR-PCR (minisatellite variant repeat - polymerase chain reaction) pozwala na stosunkowo latwe oznaczenie kolejnosci tych wariantow w bloku i na przedstawienie wynikow w postaci « kodu kreskowego ».
Mikrosatelity. Mikrosatelitami nazwano powtarzajace sie sekwencje o dlugosci jednostki powtarzalnosci od jednego do kilku nukleotydow i o liczbie powtorzen, ktora nie przekracza naogol kilkudziesieciu nukleotydow. Za mikrosatelity uwazane sa sekwencje poli A, ktore czesto towarzysza pseudogenom m.in. sekwencjom « Alu », powstalym w wyniku retrotranskrypcji RNA (patrz nizej). Najczesciej spotykanymi mikrosatelitami sa stosunkowo regularnie rozmieszczone sekwencje (CA)n/(TG)n znajdowane przecietnie co 25 - 100 kb. Rzadziej spotyka sie mikrosatelity typu (TTA)n/(TAA)n oraz (AGC)n/(GCT)n. Spotykane sa rowniez motywy czteronukleotydowe. Sa one stosowane jako markery polimorfizmu poniewaz wykazuja wielka zmiennosc jesli chodzi o dlugosc. Polimorfizm dlugosci sekwencji mikrosatelitarnych wykazuje sie w ten sposob, ze wykonuje sie reakcje PCR regionu w ktorym sie one znajduja, uzywajac do reakcji starterow komplementarnych do sekwencji sasiadujacych z lewej i prawej strony z mikrosatelita. Elektroforeza produktow namnazania pozwala wykazac roznice nawet dwoch nukleotydow pomiedzy allelami. Analize polimorfizmu mikrosatelitow stosuje sie do identyfikacji materialu biologicznego w sprawach sadowych a takze do diagnozowania chorob genetycznych poniewaz pozwala odroznic allel zmutowany obecny u czlonkow jakiejs rodziny od allelu niezmutowanego. Poslizg replikacyjny (ryc. 5 - 12), ktory jest odpowiedzialny za niestabilnosc sekwencji mikrosatelitarnych i za ich duzy polimorfizm, moze spowodowac tzw. mutacje dynamiczna, ktora moze byc przyczyna choroby genetycznej, jesli sekwencja, ktora ulegla poslizgowi znajduje sie w obrebie genu. I tak na przyklad dystrofia Steinera jest powodowana przez ekspansje mikrosatelitarnego DNA towarzyszacego genowi kinazy miotoninowej. Tryplet CTG w genie osob zdrowych jest powtorzony 5 do 27 razy, w przypadku osob cierpiacych na dystrofie Steinera liczba powtorzen wynosi 52 do 1000. Zmienia sie ona z pokolenia na pokolenie i nie dziedziczy sie w sposob przewidywalny przez klasyczna genetyke mendlowska. Mutacje dynamiczne przechodza niekiedy stadium pre-mutacji, w przypadku ktorej liczba powtorzen przekracza ilosc standardowa, ale nie daje efektow patologicznych. Niekiedy mutacje cofaja sie w wyniku kontrakcji mikrosatelity.
Pseudogeny. W genomie ludzkim znajduje sie duza ilosc tzw « pseudogenow » a wiec sekwencji nukleotydowych przypominajacych geny lecz transkrypcyjnie nieaktywnych. Wyroznia sie dwa rodzaje pseudogenow. Pierwszy z nich powstaje w wyniku duplikacji odcinka DNA w procesie niewzajemnego crossing-over. Niekiedy kopie zduplikowanego genu « dziela sie » funkcjami (taka jest np. geneza wariantow genu beta globiny z ktorych niektore sa aktywne we wczesnych a inne w pozniejszych stadiach rozwojowych ssakow). W innych przypadkach nastepuje wygaszenie ekspresji jednej z kopii poprzez mutacje. Tego typu pseudogeny zachowuja strukture egzonow i intronow genow funkcjonalnych od ktorych pochodza.
Drugi rodzaj pseudogenow tworzy sie w wyniku integracji do chromosomu segmentu DNA powstalego w wyniku retrotranskrypcji czasteczki RNA (np. informacyjnego) przez enzym odwrotna transkryptaze (ryc. 5 - 13, 5 - 14). Takie pseudogeny nie maja intronow ani promotora i towarzyszy im sekwencja poliA na koncu 3'. Niektore segmenty DNA generuja w ten sposob ogromna ilosc kopii. W komorkach czlowieka funkcjonuje, obok systemow zawleczonych przez retrowirusy, endogenny system retrotranskrypcyjny, ktory generuje sekwencje typu LINE.
Sekwencje typu LINE (ryc. 5 - 13). Skrotem tym oznacza sie "dlugie, rozproszone i powtarzajace sie elementy" sekwencji (long interspersed repetitive element), znajdujace sie w genomach ssakow. Kompletny element LINE ma dlugosc 6-7 kb, ale u czlowieka wiekszosc (>90%) kopii to sekwencje niekompletne. Wszystkie kopie sa zakonczone sekwencja poli-A. Ponadto sekwencja o dlugosci kilku nukleotydow, w miejscu na chromosomie do ktorego kopia LINE zostaje wstawiona, ulega z reguly duplikacji (ryc. 5 - 15). Kompletne sekwencje LINE maja dwie otwarte ramki odczytu (ORF 1 i 2). Jedna z nich (ORF 2) koduje bialko o cechach odwrotnej transkryptazy. Od retrowirusow (Ryc. 5-16) sekwencje LINE roznia sie brakiem sekwencji LTR (Long Terminal Repeat). Nazywa sie je retrotranspozonami klasy II
Proces retrotranspozycji rozpoczyna sie od transkrypcji jednej z kompletnych kopii elementu LINE obecnych w genomie. Transkrypcja jest scisle kontrolowana i zachodzi tylko w komorkach linii zarodkowej lub w tkankach wczesnych embrionow. Transkrypt jest poliadenylowany, transportowany do cytoplazmy gdzie nastepuje translacja RNA. Produkty translacji ORF 1 i ORF 2 tworza kompleks rybonukleoproteinowy z RNA LINE. Kompleksy takie zostaly wyizolowane z komorek nowotworowych. Stanowia one najprawdopodobniej zrodlo retrotranskryptu, ktory zostaje przetransportowany do jadra i zintegrowany z chromosomem (ryc. 5 - 15). Uwaza sie, ze podczas ewolucji proces transpozycji ma okresy « eksplozji». W takim okresie genom zostaje « zasmiecony » przez « rodzine » transpozonow. Po pewnym czasie nastepuje wyciszenie zrodla RNA retrotranspozonu np. przez mutacje w promotorze. Nastepuje wowczas okres, w ktorym transpozony akumuluja w sposob bierny mutacje, z rzadka tylko ulegajac transpozycji, do momentu az ktoras z kopii wbuduje sie w region chromosomu obok silnego promotora co powoduje « eksplozje » nastepnej rodziny LINE. Obecnosc sekwencji typu LINE w genomie pociaga za soba szereg konsekwencji (ryc. 5 - 17). Po pierwsze retrotranspozon moze ulec integracji wewnatrz sekwencji kodujacej gen. Znane sa przypadki chorob genetycznych, ktore maja takie zrodlo. Zidentyfikowano np. przypadek hemofilii, ktory jest spowodowany wlaczeniem sie LINE w egzon 14 genu kodujacego czynnik VIII krzepliwosci krwi. Druga konsekwencja integracji sekwencji LINE jest zwiekszona plastycznosc genomu. Stwierdzono na przyklad, ze ludzki chromosom Y zawiera oprocz regionu pseudoautosomalnego, a wiec tego, ktory umozliwia parowanie sie z chromosomem X podczas mejozy, rowniez i inne segmenty, homologiczne do X. Jeden z tych segmentow zawiera dwa bloki markerow genetycznych identycznych do markerow genetycznych obecnych na chromosomie X z tym, ze na chromosomie X sa one obecne w jednym bloku. Ponadto kolejnosc markerow w mniejszym bloku jest odwrocona. Porownanie chromosomu Y ludzi i szympansow (ktorych material genetyczny jest w 98% identyczny z ludzkim) nie wykazalo obecnosci tego bloku markerow na chromosomie Y malp. Sugeruje to, ze juz po oddzieleniu sie linii malp czlekokszlaltnych od linii prowadzacej do naszego gatunku nastapila u naszego przodka transpozycja calego bloku sekwencji z chromosomu X na chromosom Y. W dalszej kolejnosci u innego, blizszego przodka nastapila inversja segmentu chromosomu Y zawierajacego blok markerow z chromosomu X oraz czesc markerow chromosomu Y. Ta ostatnia rekombinacja nastapila z udzialem sekwencji LINE obecnych po obydwu stronach segmentu, ktory ulegl inwersji. Ten przyklad pokazuje, ze obecnosc sekwencji powtarzajacych ulatwia wycinanie calych odcinkow genomu i laczenie ich w inne kombinacje. Zwykle nie jest to korzystne dla osobnikow, ktorych genom ulegl takiemu przeksztalceniu, ale stwarza mozliwosc wyprobowania nowej kombinacji genow, ktora moze okazac sie korzystna.
Sekwencje typu SINE (short interspersed repetitive element, ryc. 5 - 14). Duzy procent genomu czlowieka jest zbudowany z tego typu sekwencji zwanych sekwencjami Alu (od enzymu restrykcyjnego Alu I, ktory rozpoznaje tetranukleotyd AGCT znajdujacy sie w wiekszosci kopii tego pseudogenu). Sekwencja Alu jest blisko spokrewniona (80% homologii) z genem kodujacym RNA 7SL, ktory bierze udzial w transporcie bialek przez blony. Sekwencje Alu zostaly znalezione wylacznie w genomach naczelnych. Sekwencje typu SINE obecne w innych genomach sa spokrewnione z t-RNA.
Ewolucja sekwencji Alu zostala przesledzona dosc dokladne. We wczesnym okresie ewolucji naczelnych pojawila sie w genomie sekwencja FAM (fossil alu monomer) powstala w wyniku delecji bloku nukleotydow w genie 7SL RNA. Nastepnie (badz rownoczesnie) w wyniku kolejnych delecji powstaly FRA i FLA (free right Alu i free left Alu), monomeryczne formy Alu obecne w duzej ilosci kopii w genomie czlowieka. Ostatecznie elementy te utworzyly dimer przy pomocy lacznika bogatego w adenine. Zarowno formy monomeryczne jak i dimer Alu dobrze zaadaptowaly sie do ktoregos systemu retropozycyjnego (ryc. 5 - 15). Wykorzystujac ten system dokonaly one kilku « inwazji » genomu naczelnych w roznych okresach czasu. Elementy Alu pochodzace z roznych inwazji mozna zidentyfikowac jako, ze pochodza od roznych, wczesniej zintegrowanych kopii, ktore przez dlugie okresy czasu trwaly « uspione » w chromosomie akumulujac przypadkowe mutacje. W wyniku inwazji powstawala wiec « rodzina », ktorej wszyscy czlonkowie nosza mutacje sekwencji « matki ». Najwczesniejsza z inwazji miala miejsce, jak sie sadzi, okolo 65 milionow lat temu. Te « stare» Alu znaleziono u wszystkich naczelnych z lemurami wlacznie. Ostatnia z inwazji miala miejsce juz po oddzieleniu sie linii prowadzacej do malp czlekoksztaltnych od linii prowadzacej do naszego gatunku. Od tego czasu sekwencje Alu wlaczaja sie do genomu czlowieka sporadycznie powodujac niekiedy inaktywacje genow (stwierdzono np. przypadek neurofibromatozy spowodowany wbudowaniem sie Alu do genu NF1 itp.)
HERV (human endogeneous retrovirus). U ludzi podobnie jak u innych ssakow znaleziono kilkaset kopii genomu retrowirusa na stale wbudowanego w chromosomy. Zbudowane sa one tak jak wszystkie genomy retrowirusow, tzn. maja sekwencje LTR (Long Treminal Repeat) biorace udzial w regulacji transkrypcji wirusowego DNA, koduja bialka, miedzy ktorymi znajduje sie odwrotna transkryptaza dokonujaca retrotranskrypcji RNA na DNA oraz integraza, ktora wbudowywuje DNA do chromosomu gospodarza (ryc. 5 - 13). Endogenne retrowirusy sa reliktem zakazen, ktorym ulegli nasi przodkowie wiele milionow lat temu i ktore spowodowaly wbudowanie sie kopii genomow wirusa do chromosomow w komorkach linii zarodkowej. Znajduja sie one w genomie w formie uspionej moga jednak niekiedy w pewnych typach nowotworow ulegac aktywacji. Nie jest jednak jasne czy jest ona przyczyna czy skutkiem transformacji nowotworowej. Niewiele wiemy dotychczas na temat znaczenia obecnosci sekwencji retrowiralnych dla funkcjonowania genomu. Niektorzy sadza, ze sam fakt, ze znajduja sie w genomie od wielu dziesiatkow milionow lat dowodzi, ze pelnia jakas funkcje pozyteczna dla organizmu (np., ze biora udzial w cyklu rozwojowym), w przeciwnym bowiem przypadku zostalyby wyeliminowane. Podejrzewa sie rowniez, ze z ich obecnoscia moga byc zwiazane choroby autoimmunologiczne. Aktywacja wirusow endogennych stanowi potencjalne niebezpieczenstwo towarzyszace ksenotransplantacji (transplantacja tkanek z obcego gatunku) oraz terapii genowej z zastosowaniem wektorow retrowiralnych. Rekombinacja wektora z endogennym retrowirusem moze dac nowy potencjalnie niebezpieczny gatunek retrowirusa.
Zlozonosc kompozycyjna. Wiadomo ze tylko maly procent (1 - 2%) DNA to sekwencje kodujace. Z drugiej strony wiadomo, ze DNA ewoluowal ulegajac przypadkowym mutacjom. Wydawaloby sie wiec, ze sekwencja nukleotydow w genomie powinna byc, przynajmniej w regionach niekodujacych zblizona do przypadkowej. To, ze tak nie jest, spowodowane jest tym, ze mutacje w genomie przy calej przypadkowosci, charakteryzuje pewna « tendencyjnosc » rozna w roznych regionach genomu. W genomach kregowcow to zjawisko zwiazane jest z pojawianiem sie prazkow na chromosomach w komorkach mitotycznych traktowanych roznymi barwnikami. Wzor prazkow na chromosomach czlowieka jest dobrze poznany, skatalogowany i stosowany byl przez dlugie lata do identyfikacji i mapowania chromosomow.
Rozne techniki barwienia daja w zasadzie jeden z trzech zasadniczych typow prazkow. Prazki typu Q pojawiaja sie przy traktowaniu chromosomow fluoryzujacym barwnikiem chinakryna. Obserwuje sie je glownie w okolicach centromerow gdzie znajduje sie szczegolnie gesto upakowany kompleks bialek z DNA heterochromatyna konstytutywna. Kompleks taki jest tworzony przewaznie przez DNA satelitarne.
Podczas barwienia chromosomow barwnikiem Giemzy otrzymuje sie prazki typu G, natomiast traktowanie chromosomow barwnikiem w podwyzszonej temperaturze pozwala otrzymac prazki typu R (od fr. "reciproque" - odwrotne) nazwane tak poniewaz powstaja w tych miejscach, ktore pozostaja niezabarwione podczas barwienia metoda Giemzy. Prazki typu R stopniowo znikaja w miare podwyzszania temperatury. Te, ktore znikaja ostatnie nazwane zostaly prazkami T. Znajduje sie je glownie w okolicach telomerow.
Zwiazek pomiedzy prazkami na chromosomach a budowa DNA zaczeto badac gdy okazalo sie, ze DNA glownej frakcji genomu, tzn. tej, ktora pozostaje po oddzieleniu frakcji satelitarnych, mozna podzielic na podfrakcje. Wirowanie kompleksow DNA z metalami daje podfrakcje rozniace sie ciezarem wlasciwym, stad nazwano je L i H (ang. light i heavy) oraz skladem zasad. Podfrakcje H sa bogate w guanine i cytozyne a podfrakcje L w adenine i tymine. Prazki chromosomalne G zawieraja glownie DNA bogate w adenine i tymine, prazki T zawieraja DNA bogaty w guanine i cytozyne natomiast prazki R zawieraja DNA o skladzie posrednim. Rozne frakcje genomu zawieraja rozne klasy genow.
W genomach organizmow wyzszych rozroznia sie dwie glowne klasy genow : geny specyficzne tkankowo i geny metabolizmu podstawowego (ang. housekeeping). Te ostatnie sa aktywne we wszystkich komorkach organizmu, gdyz zapewniaja ich normalne funkcjonowanie. Sa wsrod nich np. geny kodujace enzymy zwiazane z synteza aminokwasow czy nukleotydow, polimerazy DNA i RNA itp. Wszystkie bez wyjatku geny metabolizmu podstawowego sa zbudowane w sposob charakterystyczny: mianowicie segment DNA po stronie 5' (poczatek sekwencji kodujacej) ma charakter « wyspy CpG ». Sa to krotkie (0.5 - 2 Kb) segmenty chromosomu, w ktorych obserwuje sie duza czestotliwosc wystepowania dinukleotydow CpG, skadinad rzadkich w genomie. Wiekszosc z tych dinukleotydow, z wyjatkiem wlasnie tych, ktore znajduja sie w wyspach, jest w genomie kregowcow zmodyfikowana przez podstawienie grupy metylowej w pozycji 5 cytydyny w obydwu niciach (dinukleotyd CpG jest palindromem a wiec jest komplementarny do samego siebie) (ryc. 5 - 18) .
Metylacja DNA w chromosomach zachodzi progresywnie w miare roznicowania komorek organizmu. Metylowane dinukleotydy CpG wiaza specyficznie bialka, ktore sprzyjaja gestemu upakowaniu DNA w chromatynie. Metylacja jest wiec jednym z mechanizmow, ktory przyczynia sie do wyciszenia ekspresji genow « nieuzywanych » w danej linii komorkowej aby « nie przeszkadzaly» genom aktywnym. Cena jaka placi genom za stosowanie tego mechanizmu jest wysoka. Mianowicie 5-metylocytozyna ma sklonnosc do deaminacji, w wyniku ktorej zmienia sie w tymine a wiec w miejsce pary zasad MetC : G powstaje zle sparowana struktura T : G. Podczas replikacji w jednej z nowo powstalych nici DNA powstaje w tym miejscu para G : C a w drugiej para A : T. W konsekwencji mutacje tego typu wyeliminowaly z genomu kregowcow, podczas ewolucji, 80% dinukleotydow CpG. Stwierdzono, ze wiele chorob genetycznych (do 30%) czlowieka jest spowodowanych przez te wlasnie mutacje.
W wyspach CpG nie zachodzi (z pewnymi wyjatkami) metylacja dinukleotydow CpG. Nie podlegaja one w zwiazku z tym eliminacji i ich czestotliwosc jest w wyspach kilkakrotnie wyzsza niz w sasiednich odcinkach chromosomu. Efekt ten jest prawdopodobnie zwiazany z funkcja odcinkow chromosomu, w ktorych sa one zlokalizowane. Znajduja sie tam liczne «elementy regulatorowe» odpowiedzialne za regulacje transkrypcji genow, ktorym towarzysza. Bialka regulatorowe, ktore tworza kompleksy z elementami regulatorowymi chronia dinukleotydy CpG w wyspach przed metylacja. W komorkach linii zarodkowej, a wiec w tych komorkach, w ktorych powstaja mutacje dziedziczone w nastepnych pokoleniach, silne kompleksy regulatorowe towarzysza wszystkim genom metabolizmu podstawowego i dlatego wszystke te geny maja po stronie 5' wyspy CpG. Geny tkankowo specyficzne naogol w linii zarodkowej aktywne nie sa i wyspy CpG towarzysza tylko niektorym z nich.
Geny, ktorym towarzysza wyspy CpG sa ponadto bogate w guanine i cytozyne. Nie jest to wynikiem tego, ze kodowanie ich sekwencji aminokwasowych wymaga uzycia kodonow bogatych w te nukleotydy. Jest raczej odwrotnie, tzn. geny te leza w regionach chromosomow (tzw. izochorach), bogatych w guanine i cytozyne (znaczna ich czesc w prazkach T) i do budowy swoich kodonow uzywaja takiego budulca jaki maja " pod reka" (Tabela 5 - 1). Dlaczego tak sie dzieje, ze pewne regiony w genomie sa bogatsze w guanine i cytozyne a inne w adenine i tymidyne nie jest calkiem jasne. Istnieja dwie klasy hipotez na ten temat. Selekcjonisci uwazaja, ze zarowno w czesci DNA kodujacej jak i w niekodujacej, w organizmach o podwyzszonej temperaturze ciala (ptaki i ssaki), pary G : C akumulowane sa z tego wzgledu, ze sa bardziej trwale. Neutralisci natomiast przypisuja roznice w skladzie zasad temu, ze geny metabolizmu podstawowego oraz sekwencje niekodujace im towarzyszace sa eksponowane na dzialanie innych systemow reperacji uszkodzen w DNA niz wiekszosc genow specyficznych tkankowo. Rozne systemy reperacyjne maja rozne preferencje. Na przyklad istnieje glikozylaza, ktory naprawia zle sparowane zasady G : T produkujac zawsze pary G : C co wzbogaca DNA w te zasady. U bakterii stnieje system, ktory podczas replikacji matrycy czesciowo zdepurynowanej (czesto spotykane uszkodzenie DNA), wlacza w nic nowo syntetyzowana przewaznie adenine (UmuD') itp. Ubocznym skutkiem istnienia roznych systemow reperacyjnych jest to, ze szybkosc akumulacji mutacji w DNA jest rozna w regionach genomu bedacych pod ich kontrola. Wyspy CpG maja rowniez znaczenie dla procesu pietnowania rodzicielskiego (parental imprinting). Wiadomo mianowicie, ze istnieja liczne geny, ktorych aktywnosc zalezy od tego czy zostanie on odziedziczony po matce czy po ojcu. Ich regulacja odbywa sie w sposob epigenetyczny a wiec bez zwiazku z sekwencja DNA, ktora moze byc identyczna w allelach odziedziczonych po ojcu i po matce. Stwierdzono, ze wyspy CpG w allelach wygaszonych sa metylowane. Metylacja ta nie ulaga prawdopodobnie "wymazaniu" podczas mejozy w odroznieniu od innych regionow genomu. (ryc. 5 - 19)
Ryc 5 - 1. Krzywa renaturacji DNA bakteryjnego i DNA kregowcow.
Ryc 5 - 2. Glowne skladowe ludzkiego DNA.
Ryc. 5 - 3. Zasada rozdzialu DNA na frakcje przy pomocy wirowania w gradiencie CsCl.
Ryc. 5 - 4. Profil rozdzialu na frakcje DNA bos taurus i analiza frakcji metoda wirowania w gradiencie CsCl.
Ryc. 5 - 5. Charakterystyka sekwencji DNA w genomie czlowieka. Wykres podaje w gornej ramce % G + C, ponizej podana jest proporcja dinukleotydow CpG, trzecia linia od gory podaje lokalizacje elementow powtarzajacych (strzalki), czwarta linia pokazuje lokalizacje genow a piata, lokalizacja miejsc rozpoznawanych przez wybrane enzymy restrykcyjne.
Ryc. 5 - 6. Przelaczanie typu koniugacyjnego u drozdzy.
Ryc. 5 - 7. Schemat przelaczania Mat do Mata
Ryc. 5 - 10. Model przedstawiajacy migracje struktury Holliday'a i jej nukleolityczne rozciecie u bakterii.
Ryc. 5 - 12. Ekspansja i kontrakcja mikrosatelity naskutek poslizgu replikacyjnego.
Ryc. 5 - 16. Synteza retrowirusowego DNA.
Ryc. 5 - 17. Wplyw mobilnosci sekwencji powtarzajacych typu retrotranspozonu na genom gospodarza.
Ryc. 5 - 18. Zachowawcza metylacja DNA
Ryc. 5 - 19. Pietnownie rodzicielskie (parental imprinting)
Tabela 5 -1
Dwie klasy genów w genomach kregowców
geny metabolizmu podstawowego |
geny tkankowo specyficzne |
bogate w guanine i cytozyne |
bogate w adenine i tymine |
zlokalizowane w regionach bogatych w guanine i cytozyne |
zlokalizowane w regionach bogatych w adenine i tymine |
obecnosc wysp CpG |
brak wysp CpG |
replikujace we wczesnej fazie S |
replikujace w póznej fazie S |
geny krótkie, egzony i introny krótkie i nieliczne |
geny dlugie, egzony i introny dlugie i liczne |
regiony czesto rekombinujace |
regiony rzadko rekombinujæce |
Zlokalizowane w prazkach T na chromosomach |
Zlokalizowane w prazkach R na chromosomach |
zlokalizowane w regionach o duzej gestosci genów |
zlokalizowane w regionach o malej gestosci genów |
Stosunkowo duza czestotliwosc sekwencji powtarzajacych Alu |
Stosunkowo duza czestotliwosc sekwencji powtarzajacych L1 |
Tabela przedstawia dwie klasy genów w sposób wyidealizowany, tak aby podkreslic róznice miedzy nimi. W rzeczywistosci wiele genów tkankowo specyficznych (okol polowy) posiada charakterystyke zblizona do genów metabolizmu podstawowego. Klasyfikacja przedstawiona powyzej dotyczy w szczegolnosci genomu czlowieka.
90
Ryc 5 - 8. Molekularny mechanizm przelaczania typu koniugacyjnego w drozdzach.
Ryc. 5 - 9. Model rekombinacji mejotycznej poostulujacy dwuniciowe przeciecie DNA. A model Szostaka i inn. B model SDSA (reasocjacji nowosyntetyzowanych pojedynczych nici DNA)
Ryc. 5 - 11. Schemat mechanizmu rekombinacyjnej ekspansji i kontrakcji sekwencji satelitarnych .
Ryc. 5 - 13. Autonomiczne sekwencje powtarzajace w genomach. ORF - otwarta ramka odczytu, LTR dlugie powtorzenie, UTR powtorzenie nietranskrybowane, IR powtorzenie odwrocone, DR powtorzenie proste, EN endonukleaza, RT transkryptaza odwrotna, env gen otoczki, pol gen polimerazy, gag gen specyficznego antygenu grupowego,
Ryc 5 - 14. Nieautonomiczne sekwencje powtarzajace sie w genomie. SINES sekwencje krotkie, L, R - lewa i prawa podjednostka sekwencji Alu.
Ryc. 5 - 15. Transkrypcja odwrotna w ktorej starterem jest sekwencja docelowa - model integracji sekwencji L1 i Alu w genomie czlowieka.