BIOLOGIA MOLEKULARNA, W.2, 13.10.06
Kontynuacja omawiania organizacji genomów różnych bakterii
Neisseria meningitidis - bakteria wywołująca bakteryjne zapalenie opon mózgowych.
Radzi sobie z systemem immunologicznym żywiciela w ten sposób, że często i intensywnie zmienia swoje właściwości antygenowe. Jest to możliwe dzięki łatwym przebudowom własnego genomu, a także wymianie materiału genetycznego z innymi bakteriami.
W genomie tej bakterii w okręgach od czwartego do dziewiątego rozmieszczone są różne sekwencje powtórzone (nie są to sekwencje kodujące białka; najczęściej są to elementy pasożytnicze, które mają zdolność do namnażania się, a przynajmniej do przenoszenia się w obrębie genomu). Zazwyczaj bakterie mają mało kopii sekwencji powtórzonych (kilka-kilkanaście), Neisseria jest nietypowa, ponieważ ma tych sekwencji bardzo dużo - są one rozsiane po całym genomie i bardzo łatwo mogą rekombinować między sobą. Przenosząc się, sekwencje powtórzone porywają ze sobą fragmenty genomu i mogą wbudowywać się wraz z nimi w genom innej bakterii, bądź też w inne miejsce genomu tej samej bakterii.
Warto pamiętać: w bakteriach bywa dużo sekwencji powtórzonych, które są przez bakterie wykorzystywane.
Haemophilus influenzae
Jest jedną z kilku bakterii, które potrafią spontanicznie transformować się DNA (zazwyczaj aby stransformować bakterię trzeba użyć specjalnych metod - np. soli wapnia, szoku termicznego, elektroporacji). Ułatwia to bakterii ewolucję - przystosowanie się do zmieniającego środowiska dzięki większej zmienności. Aby Haemophilus mógł spontanicznie wchłonąć DNA, muszą się w nim znajdować specyficzne sekwencje - USS (Uptake Signal Sequence - AAGTGCGGT - znana, dziewięcionukleotydowa sekwencja). Haemophilus ma w swym genomie ok. 1,5 miliona par zasad, więc gdyby wyliczyć statystyczne prawdopodobieństwo występowania takich sekwencji, powinno ich być 8-9 na genom. A jest ich 1462. Jest ich tak dużo, ponieważ każda wchłonięta sekwencja wbudowuje się w genom - genom Haemophilus jest gęsto upakowaną mozaiką sekwencji USS (genom Haemophilus to historyczna składanka kawałków DNA wchłoniętych z otoczenia - zarówno tego samego gatunku jak i innych gatunków, o ile występuje w nich sekwencja USS).
Wraz z nagromadzeniem wielu genomów bakteryjnych w bazach danych stało się możliwe nie tylko analizowanie poszczególnych genomów, ale także porównania tych genomów między sobą. Udało się znaleźć geny homo-/ortologiczne - są to geny ewidentnie ze sobą spokrewnione, pełniące taką samą lub bardzo podobną funkcję.
Mycoplasma pneumoniae i Mycoplasma genitalium
Są to bardzo blisko spokrewnione gatunki o bardzo małych genomach. Można przyjrzeć się poszczególnym genom, jak rozmieszczone są one względem siebie w każdym genomie (zaczynając np. od początku replikacji lub jakiegoś innego wyróżnionego miejsca w genomie).
Odkładając odległość poszczególnych genów na osi i sporządzając wykres można odkryć, że geny układają się prawie na linii przekątnej (nachylonej pod kątem 45 stopni). Oznacza to, że względna kolejność ułożenia genów w obu gatunkach jest prawie identyczna. Tylko czasem zdarzają się geny, które są inaczej umiejscowione.
Porównanie dwóch bakterii z tego samego gatunku pozwoliłoby na otrzymanie linii nachylonej idealnie pod kątem 45 stopni.
Mycoplasma pneumoniae i Ureaplasma ureatylicum
Są to bakterie bardzo odległe ewolucyjnie, ale pełniące bardzo podobne funkcje - pasożytują wewnątrz komórek nabłonka układu oddechowego (M. pnumoniae) lub moczowego (U. ureatylicum) i są fizjologicznie podobne.
Wykres obrazujący rozmieszczenie genów jest bardzo nieregularny („kompletna sieczka” ). Oznacza to, że bakterie mają homologiczne geny (inaczej nie byłoby punktów na wykresie), ale ich położenie w obu genomach jest totalnie różne. W trakcie ewolucji następuje intensywnie przemieszczanie, tasowanie i składanie genomów. Jest to bardzo widoczne u bakterii, ale istnieje również u Eukarya (u Eukarya takich porównań dokonuje się na poziomie całych chromosomów).
Genom jest niewyobrażalnie plastyczny i ruchomy. Te same funkcje mogą być realizowane przy bardzo różnym porządku genów (konserwowane jest ułożenie genów wewnątrz operonów, ale już wzajemne ułożenie operonów jest bardzo różne).
Kiedy poznajemy nowy gatunek, dążymy do tego, by scharakteryzować go także pod względem biochemicznym (sposobu prowadzenia metabolizmu, syntetyzowanych związków itd.). Gdybyśmy chcieli badać istnienie poszczególnych reakcji biochemicznych (bardzo wiele różnych warunków środowiska, syntetyzowanych produktów itd.), byłoby to bardzo żmudne i czasochłonne. Poznanie pełnych genomów pozwala na odczytanie potencjału komórki - tego, co potencjalnie może ona robić. Jeżeli więc znamy cały genom i potrafimy przypisać funkcje wszystkim genom, powinniśmy być w stanie odtworzyć wirtualnie zdolności metaboliczne takiej komórki.
Borrelia burgdorferi - zostały podjęte próby odtworzenia kompletnej informacji biochemicznej na podstawie znajomości genomu tej bakterii.
Jeżeli w danej bakterii nie odnajdzie się jakiegoś enzymu z cyklu Krebsa (są one silnie konserwowane ewolucyjnie), możemy być prawie pewni, że taki organizm nie jest w stanie przeprowadzić całej reakcji cyklu Krebsa.
Działa to również w drugą stronę - jeśli w genomie danej bakterii znajdziemy komplet enzymów potrzebny do syntezy jakiegoś związku, wtedy nie badając tego biochemicznie, możemy z dużym prawdopodobieństwem twierdzić, że ten organizm będzie wytwarzał dany związek.
W przypadku prostych związków jest to informacją, jakie wymagania pokarmowe ma dany organizm. Firmy farmaceutyczne intensywnie poszukują natomiast nowych, interesujących związków. Poszukiwania na poziomie biochemicznym są bardzo trudne - dany związek należałoby najpierw wyizolować, co jest trudne, gdy nie wie się, czego dokładnie się poszukuje. Można popatrzeć na geny danego organizmu. Wtedy istnieje możliwość znalezienia enzymu, podejrzewanego o przeprowadzanie konkretnych procesów na podstawie znajomości innych, podobnych enzymów (np. o wprowadzenie pierścieni aromatycznych lub grupy hydroksylowej). Obecnie przewiduje się, jaki związek może być syntetyzowany przez kodowany enzym (szereg enzymów) wyłącznie na podstawie informacji genetycznej. Nie jest to dowód - trzeba przeprowadzić wtedy dalsze analizy, ale w ten sposób znaleziono dziesiątki nowych związków i dziesiątki organizmów produkujących dany związek. Jest to duża tańsza procedura. Jest to przykład praktycznego wykorzystania informacji genetycznej - nazywa się to „genome mining” - wykopaliska genomowe ;)
Organizacja genomów u Eukarya
Organizmem modelowym w świecie Eukarya są drożdże piekarnicze - Saccharomyces cerevisiae używane w produkcji różnych rodzajów bułeczek
Chciano poznać pełną sekwencję genomu tego organizmu. Dzięki długim badaniom biochemicznym, o drożdżach wiedziano bardzo dużo jeszcze zanim zaczęto sekwencjonowanie (zidentyfikowano ponad tysiąc genów drożdżowych i poznano ich funkcje dzięki badaniom fenotypów mutantów).
Pod koniec lat osiemdziesiątych postanowiono w Europie zsekwencjonować genom drożdży. Jest to przykład uporządkowanego i zaplanowanego sekwencjonowania tak dużego genomu od początku do końca (bez użycia metody sekwecjonowania losowego - `shotgun'). Genom był sekwencjonowany przez ponad 600 osób w 100 laboratoriach przez 7 lat.
Drożdże są bardzo nietypowymi przedstawicielami Eukarya:
mają najmniejszy znany genom eukariotyczny
16 chromosomów w haploidalnym zestawie
12-13 mln par zasad (bakterie mają do 10 mln par zasad), więc w stosunku do dużych genomów niektórych bakterii, genom drożdżowy jest minimalnie większy
ponad 6 tysięcy genów, na jeden gen przypada średnio ok. 2 tysięcy pz
duża część genomu koduje rDNA - stąd różna wielkość chromosomu 12 (na którym mieści się rDNA) i całego genomu w zależności od konkretnego szczepu i różnej liczby powtórzeń rDNA (chromosom 12 ma ok. 2-3 Mbp, z czego 1-2 Mbp to rDNA)
chromosomy są podobnej wielkości: od 240 kbp (chromosom 1) do 1530 kbp (chromosom 4)
genom nie różni się dramatycznie od genomu bakteryjnego pod względem organizacji i samej budowy
Figure 4-13. The genome of S. cerevisiae (budding yeast). (A) The genome is distributed over 16 chromosomes, and its complete nucleotide sequence was determined by a cooperative effort involving scientists working in many different locations, as indicated (gray, Canada; orange, European Union; yellow, United Kingdom; blue, Japan; light green, St Louis, Missouri; dark green, Stanford, California). The constriction present on each chromosome represents the position of its centromere (see Figure 4-22). (B) A small region of chromosome 11, highlighted in red in part A, is magnified to show the high density of genes characteristic of this species. As indicated by orange, some genes are transcribed from the lower strand (see Figure 1-5), while others are transcribed from the upper strand. There are about 6000 genes in the complete genome, which is 12,147,813 nucleotide pairs long.
Różnice między genomem bakteryjnym i drożdżowym:
średnia długość genu u drożdży to 2 kbp, u bakterii trochę ponad 1kbp
u drożdży genom nie jest aż tak intensywnie wykorzystywany jak u bakterii. U bakterii 90% koduje białka; u drożdży jest to 65-70% (w zależności od tego, czy do części kodującej zaliczmy rDNA)
u drożdży występują introny. Jest ich jednak bardzo mało jak na Eukarya - zaledwie 4% genów ma introny (1/25 genów) i nie ma genu, w którym byłby więcej niż 1 intron
na 6 tysięcy genów około 240 ma introny
w genomie drożdży jest bardzo niewiele sekwencji ruchomych (Ty, LTR) - tylko ok. 3% genomu (ale są ;))
średnie białko bakteryjne ma ponad 300 aminokwasów; średnie białko drożdżowe ma 483 aminokwasy
Publikacja pełnej sekwencji genomu drożdży:
specjalny numer Nature
baza danych - SGD - Saccharomyces Genome Database - wszystkie informacje o genomie drożdżowym
Dziś znamy prawie 10 genomów drożdżowych. Saccharomyces cerevisiae i Schizosaccharomyces pombe są ważnymi organizmami modelowymi.
Drożdże są bardzo zróżnicowane i odległe ewolucyjnie; są niejednolitą grupą taksonomiczną (nie są monofiletyczne). Poznanie tylu genomów drożdżowych pozwala na prowadzenie wielu ciekawych badań ewolucyjnych - porównując małe, łatwe do zsekwencjonowania genomy można wnioskować o ewolucji na przestrzeni setek milionów lat.
Zawartość par GC w genomie drożdży:
średni procent zawartości par GC w genomie jest tradycyjnie podawany w charakterystyce genomu
zawartość par GC jest bardzo istotną informacją
średni skład par GC w całym genomie: 38%, ale jest on różny dla poszczególnych rejonów genomu
ORFy mają największy procent par GC - średnio ok. 40%
promotory - ok. 36,2%
terminatory - ok. 29%
w rejonach kodujących białka jest większa koncentracja par GC, czego przyczyna nie jest do końca znana
Chromosom 1:
struktura genomu zbliżona do prokariotycznej
puste miejsca zdarzają się jedynie w rejonie telomerów i przy centromerach
w rzadkich przypadkach zdarza się, że obie, przeciwnie zorientowane nici DNA kodują białka (u drożdży występuje to tylko na chromosomie 1). Mało jest przeciwbieżnych genów u Eukarya, ponieważ trudno jest sprawić, by informacja odczytywana w obie strony była informacją sensowną
częściej niż zlokalizowane przeciwbieżnie, geny lokalizują się w sobie lub zachodzą na siebie
Budowa rDNA:
ok. 9 kbp
koduje duże cząsteczki rRNA (później dołączane jest do nich 5,8 srRNA)
syntetyzowany jest duży, policistronowy pierwotny transkrypt, który jest następnie cięty w skomplikowany sposób
blok 9137 bp jest powtórzony 100-200 razy na chromosomie 12
organizacja rDNA jest podobna u innych Eukarya - ciągi rDNA występują na jednym lub kilku chromosomach
Funkcje genów drożdżowych:
chciano poznać funkcje wszystkich genów odkąd zsekwencjonowano genom
jeszcze zanim zsekwencjonowano genom, istniały ogromne kolekcje mutantów i wiedziano dużo o wielu genach
po zsekwencjonowaniu zaczęto szukać funkcji wszystkich 6 tysięcy genów zarówno na u samych drożdży jak i przez porównania funkcji ortologicznych genów u różnych organizmów
mimo tak długiej pracy wielu badaczy tylko 53% genów (3167/6000) ma przypisaną funkcję
mimo bardzo intensywnych badań i wielu baz danych dostępnych do porównań, o ogromnej części genów nadal nie wiemy nic (to samo tyczy się i Prokaryota i Eukarya)
celem poznania funkcji genów drożdżowych podjęto projekt polegający na robieniu knockoutów kolejnych ORFów, patrzeniu na efekt fenotypowy i lokalizację białka w komórce
Schemat genu eukariotycznego:
drożdże są mało reprezentatywnym przedstawicielem Eukarya
bardzo trudno jest stwierdzić, co jest genem, a co nie
stosunkowo łatwo jest rozpoznać ORFy - zaczynają się kodonem `start', a kończą kodonem `stop'
trudno jest zdefiniować, co jest intronem, a co nie jest (najlepiej jest to sprawdzić doświadczalnie - co zostaje zachowane w ostatecznym, dojrzałym transkrypcie)
granicę między intronem a eksonem jest szczególnie trudno rozpoznać, jeśli występują bardzo krótkie eksony lub bardzo długie introny
dodatkowo sytuację utrudnia zjawisko alternatywnego splicingu - raz pewna sekwencja jest wycinana i zachowuje się jak intron, innym razem zostaje zachowana w transkrypcie
zdefiniowanie pierwszego i ostatniego eksonu jest praktycznie niemożliwe
przed początkiem sekwencji kodującej białko znajdują się charakterystyczne obszary, tzw. wyspy CpG
Wyspy CpG:
mają podwyższoną w stosunku do otoczenia i całego genomu zawartość par GC, a dodatkowo w obrębie tych wysp często występują dinukleotydy CG wzdłuż jednej nici (CpG)
par CpG jest bardzo mało - jest ich 5 razy mniej niż statystycznie być powinno - są one ewolucyjnie eliminowane z genomu, co ma związek z metylacją DNA
w wyspach CpG tych sekwencji jest natomiast bardzo dużo i nie są one eliminowane z genomu (jest ich tyle, ile statystycznie powinno być) - a więc w porównaniu z resztą genomu, w wyspach CpG dinukleotydy CpG są nadreprezentowane
wyspy CpG to sekwencje od kilkuset do 2 tysięcy nukleotydów - niezbyt duże
są łatwe do zauważenia
towarzyszą początkom genów - znalezienie takiej wyspy w genomie jest silną wskazówką, że w pobliżu tego rejonu zaczyna się transkrypcja jakiegoś genu - i to zazwyczaj genu metabolizmu podstawowego (`housekeeping gene'), które eksprymowane są w większości komórek organizmu
wyspy CpG są więc wykorzystywane w poszukiwaniu 5'końców genów
Caenorhabditis elegans:
„najbardziej intelektualne stworzenie świata” - ma niecałe 1000 komórek, z czego 300 to neurony (1/3). Ponadto ma ponad 2 tysiące komórek płciowych
bardzo nietypowy sposób rozwoju
łatwy do badania
precyzyjnie zdefiniowany schemat rozwoju - wiadomo z czego powstaje każda komórka i w co się przekształca - jest to bardzo wygodne do badania procesów rozwojowych i kształtowania się układu nerwowego
w 2002 została przyznana Nagroda Nobla za badania nad C. elegans
2002 - poznano pełną sekwencję genomu C. elegans:
niecałe 100 mln par zasad (8 razy więcej niż drożdże)
18 tys. genów - tylko 3 razy więcej niż drożdże
prawidłowość, że ilość genów nie rośnie liniowo wraz z wielkością genomu dość dobrze obowiązuje w świecie Eukarya - wraz ze wzrostem złożoności organizmu rozmiary genomu rosną znacznie szybciej niż liczba genów
genom dość intensywnie wykorzystywany - np. w obrębie ogromnego intronu jest zawartych 8 genów kodujących na przeciwległych nici (transkrybowanych w przeciwną stronę). Dzięki temu, że są one zawarte w obrębie intronu, nie ma problemu z zawarciem sensownej informacji na przeciwbieżnych niciach (informacja zawarta w intronie jest najczęściej dowolna)
posiada w genomie operony - rzadkie u Eukarya
bardzo rzadkie zjawisko: `trans splicing' - osobno transkrybowany `outron' jest doklejany na 5' końcu transkryptu
Przeciętny gen C. elegans:
zawiera ok. 6 eksonów (czyli 5 intronów)
introny i eksony są średnio tej samej długości: ponad dwieście nukleotydów - w obrębie genu średnio połowa długości przypada na eksony a połowa na introny
na jeden gen przypada średnio ok. 5 tysięcy par zasad (u drożdży jest to 2 tysiące; u bakterii - ok. 1 tysiąca) - zwiększa się ilość DNA przypadającego na 1 gen
Arabidopsis thaliana (rzodkiewnik pospolity); rodzina: Brassicaceae (krzyżowe)
kolejny nietypowy organizm modelowy
ma bardzo mały genom (nietypowe dla roślin) - dlatego wybrana jako organizm modelowy; rośliny mają zazwyczaj bardzo duże genomy, które jest trudno badać
Genom A. thaliana:
5 chromosomów
rozmieszczenie genów i sekwencji ruchomych jest bardzo nierównomierne
geny mogą być rozmieszczone z zagęszczeniem od 1/100 000 par zasad (pustynie genowe) do obszarów niezwykle gęstych (40 genów/100 000 par zasad), gdzie gęstość genów przypomina genomy drożdżowe
sekwencje ruchome (transpozony) są również rozmieszczone bardzo nierównomiernie
heterochromatyna - obszary bardzo silnie skondensowanej chromatyny - mogą stanowić znaczną część genomu; u Arabidopsis znów nietypowo - heterochromatyny jest bardzo mało - 2 obszary na dwóch chromosomach
Pełna sekwencja genomu A. thaliana:
zsekwencjonowany w 2000 roku
nie ma dramatycznych różnic w porównaniu genomem bakteryjnym i drożdżowym
115 Mbp (trochę więcej niż u C. elegans)
ok. 28 tysięcy genów (44% genomu to geny) - dużo więcej niż u C. elegans. Liczba znanych genów wciąż się zmienia. Co ciekawe, maleje ona u C. elegans, a rośnie u A. thaliana
średnie białko: 434 aminokwasy
średni gen: 2 tys. par zasad
5,2 eksonów na jeden gen
średnia długość eksonu: 250 par zasad
średnia długość intronu: 168 par zasad
liczba intronów w genie jest bardzo podobna u A. thaliana i u C. elegans; u A. thaliana jest ich trochę mniej (ok. 4 na jeden gen)
introny u A. thaliana są sporo mniejsze niż eksony (różnica od C. elegans)
mniejsza ilość intronów i fakt, że są one krótsze, powoduje, że średnia długość genu u A. thaliana jest mniejsza niż u C. elegans. Pozwala to na posiadanie większej liczby genów w genomie, mimo zbliżonej wielkości genomów
dość dużo sekwencji ruchomych (transpozonowych) - kilkanaście procent w genomie (u drożdży było to ok. 3%; u bakterii rzadko liczba ta przekracza 1-2%)
u C. elegans prawdopodobnie nie ma genu bez intronów; u A. thaliana 20% genów nie ma intronów; u drożdży większość genów nie ma intronów
Pseudogeny:
pseudogen - element DNA, który jeszcze niedawno był genem, ale już nie funkcjonuje (np. na skutek utraty kodonu `start'; pojawienia się wczesnego kodonu `stop') - można jeszcze go rozpoznać jako sekwencję, która niedawno kodowała
są ważnym materiałem dla ewolucji
sekwencja nukleotydowa pseudogenu może się swobodnie zmieniać, gdyż pseudogen niczego nie koduje
przypadkiem w obrębie sekwencji pseudogenu może pojawić się ciekawa ramka odczytu kodująca nowe, interesując białko co może spowodować pozorne zmartwychwstanie pseudogenu i wykorzystanie go, jako coś zupełnie nowego
psudogeny mogą również świadczyć o tym, ze genom ulega redukcji, np. z powodów ewolucyjnych (np. u Mycobacterium leprae)
u A. thaliana prawie nie ma pseudogenów (3 pseudogeny na 100 genów) - nietypowe u Eukarya, że prawie wszystkie geny są czynne transkrypcyjnie
Homo sapiens
Odkąd stało się możliwe sekwencjonowanie dużych kawałków DNA, chciano zsekwencjonować genom człowieka. W roku 1987 rozpoczęto finansowanie projektu `Hugo' (`Human Genom Project') przez departament energii Stanów Zjednoczonych. Szefem projektu był początkowo James Watson.
Projekt ten był relatywnie tani - założono, że będzie kosztował 3 mld dolarów i że zakończy się w 2005 roku. Był to pierwszy projekt w dziejach nauki, który został zakończony przed terminem oraz kosztował dużo mniej, niż myślano. Stało się tak dlatego, ponieważ nie doceniono olbrzymiego postępu technologicznego (niesłychana automatyzacja procesów). Pojawiła się również niezbyt uczciwa konkurencja ze strony prywatnego konsorcjum Craig'a Venter'a, który również postanowił zsekwencjonować ludzki genom.
Nieuczciwość konkurencji
Warunkiem projektu Hugo, realizowanego za państwowe pieniądze było to, że jeśli choć fragment sekwencji zostanie poznany i wstępnie zweryfikowany, musi zostać przekazany do baz danych. Z tych opublikowanych sekwencji korzystał Craig Venter. Sekwencjonował on za prywatne pieniądze, ale korzystał z opublikowanych informacji, swoich natomiast nie upubliczniał. Venter korzystając z danych publicznych mógł korygować swoje wyniki, natomiast w drugą stronę nie było to możliwe.
Projekt państwowy jest przykładem dość uporządkowanego sekwecjonowania - nie aż tak uporządkowanego, jak w przypadku drożdży (drożdże sekwencjonowano metodą `clone by clone'), ale i tak tworzono mapy fizyczne, subklony, subsubklony itd. i dopiero małe subklony sekwencjonowano metodą `shotgun'. Znane więc było rusztowanie fizyczne - wiadomo było, z jakiego rejonu pochodzi sekwencjonowana sekwencja. Venter chciał przeprowadzić `WGS' - `Whole Genome Shotgun' - sekwencjonowanie całego DNA na raz.
26 kwietnia 2000r. ogłoszono, że znamy sekwencję nukleotydową genomu człowieka.
Do sekwencjonowania użyto mieszanki genomów kilku ludzi - sekwencja jest więc wypadkową kilku genomów.
Data poznania sekwencji genomu jest datą umowną - tego dnia nic nie zostało dokończone, domknięte. Wtedy poznano zarys sekwencji ludzkiego genomu (`draft') - znanych było ok. 95-98% nukleotydów z niewielkim prawdopodobieństwem błędu.
W lutym 2001 roku opublikowano te sekwencje jednocześnie w Nature (państwowa publikacja) oraz w Science (prywatna Craig'a Venter'a i firmy Celera Genomics).
Tę datę (luty 2001) uważa się za zakończenie wersji wstępnej genomu ludzkiego.
Genom człowieka:
haploidalny zestaw chromosomów: 22 pojedyncze chromosomy somatyczne + dwa chromosomy płciowe (X i Y niosą inną informację)
od ponad 100 lat znane są metody barwienia chromosomów
najbardziej znana metoda barwienia: metoda Giemzy - powstają w niej tzw. prążki G; w metodzie odwrotnej powstają prążki R
powstające prążki korelują z zawartością par GC w danym obszarze DNA - barwienie tą metodą pozwala więc nie tylko odróżnić chromosomy i miejsca na chromosomach, ale również wnioskować o zawartości par GC w danym rejonie. Zawartość par GC koreluje z kolei z obszarami o dużej zawartości genów w DNA (im więcej par GC, tym więcej genów)
numeracja chromosomów od 1 do 22 jest zgodna z wielkością mikroskopową; wielkość mikroskopowa dość ściśle pokrywa się z rzeczywistą zawartością DNA otrzymaną po zsekwencjonowaniu (1 i 2 chromosom są największe; ostatnie - najmniejsze)
Figure 4-11. The banding patterns of human chromosomes. Chromosomes 1-22 are numbered in approximate order of size. A typical human somatic (non-germ line) cell contains two of each of these chromosomes, plus two sex chromosomes-two X chromosomes in a female, one X and one Y chromosome in a male. The chromosomes used to make these maps were stained at an early stage in mitosis, when the chromosomes are incompletely compacted. The horizontal green line represents the position of the centromere (see Figure 4-22), which appears as a constriction on mitotic chromosomes; the knobs on chromosomes 13, 14, 15, 21, and 22 indicate the positions of genes that code for the large ribosomal RNAs (discussed in Chapter 6). These patterns are obtained by staining chromosomes with Giemsa stain, and they can be observed under the light microscope. (Adapted from U. Franke, Cytogenet. Cell Genet. 31:24
32, 1981.)
Wielkość ludzkiego genomu:
duży
ok. 3 mld par zasad (30 razy więcej niż u C. elegans lub A. thaliana)
najmniejszy chromosom: kilkadziesiąt milionów par zasad - jest równocenny trzem-czterem genomom drożdży
największe chromosomy - równoważne dwóm genomom C. elegans lub A. thaliana
chromosomy są duże także jako fizyczne cząsteczki - są znacznie większe niż całe komórki drożdży
Przewężenia wtórne:
na końcach pięciu chromosomów (cecha charakterystyczna dla gatunku)
w tych obszarach zlokalizowany jest rDNA - geny kodujące rybosomalny RNA
W sekwencji podanej w 2000 roku znajdowało się wiele błędów. Przez kolejnych 5 lat poprawiano genom, choć do dziś występują nieliczne przerwy w znanej sekwencji (pozostają niezsekwencjonowane fragmenty). Obszarów tych nie da się ani klonować, ani namnożyć PCRem, ani zsekwencjonować z genomowego DNA (występują tam prawdopodobnie dziwne, specyficzne sekwencje nukleotydowe). Przerw tych jest jednak coraz mniej - około 400 w całym genomie (w 2000 roku takich nieznanych sekwencji było 150 tysięcy).
Wierność znanej sekwencji nukleotydowej genomu człowieka to jeden błąd na 100 tysięcy nukleotydów.
Znamy dużo ponad 99,9% sekwencji euchromatynowych.
Ok. 6-8% ludzkiego genomu to heterochromatyna - tych sekwencji nie znamy. Nie jest wiadome, czy te sekwencje będzie się dało poznać - często są one bardzo monotonne, o dużej liczbie powtórzeń, których nie da się odczytać w sposób wierny. Wydaje się jednak, że ogromna większość tych sekwencji nie zawiera interesujących informacji. Heterochromatyna nie jest jednak całkowicie cicha transkrypcyjnie i nieistotna pod względem zawartej w niej informacji genetycznej - powstają na niej transkrypty (w małych ilościach), które bywają bardzo ważne. W heterochromatynie nie występują tradycyjne geny.
Genom człowieka: 3,08 mld par zasad: euchromatyna to 2,88 mld par zasad.
Po 2000 roku wprowadzono wiele poprawek do ogłoszonej wtedy sekwencji nukleotydowej. Porównując obszar dowolnego chromosomu znany w 2000 roku i w 2005 roku, sekwencje te są do siebie bardzo podobne, jednak są miejsca, które różnią się sekwencją nukleotydową, a także lokalizacją w obrębie chromosomu (może to być spowodowane źle sporządzoną mapą fizyczną chromosomów lub niepoprawnym dopasowaniem sekwencji).
Większość sekwencji pojawiających się w bazach danych to sekwencje pierwotne, z błędami - nie tylko w kwestii odczytu nukleotydów, ale także w umiejscowieniu sekwencji w danym obszarze chromosomu.
Obraz tego, jak bardzo błędna jest sekwencja pierwotna, można uzyskać przyrównując miejsca na chromosomie różnych sekwencji w pierwotnej wersji oraz po dopracowaniu sekwencji. Gdyby nie było błędów, otrzymalibyśmy linię prostą nachyloną pod kątem 45 stopni (takiego obrazu oczywiście nie otrzymujemy).
Ogólne zasady budowy genomu człowieka
Figure 4-15. The organization of genes on a human chromosome. (A) Chromosome 22, one of the smallest human chromosomes, contains 48 × 106 nucleotide pairs and makes up approximately 1.5% of the entire human genome. Most of the left arm of chromosome 22 consists of short repeated sequences of DNA that are packaged in a particularly compact form of chromatin (heterochromatin), which is discussed later in this chapter. (B) A tenfold expansion of a portion of chromosome 22, with about 40 genes indicated. Those in dark brown are known genes and those in light brown are predicted genes. (C) An expanded portion of (B) shows the entire length of several genes. (D) The intron-exon arrangement of a typical gene is shown after a further tenfold expansion. Each exon (red) codes for a portion of the protein, while the DNA sequence of the introns (gray) is relatively unimportant. The entire human genome (3.2 × 109 nucleotide pairs) is distributed over 22 autosomes and 2 sex chromosomes (see Figures 4-10 and 4-11). The term human genome sequence refers to the complete nucleotide sequence of DNA in these 24 chromosomes. Being diploid, a human somatic cell therefore contains roughly twice this amount of DNA. Humans differ from one another by an average of one nucleotide in every thousand, and a wide variety of humans contributed DNA for the genome sequencing project. The published human genome sequence is therefore a composite of many individual sequences. (Adapted from International Human Genome Sequencing Consortium, Nature 409:860
921, 2001.)
Znów - genom człowieka nie jest „typowym” genomem. Nie ma czegoś takiego jak „typowy” gen, genom, organizacja, zawartość czegoś w czymś itp. W przyrodzie jest bardzo wiele różnych rozwiązań ;) Mówiąc o genomie człowieka, mamy na myśli genom ludzki i genomy zwierząt bardzo pokrewnych człowiekowi. Genom ludzki nie jest też genomem bardziej zaawansowanym ewolucyjnie ;)
Liczba genów w genomie człowieka:
w latach '80-'90 (także w porównaniu z niższymi organizmami) uważano, że człowiek powinien mieć ok. 100 tys. genów
przypuszczalna liczba genów malała
w 2000 roku po opublikowanej pierwotnej sekwencji genomu człowieka, ogłoszono konkurs na przewidzenie liczby genów w genomie (nagroda - 1000$ ) - zwyciężyła osoba, która podała najmniejszą liczbę
mamy mniej genów niż A. thaliana!!!
liczba genów - ok. 22 tysięcy - cały czas jest to liczba zmieniająca się
powstaje jednak więcej białek - na skutek procesów posttranskrypcyjnych - np. alternatywnego splicingu, edytowania, alternatywnego wykorzystania początków transkrypcji itd., - powstaje ponad trzydzieści tysięcy różnych transkryptów (a więc minimum tyle różnych białek)
istnieją podejrzenia, że różnorodność transkryptów okaże się jeszcze większa
mamy ponad 30 razy więcej par zasad niż rzodkiewnik i tylko 80% jego liczby genów
przeciętny gen składa się głównie z intronów; eksony to ok. 1/5 genu
ponad połowa chromosomu to obszary, które nie są genami
geny i sekwencje kodujące białko stanowią bardzo mały procent całego genomu człowieka - u niższych Eukarya było to kilkadziesiąt procent; u człowieka: 1,5-2% całej sekwencji nukleotydowej genomu
Struktura genomu:
ponad 50% to sekwencje powtarzające się (nie kodują interesujących białek) - występują w setkach tysięcy kopii w genomie
6-8% to heterochromatyna - są to również sekwencje powtarzające się, ale innego rodzaju - nie są w stanie przenosić się w obrębie genomu; nie mają nawet potencjalnej zdolności do przenoszenia się
30-40% euchromatyny to geny - eksony, introny i sekwencje regulatorowe
Figure 4-17. Representation of the nucleotide sequence content of the human genome. LINES, SINES, retroviral-like elements, and DNA-only transposons are all mobile genetic elements that have multiplied in our genome by replicating themselves and inserting the new copies in different positions. Mobile genetic elements are discussed in Chapter 5. Simple sequence repeats are short nucleotide sequences (less than 14 nucleotide pairs) that are repeated again and again for long stretches. Segmental duplications are large blocks of the genome (1000
200,000 nucleotide pairs) that are present at two or more locations in the genome. Over half of the unique sequence consists of genes and the remainder is probably regulatory DNA. Most of the DNA present in heterochromatin, a specialized type of chromatin (discussed later in this chapter) that contains relatively few genes, has not yet been sequenced. (Adapted from Unveiling the Human Genome, Supplement to the Wellcome Trust Newsletter. London: Wellcome Trust, February 2001.)
Regulacja ekspresji genów:
bardzo złożone, wielopoziomowe systemy regulacji ekspresji genów, często zależne od hormonów, od drogi nerwowej - od kombinacji wielu różnych czynników transkrypcyjnych
trudno jest badać te systemy
ciężko jest wyznaczać nawet obszary odpowiedzialne za rozpoczęcie/zakończenie transkrypcji
obszary regulatorowe są bardzo istotne w genomach Eukarya i zajmują stosunkowo dużo miejsca
obszary kodujące rzeczywistą informację genetyczną są bardzo małe
Wartości różnych parametrów dla genu (otrzymane na podstawie sekwencji pierwotnej):
Jeśli w zbiorowości znajdują się jednostki bardzo odbiegające od przeciętnych, ogromnie wpływają one na wartość średnią. „Średni” nie jest równoznaczny ze słowem „typowy” lub „reprezentatywny”. Dużo lepszą wartością opisującą zbiorowość jest „mediana”. Mediana dzieli zbiór na dwie równoliczne części.
W genomie zdarzają się ogromne geny, bardzo długie introny, geny o bardzo licznych intronach - nie jest ich wiele, jednak wywierają duży wpływ na wartość średnią. Dlatego dużo bardziej obrazowym pojęciem jest mediana.
Porównanie wartości średnich i median:
|
Wartość średnia |
Mediana |
Długość wewnętrznego eksonu |
122 par zasad |
145 pz |
Liczba eksonów |
7 |
8,8 |
długość intronu |
1023 pz |
3365 pz |
długość 3'UTR |
400 pz |
770 pz |
długość 5'UTR |
240 pz |
300 pz |
długość sekwencji kodującej |
1100 pz |
1340 pz |
długość białka |
367 aminokwasów |
447 aminokwasów |
długość genu |
14 pz |
27 pz |
średnia długość białka: 447 aminokwasów - podobnie jak u C. elegans lub A. thaliana
przeciętna długość białka: ok. 350 aminokwasów (średnia wartość jest zawyżona przez długie białka)
długość genu: 27 tys. par zasad (teraz uważa się, że ok. 50 tys. par zasad)
podana została długość wewnętrznego eksonu, ponieważ trudno jest odnaleźć i wyznaczyć granice zewnętrznych eksonów - ich uwzględnienie byłoby obarczone dużym błędem, dlatego też zazwyczaj się je pomija
eksony wewnątrz genu są dość łatwe do rozpoznania
introny są dużo dłuższe niż eksony
Genom człowieka jest bardzo różnorodny - nie istnieje „typowy” gen człowieka. Np. geny globinowe zawierają niewielką liczbę krótkich intronów i na pierwszy rzut oka (pod względem budowy) są bardzo podobne do genów C. elegans. Z drugiej strony - gen kodujący czynnik krzepliwości krwi ma dużo więcej eksonów i bardzo długie introny.
Czasem geny są specjalnie bardzo długie - aby ich transkrypcja długo trwała - pozwala to na zastosowanie wielu mechanizmów regulacyjnych.
Najczęściej jednak kwestia długości genu, ilości i długości intronów jest przypadkowa.
Ostatnio odkrywa się wiele obszarów w DNA, które nie kodują białek, jednak są transkrybowane i powstają z nich regulatorowe cząsteczki RNA. Być może obszary genomu, które do tej pory wydawały się puste (np. niektóre sekwencje powtarzalne lub obszary intronowe) również kodują cos ważnego - nie białko, a regulatorowe RNA. Obszary te mogą więc mieć bardzo ważną, nieznaną jeszcze funkcję.
1