7020


BIOLOGIA MOLEKULARNA, W.2, 13.10.06

Kontynuacja omawiania organizacji genomów różnych bakterii

Neisseria meningitidis - bakteria wywołująca bakteryjne zapalenie opon mózgowych.

Radzi sobie z systemem immunologicznym żywiciela w ten sposób, że często i intensywnie zmienia swoje właściwości antygenowe. Jest to możliwe dzięki łatwym przebudowom własnego genomu, a także wymianie materiału genetycznego z innymi bakteriami.

W genomie tej bakterii w okręgach od czwartego do dziewiątego rozmieszczone są różne sekwencje powtórzone (nie są to sekwencje kodujące białka; najczęściej są to elementy pasożytnicze, które mają zdolność do namnażania się, a przynajmniej do przenoszenia się w obrębie genomu). Zazwyczaj bakterie mają mało kopii sekwencji powtórzonych (kilka-kilkanaście), Neisseria jest nietypowa, ponieważ ma tych sekwencji bardzo dużo - są one rozsiane po całym genomie i bardzo łatwo mogą rekombinować między sobą. Przenosząc się, sekwencje powtórzone porywają ze sobą fragmenty genomu i mogą wbudowywać się wraz z nimi w genom innej bakterii, bądź też w inne miejsce genomu tej samej bakterii.

Warto pamiętać: w bakteriach bywa dużo sekwencji powtórzonych, które są przez bakterie wykorzystywane.

Haemophilus influenzae

Jest jedną z kilku bakterii, które potrafią spontanicznie transformować się DNA (zazwyczaj aby stransformować bakterię trzeba użyć specjalnych metod - np. soli wapnia, szoku termicznego, elektroporacji). Ułatwia to bakterii ewolucję - przystosowanie się do zmieniającego środowiska dzięki większej zmienności. Aby Haemophilus mógł spontanicznie wchłonąć DNA, muszą się w nim znajdować specyficzne sekwencje - USS (Uptake Signal Sequence - AAGTGCGGT - znana, dziewięcionukleotydowa sekwencja). Haemophilus ma w swym genomie ok. 1,5 miliona par zasad, więc gdyby wyliczyć statystyczne prawdopodobieństwo występowania takich sekwencji, powinno ich być 8-9 na genom. A jest ich 1462. Jest ich tak dużo, ponieważ każda wchłonięta sekwencja wbudowuje się w genom - genom Haemophilus jest gęsto upakowaną mozaiką sekwencji USS (genom Haemophilus to historyczna składanka kawałków DNA wchłoniętych z otoczenia - zarówno tego samego gatunku jak i innych gatunków, o ile występuje w nich sekwencja USS).

Wraz z nagromadzeniem wielu genomów bakteryjnych w bazach danych stało się możliwe nie tylko analizowanie poszczególnych genomów, ale także porównania tych genomów między sobą. Udało się znaleźć geny homo-/ortologiczne - są to geny ewidentnie ze sobą spokrewnione, pełniące taką samą lub bardzo podobną funkcję.

Mycoplasma pneumoniae i Mycoplasma genitalium

Są to bardzo blisko spokrewnione gatunki o bardzo małych genomach. Można przyjrzeć się poszczególnym genom, jak rozmieszczone są one względem siebie w każdym genomie (zaczynając np. od początku replikacji lub jakiegoś innego wyróżnionego miejsca w genomie).

Odkładając odległość poszczególnych genów na osi i sporządzając wykres można odkryć, że geny układają się prawie na linii przekątnej (nachylonej pod kątem 45 stopni). Oznacza to, że względna kolejność ułożenia genów w obu gatunkach jest prawie identyczna. Tylko czasem zdarzają się geny, które są inaczej umiejscowione.

Porównanie dwóch bakterii z tego samego gatunku pozwoliłoby na otrzymanie linii nachylonej idealnie pod kątem 45 stopni.

0x01 graphic

Mycoplasma pneumoniae i Ureaplasma ureatylicum

Są to bakterie bardzo odległe ewolucyjnie, ale pełniące bardzo podobne funkcje - pasożytują wewnątrz komórek nabłonka układu oddechowego (M. pnumoniae) lub moczowego (U. ureatylicum) i są fizjologicznie podobne.

0x01 graphic

Wykres obrazujący rozmieszczenie genów jest bardzo nieregularny („kompletna sieczka” ). Oznacza to, że bakterie mają homologiczne geny (inaczej nie byłoby punktów na wykresie), ale ich położenie w obu genomach jest totalnie różne. W trakcie ewolucji następuje intensywnie przemieszczanie, tasowanie i składanie genomów. Jest to bardzo widoczne u bakterii, ale istnieje również u Eukarya (u Eukarya takich porównań dokonuje się na poziomie całych chromosomów).

Genom jest niewyobrażalnie plastyczny i ruchomy. Te same funkcje mogą być realizowane przy bardzo różnym porządku genów (konserwowane jest ułożenie genów wewnątrz operonów, ale już wzajemne ułożenie operonów jest bardzo różne).

Kiedy poznajemy nowy gatunek, dążymy do tego, by scharakteryzować go także pod względem biochemicznym (sposobu prowadzenia metabolizmu, syntetyzowanych związków itd.). Gdybyśmy chcieli badać istnienie poszczególnych reakcji biochemicznych (bardzo wiele różnych warunków środowiska, syntetyzowanych produktów itd.), byłoby to bardzo żmudne i czasochłonne. Poznanie pełnych genomów pozwala na odczytanie potencjału komórki - tego, co potencjalnie może ona robić. Jeżeli więc znamy cały genom i potrafimy przypisać funkcje wszystkim genom, powinniśmy być w stanie odtworzyć wirtualnie zdolności metaboliczne takiej komórki.

Borrelia burgdorferi - zostały podjęte próby odtworzenia kompletnej informacji biochemicznej na podstawie znajomości genomu tej bakterii.

Jeżeli w danej bakterii nie odnajdzie się jakiegoś enzymu z cyklu Krebsa (są one silnie konserwowane ewolucyjnie), możemy być prawie pewni, że taki organizm nie jest w stanie przeprowadzić całej reakcji cyklu Krebsa.

Działa to również w drugą stronę - jeśli w genomie danej bakterii znajdziemy komplet enzymów potrzebny do syntezy jakiegoś związku, wtedy nie badając tego biochemicznie, możemy z dużym prawdopodobieństwem twierdzić, że ten organizm będzie wytwarzał dany związek.

W przypadku prostych związków jest to informacją, jakie wymagania pokarmowe ma dany organizm. Firmy farmaceutyczne intensywnie poszukują natomiast nowych, interesujących związków. Poszukiwania na poziomie biochemicznym są bardzo trudne - dany związek należałoby najpierw wyizolować, co jest trudne, gdy nie wie się, czego dokładnie się poszukuje. Można popatrzeć na geny danego organizmu. Wtedy istnieje możliwość znalezienia enzymu, podejrzewanego o przeprowadzanie konkretnych procesów na podstawie znajomości innych, podobnych enzymów (np. o wprowadzenie pierścieni aromatycznych lub grupy hydroksylowej). Obecnie przewiduje się, jaki związek może być syntetyzowany przez kodowany enzym (szereg enzymów) wyłącznie na podstawie informacji genetycznej. Nie jest to dowód - trzeba przeprowadzić wtedy dalsze analizy, ale w ten sposób znaleziono dziesiątki nowych związków i dziesiątki organizmów produkujących dany związek. Jest to duża tańsza procedura. Jest to przykład praktycznego wykorzystania informacji genetycznej - nazywa się to „genome mining” - wykopaliska genomowe ;)

Organizacja genomów u Eukarya

Organizmem modelowym w świecie Eukarya są drożdże piekarnicze - Saccharomyces cerevisiae używane w produkcji różnych rodzajów bułeczek

Chciano poznać pełną sekwencję genomu tego organizmu. Dzięki długim badaniom biochemicznym, o drożdżach wiedziano bardzo dużo jeszcze zanim zaczęto sekwencjonowanie (zidentyfikowano ponad tysiąc genów drożdżowych i poznano ich funkcje dzięki badaniom fenotypów mutantów).

Pod koniec lat osiemdziesiątych postanowiono w Europie zsekwencjonować genom drożdży. Jest to przykład uporządkowanego i zaplanowanego sekwencjonowania tak dużego genomu od początku do końca (bez użycia metody sekwecjonowania losowego - `shotgun'). Genom był sekwencjonowany przez ponad 600 osób w 100 laboratoriach przez 7 lat.

Drożdże są bardzo nietypowymi przedstawicielami Eukarya:

0x01 graphic


Figure 4-13. The genome of S. cerevisiae (budding yeast). (A) The genome is distributed over 16 chromosomes, and its complete nucleotide sequence was determined by a cooperative effort involving scientists working in many different locations, as indicated (gray, Canada; orange, European Union; yellow, United Kingdom; blue, Japan; light green, St Louis, Missouri; dark green, Stanford, California). The constriction present on each chromosome represents the position of its centromere (see Figure 4-22). (B) A small region of chromosome 11, highlighted in red in part A, is magnified to show the high density of genes characteristic of this species. As indicated by orange, some genes are transcribed from the lower strand (see Figure 1-5), while others are transcribed from the upper strand. There are about 6000 genes in the complete genome, which is 12,147,813 nucleotide pairs long.

Różnice między genomem bakteryjnym i drożdżowym:

Publikacja pełnej sekwencji genomu drożdży:

Dziś znamy prawie 10 genomów drożdżowych. Saccharomyces cerevisiae i Schizosaccharomyces pombe są ważnymi organizmami modelowymi.

Drożdże są bardzo zróżnicowane i odległe ewolucyjnie; są niejednolitą grupą taksonomiczną (nie są monofiletyczne). Poznanie tylu genomów drożdżowych pozwala na prowadzenie wielu ciekawych badań ewolucyjnych - porównując małe, łatwe do zsekwencjonowania genomy można wnioskować o ewolucji na przestrzeni setek milionów lat.

Zawartość par GC w genomie drożdży:

Chromosom 1:

Budowa rDNA:

Funkcje genów drożdżowych:

Schemat genu eukariotycznego:

Wyspy CpG:

Caenorhabditis elegans:

2002 - poznano pełną sekwencję genomu C. elegans:

Przeciętny gen C. elegans:

Arabidopsis thaliana (rzodkiewnik pospolity); rodzina: Brassicaceae (krzyżowe)

Genom A. thaliana:

Pełna sekwencja genomu A. thaliana:

Pseudogeny:

Homo sapiens

Odkąd stało się możliwe sekwencjonowanie dużych kawałków DNA, chciano zsekwencjonować genom człowieka. W roku 1987 rozpoczęto finansowanie projektu `Hugo' (`Human Genom Project') przez departament energii Stanów Zjednoczonych. Szefem projektu był początkowo James Watson.

Projekt ten był relatywnie tani - założono, że będzie kosztował 3 mld dolarów i że zakończy się w 2005 roku. Był to pierwszy projekt w dziejach nauki, który został zakończony przed terminem oraz kosztował dużo mniej, niż myślano. Stało się tak dlatego, ponieważ nie doceniono olbrzymiego postępu technologicznego (niesłychana automatyzacja procesów). Pojawiła się również niezbyt uczciwa konkurencja ze strony prywatnego konsorcjum Craig'a Venter'a, który również postanowił zsekwencjonować ludzki genom.

Nieuczciwość konkurencji

Warunkiem projektu Hugo, realizowanego za państwowe pieniądze było to, że jeśli choć fragment sekwencji zostanie poznany i wstępnie zweryfikowany, musi zostać przekazany do baz danych. Z tych opublikowanych sekwencji korzystał Craig Venter. Sekwencjonował on za prywatne pieniądze, ale korzystał z opublikowanych informacji, swoich natomiast nie upubliczniał. Venter korzystając z danych publicznych mógł korygować swoje wyniki, natomiast w drugą stronę nie było to możliwe.

Projekt państwowy jest przykładem dość uporządkowanego sekwecjonowania - nie aż tak uporządkowanego, jak w przypadku drożdży (drożdże sekwencjonowano metodą `clone by clone'), ale i tak tworzono mapy fizyczne, subklony, subsubklony itd. i dopiero małe subklony sekwencjonowano metodą `shotgun'. Znane więc było rusztowanie fizyczne - wiadomo było, z jakiego rejonu pochodzi sekwencjonowana sekwencja. Venter chciał przeprowadzić `WGS' - `Whole Genome Shotgun' - sekwencjonowanie całego DNA na raz.

26 kwietnia 2000r. ogłoszono, że znamy sekwencję nukleotydową genomu człowieka.

Do sekwencjonowania użyto mieszanki genomów kilku ludzi - sekwencja jest więc wypadkową kilku genomów.

Data poznania sekwencji genomu jest datą umowną - tego dnia nic nie zostało dokończone, domknięte. Wtedy poznano zarys sekwencji ludzkiego genomu (`draft') - znanych było ok. 95-98% nukleotydów z niewielkim prawdopodobieństwem błędu.

W lutym 2001 roku opublikowano te sekwencje jednocześnie w Nature (państwowa publikacja) oraz w Science (prywatna Craig'a Venter'a i firmy Celera Genomics).

Tę datę (luty 2001) uważa się za zakończenie wersji wstępnej genomu ludzkiego.

0x01 graphic

Genom człowieka:

0x01 graphic


Figure 4-11. The banding patterns of human chromosomes. Chromosomes 1-22 are numbered in approximate order of size. A typical human somatic (non-germ line) cell contains two of each of these chromosomes, plus two sex chromosomes-two X chromosomes in a female, one X and one Y chromosome in a male. The chromosomes used to make these maps were stained at an early stage in mitosis, when the chromosomes are incompletely compacted. The horizontal green line represents the position of the centromere (see Figure 4-22), which appears as a constriction on mitotic chromosomes; the knobs on chromosomes 13, 14, 15, 21, and 22 indicate the positions of genes that code for the large ribosomal RNAs (discussed in Chapter 6). These patterns are obtained by staining chromosomes with Giemsa stain, and they can be observed under the light microscope. (Adapted from U. Franke, Cytogenet. Cell Genet. 31:240x01 graphic
32, 1981.)

Wielkość ludzkiego genomu:

Przewężenia wtórne:

W sekwencji podanej w 2000 roku znajdowało się wiele błędów. Przez kolejnych 5 lat poprawiano genom, choć do dziś występują nieliczne przerwy w znanej sekwencji (pozostają niezsekwencjonowane fragmenty). Obszarów tych nie da się ani klonować, ani namnożyć PCRem, ani zsekwencjonować z genomowego DNA (występują tam prawdopodobnie dziwne, specyficzne sekwencje nukleotydowe). Przerw tych jest jednak coraz mniej - około 400 w całym genomie (w 2000 roku takich nieznanych sekwencji było 150 tysięcy).

Wierność znanej sekwencji nukleotydowej genomu człowieka to jeden błąd na 100 tysięcy nukleotydów.

Znamy dużo ponad 99,9% sekwencji euchromatynowych.

Ok. 6-8% ludzkiego genomu to heterochromatyna - tych sekwencji nie znamy. Nie jest wiadome, czy te sekwencje będzie się dało poznać - często są one bardzo monotonne, o dużej liczbie powtórzeń, których nie da się odczytać w sposób wierny. Wydaje się jednak, że ogromna większość tych sekwencji nie zawiera interesujących informacji. Heterochromatyna nie jest jednak całkowicie cicha transkrypcyjnie i nieistotna pod względem zawartej w niej informacji genetycznej - powstają na niej transkrypty (w małych ilościach), które bywają bardzo ważne. W heterochromatynie nie występują tradycyjne geny.

Genom człowieka: 3,08 mld par zasad: euchromatyna to 2,88 mld par zasad.

Po 2000 roku wprowadzono wiele poprawek do ogłoszonej wtedy sekwencji nukleotydowej. Porównując obszar dowolnego chromosomu znany w 2000 roku i w 2005 roku, sekwencje te są do siebie bardzo podobne, jednak są miejsca, które różnią się sekwencją nukleotydową, a także lokalizacją w obrębie chromosomu (może to być spowodowane źle sporządzoną mapą fizyczną chromosomów lub niepoprawnym dopasowaniem sekwencji).

Większość sekwencji pojawiających się w bazach danych to sekwencje pierwotne, z błędami - nie tylko w kwestii odczytu nukleotydów, ale także w umiejscowieniu sekwencji w danym obszarze chromosomu.

Obraz tego, jak bardzo błędna jest sekwencja pierwotna, można uzyskać przyrównując miejsca na chromosomie różnych sekwencji w pierwotnej wersji oraz po dopracowaniu sekwencji. Gdyby nie było błędów, otrzymalibyśmy linię prostą nachyloną pod kątem 45 stopni (takiego obrazu oczywiście nie otrzymujemy).

Ogólne zasady budowy genomu człowieka

0x01 graphic


Figure 4-15. The organization of genes on a human chromosome. (A) Chromosome 22, one of the smallest human chromosomes, contains 48 × 106 nucleotide pairs and makes up approximately 1.5% of the entire human genome. Most of the left arm of chromosome 22 consists of short repeated sequences of DNA that are packaged in a particularly compact form of chromatin (heterochromatin), which is discussed later in this chapter. (B) A tenfold expansion of a portion of chromosome 22, with about 40 genes indicated. Those in dark brown are known genes and those in light brown are predicted genes. (C) An expanded portion of (B) shows the entire length of several genes. (D) The intron-exon arrangement of a typical gene is shown after a further tenfold expansion. Each exon (red) codes for a portion of the protein, while the DNA sequence of the introns (gray) is relatively unimportant. The entire human genome (3.2 × 109 nucleotide pairs) is distributed over 22 autosomes and 2 sex chromosomes (see Figures 4-10 and 4-11). The term human genome sequence refers to the complete nucleotide sequence of DNA in these 24 chromosomes. Being diploid, a human somatic cell therefore contains roughly twice this amount of DNA. Humans differ from one another by an average of one nucleotide in every thousand, and a wide variety of humans contributed DNA for the genome sequencing project. The published human genome sequence is therefore a composite of many individual sequences. (Adapted from International Human Genome Sequencing Consortium, Nature 409:8600x01 graphic
921, 2001.)

Znów - genom człowieka nie jest „typowym” genomem. Nie ma czegoś takiego jak „typowy” gen, genom, organizacja, zawartość czegoś w czymś itp. W przyrodzie jest bardzo wiele różnych rozwiązań ;) Mówiąc o genomie człowieka, mamy na myśli genom ludzki i genomy zwierząt bardzo pokrewnych człowiekowi. Genom ludzki nie jest też genomem bardziej zaawansowanym ewolucyjnie ;)

Liczba genów w genomie człowieka:

Struktura genomu:

0x01 graphic


Figure 4-17. Representation of the nucleotide sequence content of the human genome. LINES, SINES, retroviral-like elements, and DNA-only transposons are all mobile genetic elements that have multiplied in our genome by replicating themselves and inserting the new copies in different positions. Mobile genetic elements are discussed in Chapter 5. Simple sequence repeats are short nucleotide sequences (less than 14 nucleotide pairs) that are repeated again and again for long stretches. Segmental duplications are large blocks of the genome (10000x01 graphic
200,000 nucleotide pairs) that are present at two or more locations in the genome. Over half of the unique sequence consists of genes and the remainder is probably regulatory DNA. Most of the DNA present in heterochromatin, a specialized type of chromatin (discussed later in this chapter) that contains relatively few genes, has not yet been sequenced. (Adapted from Unveiling the Human Genome, Supplement to the Wellcome Trust Newsletter. London: Wellcome Trust, February 2001.)

Regulacja ekspresji genów:

Wartości różnych parametrów dla genu (otrzymane na podstawie sekwencji pierwotnej):

Jeśli w zbiorowości znajdują się jednostki bardzo odbiegające od przeciętnych, ogromnie wpływają one na wartość średnią. „Średni” nie jest równoznaczny ze słowem „typowy” lub „reprezentatywny”. Dużo lepszą wartością opisującą zbiorowość jest „mediana”. Mediana dzieli zbiór na dwie równoliczne części.

W genomie zdarzają się ogromne geny, bardzo długie introny, geny o bardzo licznych intronach - nie jest ich wiele, jednak wywierają duży wpływ na wartość średnią. Dlatego dużo bardziej obrazowym pojęciem jest mediana.

Porównanie wartości średnich i median:

Wartość średnia

Mediana

Długość wewnętrznego eksonu

122 par zasad

145 pz

Liczba eksonów

7

8,8

długość intronu

1023 pz

3365 pz

długość 3'UTR

400 pz

770 pz

długość 5'UTR

240 pz

300 pz

długość sekwencji kodującej

1100 pz

1340 pz

długość białka

367 aminokwasów

447 aminokwasów

długość genu

14 pz

27 pz

Genom człowieka jest bardzo różnorodny - nie istnieje „typowy” gen człowieka. Np. geny globinowe zawierają niewielką liczbę krótkich intronów i na pierwszy rzut oka (pod względem budowy) są bardzo podobne do genów C. elegans. Z drugiej strony - gen kodujący czynnik krzepliwości krwi ma dużo więcej eksonów i bardzo długie introny.

Czasem geny są specjalnie bardzo długie - aby ich transkrypcja długo trwała - pozwala to na zastosowanie wielu mechanizmów regulacyjnych.

Najczęściej jednak kwestia długości genu, ilości i długości intronów jest przypadkowa.

Ostatnio odkrywa się wiele obszarów w DNA, które nie kodują białek, jednak są transkrybowane i powstają z nich regulatorowe cząsteczki RNA. Być może obszary genomu, które do tej pory wydawały się puste (np. niektóre sekwencje powtarzalne lub obszary intronowe) również kodują cos ważnego - nie białko, a regulatorowe RNA. Obszary te mogą więc mieć bardzo ważną, nieznaną jeszcze funkcję.

1



Wyszukiwarka