DNAStat wersja 2 1 – program do obsługi bazy danych profili genetycznych oraz do obliczeń biostatystycznych

ARCH. MED. SD. KRYMINOL., 2010, LX, 118-126 PRACE ORYGINALNE
Jarosław Berent
DNAStat wersja 2.1 program do obsługi bazy danych profili
genetycznych oraz do obliczeń biostatystycznych
DNAStat, version 2.1 a computer program for processing genetic
profile databases and biostatistical calculations
Z Katedry i Zakładu Medycyny Sądowej Uniwersytetu Medycznego w Aodzi
Kierownik: prof. dr hab. n. med. J. Berent
W pracy przedstawiono nową wersję programu This paper presents the new DNAStat version 2.1 for
DNAStat wersja 2.1 do obsługi bazy danych profili processing genetic profile databases and biostatistical
genetycznych oraz do obliczeń biostatystycznych. calculations. The popularization of DNA studies
Rozpowszechnienie się badań DNA, wykorzystywa- employed in the judicial system has led to the necessity
nych dla potrzeb wymiaru sprawiedliwości, spowo- of developing appropriate computer programs. Such
dowało konieczność opracowania odpowiednich programs must, above all, address two critical problems,
programów komputerowych ułatwiających pracę i.e. the broadly understood data processing and data
biegłego genetyka. Programy takie muszą przede storage, and biostatistical calculations. Moreover, in
wszystkim rozwiązywać dwa problemy, tj. problem case of terrorist attacks and mass natural disasters, the
szeroko pojętej obsługi i archiwizacji danych oraz ability to identify victims by searching related individuals
problem obliczeń biostatystycznych. Ponadto, is very important. DNAStat version 2.1 is an adequate
z uwagi na coraz częstsze występowanie we współ- program for such purposes. The DNAStat version
czesnym świecie zagrożeń terrorystycznych i klęsk 1.0 was launched in 2005. In 2006, the program was
żywiołowych, ważna jest możliwość analizy zgro- updated to 1.1 and 1.2 versions. There were, however,
madzonych danych pod kątem odnajdywania osób slight differences between those versions and the
spokrewnionych. Takim programem jest właśnie original one. The DNAStat version 2.0 was launched
DNAStat wersja 2.1. Program został opracowany in 2007 and the major program improvement was an
w roku 2005 wersja 1.0. W roku 2006 powstały introduction of the group calculation options with the
wersja 1.1 i następnie 1.2. Wersje 1.1 i 1.2 usuwały potential application to personal identification of mass
jedynie kilka drobnych niedogodności z wersji 1.0, disasters and terrorism victims. The last 2.1 version has
natomiast co do istoty nie różniły się wiele od pierw- the option of language selection Polish or English,
szej wersji. Wersja 2.0 powstała w roku 2007 pod- which will enhance the usage and application of the
stawowym udoskonaleniem programu w tej wersji program also in other countries.
było wprowadzenie możliwości obliczeń grupowych,
których potencjalnym zastosowaniem jest identyfika- Key words: biostatistics, personal identifica-
cja osobnicza ofiar zamachów terrorystycznych lub tion, terrorism, mass disasters, paternity test-
katastrof masowych. W obecnej wersji 2.1 dodano ing, forensic cases, databases
możliwość obsługi programu poza językiem pol-
skim także w języku angielskim.
Słowa kluczowe: biostatystyka, identyfikacja
osobnicza, zamachy terrorystyczne, kata-
strofy masowe, badania ojcostwa, badania
dowodów rzeczowych, bazy danych
Nr 2-3 DNASTAT WERSJA 2.1 119
WPROWADZENIE INTRODUCTION
Rozpowszechnienie się badań DNA, wyko- The popularization of DNA studies employed
rzystywanych dla potrzeb wymiaru sprawiedli- in the judicial system has led to the necessity
wości, spowodowało konieczność opracowa- of developing appropriate computer programs.
nia odpowiednich programów komputerowych Such programs must, above all, address two
ułatwiających pracę biegłego genetyka. critical problems, i.e. the broadly understood
Programy takie muszą przede wszystkim roz- data processing and data storage, and biosta-
wiązywać dwa problemy, tj. problem szeroko tistical calculations. Moreover, in case of ter-
pojętej obsługi i archiwizacji danych oraz rorist attacks and mass natural disasters, the
problem obliczeń biostatystycznych. Ponad- ability to identify victims by searching related
to z uwagi na coraz częstsze występowanie individuals is very important. DNAStat version
we współczesnym świecie zagrożeń terrory- 2.1 is an adequate program for such purposes.
stycznych i klęsk żywiołowych, ważna jest The program has been elaborated by Professor
możliwość analizy zgromadzonych danych Jaroslaw Berent, the Head of the Department
pod kątem odnajdywania osób spokrewnio- of Forensic Medicine, Medical University of
nych. Takim programem jest właśnie DNAStat Lodz, with the cooperation of Laser Systemy
wersja 2.1. Program został opracowany przez Informatyczne S.A. in Lodz. The project was
prof. dr. hab. n. med. Jarosława Berenta, kie- supported by Medical University of Lodz, grant
rownika Katedry i Zakładu Medycyny Sądo- no. 502-11-785(35).
wej Uniwersytetu Medycznego w Aodzi przy
wykorzystaniu obsługi informatycznej firmy
Laser Systemy Informatyczne S.A. w Aodzi.
Program powstał w ramach grantu na prace
własne Uniwersytetu Medycznego w Aodzi nr
502-11-785(35).
WCZEśNIEJSZE WERSJE PROGRAMU PREVIOUS PROGRAM VERSIONS
Program został opracowany w roku 2005 The DNAStat version 1.0 was launched in
wersja 1.0 [4, 5]. W roku 2006 powstały wersja 2005 [4,5]. In 2006, the program was updated
1.1 i następnie 1.2 [6]. Wersje 1.1 i 1.2 usuwały to 1.1 and 1.2 versions [6]. There were, how-
jedynie kilka drobnych niedogodności z wersji ever, slight differences between those versions
1.0, natomiast co do istoty nie różniły się wiele and the original one. The DNAStat version 2.0
od pierwszej wersji. Wersja 2.0 powstała w roku was launched in 2007 and the major program
2007 podstawowym udoskonaleniem progra- improvement was an introduction of the group
mu w tej wersji było wprowadzenie możliwości calculation options with the potential application
obliczeń grupowych, których potencjalnym to personal identification of mass disasters and
zastosowaniem jest identyfikacja osobnicza terrorism victims. The last 2.1 version has the
ofiar zamachów terrorystycznych lub katastrof option of language selection Polish or English,
masowych. W obecnej wersji 2.1 dodano możli- which will enhance the usage and application of
wość obsługi programu poza językiem polskim the program also in other countries.
także w języku angielskim.
INSTALACJA PROGRAMU PROGRAM INSTALLATION
Plik instalacyjny programu DNAStat o nazwie The DNAStat installation file named DNAS-
DNAStat_setup.exe można uzyskać nieodpłat- tat_seyup.exe is freely available from its author
nie po zgłoszeniu e-mailowym do autora progra- (J.Berent@eranet.pl). After it is run, the installa-
mu (J.Berent@eranet.pl). Po jego uruchomieniu tion starts automatically and lasts for about one
cała instalacja następuje automatycznie i trwa minute. The program is installed to the directory:
około jednej minuty. Program zostaje zainstalo- C:\Program Files\DNAStat\, and the DNAStat
wany do katalogu: C:\Program Files\DNAStat\, 2.1 icon is placed on a desktop.
a na pulpicie umieszczona zostaje ikona o na-
zwie DNAStat 2.1.
120 Jarosław Berent Nr 2-3
Program można odinstalować przez aplet The program can be easily uninstalled by
Dodaj lub usuń programy w panelu sterowa- means of the add/remove programs applet in
nia. the control panel.
W katalogu C:\Program Files\DNAStat\ The C:\Program Files\DNAStat\Databases\
Databases\PL\ zostają automatycznie umiesz- EN\ directory contains 2 database files named
czone dwa pliki baz danych: Baza.gdb i Pusta. Default_base.gdb and Empty_base.gdb . The
gdb. Ta pierwsza zawiera już wprowadzone first one already includes the population data of
dane populacyjne dla 15 loci STR z zestawu 250 alleles in a range of 15 STR loci contained
� �
multipleksowego Identifiler dla n=250 alleli. in an Identifiler kit. The source of the popula-
Dane te pochodzą z publikacji: Jacewicz R., tion data is the article: Jacewicz R., Berent J.,
Berent J., Prośniak A., Gałecki P., Florkowski Prosniak A., Galecki P., Florkowski A., Szram
A., Szram S.: Population genetics of the Iden- S.: Population genetics of the Identifiler marker
tifiler system in Poland. International Congress in Poland. International Congress Series 2004,
Series 2004, 1261, 229-232 [10]. Wprowadzo- 1261, 229-232 [10]. Mutation ratios described
ne tam współczynniki mutacji pochodzą zaś in the article were taken from the Paternity Test-
z raportu: 2001 Paternity Testing Workshop of ing Workshop Report of the English Speaking
the English Speaking Working Group of the Working Group of the International Society
International Society for Forensic Genetics for Forensic Genetics launched in 2001 [13],
[13], przy czym współczynniki mutacji obliczo- and they were counted by dividing the sum of
no jako iloraz sumy niezgodności w układzie mother child and father child inconsistencies
matka-dziecko i ojciec-dziecko przez całkowitą by the total meioses number.
liczbę mejoz.
Natomiast baza o nazwie Pusta.gdb nie za- The Empty_base.gdb file does not contain
wiera żadnych danych i stanowi miejsce, gdzie any data and thus can be used for inserting
użytkownik może umieszczać swoje własne user data. Those databases can be optionally
dane. Bazy te mogą być dowolnie kopiowane processed by changing name or location.
i mogą mieć dowolnie zmieniane nazwy. Rów-
nież ich lokalizacja w komputerze może być During the installation process, in the C:\
dowolna, niekoniecznie w domyślnym miejscu, Program Files\DNAStat\ Examples\EN\ direc-
czyli katalogu C:\Program Files \DNAStat\Da- tory seven exampling files are placed. They are
tabases\PL\. two Microsoft Excel files: Import_1.xls and
Podczas instalacji w katalogu C:\Program Import_2.xls . Those files, containing geno-
Files\DNAStat\ Examples\ PL\ zostaje umiesz- types that the user wants to import to DNAStat
czonych siedem plików z przykładowymi program, have to be constructed identically,
�
danymi. Są to dwa pliki programu Microsoft i.e. with a description in the first line and ge-
Office Excel: Import_1.xls i Import_2.xls. Pliki netic data in the following lines. The first column
programu Excel zawierające genotypy, które named Number contains case number, the
użytkownik chciałby zaimportować do progra- next columns contain genotypes (two columns
mu muszą mieć identyczną konstrukcję, tzn. per one marker, i.e. D8S1179 and D8S1179_2).
w pierwszym wierszu muszą się znajdować The last column named Remarks may include
opisy kolumn, a w kolejnych wierszach muszą any text. The other four files in this folder are se-
się znajdować dane. Pierwsza kolumna o na- quencer generated CODIS files named Data_1.
zwie Numer zawiera numer sprawy (musi to być txt , Data_2.txt , Data_3.txt and Data_4.txt .
liczba), następne kolumny o nazwach układów They contain data that may be automatically
zawierają genotypy (pierwsza kolumna nosi imported by the program. The files are in the
nazwę układu, np. D8S1179, a druga nazwę following form:
układu z rozszerzeniem _2 , np. D8S1179_2).
W ostatniej kolumnie o nazwie uwagi może
znajdować się dowolny tekst. Kolejne cztery
pliki z tego folderu to pliki tekstowe Dane_1.txt,
Dane_2.txt, Dane_3.txt i Dane_4.txt generowane
przez sekwenator (zapis w standardzie CODIS).
Zawierają one przykładowe dane, które mogą
być automatycznie importowane przez program.
Pliki te mają postać:
Nr 2-3 DNASTAT WERSJA 2.1 121
Sample Info Category Peak 1 Peak 2
_207pI_ID D8S1179 12 13
_207pI_ID D21S11 31 32.2
_207pI_ID D7S820 8 12
itd.
Siódmy plik o nazwie Populacja.txt stanowi The seventh file named Population.txt is
przykładowy plik z danymi populacyjnymi pię- an example of population data for five SNP loci,
ciu układów SNP, pochodzących z publikacji: which originates from the article: Babol-Pokora
Bąbol-Pokora K., Prośniak A., Jacewicz R., K., Prosniak A., Jacewicz R., Berent J.: [SNP
Berent J.: Pentapleks SNP rozkład częstości pentaplex the allele frequency database of
alleli w populacji centralnej Polski. Arch. Med. central Poland population]. Arch. Med. Sadowej
Sąd. i Krym. 2006, 56(4), 228-231 [3]. Plik ten Kryminol. 2006, 56(4), 228-231 [3]. The file is in
ma postać: the following form:
*rs2294067/0,00000/160
C/0,48800
G/0,51200
*rs2070764/0,00000/160
T/0,62500
A/0,37500
*rs1063739/0,00000/160
A/0,48800
C/0,51200
*rs2282160/0,00000/160
G/0,51300
A/0,48700
*rs2277216/0,00000/160
C/0,79400
T/0,20600
Podczas instalacji w katalogu C:\Program During the installation process, in the C:\
Files\DNAStat\Help\PL\ zostaje umieszczony Program Files\DNAStat\Help\ EN\, a directory
plik DNAStat_2.1_PL.pdf, który zawiera opis DNAStat_2.1_EN.pdf file with program de-
programu. scription is placed.
ROZPOCZęCIE PRACY
Z PROGRAMEM GETTING STARTED
Po zainstalowaniu programu DNAStat należy After the DNAStat program is installed, new
wprowadzić własną bazę populacyjną albo na population database has to be inserted or De-
początek skorzystać z bazy instalowanej z pro- fault_base.gdb can be used. Next, genotypes and
gramem Baza.gdb. Następnie należy wprowa- other information have to be inserted or Import_1.
dzić genotypy i inne dane o badanych osobach xls or Import_2.xls files have to be imported. The
albo na początek zaimportować jeden lub program is then ready for genetic data processing
oba pliki zawierające genotypy badanych osób and performing biostatistical calculations.
lub śladów Import 1.xls lub Import 2.xls. W tym
momencie program jest gotowy do użycia, tzn.
do przeszukiwania bazy danych lub do obliczeń
biostatystycznych.
122 Jarosław Berent Nr 2-3
FUNKCJE PROGRAMU PROGRAM FUNCTIONS
Program DNAStat umożliwia tworzenie wła- The DNAStat program enables the user to
snej bazy danych zawierającej: dane populacyj- create a personal database that includes: popu-
ne o wykorzystywanych układach (nazwy alleli lation data concerning markers (allele names
i ich częstości, współczynniki mutacji i wielkość and frequencies, mutation ratios and population
populacji), dane o badanych osobach lub size), data concerning investigated individuals
śladach (genotypy i różne informacje admini- and samples (genotypes and administrative
stracyjne) oraz dane o zleceniodawcach opinii information) and information about ordering
(nazwa i adres). Wszystkie składniki tej bazy institutions (name and address). All the compo-
mogą być w dowolny sposób modyfikowane nents of this database can be optionally modified
lub usuwane, jak również mogą być w każ- or deleted, just as new elements can be added
dym momencie dodawane nowe elementy. any time. The elaborated database is saved as
Tak utworzona baza danych jest zapisywana a single *.gdb file. DNAStat allows for the use of
w postaci pojedynczego pliku *.gdb. Program many *.gdb files containing different databases,
DNAStat umożliwia korzystanie z wielu plików which can be optionally selected while running
*.gdb zawierających różne bazy danych. Prze- the program.
łączanie pomiędzy poszczególnymi bazami Population data of the investigated markers
następuje z poziomu programu. can be inserted manually (allele by allele) or im-
Dane populacyjne, dotyczące wykorzystywa- ported automatically from sequencer generated
nych układów, mogą być wprowadzane allel po files in the *.txt format for Microsoft� Notepad or
allelu z klawiatury lub mogą być importowane EditPad. The form of such file is: asterisk in the
automatycznie z pliku tekstowego *.txt przygo- first line, marker s name / mutation frequency
�
towanego np. w programie Microsoft Notatnik / database size, and, in the following lines, al-
lub EditPad. Plik taki ma postać: w pierwszej lele name slash allele frequency. There is one
linii gwiazdka, nazwa układu łamane przez blank line between the data concerning different
częstość mutacji, łamane przez wielkość bazy markers. The inserted data can be exported in
i w kolejnych liniach nazwa allela łamane przez the same form. After the data file is imported,
jego częstość. Po liniach zawierających dane previous information concerning the markers is
o pierwszym układzie następuje jedna linia deleted without changing the population data-
wolna i w następnych liniach podane są dane base. This allows for a quick and easy modifi-
o kolejnych układach. Dane wprowadzone do cation of the current base, e.g. by adding new
programu mogą też być eksportowane w formie alleles and markers, or making calculations for
takiego samego pliku. Zaimportowanie pliku different bases.
z danymi usuwa wcześniej wprowadzone infor- Genotypes of investigated individuals and
macje o układach, nie naruszając bazy popula- samples can be also inserted manually (allele by
cyjnej genotypów (osób). Taka opcja umożliwia allele) or imported automatically from sequencer
szybkie i łatwe modyfikowanie posiadanej bazy generated files in the *.txt format or in .xls format
np. o nowe układy lub allele oraz prowadzenie for Microsoft� Office Excel.
obliczeń dla różnych baz. The database can be searched optionally ac-
Genotypy badanych osób lub śladów cording to: case number, name and surname,
mogą być również wprowadzane allel po al- date of material collection, etc. It is possible to
lelu z klawiatury lub mogą być importowane search the base via genotypes, i.e. after the
automatycznie z plików. Program jest w stanie genotype of interest is imported or inserted
zaimportować pliki tekstowe *.txt generowane manually, the program will search automati-
�
przez sekwenator lub pliki programu Microsoft cally all individuals and samples sharing the
Office Excel *.xls. same genotype. This works both for full profiles
Baza danych może być dowolnie przeszu- and for deficient ones, e.g. when only a partial
kiwana według takich pól, jak: numer sprawy, genotype is imported, all samples sharing the
imię i nazwisko, data pobrania, itp. Możliwe jest same genotype in a range of investigated loci are
również wyszukiwanie według genotypów, tzn. indicated, while the remaining loci are omitted.
po wpisaniu (lub zaimportowaniu) interesują- The same is true for searching only one allele
cego nas genotypu program automatycznie (per locus). The program will search all samples
wyszuka wszystkie osoby lub ślady z bazy, having the compatible allele in the investigated
które posiadają identyczny genotyp. Ta ostatnia locus, while the other allele will not be taken into
Nr 2-3 DNASTAT WERSJA 2.1 123
funkcja działa zarówno dla pełnych, jak i dla nie- account. This option can be useful for analyzing
pełnych genotypów, tzn. przy zadaniu genotypu degraded materials, with partial genetic profiles.
przykładowo tylko w jednym układzie program
wyszuka wszystkie osoby lub ślady, które mają This program also allows for performing
taki genotyp w tym konkretnym układzie, pomi- biostatistical calculations of the genotypes in
jając informacje dla innych układów. the database. The program analyzes biological
To samo dotyczy zadania informacji tylko evidence by calculating the unconditional f and
o jednym allelu. Program wyszuka wówczas conditional p(X|X) profile frequency and it al-
wszystkie osoby lub ślady, dla których jeden z al- lows for analyzing paternity / maternity cases by
leli jest zgodny z zadanym, pomijając informacje calculating the paternity / maternity index PI / MI
o drugim allelu. Takie możliwości wyszukiwania and probability of paternity W for full, motherless
mogą być przydatne dla zdegradowanych ma- and fatherless cases.
teriałów, gdzie pełny genotyp nie zawsze jest
dostępny. The program also allows for group calcula-
Program umożliwia także prowadzenie ob- tions, by applying the given calculation to all the
liczeń biostatystycznych dla genotypów osób genotypes (individuals) within the base, which
lub śladów wprowadzonych do bazy. Dla analizy can be potentially applied to personal identifi-
śladów biologicznych program oblicza częstość cation of mass disasters and terrorism victims.
profilu f oraz prawdopodobieństwo p(X|X), Three calculation types are possible: the first
a przy analizie ojcostwa/macierzyństwa program is the searching of related individuals among
oblicza szansę ojcostwa/macierzyństwa (ang. father child settings. The program will calcu-
paternity/maternity index) i prawdopodobień- late the Paternity Indexes for the investigated
stwo ojcostwa/macierzyństwa W (niem. Wahr- individual paired with every individual existent
scheinlichkeit) w układzie pełnej trójki, w ukła- in the base, and present the PI results from the
dzie mężczyzna-dziecko (bez matki) i w układzie highest value to the lowest one. The same is
kobieta-dziecko (bez mężczyzny). true for mother-child and mother-child-father
Program pozwala również na obliczenia gru- settings, where both parents are given and every
powe, wykonując zadany rodzaj obliczeń dla individual in the base is considered a child.
wszystkich genotypów (osób) w bazie, czego
potencjalnym zastosowaniem jest identyfikacja The results of all calculations can be exported
osobnicza ofiar zamachów terrorystycznych in the .xls format for Microsoft� Office Excel. It
lub katastrof masowych. Możliwe są trzy ro- allows for an easy transfer of the results into any
dzaje obliczeń. Pierwszy to poszukiwanie osób text processor, which decreases the possibility
spokrewnionych w układzie ojciec-dziecko. Po of making mistakes, often caused by manual
wskazaniu wybranej osoby program przeprowa- copying, and the results can be printed.
dzi obliczenia szansy ojcostwa PI dla tej osoby
w parze z kolejno wszystkimi pozostałymi oso-
bami z bazy, a następnie uszereguje wyniki wg
PI począwszy od największej do najmniejszej
wartości. Analogiczne obliczenia są możliwe
w układzie matka-dziecko i dla pełnej trójki
matka-dziecko-ojciec, gdzie po wskazaniu obu
rodziców program prowadzi obliczenia dla
wszystkich pozostałych osób z bazy podstawia-
jąc je jako dziecko dla wybranej pary.
Wyniki wszystkich obliczeń mogą być eks-
portowane w formie plików *.xls, odczytywanych
�
przez program Microsoft Office Excel. Taka opcja
umożliwia łatwe przeniesienie wyników dokona-
nych obliczeń do dowolnego edytora tekstów
stosowanego w poszczególnych laboratoriach
przy pisaniu opinii. Postępowanie takie zmniejsza
możliwość popełnienia błędów poprzez wyeli-
minowanie ręcznego przepisywania wyników.
Wyniki obliczeń mogą być także drukowane.
124 Jarosław Berent Nr 2-3
ANALIZA śLADóW BIOLOGICZNYCH EVIDENTIAL SAMPLES ANALYSIS
Program DNAStat w analizie śladów bio- The DNAStat 2.1 program allows for an
logicznych oblicza częstość profilu f oraz analysis of biological evidence by calculating
prawdopodobieństwo p(X|X), przy możliwości the unconditional f and conditional p(X|X) profile
uwzględnienia współczynnika pochodzenia F frequency, with the possibility of taking into ac-
ST
oraz zadania dolnego progu częstości alleli CP. count the coancestry coefficient FST, as well as
F jest to współczynnik pochodzenia (ang. setting the minimum allele frequency - CP. FST
ST
coancestry coefficient). Jest on definiowany the coancestry coefficient it is defined for the
dla całej populacji i określa, jakie jest praw- whole population and describes the chance that
dopodobieństwo, że dwa allele wzięte losowo two randomly chosen alleles of two randomly
od dwóch, również losowo, wybranych osób chosen individuals are identical by descent. This
z populacji (jeden allel od jednej osoby i drugi coefficient expresses a certain undetermined
od drugiej) są identyczne z pochodzenia (ang. number of unknown common ancestors of the
identical by descent). Współczynnik ten jest past generations. In standard populations, FST
wyrazem pewnej bliżej nieokreślonej liczby equals 0.01, while in small isolated populations
nieznanych wspólnych przodków w poprzed- or hardly assimilating ones, it can equal up to
nich pokoleniach. W typowych populacjach 0.03 [1,2]. The CP ceiling principle is the mini-
wynosi około 0.01, natomiast dla małych, mum allele frequency, which is used to prevent
odosobnionych populacji lub populacji trudno overestimation of the DNA profile frequencies
poddających się asymilacji może wynosić do caused by low allele frequencies. The 1st NRC
0.03 [1, 2]. CP jest to dolny próg częstości report launched in 1992 recommended the use
alleli stosowany dla zapobieżenia przeszaco- of CP (CP=0.1 for interim ceiling principle or
wania częstości profili DNA wynikającego ze CP=0.05 for ceiling principle) [11]. Nowadays,
zbyt małych częstości allelicznych (ang. ceiling the CP usage is not recommended (CP=0) [12].
principle). Stosowanie progów zalecał I Raport
NRC z roku 1992 (CP=0.1 dla interim ceiling The profile frequency f is counted first for
principle albo CP=0.05 dla ceiling principle) every marker and next, genotypes frequencies
[11]. Współcześnie nie zaleca się stosowania of particular markers are multiplied by them-
żadnych takich progów (CP=0) [12]. selves. Genotypes frequencies are counted in
Częstość profilu f jest liczona najpierw dla the following way:
każdego układu i dalej częstości genotypów
w poszczególnych układach mnożone są przez homozygote:
siebie. Częstości genotypów obliczane są na- f = p*p + p * (1-p) * FST, p allele frequency
stępująco:
heterozygote:
homozygoty: f = 2 * pi * pj, pi ,pj i, j alleles frequencies
f = p * p + p * (1-p) * FST, gdzie p częstość allela
The second parameter is the conditional
heterozygoty: p(X|X). This is the product of appropriate prob-
f = 2 * pi * pj, gdzie pi, pj częstość allela i, j abilities for particular markers, counted in a
following way:
Drugim liczonym parametrem jest prawdo-
podobieństwo p(X|X). Jest to również iloczyn homozygote:
odpowiednich prawdopodobieństw w poszcze- p(X|X) = [2*FST+(1-FST)*p]*[3*FST+(1-FST)*p] /
gólnych układach. Prawdopodobieństwa te / [(1+FST)*(1+2*FST)]
liczymy następująco:
heterozygote:
homozygoty:
p(X|X) = [2*FST+(1-FST)*p]*[3*FST+(1-FST)*p] / p(X|X) = 2*[FST+(1-FST)*pi]*[FST+(1-FST)*pj] /
/ [(1+FST)*(1+2*FST)] / [(1+FST)*(1+2*FST)]
heterozygoty:
p(X|X) = 2*[FST+(1-FST)*pi]*[FST+(1-FST)*pj] /
/ [(1+FST)*(1+2*FST)]
Nr 2-3 DNASTAT WERSJA 2.1 125
Dla obu liczonych parametrów, tj. częstości For both parameters, i.e. the frequency and
i prawdopodobieństwa obliczenia prowadzimy probability, calculations are computed either for
albo dla faktycznych częstości alleli wynikają- the actual allele frequencies resulting from the
cych z danych w bazie populacyjnej, albo gdy population database or CP values - when CP is
zadany próg CP jest różny od 0 jeżeli częstość different from 0 and the frequency of one of the
któregoś z alleli jest niższa od zadanego progu, alleles is lower than CP.
to stosujemy zadany próg. The profile frequency f is used for statistical
Częstość profilu f stosowana jest we wnio- calculations when the ethnic origin of the inves-
skowaniu wówczas, gdy znane jest pochodze- tigated individual is known and when there are
nie osoby, do której należy analizowany ślad population databases of people of the same
i istnieją bazy populacyjne dla osób o tym po- ethnicity. For instance, to check if the evidence
chodzeniu. Np. podejrzewamy, że ślad należy originates from the Polish population, the data-
do osoby z populacji polskiej i posiadamy bazy base of Poland has to be searched.
populacyjne dla takiej populacji. Conditional p(X|X) is the probability that
Natomiast prawdopodobieństwo p(X|X) jest randomly chosen individual, different from the
to prawdopodobieństwo, że losowo wybrana individual from whom the investigated sample
osoba inna niż osoba, od której pochodzi ba- originates, shares the same genotype (with the
dany ślad, ma taki sam genotyp jak ten ślad. sample). It is used when there is a possibility that
Stosowane jest, kiedy podejrzewamy, że osoba, the individual belongs to a certain subpopula-
do której należy ślad należy do pewnej subpo- tion, which is not taken into account in any popu-
pulacji, co do której nie istnieją bazy populacyj- lation database, however, there is a database for
ne, natomiast są odpowiednie bazy dla pełnej the population in a broader scale. For instance,
populacji. Np. podejrzewamy, że ślad należy this happens in a case when evidence comes
do osoby z pewnego miasta, a nie są dostępne from a resident of a certain town and there is no
bazy populacyjne dla tego miasta, lecz tylko dla population database of that town, but there is a
całego kraju. base of the whole country.
ANALIZA OJCOSTWA PATERNITY TESTING
Program DNAStat podczas analizy ojcostwa DNAStat analyzes paternity cases by calcu-
oblicza szansę ojcostwa/macierzyństwa PI/MI lating the paternity / maternity index PI / MI and
(ang. paternity/maternity index) i prawdopodo- probability of paternity W for full, motherless
bieństwo ojcostwa W (niem. Wahrscheinlichkeit) and fatherless cases, with the possibility of tak-
w układzie pełnej trójki, w układzie mężczyzna- ing into account the silent allele frequency and
-dziecko (bez matki) i w układzie kobieta-dziecko prior probability. It is recommended to take 0
(bez mężczyzny), przy możliwości uwzględnie- for silent allele s values and 0.5 for prior prob-
nia częstości alleli zerowych null i prawdopodo- ability values.
bieństwa a priori p . Współcześnie zaleca się Paternity index calculation is made according
apriori
stosowanie do obliczeń null=0 oraz p =0.5. to classical rules proposed by Essen-M�ller [7]
apriori
Obliczenia szansy ojcostwa PI prowadzone and repeatedly cited, recently by Brenner [9],
są według klasycznych zasad zaproponowa- taking into account silent alleles frequencies.
nych przez Essen-M�llera [7] i podanych póz- Mutation events are treated according to the
niej wielokrotnie w piśmiennictwie, ostatnio np. rules proposed by Brenner [8].
przez Brennera [9] z uwzględnieniem częstości In case of an inconsistency manifested in the
alleli zerowych. Przypadki mutacji traktowane są opposite homozygotes between the child and
także według zasad zaproponowanych przez the alleged father, calculations are carried out
Brennera [8]. in two variants, depending on setting the null al-
W przypadku niezgodności pomiędzy dziec- lele value. If null>0, then the Brenner s formula
kiem i pozwanym w postaci przeciwstawnych is used, and if null=0, the case is treated as a
homozygot obliczenia są wykonywane w dwóch mutation event. The minimal number of repetitive
wariantach, w zależności od zadanej wcześniej units between the child s and the alleged father s
wartości null. Jeżeli null>0, to wówczas stoso- alleles is indicated and the Brenner s formula for
wany jest wzór podany przez Brennera, a je- mutation is used. In cases of other inconsisten-
żeli null=0, to wówczas przypadek traktowany cies, the Brenner s formula for mutation is used.
jest jako mutacja. Znajdowana jest wówczas
126 Jarosław Berent Nr 2-3
najmniejsza ilość jednostek repetytywnych po- Maternity Index is calculated according to the
między allelami dziecka i pozwanego i dla tej same rules as Paternity Index.
ilości jednostek stosowany jest wzór Brennera
dla mutacji. W przypadkach pozostałych nie- After paternity / maternity index is counted
zgodności stosowany jest każdorazowo wzór for every marker, it is multiplied, which results
Brennera dla mutacji. in a total PI. Next, the probability of paternity /
Obliczenia szansy macierzyństwa MI prowa- maternity W is calculated according to the fol-
dzone są wg tych samych zasad, co obliczenia lowing formula:
szansy ojcostwa PI.
Po obliczeniu w powyższy sposób szansy
ojcostwa PI (lub macierzyństwa MI) dla każ- W = 1 / [ 1 + ( ( ( 1 papriori ) / papriori ) * ( 1 / PI ) ) ]
dego układu obliczana jest wartość całkowita
jako iloczyn wartości cząstkowych. Z wartości
całkowitej szansy ojcostwa PI (macierzyństwa
MI) wyliczana jest następnie wartość prawdo-
podobieństwa ojcostwa W według wzoru:
W = 1 / [ 1 + ( ( ( 1 papriori ) / papriori ) * ( 1 / PI ) ) ]
PIśMIENNICTWO / REFERENCES
1. Ayres K. L.: Measuring genetic correla- Grundlagen. Mitteilungen der Anthropologi-
schen Gesellschaft in Wien 1938, 68, 2-53.
tions within and between loci with implications
for disequilibrium mapping and forensic identifi- 8. http://dna-view.com/mudisc.htm.
9. http://dna-view.com/patform.htm.
cation. Ph. D. Thesis, The University of Reading,
10. Jacewicz R., Berent J., Prośniak A., Ga-
Reading 1998, 181-204.
2. Ayres K. L.: Relatedness testing in subdi- łecki P., Florkowski A., Szram S.: Population
genetics of the Identifiler system in Poland. Inter-
vided populations. Forensic Sci. Int. 2000, 114,
national Congress Series 2004, 1261, 229-232.
107-115.
11. National Research Council Report. DNA
3. Bąbol-Pokora K., Prośniak A., Jacewicz
R., Berent J.: Pentapleks SNP rozkład często- Technology in Forensic Science. National Aca-
demy Press, Washington, D.C. 1992, 91-92.
ści alleli w populacji centralnej Polski. Arch. Med.
12. National Research Council Report II. The
Sąd. i Krym. 2006, 56(4), 228-231.
Evaluation of Forensic DNA Evidence. National
4. Berent J.: DNAStat wersja 1.0 program
Academy Press, Washington, D.C. 1996, 96-97.
do obsługi bazy danych profili genetycznych
13. 2001 Paternity Testing Workshop of the
oraz do obliczeń biostatystycznych. Arch. Med.
English Speaking Working Group of the Inter-
Sąd. i Krym. 2006, 56(1), 15-18.
national Society for Forensic Genetics.
5. Berent J.: DNAStat wersja 1.0 program
do obsługi bazy danych profili genetycznych
oraz do obliczeń biostatystycznych. Program
komputerowy. Uniwersytet Medyczny w Aodzi,
Adres do korespondencji / Address for
Aódz 2005.
correspondence:
6. Berent J.: DNAStat wersja 1.2 program
Prof. Jarosław Berent
do obsługi bazy danych profili genetycznych
Katedra i Zakład Medycyny Sądowej
oraz do obliczeń biostatystycznych. Arch. Med.
Uniwersytetu Medycznego w Aodzi
Sąd. i Krym. 2007, 57(3), 322-325.
7. Essen-M�ller E.: Die Beweiskraft der �hn- ul. Sędziowska 18a, 91-304 Aódz, Poland
J.Berent@eranet.pl
lichkeit im Vaterschaftsnachweis. Theoretische

Wyszukiwarka

Podobne podstrony:
Program do obliczania pól figur geometrycznych Polek 1 2 pl
Syllabus do Modułu AM5 Bazy danych, poziom zaawansowany wersja 1 0 6
Instalacja bazy danych Plexiform do programu DIALux
Strona polecenia do bazy danych
podstway obslugi klienta bazy danych MySQL
Od chaosu do bazy danych
2009 02 Ze skanu do bazy danych – digitalizacja rysunków, wykresów i map [Grafika]
Bazy Danych Język Zapytań SQL Programowanie Proceduralne
Algorytmy i struktury danych Programy do wykladu 3
Bazy danych postgreSQL programowanie i implementacja
2006 09 Programowanie i bazy danych [Programowanie]

więcej podobnych podstron