gdzie rO oznacza indeks różnorodności przed podziałem, R1 i R2 - indeksy obu podzbiorów powstałych wskutek podziału, a PI i P2-odpowiednio prawdopodobieństwa, że wybrany rekord znajdzie się w określonym podzbiorze. W omawianym przez nas przypadku rekordy danych opisujące wartość sprzedaży najbardziej różnicuje atrybut wielkości towarzyszącego jej ruchu w „pewnej lokalnej podsieci”. Jeśli więc rozdzielimy dane względem niego, to suma indeksów poszczególnych podzbiorów, ważona odpowiednimi prawdopodobieństwami będzie najmniejsza.
dr inż. W Rosiak