Prezentacja programu PowerPoint

5.04.21

Artur&Artur

Hazardy sterowania

 Typowe problemy

 Sprzętowe i programowe
metody

ich rozwiązywania

5.04.21

Artur&Artur

Wprowadzenie

• Hazardy sterowania mogą

powodować opóźnienia w potoku,

znacznie przekraczające opóźnienia,

spowodowane hazardami danych.

• Zrozumienie tych zagadnień jest

kluczowe przy projektowaniu

możliwie najszybciej wykonujących

się programów.

5.04.21

Artur&Artur

Skok

Rozkaz skoku może:

• zmienić zawartość licznika rozkazów PC o

4 (skok nieefektywny)

• Zmienić zawartość licznika rozkazów PC o

wartość, wynikającą z zawartości

ALUOutput (skok efektywny)

Rozkazy skoku mogą być bezwarunkowe i

warunkowe

5.04.21

Artur&Artur

Datapath procesora DLX

5.04.21

Artur&Artur

Realizacja skoku

5.04.21

Artur&Artur

Realizacja skoku w potoku

DLX: metoda najprostsza

5.04.21

Artur&Artur

Realizacja skoku w potoku

DLX: metoda najprostsza

• Najprościej: po zdekodowaniu

rozkazu skoku można zablokować

potok aż do obliczenia w fazie MEM

nowej zawartości PC i warunku cond

• Następnie należy powtórzyć IF dla

nowego rozkazu

• Efekt: 3 cykle opóźnienia

5.04.21

Artur&Artur

Sposoby redukcji

opóźnienia skoku (ang.

branch penalty)

• Wcześniej w potoku dowiedzieć się,

czy skok jest efektywny (ang.
taken), czy nieefektywny (ang. not
taken)

• Wcześniej w potoku obliczyć adres

efektywny skoku (ang. address of
the branch target)

5.04.21

Artur&Artur

Modyfikacje potoku

• W procesorze DLX skoki warunkowe

BEQZ i BNEZ można testować na
koniec fazy ID

• Również pod koniec tej fazy należy

wobec tego obliczyć oba adresy
skoku: zarówno efektywnego, jak i
nieefektywnego (dodatkowa ALU)

5.04.21

Artur&Artur

Zmodyfikowana struktura

potoku DLX

5.04.21

Artur&Artur

Nowy opis działania potoku

5.04.21

Artur&Artur

Ogólna reguła dla branch

penalty

• Im głębszy potok, tym większe

opóźnienia, związane z realizacją
rozkazów skoku!

• Jest to związane z koniecznością

opróżnienia potoku z instrukcji,
następujących w kodzie programu po
instrukcji skoku, i pobrania nowych.

5.04.21

Artur&Artur

Występowanie skoków w

programach

• Skoki bezwarunkowe (jump, call, ret)

• Skoki warunkowe – w przód, w tył

• Ponieważ skoki warunkowe w tył są

używane do realizacji pętli, będą
częściej efektywne (rzędu 80%), niż
skoki w przód (rzędu 60%)

5.04.21

Artur&Artur

Schematy zachowania

potoku przy skokach

1. Zatrzymać potok (ang. freeze):

łatwa do realizacji, ale
wprowadzająca stały koszt realizacji
skoku – nie można redukować go
mimo poznania statystycznego
opisu zachowania programu

5.04.21

Artur&Artur

Schematy zachowania

potoku przy skokach

2. Predict-not-taken: założenie, że

wszystkie skoki są nieefektywne i
kontynuowanie obliczeń dla
następnych instrukcji w sekwencji.
Konieczność „cofania się w czasie”
jeśli skok jest efektywny –
stosowany w DLX

5.04.21

Artur&Artur

Schematy zachowania

potoku przy skokach

5.04.21

Artur&Artur

Schematy zachowania

potoku przy skokach

3. Predict-taken: założenie, że

wszystkie skoki są efektywne, i

natychmiast po obliczeniu adresu

efektywnego, pobieranie następnych

instrukcji spod nowego adresu –

opłacalny w bardziej skomplikowanych

maszynach, gdzie adres jest znany

wcześniej, niż warunki, wpływające na

efektywność skoku.

5.04.21

Artur&Artur

Schematy zachowania

potoku przy skokach

4. Skok opóźniony (ang. delayed

brach): zastosowanie brach-delay
slot, czyli „miejsca” na instrukcję
bądź instrukcje, które są
wykonywane niezależnie od tego,
czy skok jest efektywny, czy nie!

5.04.21

Artur&Artur

Delayed Branch

5.04.21

Artur&Artur

Gdyby DLX stosował ten

schemat realizacji skoków

• Jeśli wprowadzilibyśmy miejsce na jedną

instrukcję, wykonywaną niezależnie od tego,
czy skok jest efektywny, czy nie, a
instrukcją, następującą w slocie po instrukcji
skoku była kolejna instrukcja skoku, to co?

• Aby uniknąć tego kłopotu, zakłada się, że w

slocie nie wolno umieszczać instrukcji skoku.

5.04.21

Artur&Artur

Trzy sposoby

wykorzystania skoku

opóźnionego

5.04.21

Artur&Artur

Trzy sposoby

wykorzystania skoku

opóźnionego

• Sposób a) jest wykorzystywany

najchętniej i polega na wypełnieniu
slotu niezależną instrukcją sprzed
instrukcji skoku

5.04.21

Artur&Artur

Trzy sposoby

wykorzystania skoku

opóźnionego

5.04.21

Artur&Artur

Trzy sposoby

wykorzystania skoku

opóźnionego

• Sposób b) jest wykorzystywany, gdy a)

jest niemożliwy(R1, jako rejestr

warunku skoku, jest jednocześnie

rejestrem przeznaczenia dla instrukcji

ADD. Polega na wypełnieniu slotu

instrukcją, skopiowana z celu skoku.

Korzystny dla pętli, gdzie

prawdopodobieństwo efektywności

skoku jest wysokie.

5.04.21

Artur&Artur

Trzy sposoby

wykorzystania skoku

opóźnionego

5.04.21

Artur&Artur

Trzy sposoby

wykorzystania skoku

opóźnionego

• Sposób c) jest wykorzystywany, gdy

a) i b) są niemożliwe. Polega na
wypełnieniu slotu instrukcją,
przesuniętą z sekwencji po skoku
nieefektywnym. Korzystny dla
sytuacji, gdy prawdopodobieństwo
efektywności skoku jest niskie.

5.04.21

Artur&Artur

Trzy sposoby

wykorzystania skoku

opóźnionego

5.04.21

Artur&Artur

Trzy sposoby

wykorzystania skoku

opóźnionego

• Każdy z tych przypadków musi być

odpowiednio obsłużony przez
kompilator optymalizujący! Jeśli
niemożliwe jest wprowadzenie do
slotu instrukcji użytecznej,
kompilator powinien wpisać tam
NOP.

5.04.21

Artur&Artur

Skok opóźniony -

cancelling

5.04.21

Artur&Artur

Techniki zwiększania

Instruction-Level

Parallelism

• Rozwijanie pętli (ang. loop unrolling) CH
• Harmonogramowanie (ang. scheduling) RAW

• Stosowanie tablicy wyników (ang. score

boarding) RAW

• Zmiana nazw rejestrów (ang. register

renaming) WAR i WAW

• Dynamiczne przewidywanie skoków (ang.

dynamic branch prediction) CH

5.04.21

Artur&Artur

Przykład kodu źródłowego

5.04.21

Artur&Artur

Komentarz do przykładu

Założenia:

• R1: zawiera początkowo adres

elementu tablicy o najwyższym adresie

• F2: zawiera wartość skalara s

• Dla prostoty obliczeń zakładamy też, że

element x[1] jest w PAO pod adresem 8

5.04.21

Artur&Artur

Prosty kod asemblerowy

dla DLX

5.04.21

Artur&Artur

Wykonanie

5.04.21

Artur&Artur

Po schedulingu

5.04.21

Artur&Artur

Ulepszenie: z 10 na 6 cykli

• Ale tylko 3 cykle przetwarzają

element tablicy, a 3 pozostałe służą
do zarządzania pętlą!

• Rozwińmy więc pętlę!

5.04.21

Artur&Artur

Po rozwinięciu

5.04.21

Artur&Artur

Zysk?

• Ta pętla wykona się w ciągu 28 cykli:

każdy LD powoduje 1 stall, każdy
ADDD to 2 stalle, SUBI to 1 stall, skok
też 1, plus 14 cykli na użyteczne
instrukcje. To daje 7 cykli na każdy
element tablicy: gorzej niż
poprzednio (tam było 6 cykli), ale to
jeszcze nie koniec.