Główną intencją RTP jest umożliwienie odbiorcom odtwarzanie mediów w odpowiednim tempie. W sieciach IP nie mamy żadnej zależności kształtowania czasu dotarcia pakietów w związku z tym pakiety docierają z różnym opóźnieniem tworząc zjawisko tzw. jitter’u.
Z tego względu odbiorca do porządkowania pakietów używa znacznika czasu protokołu RTP. Odbiorca umieszcza przychodzące pakiety w buforze zgodnie z ich znacznikiem czasowym i zaczyna je odgrywać. Jeżeli pakiet z określonym znacznikiem powinien być uruchomiony ale w dalszym ciągu nie nadszedł odbiornik używa techniki interpolacji aby zapełnić szczelinę (w przypadku dźwięku odtwarza ostatni pakiet dłużej). Jeżeli pakiet nadejdzie później jest on odrzucany. Odbiornik musi podjąć ważną decyzję - w którym momencie rozpocząć odtwarzanie. Różne implementacje używają różnych parametrów do decydowania o długości bufora.