Superscalar Processor’s Architecture Team Federal University of Rio Grande do Sul Brazil - 1999

Superscalar Processor’s Architecture Team

Federal University of

Rio Grande do Sul

Brazil - 1999Prof. Philippe O. A. Navaux

Prof. Tiaraju A. Divério

Prof. Sergio Bampi

Members:

• Rafael R. Santos, PhD Student

• Ronaldo A. L. Gonçalves, PhD Student

• Maurício Lima Pilla, PhD Student

• Rafael L. Sagula, Master Student

• Tatiana G. S. Santos, Master Student

• Guilherme Dal Pizzol, Undergraduate Student

• Leonardo Heredia, Undergraduate Student

APSEAPSEIntroduction

Motivation

Goals

SE Overview

Evolution

Steps

Work In Progress

Memory Hierarchy

SEMPRE

Speculative Fetch

Covered Topics

– Memory hierarchy

– High bandwidth Fetch and Prefetch schemes

– Branch Prediction

– Speculative Execution

– SMT and Multi-Path architectures

– Analytical and Simulation Modeling

Goals

• To design more aggressive techniques and architecture models to obtain higher IPC rates

• To design architectural support to handle the control and data dependencies in order to reduce their penalties

• To develop analytical models to have draft performance indexes quickly

• To develop simulators to keep track on the execution behavior of the new schemes getting closer to real situations

APSE Project Evolution

ScalarPipeline

SuperscalarPipeline

Multi-path fetch“Speculative”

SimultaneousMultithreaded

Multi-pathExecution

ICf- buffer i- queue

FU regs

Development Steps

Architecture Specification

Analytical Modeling

Simulation

Performance Evaluation

Work in Progress

P refetch(Tatiana)

C ache(R afael)

M emoryH ierarchy

S peculativeF etch

(R afael)

Architecture(R onaldo)

O peratingS ystem

S imultaneousM ultithreaded

M odeling(S agula)

S imulation(P illa)

P erformanceE valuation

AP S E

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

INSTITUTO DE INFORMÁTICAPROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO

SEMPRE - Proposta de uma Arquitetura Multi-Tarefas Simultâneas com Capacidade de Execução de Processos

Proposta de Tese de Doutorado

Ronaldo A. L. GonçalvesOrientando

Philippe O. A. NavauxOrientador

INTRODUÇÃO: Motivação e Fundamentação Teórica

• Hardware cada vez mais sofisticado

• Desempenho atual ainda baixo (sobra hardware)

• Necessidade de maximizar a utilização do hardware

• Aplicações atuais possuem paralelismo limitado

• Uma Solução: arquiteturas SMT

• Limitação: dificuldade para programação multi-tarefas

• Uma Extensão: usar processos

• Benefícios e Efeitos Colaterais

• Outra Extensão: suporte de hardware

ARQUITETURA PROPOSTA - SEMPRE

I-Cache BUSCA

SLOT

RDP

FI ... FD FP FA

RE

DECODIFICAÇÃO D-Cache

FRm EXEC

FRd ... Desvio UF1 UFn L/S

FT

TÉRMINO RE

CONCLUSÃO

Bancos de Regs

Br1 Br2 Br3 Br4 Br5 Br6 Brm

INSTRUÇÕES PRIVILEGIADAS

• Create, Kill, Suspend e Resume

Inexistente Transições ou Morto 1 - create 1 2 2 - kill 3 4 3 - kill ou Pronto 5 execução irregular

“FP” 4 - kill 8 5 - kill

6 7 6 - final de execução 9 parcial do contexto Em Trânsito Suspenso 7 - suspend “FT” 10 “FP” 8 - resume

9 - escalona (troca11 12 de contexto)

Ativo 10 - suspend “FA” 11 - decodifica (inverte

bit alternador)12 - suspend

PRÉ-BUSCA DE INSTRUÇÕES

Memória

L2 cache

Pré-Busca

P1 L1 P2 i-cache P3 próx p/ P4 pré-buscar P5 P6

: TB P1 próx. p/ buscar P2 P3 Busca P4 troca contexto miss-status P5 1 P6 1 P7 0 FP P8 0 P1 P2 P3 P4 P9 0 :

MODELAGEM ANALÍTICA

• Trabalho Cooperativo

• Ferramenta DSPN - Redes de Petri

• Objetivos

• Alcance dos Modelos - Comportamental

• Modelagens Ideal e com Pré-Busca

• TOFI (Taxa de Ocupação das Filas de Instruções)

• Capacidade de Despacho

MODELAGEM DA BUSCA COM PRÉ-BUSCA

Capacidade de Despacho x Acertos na I-cache

0

1

2

3

4

5

6

7

0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5 0,55 0,6 0,65 0,7 0,75 0,8 0,85 0,9

Taxa de Acertos na I-Cache

Cap

acid

ade

de

Des

pac

ho

SMT Ideal

SEMPRE

SMT Normal

Capacidade de Despacho x Latência da Cache L2

0

1

2

3

4

5

6

7

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Latência de L2

Cap

aci

da

de

de

De

spac

ho

SEMPRE 90%

SMT Normal 90%

SEMPRE 85%

SMT Normal 85%

SEMPRE 80%

SMT Normal 80%

CONCLUSÕES

• Propomos uma arquitetura que executa processos

• Que aproveita paralelismo abundante

• Que maximiza a utilização do hardware

• Que otimiza a utilização da cache de instruções

• Que facilita o trabalho do sistema operacional

PRÓXIMOS PASSOS

• Implementação do simulador

• Técnica para otimizar a utilização da cache de dados

TRABALHOS FUTUROS

• Desenvolver sistema operacional

PUBLICAÇÕES

CACIC 98 - Argentina

SBAC-PAD 98 - Brasil

CLEI 99 - Paraguai

SBAC-PAD 99 - Brasil *

Superscalar Processors Architecture Team

Federal University of

Rio Grande do Sul

Brazil - 1999

Superscalar Processor’s Architecture Team Federal University of Rio Grande do Sul Brazil - 1999

Documents

Transcript of Superscalar Processor’s Architecture Team Federal University of Rio Grande do Sul Brazil - 1999