Superscalar Processor’s Architecture Team Federal University of Rio Grande do Sul Brazil - 1999
-
Upload
adam-carson -
Category
Documents
-
view
15 -
download
0
description
Transcript of Superscalar Processor’s Architecture Team Federal University of Rio Grande do Sul Brazil - 1999
Superscalar Processor’s Architecture Team
Federal University of
Rio Grande do Sul
Brazil - 1999Prof. Philippe O. A. Navaux
Prof. Tiaraju A. Divério
Prof. Sergio Bampi
Members:
• Rafael R. Santos, PhD Student
• Ronaldo A. L. Gonçalves, PhD Student
• Maurício Lima Pilla, PhD Student
• Rafael L. Sagula, Master Student
• Tatiana G. S. Santos, Master Student
• Guilherme Dal Pizzol, Undergraduate Student
• Leonardo Heredia, Undergraduate Student
APSEAPSEIntroduction
Motivation
Goals
SE Overview
Evolution
Steps
Work In Progress
Memory Hierarchy
SEMPRE
Speculative Fetch
Covered Topics
– Memory hierarchy
– High bandwidth Fetch and Prefetch schemes
– Branch Prediction
– Speculative Execution
– SMT and Multi-Path architectures
– Analytical and Simulation Modeling
Goals
• To design more aggressive techniques and architecture models to obtain higher IPC rates
• To design architectural support to handle the control and data dependencies in order to reduce their penalties
• To develop analytical models to have draft performance indexes quickly
• To develop simulators to keep track on the execution behavior of the new schemes getting closer to real situations
APSE Project Evolution
ScalarPipeline
SuperscalarPipeline
Multi-path fetch“Speculative”
SimultaneousMultithreaded
Multi-pathExecution
ICf- buffer i- queue
FU regs
Development Steps
Architecture Specification
Analytical Modeling
Simulation
Performance Evaluation
Work in Progress
P refetch(Tatiana)
C ache(R afael)
M emoryH ierarchy
S peculativeF etch
(R afael)
Architecture(R onaldo)
O peratingS ystem
S imultaneousM ultithreaded
M odeling(S agula)
S imulation(P illa)
P erformanceE valuation
AP S E
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE INFORMÁTICAPROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO
SEMPRE - Proposta de uma Arquitetura Multi-Tarefas Simultâneas com Capacidade de Execução de Processos
Proposta de Tese de Doutorado
Ronaldo A. L. GonçalvesOrientando
Philippe O. A. NavauxOrientador
INTRODUÇÃO: Motivação e Fundamentação Teórica
• Hardware cada vez mais sofisticado
• Desempenho atual ainda baixo (sobra hardware)
• Necessidade de maximizar a utilização do hardware
• Aplicações atuais possuem paralelismo limitado
• Uma Solução: arquiteturas SMT
• Limitação: dificuldade para programação multi-tarefas
• Uma Extensão: usar processos
• Benefícios e Efeitos Colaterais
• Outra Extensão: suporte de hardware
ARQUITETURA PROPOSTA - SEMPRE
I-Cache BUSCA
SLOT
RDP
FI ... FD FP FA
RE
DECODIFICAÇÃO D-Cache
FRm EXEC
FRd ... Desvio UF1 UFn L/S
FT
TÉRMINO RE
CONCLUSÃO
Bancos de Regs
Br1 Br2 Br3 Br4 Br5 Br6 Brm
INSTRUÇÕES PRIVILEGIADAS
• Create, Kill, Suspend e Resume
Inexistente Transições ou Morto 1 - create 1 2 2 - kill 3 4 3 - kill ou Pronto 5 execução irregular
“FP” 4 - kill 8 5 - kill
6 7 6 - final de execução 9 parcial do contexto Em Trânsito Suspenso 7 - suspend “FT” 10 “FP” 8 - resume
9 - escalona (troca11 12 de contexto)
Ativo 10 - suspend “FA” 11 - decodifica (inverte
bit alternador)12 - suspend
PRÉ-BUSCA DE INSTRUÇÕES
Memória
L2 cache
Pré-Busca
P1 L1 P2 i-cache P3 próx p/ P4 pré-buscar P5 P6
: TB P1 próx. p/ buscar P2 P3 Busca P4 troca contexto miss-status P5 1 P6 1 P7 0 FP P8 0 P1 P2 P3 P4 P9 0 :
MODELAGEM ANALÍTICA
• Trabalho Cooperativo
• Ferramenta DSPN - Redes de Petri
• Objetivos
• Alcance dos Modelos - Comportamental
• Modelagens Ideal e com Pré-Busca
• TOFI (Taxa de Ocupação das Filas de Instruções)
• Capacidade de Despacho
MODELAGEM DA BUSCA COM PRÉ-BUSCA
Capacidade de Despacho x Acertos na I-cache
0
1
2
3
4
5
6
7
0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5 0,55 0,6 0,65 0,7 0,75 0,8 0,85 0,9
Taxa de Acertos na I-Cache
Cap
acid
ade
de
Des
pac
ho
SMT Ideal
SEMPRE
SMT Normal
Capacidade de Despacho x Latência da Cache L2
0
1
2
3
4
5
6
7
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Latência de L2
Cap
aci
da
de
de
De
spac
ho
SEMPRE 90%
SMT Normal 90%
SEMPRE 85%
SMT Normal 85%
SEMPRE 80%
SMT Normal 80%
CONCLUSÕES
• Propomos uma arquitetura que executa processos
• Que aproveita paralelismo abundante
• Que maximiza a utilização do hardware
• Que otimiza a utilização da cache de instruções
• Que facilita o trabalho do sistema operacional
PRÓXIMOS PASSOS
• Implementação do simulador
• Técnica para otimizar a utilização da cache de dados
TRABALHOS FUTUROS
• Desenvolver sistema operacional
PUBLICAÇÕES
CACIC 98 - Argentina
SBAC-PAD 98 - Brasil
CLEI 99 - Paraguai
SBAC-PAD 99 - Brasil *
Superscalar Processors Architecture Team
Federal University of
Rio Grande do Sul
Brazil - 1999