PA8000

Hewlett Packards SuperChip PA8000 setzt neue Maßstäbe, insbesondere im Bereich 'Technical Computing'. Und so startet HP auch zunächst die RISC-Offensive bei den Technical Servern, bevor es im Herbst mit der Business-Linie weitergeht.

Im technischen Bereich ist vor allem Fließkommaperformance gefordert. Hier kann der PA8000 bei 180 MHz mit über 20 Specfp95 brillieren, gut 30 Prozent vor dem ärgsten und bislang führenden Rivalen DEC 21164, der bei 400 MHz Takt 'nur' auf 14 SPECfp95 kommt. Insgesamt vier Fließkommaeinheiten verhelfen dem PA8000 zu seiner Rasanz, zwei davon sind für Multiplizieren und Addieren zuständig, zwei weitere für Dividieren oder Wurzelziehen. Die ersteren sind voll pipelined, in jedem Takt kann eine neue Operation nachgeschoben werden. Die Durchlaufzeit (Latency) beträgt drei Takte. Demgegenüber ist die Divider-Unit nicht pipelined. Hier sind 31 Takte zu warten (bei Double Precision), bis man den nächsten Divisionsauftrag an diese Einheit vergeben kann.

Auch die Integer-Einheiten sind alle doppelt ausgelegt: zwei 64bittige ALUs, zwei Shift/Merge-und zwei Load/ Store-Einheiten verhelfen dem PA8000 auch in dieser Disziplin zur Oberhoheit (11,8 SPECint95), wenn auch nur knapp vor dem Alpha-400 (11,0).

Pro Takt kann der PA8000 vier Befehle an die Einheiten weitergeben. Er benutzt die üblichen 'Tricks', um Abhängigkeiten zwischen den Befehlen aufzulösen: Register Renaming, Out-of-Order-Execution, spekulative Ausführung und so weiter.

Ein großer Instruction Reorder Buffer von ingesamt 56 Einträgen versorgt die Funktionseinheiten und bringt die Load/ Store-Operationen wieder in die richtige Reihenfolge. Zur Sprungvorhersage dient eine Branch-History-Tabelle von 256 und ein vollassoziativer Branch Target Address Cache von 32 Einträgen. Pro Page (mögliche Page-Größe: 4, 16, 32 . 16384 KByte) kann man entweder diese Sprungvorhersage nutzen - oder fest eine Sprungrichtung vorgeben. Ein profilierender Compiler verhilft dann dazu, die richtige Wahl zu treffen. Vor allem dauernd gleichartig abgearbeiteter Code profitiert davon, worunter auch Benchmarks wie die SPEC-Suite fallen.

Speichertest

Ein Besonderheit des PA8000 gegenüber den anderen High-End-Prozessoren ist der fehlende integrierte Cache. Statt dessen arbeitet er mit einem über einen speziellen Cache-Bus angekoppelten externen Cache - getrennt für Instruktionen und Daten. Üblicherweise 1 MByte oder mehr PB-Cache haben die Systeme dafür vorgesehen. Um das neben dem normalen 64bittigen Daten- und 40bittigen Adreßbus zu bewerkstelligen, braucht er eine Unmenge an Pins. Knapp 800 werden per Ball Grid Array hinausgeführt - eine enorme Herausforderung für die Board-Layouter.

Zwar kann der PA8000 problemlos mit bestehendem 32-Bit-Code arbeiten, doch richtig entfalten wird er sich erst in einer 64-Bit-Umgebung. HP arbeitet mit Hochdruck daran. Zunächst hat man die Hardware fertig: die C-Klasse, beginnend mit dem C160, (Basispreis 37 130 DM). Im Herbst folgt die leistungsfähigere K-Klasse, für das Spitzen-Modell K460-XP mit bis zu vier Prozessoren ist dann die Kleinigkeit von 224 000 + 52 000 DM für jede zusätzliche CPU auszugeben.