AMD mit Details zu Bulldozer und Bobcat

AMDAnlässlich der Hot Chips-Konferenz, auf der es von AMD auch Vorträge zu den kommenden Prozessorarchitekturen Bobcat und Bulldozer gegeben hat, hat das Unternehmen Präsentationen der beiden Architekturen für die Presse freigegeben. Darin werden die bisher bekannten Informationen nochmals aufbereitet, garniert mit wenigen, neuen Infos.

AMD - Bulldozer und Bobcat Zielmärkte

Bulldozer - AMDs kommende High-End-Architektur
Bei Bulldozer soll es sich um die erste weitgehend neue Architektur seit dem K7 (1999) handeln, wohingegen die aktuelle K10.5-Architektur (Thuban, Deneb, Propus, Regor) noch eine Weiterentwicklung des K7 beziehungsweise des K8 darstellt.

AMD - Bulldozer Schema

AMD macht beim Bulldozer einiges anders, als dies bei den bisherigen CPUs der Fall war. Am wichtigsten ist die Organisation der Bulldozer-Architektur in Modulen, also Doppelkernen. Jedes Modul verfügt über eine gemeinsame Fetch- und Decode-Einheit und gemeinsamen L2-Cache. Zudem gibt es pro Modul nur eine gemeinsame FPU mit zwei 128 Bit-FMAC-Pipelines. Die geteilte FPU erscheint sinnvoll, da etwa 80 Prozent der typischen Anwendungen Integer-Aufgaben sind. Dafür gibt es nun pro Modul zwei Integer-Kerne samt eigenem Scheduler, die auch jeweils einen eigenen L1-Cache besitzen.

AMD - CMT vs SMT

Damit geht AMD hier einen anderen Weg als Intel, die hier auf SMT - Simultaneous Multithreading - setzen. Bei Intel werden Teile eines Kerns verdoppelt, so dass ein einzelner Kern zwei Threads gleichzeitig verarbeiten kann.
AMD hat sich dagegen für eine Art CMT - Cluster-based Multi Threading - entschieden. Allerdings besteht hier das Problem, dass AMD jeweils die Integer-Kerne als CPU-Kerne bewerben wird. Ein 4-Modul-Zambezi wird also als 8-Kern-Prozessor beworben werden. Tatsächlich von CMT zu sprechen, wäre nur dann sinnvoll, wenn AMD nicht die Integer-Kerne, sondern die Module als Prozessor-Kerne bewerben würde. Somit ist der Hinweis, CMT sorge für 80 Prozent mehr Performance, während SMT nur knapp 20 Prozent erziele, problematisch. Denn dafür müssten man immer zwei Bulldozer-Kerne mit einem einzelnen Konkurrenz-Kern aus dem Hause Intel vergleichen.

AMD - Bulldozer Schema 2

Zudem verspricht AMD einige Power-Management-Innovationen für Bulldozer. Wie auch bei dem ebenfalls in 32 nm gefertigtem Llano wird es für die auf Bulldozer basierenden CPUs Powergating geben. Allerdings nicht pro Kern, sondern pro Modul. Das heißt, Kerne können immer nur im Doppelpack abgeschaltet werden, damit die übrigen höher getaktet werden können. Es wird hier offenbar keine Möglichkeit geben, einzelne Kerne abzuschalten, sondern immer nur Kern-Paare. Trotzdem wird damit nun ein deutlich flexiblerer Prozessor greifbar, der bei Single- beziehungsweise Dual-Thread-Anwendungen stark übertaktet werden kann und gleichzeitig bei Multi-Threaded-Applikationen über viele Integer-Kerne verfügt.

AMD - Schema Zambezi / Valencia

Bei den Erweiterungen wird Bulldozer von Anfang an AVX verarbeiten können, das auch Intel mit Sandy Bridge unterstützt.
Als Erscheinungsdatum wird nach wie vor nur 2011 für Bulldozer angegeben, wobei man frühestens Mitte 2011 mit ersten Bulldozer-CPUs rechnen sollte.

Bobcat - Der Atom-Killer?
Mit der Bobcat-Architektur zielt AMD auf sparsame Notebooks, Netbooks und Nettops. Erscheinen wird Bobcat zunächst in Form von Ontario, einer CPU, bei der zwei Bobcat-Kerne und eine DirectX 11-GPU auf einem Die untergebracht werden. Ontario wird somit die erste Fusion-APU - Accelerated Processing Unit. Gefertigt wird Ontario bei TSMC im 40 nm-Bulk-Prozess. Dies ist insofern interessant, als das AMD für seine CPUs eigentlich auf die teurere SOI-Fertigung setzt.

AMD - Bobcat Schema

Die einzelnen Bobcat-Kerne beherrschen im Gegensatz zu Intels Atom Out-of-Order-Execution, was für eine höhere Single-Thread-Leistung sorgt. Intel cachiert die Latenzen der In-Order-Architektur beim Atom durch das integrierte Hyperthreding, wodurch pro Kern zwei Threads verarbeitet werden können. Out-of-Order-Execution wird immer mit einem höheren Stromverbrauch in Verbindung gebracht, allerdings sollte man dabei im Auge behalten, dass auch die für Smartphones gedachten Cortex A9-ARM-Kerne bei einem Energieverbrauch deutlich unterhalb von Atom und Bobcat Out-of-Order-Execution beherrschen, allerdings auch ohne x86-Kompatibilität. Letztlich ist der Verbrauch eher eine Frage des Kern-Designs, nicht von Out-of-Order vs. In-Order.
AMD gibt nur eine sehr schwammige Performanceangabe, nämlich das Bobcat-basierte APUs - also Ontario - 90 Prozent der Leistung heutiger Mainstream-Systeme auf Basis der K10-Architektur erreichen sollen. Gleichzeitig soll Bobcat aber nur die halbe Silizium-Fläche benötigen, was einerseits für eine günstigere Herstellung sorgt, andererseits auch wichtig ist, um den Verbrauch im Rahmen zu halten, der nur einen kleinen Teil aktueller Systeme betragen soll.

AMD - Bobcat Schema 2

Besonders betont wird die einfache Synthetisierbarkeit von Bobcat. So sollen schnell neue Designs auf Basis der Architektur erstellt werden können und auch der Fertigungsprozess soll leicht gewechselt werden können. Dies wäre zum Beispiel interessant, wenn man zukünftig die 28 nm-Fertigung bei Globafoundries nutzen möchte.
Wichtig für den Einsatz in Netbooks und ULV-Notebooks werden die neuen Stromspartechniken sein, die AMD in den Kern integriert hat. Unter anderem wird es Clock- und Powergating geben. Teile des Chips werden also unterschiedlich getaktet oder gar abgeschaltet werden können.

AMD - Bobcat Zusammenfassung

AMD positioniert Ontario wahrscheinlich oberhalb von Intels Atom - schon angesichts der deutlich leistungsstärkeren GPU. Aber auch die CPU-Kerne dürften deutlich leistungsfähiger ausfallen. Somit wird AMD mit den ersten auf Bobcat basierenden APUs sowohl Intels Atom, als auch die kleineren ULV-Notebook-CPUs von Intel angreifen. Erste Geräte auf Ontario-Basis könnten schon Jahresende angekündigt werden und sollen dann Anfang 2011 breit verfügbar sein. Angesichts dieses ambitionierten Zeitplans könnten auf der IFA Anfang September schon lauffähige Systeme zu sehen sein.


Kommentar schreiben

  • Loggen Sie sich oben mit ihren Benutzerdaten ein, um Kommentare zu verfassen.
  • Falls Sie noch kein Mitglied sind, können Sie sich in unserem Forum registrieren.

8 Kommentare

8.) Phenocore 27.08.2010 - 16:28 Uhr
Mit der "80 Prozent Leistung" kann man in dem Zusammenhang nichts anfangen, da die sich auf Multithreading-Leistung bezieht, nicht auf Single-Threaded-Leistung.
Und auch eine Aussage, dass die IPC einer Single-Threaded Anwendung steigen wird, gab es nicht. Zudem muss sich Buldozer mit Sandy schlagen, nicht mit dem alten Phenom II, der gerade mal mit der Core-Architektur sich schlagen kann...

Kellerkind:
.., dass auch die Singlethread-Leistung pro Kern pro MHz gegenüber den aktuellen Phenom II steigen soll.

Wenn man sagt, dass die Leistung Pro Kern, pro MHz steigt, dann bezieht man sich auf Multithreading-Anwendung und teilt die Leistung durch die Anzahl der Kerne, denn eine Single-Threading-Anwendung läuft immer nur auf einem Kern, da muss man nicht dazu sagen "pro Kern". Von daher muss bei so einer Aussage entweder das "pro Kern" raus, oder "Single-Threading", beides zusammen macht keinen Sinn in so einer Aussage...
7.) Kellerkind 27.08.2010 - 15:34 Uhr
Sicher, AMD sagt ja selbst dass ein Modul "nur" ca. 80% der Leistung von zwei vollwertigen Kernen haben wird. Allerdings gehe ich davon aus, dass sich die 80% auf den Vergleich mit zwei vollwertigen BD-Kernen bezieht, denn AMD hat mehrfach betont, dass auch die Singlethread-Leistung pro Kern pro MHz gegenüber den aktuellen Phenom II steigen soll.
Ein 2-Modul BD wird mit hoher Wahrscheinlichkeit - neben der höheren IPC und vermutlich höheren Taktraten auch durch diesmal vorhandenen L3-Cache - deutlich schneller sein als die aktuellen Propus, und dabei von der Fläche und dem Stromverbrauch her eher in Richtung Regor gehen. Das wäre in meinen Augen schon ganz ordentlich.
6.) Phenocore 27.08.2010 - 09:59 Uhr
Kellerkind:
Bei BD ist dagegen auch physisch ein zweiter Kern da, nur dass der sich halt einige Komponenten mit dem anderen Kern des Moduls teilt, um (eine Menge) Platz zu sparen.


Physikalisch hat bei Intel ein Kern drei Integer-ALUs, bei zwei Kernen also insgesamt sechs.

Bulldozer hat nur zwei Integer-ALUs pro "Integerkern", bei einem Modul also nur insgesamt vier. http://ht4u.net/reviews/2010/amd_bulldo ... index4.php

Der Integer"kern" ist bei Buldozer also stark beschnitten.

Wenn nur ein Thread kommt, hat der bei Intel 3 Integer-ALUs zur verfügung, bei Buldozer nur zwei. Wenn zwei Threads kommen, haben die bei Intel 1,5 ALUs zur verfügung, bei Buldozer 2. Ergo bevorzugt Buldozer Multithreading, während Intel Single-Threaded bevorzugt und SMT nur nutzt um bissl. Multithtreading zu pushen. Da Single-Threaded-Perforamance immer noch sehr wichtig ist im Desktopbetrieb ist der Ansatz von Intel gar nicht mal so verkehrt. Buldozer-Ansatz wäre an sich auch nicht verkehrt, wenn sie die "Kerne" nicht so stark beschnitten hätten, aber so....
5.) elwood_b 26.08.2010 - 16:07 Uhr
ausserdem heißt es "thread(s)" und nicht "threat(s)"...
Wenn ein Prozessor 12 Threats ansprechen kann, dann ist er vielleicht ein Kung-Fu-Kämpfer oder so.

Ich finde die Idee von AMD nicht so schlecht - mal schaun was dabei rauskommt. Jetzt zu spekulieren ist eigentlich ziemlich witzlos. Benchmarks müssen her!!!
;-)
4.) Kellerkind 25.08.2010 - 14:40 Uhr
Außerdem wird bei ähnlichen Architekturen von Sun etc. ebenfalls von Kernen gesprochen. Intels HT ist ein komplett anderer Ansatz, da wird dem System einfach nur etwas vorgegaukelt was garnicht da ist, um die Auslastung des einen Kerns zu optimieren. Anwendungen die den jeweiligen Kern bereits effektiv auslasten oder aus anderen Gründen SMT nicht effektiv nutzen können, profitieren kein Stück von SMT.
Bei BD ist dagegen auch physisch ein zweiter Kern da, nur dass der sich halt einige Komponenten mit dem anderen Kern des Moduls teilt, um (eine Menge) Platz zu sparen.

Der entscheidende Punkt von Bulldozer ist, dass dieser zusätzliche Integer-Kern pro Modul ca. 80% dessen bringt was ein vollständiger zweiter herkömmlicher Kern gebracht hätte, dabei aber nur 12% mehr Fläche verbraucht gegenüber einem herkömmlichen einzelnen Kern.
8*80%=6,4 , also wenn die 80% halbwegs stimmen performt ein 4-Modul-BD ca. wie es ein herkömmlicher 6-Kerner auf Basis der sonstigen BD-Architektur getan hätte, aber bei ungleich kleinerer Die-Fläche (und entsprechend niedrigerem Stromverbrauch, wobei ein Teil der Einsparungen sicher in mehr L3-Cache und/oder höhere Taktraten investiert wird).

Ein BD "8-Kerner" könnte damit in 32nm auch sehr gut kleiner ausfallen als ein aktueller 45nm Deneb Quadcore, ein 4-Kern-BD könnte die Größe aktueller Dualcores haben. Das ganze mit doppelter Kern-Anzahl und leicht erhöhter IPC bei etwas höheren Taktraten in gleicher TDP klingt für mich garnicht so schlecht ;)
3.) Daedalus 25.08.2010 - 09:26 Uhr
@eXEC
Wenn der "zweite Kern" 80 % mehr Performance bringt, würde Intel das auch einen vollwertigen Kern nennen. Bei 25 % sieht es da schon anders aus.
2.) eXEC 24.08.2010 - 23:03 Uhr
Also Bulldozer ist in meinen Augen EXTREM interessant. Die Tatsache, dass nun allerdings Integer-Kerne als vollwertige Kerne angepriesen werden, ist problematisch. Meiner Meinung nach ist also das 8-Kern-Model ein 4-Kerner mit verbessertem SMT. Intel preißt seine CPUs auch nicht als 8-Kerner an, auch wenn das imo die Zukunft sein könnte.
Problematisch wird auch sein, dass die Leistung PRO Kern dadurch imo kaum gesteigert werden konnte, die Kerne wurden immerhin abgespeckt, anstatt erweitert. Anwendungen, die nur auf 2 oder maximal 4 Threats aufgeteilt werden, werden - Sofern AMD gute arbeit geleistet hat - durch gutes Management auf 2 bzw. 4 unterschiedliche Module aufgeteilt, sodass die Leistung pro Threat bei NonMultiThreated-Applications nicht sogar noch reduziert wird. Hier hat also jeder Threat eine Integer-Einheit und die restlichen Teile des Moduls für sich allein.
Allerdings bin ich mir nicht sicher, in welche Richtung die Reise bei Anwendungen geht, die z.B. bis zu 12 Threats ansprechen können. Intel hat hier selbst mit einem "nur" nativen 6-Kern-Design und noch zusätzlich SMT imo die (deutlich) besseren Karten. Die IPC-Performance, sofern ein Threat ein komplettes Modul für sich hat dürfte eigentlich auch nicht mehr als 15% gesteigert werden.

Daher sehe ich Intel in der Zukunft als klaren Technolgieführer. Ich denke ein aktueller i7 980X mit 6 Kernen und 12 Threats wird selbst dem in wohl erst einem Jahr erscheinenden topModel des Bulldozer-8Kerner in die Schranken weißen. Und wahrscheinlich sogar mit Abstand...
1.) Exey 24.08.2010 - 22:18 Uhr
Inzwischen bin ich auf den Ontario gespannter als auf den Bulldozer, vorallem die einfache Möglichkeit die Kerne schnell an neue Anforderungen und Fertigungsprozesse anzupassen ist sehr gut!

Wer weiß vielleicht haben wir schon Ende 2011 die ersten Ontrario in 28 nm.