Anlässlich der Hot Chips-Konferenz, auf der es von AMD auch Vorträge zu den kommenden Prozessorarchitekturen Bobcat und Bulldozer gegeben hat, hat das Unternehmen Präsentationen der beiden Architekturen für die Presse freigegeben. Darin werden die bisher bekannten Informationen nochmals aufbereitet, garniert mit wenigen, neuen Infos.
Bulldozer - AMDs kommende High-End-Architektur
Bei Bulldozer soll es sich um die erste weitgehend neue Architektur seit dem K7 (1999) handeln, wohingegen die aktuelle K10.5-Architektur (Thuban, Deneb, Propus, Regor) noch eine Weiterentwicklung des K7 beziehungsweise des K8 darstellt.
AMD macht beim Bulldozer einiges anders, als dies bei den bisherigen CPUs der Fall war. Am wichtigsten ist die Organisation der Bulldozer-Architektur in Modulen, also Doppelkernen. Jedes Modul verfügt über eine gemeinsame Fetch- und Decode-Einheit und gemeinsamen L2-Cache. Zudem gibt es pro Modul nur eine gemeinsame FPU mit zwei 128 Bit-FMAC-Pipelines. Die geteilte FPU erscheint sinnvoll, da etwa 80 Prozent der typischen Anwendungen Integer-Aufgaben sind. Dafür gibt es nun pro Modul zwei Integer-Kerne samt eigenem Scheduler, die auch jeweils einen eigenen L1-Cache besitzen.
Damit geht AMD hier einen anderen Weg als Intel, die hier auf SMT - Simultaneous Multithreading - setzen. Bei Intel werden Teile eines Kerns verdoppelt, so dass ein einzelner Kern zwei Threads gleichzeitig verarbeiten kann.
AMD hat sich dagegen für eine Art CMT - Cluster-based Multi Threading - entschieden. Allerdings besteht hier das Problem, dass AMD jeweils die Integer-Kerne als CPU-Kerne bewerben wird. Ein 4-Modul-Zambezi wird also als 8-Kern-Prozessor beworben werden. Tatsächlich von CMT zu sprechen, wäre nur dann sinnvoll, wenn AMD nicht die Integer-Kerne, sondern die Module als Prozessor-Kerne bewerben würde. Somit ist der Hinweis, CMT sorge für 80 Prozent mehr Performance, während SMT nur knapp 20 Prozent erziele, problematisch. Denn dafür müssten man immer zwei Bulldozer-Kerne mit einem einzelnen Konkurrenz-Kern aus dem Hause Intel vergleichen.
Zudem verspricht AMD einige Power-Management-Innovationen für Bulldozer. Wie auch bei dem ebenfalls in 32 nm gefertigtem Llano wird es für die auf Bulldozer basierenden CPUs Powergating geben. Allerdings nicht pro Kern, sondern pro Modul. Das heißt, Kerne können immer nur im Doppelpack abgeschaltet werden, damit die übrigen höher getaktet werden können. Es wird hier offenbar keine Möglichkeit geben, einzelne Kerne abzuschalten, sondern immer nur Kern-Paare. Trotzdem wird damit nun ein deutlich flexiblerer Prozessor greifbar, der bei Single- beziehungsweise Dual-Thread-Anwendungen stark übertaktet werden kann und gleichzeitig bei Multi-Threaded-Applikationen über viele Integer-Kerne verfügt.
Bei den Erweiterungen wird Bulldozer von Anfang an AVX verarbeiten können, das auch Intel mit Sandy Bridge unterstützt.
Als Erscheinungsdatum wird nach wie vor nur 2011 für Bulldozer angegeben, wobei man frühestens Mitte 2011 mit ersten Bulldozer-CPUs rechnen sollte.
Bobcat - Der Atom-Killer?
Mit der Bobcat-Architektur zielt AMD auf sparsame Notebooks, Netbooks und Nettops. Erscheinen wird Bobcat zunächst in Form von Ontario, einer CPU, bei der zwei Bobcat-Kerne und eine DirectX 11-GPU auf einem Die untergebracht werden. Ontario wird somit die erste Fusion-APU - Accelerated Processing Unit. Gefertigt wird Ontario bei TSMC im 40 nm-Bulk-Prozess. Dies ist insofern interessant, als das AMD für seine CPUs eigentlich auf die teurere SOI-Fertigung setzt.
Die einzelnen Bobcat-Kerne beherrschen im Gegensatz zu Intels Atom Out-of-Order-Execution, was für eine höhere Single-Thread-Leistung sorgt. Intel cachiert die Latenzen der In-Order-Architektur beim Atom durch das integrierte Hyperthreding, wodurch pro Kern zwei Threads verarbeitet werden können. Out-of-Order-Execution wird immer mit einem höheren Stromverbrauch in Verbindung gebracht, allerdings sollte man dabei im Auge behalten, dass auch die für Smartphones gedachten Cortex A9-ARM-Kerne bei einem Energieverbrauch deutlich unterhalb von Atom und Bobcat Out-of-Order-Execution beherrschen, allerdings auch ohne x86-Kompatibilität. Letztlich ist der Verbrauch eher eine Frage des Kern-Designs, nicht von Out-of-Order vs. In-Order.
AMD gibt nur eine sehr schwammige Performanceangabe, nämlich das Bobcat-basierte APUs - also Ontario - 90 Prozent der Leistung heutiger Mainstream-Systeme auf Basis der K10-Architektur erreichen sollen. Gleichzeitig soll Bobcat aber nur die halbe Silizium-Fläche benötigen, was einerseits für eine günstigere Herstellung sorgt, andererseits auch wichtig ist, um den Verbrauch im Rahmen zu halten, der nur einen kleinen Teil aktueller Systeme betragen soll.
Besonders betont wird die einfache Synthetisierbarkeit von Bobcat. So sollen schnell neue Designs auf Basis der Architektur erstellt werden können und auch der Fertigungsprozess soll leicht gewechselt werden können. Dies wäre zum Beispiel interessant, wenn man zukünftig die 28 nm-Fertigung bei Globafoundries nutzen möchte.
Wichtig für den Einsatz in Netbooks und ULV-Notebooks werden die neuen Stromspartechniken sein, die AMD in den Kern integriert hat. Unter anderem wird es Clock- und Powergating geben. Teile des Chips werden also unterschiedlich getaktet oder gar abgeschaltet werden können.
AMD positioniert Ontario wahrscheinlich oberhalb von Intels Atom - schon angesichts der deutlich leistungsstärkeren GPU. Aber auch die CPU-Kerne dürften deutlich leistungsfähiger ausfallen. Somit wird AMD mit den ersten auf Bobcat basierenden APUs sowohl Intels Atom, als auch die kleineren ULV-Notebook-CPUs von Intel angreifen. Erste Geräte auf Ontario-Basis könnten schon Jahresende angekündigt werden und sollen dann Anfang 2011 breit verfügbar sein. Angesichts dieses ambitionierten Zeitplans könnten auf der IFA Anfang September schon lauffähige Systeme zu sehen sein.
Kommentar schreiben
8 Kommentare
Und auch eine Aussage, dass die IPC einer Single-Threaded Anwendung steigen wird, gab es nicht. Zudem muss sich Buldozer mit Sandy schlagen, nicht mit dem alten Phenom II, der gerade mal mit der Core-Architektur sich schlagen kann...
Wenn man sagt, dass die Leistung Pro Kern, pro MHz steigt, dann bezieht man sich auf Multithreading-Anwendung und teilt die Leistung durch die Anzahl der Kerne, denn eine Single-Threading-Anwendung läuft immer nur auf einem Kern, da muss man nicht dazu sagen "pro Kern". Von daher muss bei so einer Aussage entweder das "pro Kern" raus, oder "Single-Threading", beides zusammen macht keinen Sinn in so einer Aussage...
Ein 2-Modul BD wird mit hoher Wahrscheinlichkeit - neben der höheren IPC und vermutlich höheren Taktraten auch durch diesmal vorhandenen L3-Cache - deutlich schneller sein als die aktuellen Propus, und dabei von der Fläche und dem Stromverbrauch her eher in Richtung Regor gehen. Das wäre in meinen Augen schon ganz ordentlich.
Physikalisch hat bei Intel ein Kern drei Integer-ALUs, bei zwei Kernen also insgesamt sechs.
Bulldozer hat nur zwei Integer-ALUs pro "Integerkern", bei einem Modul also nur insgesamt vier. http://ht4u.net/reviews/2010/amd_bulldo ... index4.php
Der Integer"kern" ist bei Buldozer also stark beschnitten.
Wenn nur ein Thread kommt, hat der bei Intel 3 Integer-ALUs zur verfügung, bei Buldozer nur zwei. Wenn zwei Threads kommen, haben die bei Intel 1,5 ALUs zur verfügung, bei Buldozer 2. Ergo bevorzugt Buldozer Multithreading, während Intel Single-Threaded bevorzugt und SMT nur nutzt um bissl. Multithtreading zu pushen. Da Single-Threaded-Perforamance immer noch sehr wichtig ist im Desktopbetrieb ist der Ansatz von Intel gar nicht mal so verkehrt. Buldozer-Ansatz wäre an sich auch nicht verkehrt, wenn sie die "Kerne" nicht so stark beschnitten hätten, aber so....
Wenn ein Prozessor 12 Threats ansprechen kann, dann ist er vielleicht ein Kung-Fu-Kämpfer oder so.
Ich finde die Idee von AMD nicht so schlecht - mal schaun was dabei rauskommt. Jetzt zu spekulieren ist eigentlich ziemlich witzlos. Benchmarks müssen her!!!
Bei BD ist dagegen auch physisch ein zweiter Kern da, nur dass der sich halt einige Komponenten mit dem anderen Kern des Moduls teilt, um (eine Menge) Platz zu sparen.
Der entscheidende Punkt von Bulldozer ist, dass dieser zusätzliche Integer-Kern pro Modul ca. 80% dessen bringt was ein vollständiger zweiter herkömmlicher Kern gebracht hätte, dabei aber nur 12% mehr Fläche verbraucht gegenüber einem herkömmlichen einzelnen Kern.
8*80%=6,4 , also wenn die 80% halbwegs stimmen performt ein 4-Modul-BD ca. wie es ein herkömmlicher 6-Kerner auf Basis der sonstigen BD-Architektur getan hätte, aber bei ungleich kleinerer Die-Fläche (und entsprechend niedrigerem Stromverbrauch, wobei ein Teil der Einsparungen sicher in mehr L3-Cache und/oder höhere Taktraten investiert wird).
Ein BD "8-Kerner" könnte damit in 32nm auch sehr gut kleiner ausfallen als ein aktueller 45nm Deneb Quadcore, ein 4-Kern-BD könnte die Größe aktueller Dualcores haben. Das ganze mit doppelter Kern-Anzahl und leicht erhöhter IPC bei etwas höheren Taktraten in gleicher TDP klingt für mich garnicht so schlecht
Wenn der "zweite Kern" 80 % mehr Performance bringt, würde Intel das auch einen vollwertigen Kern nennen. Bei 25 % sieht es da schon anders aus.
Problematisch wird auch sein, dass die Leistung PRO Kern dadurch imo kaum gesteigert werden konnte, die Kerne wurden immerhin abgespeckt, anstatt erweitert. Anwendungen, die nur auf 2 oder maximal 4 Threats aufgeteilt werden, werden - Sofern AMD gute arbeit geleistet hat - durch gutes Management auf 2 bzw. 4 unterschiedliche Module aufgeteilt, sodass die Leistung pro Threat bei NonMultiThreated-Applications nicht sogar noch reduziert wird. Hier hat also jeder Threat eine Integer-Einheit und die restlichen Teile des Moduls für sich allein.
Allerdings bin ich mir nicht sicher, in welche Richtung die Reise bei Anwendungen geht, die z.B. bis zu 12 Threats ansprechen können. Intel hat hier selbst mit einem "nur" nativen 6-Kern-Design und noch zusätzlich SMT imo die (deutlich) besseren Karten. Die IPC-Performance, sofern ein Threat ein komplettes Modul für sich hat dürfte eigentlich auch nicht mehr als 15% gesteigert werden.
Daher sehe ich Intel in der Zukunft als klaren Technolgieführer. Ich denke ein aktueller i7 980X mit 6 Kernen und 12 Threats wird selbst dem in wohl erst einem Jahr erscheinenden topModel des Bulldozer-8Kerner in die Schranken weißen. Und wahrscheinlich sogar mit Abstand...
Wer weiß vielleicht haben wir schon Ende 2011 die ersten Ontrario in 28 nm.