Intel demonstriert 1 Teraflop-Larrabee-Chip

IntelIm Rahmen der Supercomputing Conference 2009 hat Intel überraschenderweise Larrabee demonstriert und damit wohl auf Nvidias Fermi-Demo reagiert. Anders als Nvidia ermittelte man bei seinem High-Performance-Computing-Chip sogar mutig die so genannte SGEMM-Rate, die die reale Shaderleistung des Chips anhand von Matrixmultiplikationen mit einfacher Genauigkeit widerspiegelt.

Der Prototyp kam dabei auf eine Dauerleistung von 417 Gigaflops und erzielte ein Maximum von 712 Gigaflops, so dass der theoretische Maximalwert wohl irgendwo bei 800 Gigaflops gelegen haben muss. Dies klingt vielleicht auf den ersten Blick wenig, allerdings scheint es, als habe Intels Larrabee-Design auch eine höhere Effizienz als die Konkurrenz. Nvidias Tesla-Karte C1060 beispielsweise, welche theoretisch genauso wie die GTX 280 über 933 Gigaflops verfügt, erzielte lediglich eine Dauerleistung von 320 Gigaflops. Demnach bewegt sich das Effizienzniveau beim Nvidia-Chip bei etwa 35 Prozent, bei Larrabee dürften es um 50 Prozent sein.

Ein weiteres Anliegen Intels war es offenbar, zu zeigen, dass Larrabee auch starke Taktreserven besitzt. So erzielte er mit Übertaktung ein Maximum von 1006 statt 712 Gigaflops (+40%).
Intel verriet nicht, mit wie vielen Kernen der Larrabee-Prototyp bestückt war, 24 scheint in diesem Fall jedoch realistisch. Ausgehend davon, dass jeder Kern über eine 16-wide SIMD-Einheit verfügt, die jeweils Integer- und Fließkommaoperationen durchführen kann und die theoretische Rechenleistung bei um 800 Gigaflops gelegen haben sollte, müsste sich der Takt pro Kern bei etwa 1 GHz* bewegt haben. Durch Übertaktung scheinen dann knapp 1,5 GHz pro Kern möglich gewesen zu sein.
Dies ist aber - darauf sei ausdrücklich verwiesen - lediglich eine schlüssige Vermutung unsererseits. Das Muster kann auch mit 16 oder 32 Kernen bestückt gewesen sein, entsprechend höher und niedriger fielen die Taktfrequenzen aus.

Intel will Larrabee im Laufe des nächsten Jahres zur Marktreife bringen. Die Demonstration war dabei ein erster, guter Schritt in die richtige Richtung.

* 24 Kerne x 16-wide SIMD-Einheit x 2 Instruktionen pro Takt x 1000 MHz = 768 Gigaflops


Kommentar schreiben

  • Loggen Sie sich oben mit ihren Benutzerdaten ein, um Kommentare zu verfassen.
  • Falls Sie noch kein Mitglied sind, können Sie sich in unserem Forum registrieren.

8 Kommentare

8.) Madbomb 19.11.2009 - 20:04 Uhr
Naja ich finde die Karte trotzdem noch schwer einzuschätzen, weil sie halt auf einem anderen Prinzip aufbaut als die üblichen Verdächtigen. Ich lasse mich bei richtigen Test überraschen aber erwarte keine großen Leistungsüberraschung aufgrund der langen Verzögerung. Ich denke die Karte wird nur das Versuchsobjekt für diese Art von Architektur sein und der Nachfolger wird rasch folgen. Ich mein irgendwann mal irgendwo gelesen zu haben, dass der Nachfolger schon kurze Zeit später kommen wird. Ist ja auch logisch da Intel, Nv, ATI und co parallel an mehreren Generationen arbeiten. Intel wird zwar die Erfahrung mit den Problemen in die nächste Generation mit einfließen lassen aber generell werden die Generationen ja unabhängig voneinander entwickelt.

PS: Wieso habe ich nur den Verdacht das die Gigaflops Rechnung wegen meinem Beiträgen in der Fermi-News da steht xD
7.) Daedalus 19.11.2009 - 19:05 Uhr
Na habe die Ehre! Handoptimiert = Assembler. In derPraxis absolut untauglich. Ich kann mir aber durchaus vorstellen, das jeder Hersteller für seine Karten optimierte funktionen herausgibt, welche dann schon in Assembler geschrieben sind. Aber selber schreiben -> NEE.
Larrabee sollte ja mit normalen C++ laufen, hoffe dies wurde hier bei dem Test "berücksichtigt".
Ansonsten ist die Karte jetzt nicht der Performance Champ, hoffe aber die einfachere Programmierung reist es raus.

Danke an isigrim für den sehr guten Kommentar und die Links!
6.) isigrim 19.11.2009 - 15:41 Uhr
Ich finde die Leistung nicht schlecht. Allerdings weiß man nicht, wieviel Energie das große Baby braucht und wieviel Flüssigstickstoff beim Übertakten im Spiel war. :D
Hier ist ein Vergleich zu einer handoptimierten MatrixMultiplikation auf einem ATI RV770 Dabei erreicht die ATI 880 Gigaflops. Mit einer derart optimierten Version sollten bei der 5870 also schon 1,6 TFlop machbar sein. (was heise recherchiert hat, basiert auf dem ATI-Compiler, der nicht eben sonderlich effizient ist und daher schwerlich mit Intels Compilern vergleichbar ist). Also kann man hier bei ATI auch von einer 75%igen Effizienz ausgehen, zumindest bei handoptimiertem Code, (der aber bei der Larrabee-Vorführung sicherlich auch zum Einsatz gekommen ist).
Und Hier ist eine PDF-Datei mit Angaben zu Nvidia Karten.

Also läge Larrabee unter der Leistung einer 4870, wenn man den typsichen Wert des Larrabee nimmt, nicht den übertakteten. Zusätzlich sei erwähnt, dass Larrabee bei 3d-Spielen unter DirectX viel in Software emulieren muss, was bei modernen GPUs schon in Hardware vorhanden ist. Dadurch dürfte die Effizienz bei Spielen also deutlich niedriger ausfallen. Das wieder ist aber eine Treiberfrage, wobei hier wohl alle wissen, wie schwer sich Intel mit der Grafiktreiber-Programmierung bisher getan hat.
5.) KonKorT 19.11.2009 - 15:17 Uhr
Mit tatsächlichen Flop-Zahlen kann man doch schon gut erblicken, was einen grob erwartet. Klar variiert in Spielen der Shaderbedarf bzw. Multiplikation von Matrizen, aber hier hat man auf jedenfall schon mal eine erste Grundlage.
4.) Luk Luk 19.11.2009 - 15:13 Uhr
Das ist ein Vergleich des Säuregehalts eines Apfels und einer Birne :D

Die theoretische bzw. tatsächliche FLOP Leistung sagt ja nichts über die letzendliche Leistung des Chips aus. Es sind hier wieder blanke Zahlen, die eigentlich nichts sagen.

Man sollte aber zufrieden sein, dass man überhaupt etwas über den ollen Larrabee erfährt :D
3.) Duplex 19.11.2009 - 15:08 Uhr
siehst du , man kann garnicht abschätzen wie die effiziens des Fermi ist , nicht mal du mit deinen spezial quellen kannst da nicht richtig abschätzen , für mich ist das ein Apfel Birnen vergleich


ich nehme doch auch kein C2D E6400 ohne angaben vom rest übertakte den noch und vergleiche den mit AMD X , und sag das ich 400% schneller bin ..
2.) KonKorT 19.11.2009 - 15:05 Uhr
Wie sollen sie denn auch ihren Chip mit Fermi vergleichen, wenn dieser noch nicht marktreif ist. Bei Fermi werden es voraussichtlich aber > 35% sein, weil allein schon zwei FMAs anstelle von einem MADD und einem MUL effizienter sind.
1.) Duplex 19.11.2009 - 15:02 Uhr
ist das normal das man äpfel mit birnen vergleicht ??

wie ich das nun richtig verstanden habe und wie der text es klärt erzielt eine Nvidia Tesla C1060 , die auf basis des G-200 chips , eine dauerleistung von 320Gflops


und das effiziensneveau ligt bei 35% , was hat dann der Fermin damit zutun ?

der Fermin wird doch erst der eigentliche konkurenz vom Larrabee werden , das ist wieder sone intel werbung alte modelle gegen aktuelle prototypen zu vergleichen , und bei den AMD angaben wurden nicht mal die Chips/Karten oder sonstige sachen gesagt ...


meinermeinung nach ist intel total am versagen mit den Larrabee und versucht jedes positive teilchen enorm rauszubringen , jedoch haben die einen Starken marketing konkurenten , Nvidia , den Nvidia zögert net lange ( anders als AMD ) mit der werbung ect..