Nvidia kündigt GF100 (Fermi) an

NvidiaNvidia hat soeben im Rahmen der hauseigenen GPU Technology Conference erwartungsgemäß erste offizielle Details des Next-Generation-Chips mit Codenamen Fermi beziehungsweise GF100 herausgerückt. Diese besätigen die 512 Shadereinheiten und das 384 Bit breite Speicherinterface, liefern aber auch noch die ein oder andere interessante Information.

Wie Nvidia in einem Whitepaper ausführt, sind die 512 Shadereinheiten in 16 so genannter Streaming-Multiprozessoren organisiert, die jeweils 32 Streamprozessoren bereithalten. Bei G80 und GT200 gab es noch zwei und drei Streaming-Multiprozessoren pro Shadercluster mit jeweils 8 Streamprozessoren. Durch den neuen Aufbau verschlechtert sich zwar die Warp-Größe, dafür erhöht sich jedoch die Double-Precision-Performance - man vermutet, dass es pro Streaming-Multiprozessor 16 Double-Precision-Einheiten geben wird.

.G80GT200GF100
Fertigung90 nm65 nm40 nm
Transistoren0,7 Millarden1,4 Millarden3,0 Millarden
Shadereinheiten
(Single Precision)
128240512
Shadereinheiten
(Double Precision)
-30256
SMP (L1-Cache)16 KiB24 KiB64 KiB
SMP (L2-Cache)128 KiB256 KiB768 KiB
SMP (SFUs)224
Speicherinterface384 Bit
GDDR3
512 Bit
GDDR3
384 Bit
GDDR5


Jeder Streaming Multiprozessor verfügt über einen gemeinsam genutzten Cache in Höhe von 64 KiB, der als L1-Cache genutzt werden kann, wobei dieser dann variabel 48 oder 16 KiB groß ausfällt - beim GT200 betrug er konstant 24 KiB.
Daneben hat Nvidia den L2-Cache, der beim GT200 vollständig als Texture-Cache fungierte, von 256 auf 768 KiB verdreifacht.
Weiter nennenswert ist, dass sich die Größe des Register Files von 64 auf 128 KiB verdoppelt hat. Vor dem Hintergrund, dass in einem Streaming-Multiprozessor jetzt allerdings 32 statt 8 Shadereinheiten sitzen, hat sie sich effektiv halbiert. Zudem verfügt Fermi über 64 statt 20 so genannter SFU-Einheiten. SFU steht für Special Function Units und beschreibt Funktionen wie Sinus, Cosinus, Kehrwert und Quadratwurzel.
Pro Takt soll Fermi dagegen nur noch ein MUL und ADD (MADD) ausführen können. G80 und GT200 konnten darüber hinaus noch ein weiteres MUL ausführen, dies wurde jedoch nur sehr ineffizient ausgelastet und ist daher wohl bei Fermi verschwunden.

Nvidia Fermi-Architektur (5 Bilder)
Nvidia Fermi-Architektur

Weitere Neuigkeiten gibt es auch beim Speicher, der wie gesagt an ein 384 Bit (6*64 Bit) breiten Bus angebunden ist. Er soll auf der neuen Generation mit 1,8 bis 2,0 GHz arbeiten, was in 172,8 bis 192,0 GB/s münden würde. Äußerst interessant ist, dass Nvidia auch eine ECC-Fehlerkorrektur eingebunden hat, besonders mit Blick auf GPGPU-Computing-Applikationen.

Wie es weiter heißt, wird Fermi nicht nur mit unterschiedlichem Kern- und Speichertakt angesprochen werden. Es soll ebenso erneut eine Taktdomäne für den Scheduler und die Shadereinheiten geben, wobei noch unklar ist, wie hoch diese ausfallen werden und in welchem Verhältnis sie genau zueinander stehen.
Darüber hinaus erwähnenswert ist, dass Nvidia den Gigathreaded-Manager, der für die Threadverwaltung verantwortlich ist, stark verbessert haben soll.
Ebenso bietet der Chip jetzt uneingeschränkte C++-Unterstützung und ist mit dem IEEE-754-2008-Standard kompatibel.

Nvidia Tesla-Karte (Fermi-Architektur) (4 Bilder)
Nvidia Tesla-Karte (Fermi-Architektur)

Nvidia-CEO Jen-Hsun Huang ließ es sich auch nicht nehmen, erste Bilder einer Karte in die Kamera zu halten. Zwar handelte es sich hier um eine professionelle Tesla-Karte, dennoch dürften die Änderungen zu den Geforce-Karten gering ausfallen.
Auffällig ist, dass die Karte über einen 8- und 6-Pin-Stromanschluss verfügt und damit theoretisch zwischen 225 und 300 Watt konsumiert. Ein sicheres Alibi - uns liegen auch entgegengesetzte Informationen vor - ist dies jedoch nicht, die HD 5870 verfügte bei ihrer Demonstration ebenfalls noch über einen 8-Pin-Stromanschluss.

Weitere Details, möglicherweise sogar schon die finalen Spezifikationen, sollten hier in den nächsten Stunden oder Tagen zu finden sein.


Kommentar schreiben

  • Loggen Sie sich oben mit ihren Benutzerdaten ein, um Kommentare zu verfassen.
  • Falls Sie noch kein Mitglied sind, können Sie sich in unserem Forum registrieren.

8 Kommentare

8.) KiTT 02.10.2009 - 20:30 Uhr
Der GT200 hat zwar pro SM 16kb shared Memory, keine 24, was man aber wohl kaum als echten Cache bezeichnen kann, da er softwareseitig angesprochen wird. Es gibt auch keinen echten L1 cache, sondern nurn Texturenspeicher, der für GPGPU aber uninteressant ist.
7.) iNsuRRecTiON 02.10.2009 - 01:40 Uhr
Hi,

@KiTT, natürlich interessiert die Spieler DP relativ wenig, wenn du auf die GT200 guckst, die nur 30 FMA ops/Takt bei DP beherrscht, müsste diese ja für Spiele dann unterirdisch schlecht sein.. ;-)

EDIT: @News, wie kommt ihr eigentlich darauf, dass der G80 und GT200 Chip L1 oder L2 Cache hatte?!?
Das steht aber nicht im Whitepaper.. o.O

MfG

iNsuRRecTiON
6.) w0mbat 01.10.2009 - 23:44 Uhr
Schau dir mal alle Bilder der Karte an, die Stromadapter sind nicht richtig verlötet, das PCB ist abgesägt, die Lüftungsschlitze sind falsch angebracht und vieles mehr.

http://www.hardwareluxx.de/community/sh ... count=1770
http://www.forum-3dcenter.org/vbulletin ... count=3216
http://www.forum-3dcenter.org/vbulletin ... count=3219
http://www.forum-3dcenter.org/vbulletin ... count=3231
5.) Duplex 01.10.2009 - 21:46 Uhr
woher weist du das die ein fake sein soll

woher hat du die informationen ?
und selbst wen , interessiert das ?
das ist eine Tesla karte die zeigen soll wie die karte aussehn wird , und unteranderen wurden Raytracing sequenzen berechnet ect.. die karte ist mit sicherheit kein fake


man sagt nach das die mit den erfolgreichen Tapeouts dieses jahr gebastelt sein soll...
4.) w0mbat 01.10.2009 - 20:56 Uhr
Und die Karte die er hochhält ist ein Fake. Finde das echt lächerlich dass Nvidia nicht mal Karten für die Show hatte. Brauch wohl doch noch bis 2010.
3.) KiTT 01.10.2009 - 17:30 Uhr
Wobei DP "uns" Gamer nicht sehr interessieren dürfte, oder?
2.) w0mbat 01.10.2009 - 15:20 Uhr
Insg. 512 und bei DP muss eben ein Loop rein, also faktisch nur noch 256.
1.) Duplex 01.10.2009 - 14:58 Uhr
etwas stuzig bin ich nun doch , verstehe ich es falsch oder hat der GF-100 512Shader , und zusätzlich 256Doubleprecision shader ?

oder sind das insgesammt 512shader , wovon nur 256 in der lage sind doppelte präzision abzuliefern ?