Nvidia und der Griff nach den Sternen (Teil 2)

NvidiaVor einem Jahr, zur GPU Technology Conference 2009, haben wir in einer News Nvidias Weg hin zu HPC- und Serversystemen beleuchtet. Nun wird es Zeit, die Entwicklung seit dem zu betrachten und zu fragen, ob die Strategie aufgegangen ist und wie die zukünftigen Planungen aussehen.

Deutlich sichtbar wird ein Strategiewechsel bei Nvidia seit "Fermi" beziehungsweise dem GF100. Dessen Architektur wurde klar auf GPU-Computing hin entwickelt und bringt dazu viele Verbesserungen speziell für diesen Bereich mit. Allerdings rief neben einer sehr späten Markteinführung auch der hohe Stromverbrauch des GF100 erhebliche Kritik hervor. Für Spieler erschien der GF100 zudem vergleichsweise ineffizient, da sich dort der viele Ballast, - z.B. ECC und hierarchischer Cache - den der Chip für GPGPU mitbringt, eher negativ auswirkt. Erst mit den kleineren Varianten GF10x konnte Nvidia dieses Effizienz-Problem einigermaßen in den Griff bekommen. Ein weiteres Problem, das Nvidia beim GF100 bis heute nicht beheben konnte, sind die Fertigungsprobleme mit der 3 Milliarden Transistorschweren GPU. So sind bisher im Höchstfall 480 der 512 Shader aktiviert, ein Modell im Vollausbau ist bisher nicht erschienen.
Trotz der vielen Probleme bleibt aber eines unumstritten: Nvidia hat eine enorm leistungsfähige Architektur für GPU-Computing geschaffen, die dank der fortschrittlichen CUDA-Infrastruktur inzwischen in diesem Bereich eine breite Akzeptanz erfährt.

Das zeigt sich darin, dass inzwischen neun große Serveranbieter Fermi-GPUs für ihre Server- und HPC-Systeme anbieten. Nach IBMs Bladecenter hat nun zum Beispiel auch der bekannte Supercomputer-Fertiger Cray für sein Topmodell XE6 Fermi-Aufrüstoptionen angekündigt. Die Zusammenarbeit mit Cray rührt daher, dass Nvidia zusammen mit Cray, den Oak Ridge National Laboratories und sechs US-Universitäten einen 25 Millionen US-Dollar schweren Auftrag zur Entwicklung eines Exascale-Supercomputers unter dem Schlagwort "Ubiquitous High Performance Computing" - UHC - erhalten hat, der wohl ebenfalls maßgeblich auf Nvidia-GPUs setzen wird. Das ursprünglich mit den Oak Ridge National Laboratories angekündigte Projekt für den Bau eines Supercomputers auf Fermi-Basis scheint jedoch etwas nach hinten verschoben worden zu sein; angeblich weil die Tesla-Karten auf Fermi-Basis die ursprünglich versprochenen Energiegrenzen nicht einhalten konnten. Dass Nvidia dieses Problem erkannt hat, zeigt auch die eben vorgelegte Roadmap bis 2013, bei der die Verbesserung der Energieeffizienz eine besondere Betonung erfährt. Der große Konkurrent Intel hat übrigens von der DARPA ebenfalls eine Förderung für die Erforschung von Exascale-Architekturen erhalten, womit sich hier eine direkte Konkurrenz in diesem Bereich ergibt. Beide Projekte laufen bis 2018, womit noch einiges an Zeit vergeht, bis hier konkrete Ergebnisse vorliegen werden. Um die ehrgeizigen Ziele der DARPA einzuhalten, müsste die Energieeffizienz der Supercomputer in acht Jahren um den Faktor 300 steigen, was vor allem auf Seiten der Hardware enorme Verbesserungen voraussetzt.

Doch die Hardware ist nur die eine Seite der HPC-Medaille, die andere - vielleicht sogar Bedeutendere - ist die passende Software dazu, denn auch die schnellste GPU ist nutzlos, wenn es keine Programme dafür gibt oder die Entwicklung dafür zu schwierig ist. In einem Interview mit CHW hatte der Nvidia-CEO Jen-Hsun Huang schon vor knapp einem Jahr davon gesprochen, dass Nvidia primär eine Software-Firma sei.
“In the future, software is the most important thing; anyone can make chips, it is really expensive, but anyone can do it. The hard part is to inspire people to create amazing things. We have software, systems, architecture, tools, compilers, and languages, whatever it takes…,” war dabei eine der Kernaussagen. Nvidia arbeitet daher auch weiter an seinem proprietären CUDA-Framework, um möglichst viele Entwickler dazu zu bewegen, ihre Software für Nvidia-GPUs zu kompilieren. Doch obwohl CUDA nach wie vor die am weitesten entwickelte und am besten unterstützte GPGPU-Plattform ist und dem freien OpenCL oder Microsofts Direct Compute in vieler Hinsicht überlegen ist, besteht der größte Nachteil darin, dass die Berechnungen derzeit ausschließlich auf Nvidias-GPUs durchgeführt werden können, wohingegen zum Beispiel OpenCL-Programme auch die CPU mit nutzen können. Diesen Nachteil will Nvidia nun ausmerzen, denn in Zusammenarbeit mit der Portland Group will man CUDA auch für x86-CPUs flott machen. Erste Demonstrationen werden wahrscheinlich auf der Super Computing Conference in New Orleans im November zu sehen sein. Mit der Unterstützung für x86 schlägt Nvidia zwei Fliegen mit einer Klappe; einerseits stärkt man CUDA und dessen Verbreitung, andererseits hofft man so, das freie Framework OpenCL zurückzudrängen. Denn während Nvidia über die Entwicklung von CUDA volle Kontrolle hat, müssen bei der Entwicklung von OpenCL viele verschiedene Firmen und deren Interessen berücksichtigt werden. Spannend wird vor allem die Frage, ob CUDA-x86 dann auch Intels MIC-Beschleuniger bzw. Knights-Karten unterstützen wird, die mit ihrer parallelen Architektur gerade im HPC-Bereich zu einer gefährlichen Konkurrenz für Nvidias eigene Rechenbeschleuniger werden könnten. Wie Nvidia mit einer proprietären Schnittstelle in einem solchen Fall vorgehen kann, zeigt die Diskussion um die CPU-Unterstützung für das ebenfalls proprietäre PhysX, wo es immer wieder um die Frage geht, ob Nvidia die CPU-Version künstlich ausbremst, um die eigenen GPUs bei der Physikberechnung besser aussehen zu lassen.

Mit Fermi und auch mit dem ARM-SoC Tegra hat Nvidia neue Märkte erschlossen, was immer mit einem gewissen Lernprozess und einigen Hürden verbunden ist. Und auch wenn es in beiden Fällen Startschwierigkeiten gab, sieht es momentan danach aus, dass man das Nvidia-Logo zukünftig nicht nur auf immer mehr Tablets sehen wird, sondern dass der GPU-Spezialist mit seinen Tesla-Karten bald auch in vielen Supercomputern vertreten sein wird. In beiden Bereichen konkurriert Nvidia dann allerdings mit einem der größten Schwergewichte der Branche, nämlich Intel. Ob AMD der lachende Dritte sein wird oder letztlich eher isoliert dasteht, wird wahrscheinlich maßgeblich davon bestimmt, wie gut OpenCL in Fahrt kommt.

Weitere Informationen zum Bereich HPC:


Kommentar schreiben

  • Loggen Sie sich oben mit ihren Benutzerdaten ein, um Kommentare zu verfassen.
  • Falls Sie noch kein Mitglied sind, können Sie sich in unserem Forum registrieren.

14 Kommentare

14.) hmd 28.09.2010 - 15:23 Uhr
Ich meine den iRay Render den es jetzt dann mit dem Advantage Pack fürs 3DS Max gibt. Soll angeblich Ende Monat rauskommen und mit den bestehenden Materialien kompatibel sein. Bis jetzt hab ich mit Mental Ray gearbeitet und war sehr zufrieden, bis auf den Speed natürlich, da könnte man immer mehr von haben. Setz auf mehrere X6 Phenom II Rechner, die hatten für mich das beste P/L. Denke ich warte mal die ersten Benchmarks ab.
13.) isigrim 28.09.2010 - 09:24 Uhr
Quote:
Wie ist das zu verstehen, so wie ich es verstanden hab, beschleunigt jede CUDA-fähige Karte den Render-Prozess oder nur die teuren Tesla-Karten?
Wo meinst du jetzt genau? Bei Octane?
Da kannst du jede CUDA-fähige Karte nutzen, wobei die ersten CUDA-fähigen Karten einige Features noch nicht unterstützen.

Wenn du mit "den Renderprozess" Raytracing im Allgemeinen meinst, dann ist die Antwort nein. Um eine Tesla-, Quadro oder Geforcekarte fürs Rendern zu nutzen, müssen die Raytracer speziell angepasst werden. Fast alle Raytracer sind derzeit auf CPUs optimiert, viele arbeiten aber an einer GPU-Integration. Siehe z.B. auch VRay RT - GPU (oder etwas anschaulicher: Youtube-Video)
12.) hmd 28.09.2010 - 09:19 Uhr
Vielen Dank für die Info, wichtig für mich. Muss man mich da noch ein wenig einlesen. Wie ist das zu verstehen, so wie ich es verstanden hab, beschleunigt jede CUDA-fähige Karte den Render-Prozess oder nur die teuren Tesla-Karten? Mmmh, leider wieder nur mit der Subscription kommt man in den Genuss dieses Updates ... .
11.) isigrim 27.09.2010 - 12:18 Uhr
Das Video kenne ich. Mehrere Dinge sind allerdings unglücklich daran.

Der wichtigste Punkt vorab:
Intel hat massiv an der Verbesserung von Modo mitgearbeitet und hat ein entscheidendes Interesse daran, GPUs bei Raytracing schlechter aussehen zu lassen, als CPUs. Nicht umsonst taucht mehrmals ein Intellogo in dem Video auf. Für mich sieht das Ding insgesamt mehr nach einem Intel-Werbevideo aus, als nach einem ordentlichen Beitrag.

Das liegt an mehreren Dingen:
Zur Software: Modo liegt dort in der Version 5.01 (!) vor, während Octane noch nicht einmal 1.0 erreicht hat. Das ist schonmal ein recht unglücklicher Start...
Zur Hardware: 12 Kerne Intel Xeon Server vs. 2 GT200(!)-Quadros (wobei hier die Nutzung von Profikarten mehr als dämlich ist, weil Octane davon wie gesagt nicht profitiert und eigentlich speziell auf Consumer-Hardware ausgelegt ist.) Man könnte hier mal einen Vergleich von 4 GTX480 gegen so einen Rechner stellen (Wobei die Kosten der GPU-Maschine wahrscheinlich immernoch niedriger wären als die des Xeon-Servers), dann sieht man, wie schlecht plötzlich die CPUs dastehen. Aber das scheint nicht im Interesse von Luxology zu sein. (Es gibt eine 12 Seiten lange Diskussion hierzu im Octanerender-Forum. Der ganze Luxology-"Beitrag" wurde in mehreren Foren komplett zerlegt.).

Zur Vergleichbarkeit:
Octane ist komplett unbiased, man kann also sehr wohl Birnen mit Birnen und Äpfel mit Äpfeln vergleichen und genau dann sähe man auch die Vorteile. Genau das wird aber in diesem Video nicht gemacht, denn das würde heißen Kosten der Systeme und Lizenzen, sowie Details über Hardware, Szenen-Setups etc. preiszugeben und nicht ein polemisches Video dazu zu veröffentlichen, bei dem sich ein riesen Unternehmen (eigentlich zwei, nämlich Luxology und Intel) gegen die Software eines kleinen Startups stellt (Octane ist zu 85% eine Oneman-Show von Terrence Vergauwen).

Macht man sich das aber erstmal klar, nämlich dass Octane noch in den Kinderschuhen steckt und von wenigen Leuten in kürzester Zeit quasi aus dem Nichts gehoben wurde, dann sieht man schnell, dass da offensichtlich doch viel Potential in der Technik steckt. Das Problem ist aber wie gesagt, dass einige Dinge für GPUs von Grund auf neu erdacht werden müssen, weil man eben keine CPUs mit völlig freien Pipelines vor sich hat. Daher sieht man zur Zeit zum Beispiel auch noch kein SubSurfaceScattering, da man hier für GPUs neue Ansätze braucht. Dass GPU-Renderer daher noch nicht so weit entwickelt sind, wie CPU-Renderer ist klar, aber das Potential ist bei den GPUs noch deutlich größer.

Octane ist 100% ein GPU-Raytracer. Der läuft auf einem 800 Mhz Core2Duo mit der entsprechenden Grafikkarte genauso schnell wie auf einem 3 Ghz Core i7 mit der gleichen Grafikkarte. Die Bilder auf der Seite wurden lediglich teilweise von Fireflies befreit, also kleinen weißen Punkten die aufgrund des noch fehlenden MLTs auftauchen.

Was meinst du bei 3dsmax und GPU-Raytracing? Meinst du die kommende Implementierung von iRay? Das sieht doch ziemlich gut aus...
10.) hmd 27.09.2010 - 08:56 Uhr
Schau mal in den Link rein.
http://www.youtube.com/watch?v=4bITAdWv ... re=related
Es ist leider schon so, dass man bei den Geschwindigkeitsvorteilen in der Regel Äpfel mit Birnen vergleicht. Man kann wirklich nicht Bilder mit komplexen Shadern die ein annähernd reales Bild erzeugen, mit denen von GPUs vergleichen. Ich find die Beispielbilder vom Octane-Render gut / nicht überragend (auf der Homepage), leider sieht man aber deren Rechenzeit nicht, man sieht auch nicht, wieviel zusätzliche Rechenzeit zur Verfeinerung des Bildes durch die CPU benötigt wurde.
So wie es z.B. im 3DS Max (führender Render-Software) umgesetzt wurde, ist es leider ziemlich ernüchternd.
9.) isigrim 25.09.2010 - 14:13 Uhr
Aber gerade daran arbeitet Nvidia ja mit CUDA und vor allem mit der x86-Version. Das Problem ist, dass ein Großteil der gebräuchlichen Workstation Software seit Jahren auf x86 optimiert wird und die GPU Programmierung an vielen Stellen neue Ansätze voraussetzt, was Zeit braucht.

Hast du dir Luxrender mit OpenCL (Small Lux GPU) und Octane schonmal angeschaut? Auf der Siggraph gabs ne nette Demo mit 6 GTX 480 für Octane (es ging darum zu zeigen, dass man da keine Profikarten braucht, sondern die günstigeren Consumer-Karten nutzen kann).

Allerdings sehe ich bei Intels MIC-Karten ziemlich viel Potential was den Server-Bereich angeht, weil Intel sein Compiler Know-How nutzen kann. Den Stromverbrauch müssen sie allerdings noch etwas eindämmen.
8.) hmd 25.09.2010 - 14:06 Uhr
Ganz ehrlich, ich erlebs eher umgekehrt. Z.B. in 3DS Max welches eine Domäne für GPUs wäre, gibts zwar das GPU-Rendering, aber leider nicht auf dem Niveau der CPUs. Wenn das alles so einfach wäre, müsste es gerade in diesen Bereichen schnell gute Lösungen geben. Ist aber leider nicht der Fall. Ich glaub eher, dass vielkernige CPUs die GPUs an grösserer Verbreitung hindern werden. Schlussendlich bringen 2-3x mehr Geschwindigkeit nicht viel, wenn es bei der Software an allen Ecken und Enden hackt.
7.) isigrim 25.09.2010 - 13:40 Uhr
Hier geht es eigentlich nicht wirklich um die 470 oder 480, sondern um die Tesla-Versionen. Und wenn ich mir anschaue, dass man bei vielen professionellen Berechnungen, die eh schon auf parallele Verarbeitung ausgelegt sind, eine 10mal höhere Energieeffizienz durch GPUs verglichen mit x86-CPUs erreichen kann, dann greift dieses Heizungs-Argument gerade an dieser Stelle nicht mehr.
Dass die Spieler von diesem Chip wenig haben, weil er verglichen mit anderen GPUs ineffizient arbeitet, ist eine andere Geschichte und wurde schon mehrere Male anderswo erzählt. Nvidia wäre wahrscheinlich besser dran, wenn man tatsächlich zwei Teams parallel arbeiten lässt, bei denen eines für klassische GPUs zuständig wäre und eines für die HPC-Beschleuniger.
6.) Grotikk 25.09.2010 - 13:01 Uhr
Bei mir im Keller ist es eh immer kalt, von daher finde ich die 480er voll gelungen. Zusammen mit den 130 Watt TDP vom Prozzi richtig kuschelig-flüssiges spielen auch bei Metro mit allem an. ;-)
5.) eXEC 24.09.2010 - 20:49 Uhr
Nvidia entwickelt Elektroheizungen der nächsten Generation. Klein (Für eine Heizung), extremer Wirkungsgrad (99% der Energie wird in Wärme umgesetzt), nach 1 Minute die volle Betriebstemperatur und wer Lust hat, kann eventuell noch einen Monitor dran schließen.
4.) Overclocked 24.09.2010 - 13:40 Uhr
Nvidia und der Griff ins Gamerklo! :D
3.) Rainerstd 24.09.2010 - 12:55 Uhr
Ich glaube was auch immer passiert, Intel hat eine passende Antwort.
2.) hmd 24.09.2010 - 08:55 Uhr
Aus meiner Sicht entwickelt sich Nvidia mit Volldampf zum Nischenanbieter.
1.) Elandur 24.09.2010 - 00:20 Uhr
Quote:
Ob AMD der lachende Dritte sein wird oder letztlich eher isoliert dasteht, wird wahrscheinlich maßgeblich davon bestimmt, wie gut OpenCL in Fahrt kommt.


Wir werden darüber bestimmt mehr erfahren, wenn die HD 6000 Serie oder spätestens die HD 7000 Serie raus ist. Denn wenn wir erstmal mehr über diese Wissen, können wir uns auch mehr Gedanken über AMD und GPGPU machen.
Es war ja auch zum Teil AMDs Ziel mit der HD 6000 Serie mehr Leistung in diesen Bereichen einzubringen - wenn man mal davon absieht, dass wir immer noch nicht wissen, was die HD 6000 Serie nun wird (Northern- und Southern-Island Geschichte...).