GTC 2021: Nvidia lässt Sie Ihren eigenen KI-Avatar erstellen

nvidia Werbung Avatar für NVIDIA Omniverse, eine Technologieplattform zur Erstellung interaktiver Avatare der künstlichen Intelligenz. Omniverse Avatar verbindet die Technologien des Unternehmens in den Bereichen künstliche Sprachintelligenz, Computer Vision, natürliches Sprachverständnis, Empfehlungs-Engines und Simulationstechnologien. Auf der Plattform erstellte Avatare sind interaktive Charaktere mit 3D-Raytracing-Grafiken, die in der Lage sind, eine Vielzahl von Themen zu sehen, zu sprechen und zu sprechen und natürlich ausgedrückte Absichten zu verstehen.

Omniverse Avatar ist wegweisend bei der Entwicklung einfach anpassbarer KI-Assistenten für fast jede Branche. Diese Assistenten können Milliarden von täglichen Interaktionen mit Kunden erleichtern – Bestellungen in Restaurants, Bankgeschäfte, Terminvereinbarungen und persönliche Reservierungen usw. „Die Morgendämmerung der intelligenten virtuellen Assistenten ist gekommen“, sagte Jensen Huang, Gründer und CEO von NVIDIA. Omniverse Avatar kombiniert NVIDIA-Grafik-, Simulations- und künstliche Intelligenztechnologien, um einige der komplexesten Echtzeitanwendungen aller Zeiten zu erstellen. Die Anwendungsfälle von kollaborativen Bots und virtuellen Assistenten sind erstaunlich und von großem Interesse. „
Omniverse Avatar ist Teil von NVIDIA Omniverse, einer virtuellen Weltsimulations- und Kollaborationsplattform für 3D-Workflows, die sich derzeit in der Open Beta mit mehr als 70.000 Benutzern befindet. In seiner Keynote zu den NVIDIA GTC stellte Herr Huang mehrere Beispiele des Omniverse Avatars vor: das Tokkio Kundensupportprojekt, den NVIDIA DRIVE Concierge für intelligente und permanente Dienste in Fahrzeugen und das Maxine Projekt für Videokonferenzen.

In der ersten Demo des Tokkio-Projekts zeigte Huang, wie sich Kollegen mit einem als Spiegelbild seiner selbst gestalteten Avatar in Echtzeit zu Themen wie Biologie und Klimawissenschaften unterhalten.

In einer zweiten Demo von Project Tokkio präsentierte er einen Avatar des Kundenservice an einem Restaurantstand, der zwei Kunden sehen, sprechen und verstehen konnte, die vegetarische Burger, Pommes und Getränke bestellten. Die Demos wurden von NVIDIA AI und Megatron 530B unterstützt, dem derzeit weltweit größten anpassbaren Sprachmodell.

In einer Demonstration der IA DRIVE Concierge-Plattform unterstützt ein digitaler Assistent auf dem zentralen Display des Armaturenbretts den Fahrer bei der Auswahl des besten Fahrmodus, um sein Ziel pünktlich zu erreichen, und folgt dann seiner Aufforderung, eine Erinnerung einzustellen, wenn die Reichweite des Fahrzeugs unter 100 Meilen fällt.

Darüber hinaus demonstrierte Huang die Fähigkeit von Project Maxine, Anwendungen für virtuelle Zusammenarbeit und Inhaltserstellung um erweiterte Video- und Audiofunktionen zu erweitern. Eine englischsprachige Person nimmt an einem Videoanruf in einem lauten Café teil, ist aber ohne Hintergrundgeräusche deutlich zu hören. Während sie spricht, werden ihre Worte transkribiert und in Echtzeit mit derselben Stimme und derselben Intonation ins Deutsche, Französische und Spanische übersetzt.

cls lments from Omniverse .’s Avatar

Omniverse Avatar verwendet Elemente der Sprach-KI, Computer Vision, des Verstehens natürlicher Sprache, Empfehlungsmaschinen, Gesichtsanimationen und Grafiken unter Verwendung der folgenden Technologien:

– Die Spracherkennung basiert auf NVIDIA Riva, einem Softwareentwicklungs-Toolkit, das Sprache in mehreren Sprachen erkennt. Riva wird auch verwendet, um mithilfe von Text-to-Speech-Funktionen menschenähnliche Sprachantworten zu generieren.
Sein Verständnis von natürlicher Sprache basiert auf dem Megatron 530B Large Language Model, das menschliche Sprache erkennen, verstehen und generieren kann. Megatron 530B ist ein vortrainiertes Modell, das ohne oder mit wenig Training Sätze vervollständigen, Fragen zu einer Vielzahl von Themen beantworten, lange und komplexe Geschichten zusammenfassen, in andere Sprachen übersetzen und viele nicht speziell identifizierte Bereiche behandeln kann . trainiert worden.
Die Empfehlungs-Engine basiert auf NVIDIA Merlin, einem Framework, das es Unternehmen ermöglicht, Deep-Learning-Empfehlungssysteme zu entwickeln, die große Datenmengen verarbeiten können, um intelligentere Vorschläge zu machen.
Seine Wahrnehmungsfähigkeiten werden von NVIDIA Metropolis bereitgestellt, einem Computer-Vision-Framework für die Videoanalyse.
Seine Avatar-Animation wird von NVIDIA Video2Face und Audio2Face, Gesichtsanimation und 2D- und 3D-Anzeigetechnologien, die von KI gesteuert werden, unterstützt.

Diese Technologien werden in eine Anwendung kompiliert und in Echtzeit mit dem NVIDIA Unified Compute Framework verarbeitet. Skills können von NVIDIA Fleet Command an mehreren Standorten sicher bereitgestellt, verwaltet und organisiert werden, wo sie als skalierbare und anpassbare Microservices gebündelt werden.
Pressemitteilung übersetzt von DeePl.