Wie sieht gerichtete KI auf Facebook aus

Um in Augmented und Virtual Reality arbeiten zu können, muss KI nach Ansicht von Facebook eine „egoistische Perspektive“ entwickeln. Zu diesem Zweck hat das Unternehmen gerade sein EGO4D-Projekt vorgestellt, ein Datensatz bestehend aus 2.792 Stunden Ego-Video sowie einer Reihe von Benchmark-Tests für neuronale Netze, die die Entwicklung einer künstlichen Intelligenz fördern sollen, die in der Lage ist, zu verstehen, was ist das Beste. Es ist, als würde man sich aus der First-Person-Perspektive durch virtuelle Welten bewegen.

Das Projekt ist das Ergebnis einer Zusammenarbeit zwischen Facebook und Forschern von 13 Forschungsinstituten, darunter Universitäten und Forschungslabors. Details zu dieser Arbeit sind in einem von Facebooks Kristen Groman geschriebenen Artikel mit dem Titel „Ego4D: Around the World in 2.8K Hours of Egocentric Video“ enthalten. Der Ausgangspunkt für dieses Projekt: Die Idee, dass dieser Datensatz Forscher dazu inspirieren wird, neuronale Netze zu entwickeln, die Aufgaben aus der First-Person-Perspektive hervorragend ausführen, so dass große Datensätze wie ImageNet bestehenden KI-Programmen ermöglicht haben, eine „beiläufige“ „Perspektive.

Der Zweck der egozentrischen Wahrnehmung besteht darin, zu versuchen, die Probleme zu lösen, auf die ein neuronales Netz bei grundlegenden Aufgaben wie der Bilderkennung stößt, wenn sich der Blickwinkel eines Bildes von der dritten Person zur ersten Person ändert. La plupart des systèmes de reconnaissance d’images qui se débrouillent bien lorsqu’ils détectent des objets vus de loin ont un taux d’échec élevé lorsque l’objet est présenté de la manièreit de la pointil

Facebook-Metaverse-Feed

Die EGO4D-Initiative zielt speziell darauf ab, das Metaverse zu entwickeln, die nächste Welt der immersiven sozialen Medien, über die Facebook-Chef Mark Zuckerberg in den letzten Monaten ausführlich gesprochen hat. „Diese Standards werden die Erforschung der Bausteine anregen, die erforderlich sind, um intelligentere KI-Assistenten zu entwickeln, die nicht nur in der realen Welt, sondern auch im Metaversum, in dem sich physische Realität, Augmented Reality und virtuelle Realität vereinen, verstehen und interagieren können.“ Platz“, sagt Facebook.

2.792 Stunden Video wurden von Facebook-Mitarbeitern mit verschiedenen Kameras gesammelt. Das Augmented-Reality-Headset Vuzix Blade ist nur ein Beispiel, die anderen sind GoPro, Pupil Labs, ZShades und Wee-View. Das Ziel des Mischens verschiedener Kombinationen ist es, eine Überanpassung zu vermeiden, schreiben Kristen Grumman und Kollegen. Dies ist das Phänomen, das auftritt, wenn das neuronale Netzwerk nur Frames von Videoinformationen speichert, anstatt sie anzupassen, um Ähnlichkeiten durch Unterschiede abzuleiten.

Laut Facebook wurde das Video „von 750 einzigartigen Kamerabenutzern an 73 Orten auf der ganzen Welt und in 9 verschiedenen Ländern aufgenommen“. Ein Teil dieses Videos wurde von Facebook-Mitarbeitern auf dem Firmengelände gefilmt, ein anderer Teil von Mitarbeitern der Universität. Die ‚4D‘ des Namens entspricht dem zeitlichen Aspekt des Videos. Facebook-Mitarbeiter verbrachten 250.000 Stunden damit, die Videos anzusehen und mündliche Berichte bereitzustellen, die zusammenfassen, was in den Videos passiert, mit einem Zeitstempel.

Sehr dichter Datensatz

Laut Facebook erhielten Romane „durchschnittlich 13,2 Sätze pro Minute Video oder insgesamt 3,85 Millionen Sätze“. Insgesamt beschreiben die Romane das Ego4D-Video mit 1.772 einzigartigen Verben (Aktivitäten) und 4.336 einzigartigen Nomen (Objekten).

Der Datensatz soll verwendet werden, um neuronale Netze zu entwickeln, die in einer Vielzahl neuer standardisierter Tests wirksam sind. Zu diesem Zweck beschreiben Kristen Grumman und ihre Kollegen in dem Artikel mehrere von ihnen neu entwickelte Tests, die ein neuronales Netz benötigen, um eine Antwort auf vergangene Aufgaben zu produzieren, wie z Vorhersagen, wie das Beschreiben des Ergebnisses einer Aktion.

Beispielsweise kann die Aufgabe eines neuronalen Netzes darin bestehen, auf eine Anfrage in natürlicher Sprache zu antworten, die das Programm auffordert, den Inhalt der Anfrage mit einem Videobild abzugleichen. Wenn Sie beispielsweise den Computer fragen: „Wann habe ich meinen Kindern vorgelesen?“ Der Computer muss die Szene finden, in der der Kameraträger seinen Kindern vorliest. Die Aufgabe wird vom menschlichen Annotationsteam gekennzeichnet, das eine vorformatierte Liste von Markierungen erhält und diese den Clips zuordnen muss. Facebook gibt an, auf diese Weise 74.000 Anfragen 800 Stunden Video zugeschrieben zu haben.

In einem zukünftigen Vorhersagetest muss der Computer möglicherweise vorhersagen, mit welchem Objekt im Videobild der Kameraträger als nächstes interagieren wird. Wenn es sich also auf einem Teigrolltisch befindet, könnte die nächste erwartete Aktion darin bestehen, eine Teigkugel vom Tisch zu nehmen. Das Programm führt eine Vorhersage durch, indem es eines der Verben aus einer vordefinierten Liste auswählt, die von der Kommentierungscrew an die Videobilder angehängt wurde, und eine Zeitschätzung hinzufügt, was zu einer „Teigaufnahme in 0, 8 Sekunden“ führt. Facebook fügt hinzu, dass Datensätze für Ego4D nächsten Monat auf Github verfügbar sein werden. Benutzer müssen einen Datennutzungsvertrag unterzeichnen.

Quelle : ZDNet.com