Was bedeutet "VTM"?
Inhaltsverzeichnis
VTM, oder Video-to-Motion Generator, ist ein System, das lernt, wie Leute sich in drei Dimensionen bewegen, und zwar anhand von normalen Videos. Es funktioniert, indem es die Bewegungen aus den Videos mit einem Modell menschlicher Bewegung abgleicht. Anstatt die Bewegungen auf einmal zu verstehen, schaut VTM sich den Ober- und Unterkörper separat an, was das Lernen aus dem Video einfacher macht. Es richtet die Bewegungsdaten auf ein standardmäßiges virtuelles Skelett aus, was hilft, Fehler durch Unterschiede in den Körperformen zu reduzieren. Bei Tests hat VTM super Ergebnisse geliefert, wenn es darum ging, 3D-Bewegungen aus einzelnen Videos nachzubilden. Es kann sogar auf verschiedene Blickwinkel und reale Video-Bedingungen reagieren.
VTM: Visual Token Matching
VTM steht in einem anderen Kontext für Visual Token Matching. Dieses System ist dafür gemacht, detaillierte Bildaufgaben in der Computer Vision mit nur einer kleinen Anzahl von beschrifteten Bildern anzugehen. Es kann aus nur wenigen Beispielen lernen und sich an verschiedene Aufgaben anpassen, ohne viel zusätzliche Info zu brauchen. VTM nutzt eine Matching-Technik, die kleine Teile von Bildern mit ihren Labels vergleicht, was ihm hilft zu verstehen, wie man verschiedene Aufgaben effektiv ausführt. In Tests hat VTM eine starke Lernfähigkeit in vielen Aufgaben gezeigt, während es nur einen winzigen Bruchteil der normalerweise benötigten Daten verwendet hat, oft gleichauf oder sogar besser als vollüberwachte Systeme.