KI-Videogeneratoren haben in den letzten Monaten enorme Fortschritte gemacht – wahrscheinlich haben Sie das anhand verschiedener Posts in Ihrer LinkedIn-Timeline bemerkt, die 5- bis 10-sekündige Clips zeigen. Aber es ist ein entscheidender Unterschied, ob Sie kurze Clips für „Likes“ erstellen wollen oder Videos für Ihr Unternehmen generieren möchten, mit denen sich Ihre Kunden wirklich identifizieren können.
Jeder, der schon einmal daran gearbeitet hat, Aufmerksamkeit für seine Produkte und Dienstleistungen zu wecken, weiß, dass großartige Bilder die Blicke auf sich ziehen. In sozialen Netzwerken wie LinkedIn hat sich der Trend in den letzten Jahren deutlich von statischen Bildern hin zu kurzen Videos verschoben. Da die Erstellung hochwertiger Videos jedoch zeit- und kostenintensiv sein kann, ist die Versuchung groß, generative KI-Technologien zu nutzen.
Wo liegen die Grenzen der heutigen KI-Videogeneratoren? Die relevantesten Herausforderungen liegen derzeit in der Konsistenz und der realistischen Darstellung von Physik.
Einschränkungen
Konsistenz von Objekten: Je mehr Objekte oder Personen Teil eines Videos sind, desto schwieriger ist es für die KI, diese über die gesamte Szene hinweg konsistent darzustellen. Da die meisten KIs darauf beschränkt sind, Clips von maximal 5 oder 10 Sekunden Länge zu generieren, bedeutet das Erstellen längerer Videos das Zusammenfügen einzelner Clips – was in dieser Hinsicht oft zu sichtbaren Sprüngen führt.
Szenenkonsistenz: Bilder mit Personen vor einem ansprechenden Hintergrund zu generieren und daraus ein Video zu machen, ist heute bereits möglich. Man hat eine gute Kontrolle darüber, wie Vorder- und Hintergrund aussehen. Wenn sich jedoch Personen in Ihrem Video bewegen, muss sich die Hintergrundszenerie entsprechend anpassen, wodurch Sie oft die Kontrolle über Details und die Qualität des Hintergrunds verlieren. Dies schränkt Ihre Möglichkeiten ein, dynamische Videos bei gleichbleibend hoher Qualität zu erstellen.
Qualitätsverlust bei Personen: Personen können anfangs in hoher Qualität und mit vielen Details dargestellt werden. Mit zunehmender Dauer des Videos neigt die Qualität jedoch dazu, abzunehmen. Auch wenn die Gesamtqualität des Videos noch gut sein mag, fangen Personen oft an, etwas „unnatürlich“ oder fremd zu wirken.
Kontrolle über Objekte: In Business-Szenarien möchten Sie vielleicht Objekte darstellen, die Ihrem Produkt nicht nur ähnlich sehen – sie müssen exakt so aussehen. Das bedeutet in der Regel, dass Sie die KI speziell auf dieses eine Objekt feinabstimmen müssen. Das ist heute bereits möglich, sogar für Anwender ohne Programmierkenntnisse. Je mehr Objekte und Personen Sie jedoch gleichzeitig kontrollieren wollen, desto schwieriger wird dies auf einem zufriedenstellenden Qualitätsniveau.
Realistische Physik und Interaktion: Wenn sich Menschen in einem Video bewegen, Tassen zu Boden fallen oder die Haare im Wind wehen, muss das realistisch und physikalisch korrekt aussehen. KI-Videogeneratoren haben hier zwar Fortschritte gemacht, aber wenn Sie bestimmte Interaktionen steuern wollen – zum Beispiel, dass eine Person eine Tasse aus einem Schrank nimmt oder einen Kühlschrank öffnet –, steigt die Wahrscheinlichkeit, dass dies seltsam oder sogar physikalisch unkorrekt aussieht. Dies erschwert die Kontrolle: Sicherzustellen, dass Objekte und Personen auf eine bestimmte Weise aussehen und gleichzeitig präzise zu steuern, wie diese interagieren, ist derzeit sehr schwierig.
Bias bei der Darstellung von Personen und Szenen: Dies hängt stark von den Daten ab, mit denen die KI trainiert wurde. Wenn die KI ihre Fähigkeiten hauptsächlich auf Basis westlicher Filme oder Web-Clips erlernt hat, könnte sie Schwierigkeiten mit asiatischen oder afrikanischen Umgebungen oder der Darstellung spezifischer lokaler Geschäftsumfelder haben. Welche Videogeneratoren für Sie am besten funktionieren? Das müssen Sie selbst durch Ausprobieren (Trial-and-Error) herausfinden.
Zusammenfassung
Wie sollten Sie heute starten? Folgendes ist mit den aktuellen Technologien realistisch umsetzbar:
- Halten Sie Ihre Clips nach Möglichkeit nicht länger als 10 Sekunden.
- Reduzieren Sie die Anzahl der Personen und Objekte, die Sie kontrollieren müssen.
- Vermeiden Sie stark wechselnde Hintergrundszenerien.
- Probieren Sie verschiedene Videogeneratoren aus – die Qualität variiert stark in Bezug auf physikalische Korrektheit, Bildqualität, natürliche Gesichtsausdrücke usw.
Viele Tech-Unternehmen arbeiten intensiv daran, diese Einschränkungen zu überwinden. Wir werden in 12 bis 24 Monaten in der Lage sein, noch komplexere und überzeugendere Videos zu erstellen. Behalten Sie daher im Auge, wie die Innovationen in der Videogenerierung die Grenzen des Machbaren immer weiter verschieben.