Formation à GPT3 et ChatGPT
Musclez le contenu + SEO
Intelligence artificielle générative

Kling, le générateur de vidéo de Kuaishou: fonctionnement et comment y accéder

L'essentiel à savoir sur Kling, le générateur d'intelligence artificielle de vidéos longues.

Kling, un modèle d'intelligence artificielle chinois de création de vidéos développé par Kuaishou, vient allonger la liste d'outils d'IA susceptibles de bouleverser l'industrie cinématographique. Comparé à Sora, le générateur vidéo très attendu d'OpenAI, Kling semble offrir des fonctionnalités similaires, voire supérieures.

Caractéristiques Techniques Impressionnantes

Kling se distingue par sa capacité à générer des vidéos en haute définition 1080p à 30 images par seconde, avec une durée allant jusqu'à 2 minutes, soit une minute de plus que Sora

Le modèle chinois intègre également une reconstruction 3D du visage et du corps pour améliorer l'expression et les mouvements, ainsi qu'une simulation précise de la physique du monde réel.

Kuaishou affirme que Kling peut s'adapter à différents formats d'image grâce à une stratégie d'entraînement à résolution variable. Cependant, peu de détails ont été fournis sur le dataset d'entraînement utilisé.

Comment tester Kling, le générateur de vidéo

Actuellement, il faut télécharger l'application mobile Kuaishou dans laquelle Kling est intégré.

Pour plus d'information sur Kling, consultez le site officiel de présentation de Kling.

Qualité Visuelle Prometteuse

Les exemples de vidéos générées par Kling démontrent une qualité d'image impressionnante et une cohérence globale sur la durée. Que ce soit pour des scènes réalistes comme un perroquet aux couleurs vives, ou des concepts plus abstraits comme un lapin lisant un journal dans un café, Kling semble capable de produire des visuels crédibles et de qualité correcte.

Potentiel Cinématographique

Kuaishou a présenté un plan-séquence en format smartphone, simulant une vue depuis la fenêtre d'un train en mouvement. Bien que la qualité ne soit pas optimale, cet exemple illustre le potentiel cinématographique de Kling pour créer des séquences complexes.

Concurrence Accrue pour OpenAI

Outre Kling, OpenAI doit faire face à d'autres concurrents comme Runway, Pika Labs, Haiper, LTX Studio, Higgsfield et Google avec son modèle Veo. Cette concurrence accrue pourrait stimuler l'innovation et la créativité dans le domaine de l'IA générative vidéo à l'échelle mondiale.

Bien que Kling ne soit pas encore disponible en dehors de la Chine, son émergence souligne l'importance croissante des modèles d'IA vidéo et leur potentiel impact sur l'industrie cinématographique.

Spécifications vidéo de pointe

Kling, le modèle d'intelligence artificielle développé par Kuaishou, offre des capacités vidéo de haute performance pour les professionnels du secteur audiovisuel. Les caractéristiques techniques comprennent une résolution 1080p (1920x1080 pixels) et un débit de 30 images par seconde (FPS), permettant la génération de séquences vidéo en haute définition. La durée maximale des vidéos générées est de 120 secondes, dépassant d'une minute la limite du modèle concurrent Sora. Grâce à une stratégie d'entraînement à résolution variable, Kling peut produire des vidéos dans une grande variété de rapports d'aspect, offrant une flexibilité accrue pour différents besoins de mise en scène et de diffusion.

Entraînement de Kling sur un vaste corpus vidéo

Bien que les détails du dataset d'entraînement ne soient pas divulgués, on peut supposer que Kling a été exposé à un large éventail de vidéos couvrant divers styles, scènes, actions, personnages, objets et environnements. Le modèle a probablement appris les correspondances entre les descriptions linguistiques et leurs représentations visuelles en analysant les transcriptions associées aux vidéos d'entraînement.

Architecture d'attention spatio-temporelle 3D et diffusion de Kling

L'architecture technique de Kling repose sur un mécanisme d'attention spatio-temporelle 3D (technique avancée d'apprentissage profond) et un modèle transformer de type diffusion. Le processus commence par l'encodage du prompt textuel fourni par l'utilisateur, permettant au modèle transformer d'extraire les représentations sémantiques clés, telles que les concepts, actions, objets et relations à transposer dans la vidéo générée. Ces représentations servent de point de départ au mécanisme d'attention spatio-temporelle 3D, qui se concentre à la fois sur les éléments visuels pertinents dans chaque image individuelle (attention spatiale) et sur les transitions logiques entre les différents instants de la vidéo (attention temporelle). Grâce à cette double attention, le modèle génère des séquences vidéo cohérentes et réalistes, fidèles au prompt initial. Enfin, le modèle de diffusion raffine davantage la vidéo en lissant les détails et en améliorant la qualité visuelle globale, aboutissant à une génération vidéo de haute qualité.

Techniques de reconstruction 3D de Kling

Au-delà de ses capacités text-to-video, Kling intègre des techniques de reconstruction 3D du visage et du corps humain. À partir d'une seule photo en pied, le modèle peut animer le personnage en contrôlant finement ses expressions et ses mouvements, permettant par exemple de le faire chanter ou danser.

Qualité visuelle et cohérence

Les exemples de vidéos générées par Kling présentés par Kuaishou offrent un aperçu prometteur des capacités du modèle. Bien que perfectibles, les résultats démontrent une qualité d'image générale satisfaisante et une cohérence globale sur la durée, comparable au modèle Sora. Le modèle semble avoir une bonne compréhension et gestion des repères physiques, comme en témoigne la vidéo d'un perroquet animé avec un effet de bokeh réussi. Des exemples plus conceptuels, tels qu'un lapin lisant un journal avec des lunettes, illustrent également la crédibilité et la qualité correcte des générations.

Démonstration de capacités cinématographiques avancées

Dans une démonstration impressionnante, les équipes de recherche de Kuaishou ont présenté un plan séquence généré par Kling à une résolution de 1536x2688 pixels, correspondant au format d'affichage des smartphones. Cette séquence vidéo consiste en un travelling reprenant le cadre d'une fenêtre de train. Bien que la qualité globale ne soit pas optimale, cet exemple donne un aperçu convaincant des possibilités cinématographiques offertes par le modèle.

Génération de concepts novateurs

Le modèle Kling a également démontré son efficacité dans la génération de concepts visuels novateurs. Un exemple notable est la représentation d'une éruption volcanique se produisant à l'intérieur d'une tasse à café, témoignant de la créativité du système.

Disponibilité et accès

Kling est actuellement disponible et intégré nativement dans l'application mobile du même nom, accessible sur iOS en chinois. Cependant, l'accès nécessite un numéro de téléphone chinois.

Search