Le chapitrage automatisé avec Claude 3.7 Sonnet et AWS Bedrock

lundi 5 mai 202510 min de lecturePar Damien Gilbrin
Le chapitrage automatisé avec Claude 3.7 Sonnet et AWS Bedrock

Table des matières

🚀

Introduction : Optimiser l'expérience des replays vidéo sur Wooskill

Dans le cadre de mon travail chez Wooskill, j'ai récemment développé une fonctionnalité innovante de chapitrage automatisé pour les replays vidéo. Cette fonctionnalité représente une avancée significative pour notre plateforme, permettant d'améliorer considérablement l'expérience utilisateur et la monétisation des contenus.

Pour ceux qui ne connaîtraient pas Wooskill, il s'agit d'une plateforme en ligne qui connecte des experts, coachs ou créateurs de contenu (appelés Skiller) avec des personnes souhaitant apprendre, se former ou obtenir de l'aide. Elle facilite le partage de compétences et l'accompagnement personnalisé à travers des sessions en visioconférence, des cours ou des masterclass dans de très nombreux domaines.

📹

Le contexte : Des lives monétisables via des replays

L'une des fonctionnalités phares de Wooskill est la possibilité pour les Skillers d'organiser des sessions en direct grâce à la technologie AWS Chime SDK, que j'ai implémentée intégralement sur la plateforme. Ces lives peuvent ensuite être enregistrés et proposés en replay, offrant ainsi une source de revenus additionnelle aux Skillers.

Cependant, pour maximiser la valeur de ces replays, nous avions besoin d'une solution permettant aux utilisateurs de naviguer efficacement dans le contenu. C'est ici qu'intervient le chapitrage automatisé, dont je vais vous détailler la conception technique.

⚙️

Les défis techniques à surmonter

La mise en place d'un système de chapitrage automatisé présentait plusieurs défis techniques importants.

D'abord, les enregistrements des lives peuvent atteindre des durées très variables, certains dépassant plusieurs heures. Cela pose un problème concret : AWS Transcribe, le service de transcription automatique d'AWS, est limité à une taille d'entrée de 2 Go. Or, les fichiers vidéo de longue durée dépassent facilement cette limite.

Ensuite, il fallait concevoir un système capable de comprendre le contenu de la vidéo et d'en extraire une structure logique sous forme de chapitres, sans intervention humaine. Cette tâche nécessite une compréhension contextuelle qui va bien au-delà d'une simple analyse de mots-clés.

🏗️

L'architecture de la solution

Pour relever ces défis, j'ai conçu une architecture serverless reposant sur plusieurs services AWS, organisée et orchestrée par AWS Step Functions. Voici le flux de travail complet que j'ai mis en place :

Architecture du système de chapitrage automatisé

  1. Déclenchement : Un événement S3 détecte le dépôt d'un nouvel enregistrement vidéo
  2. Prétraitement : Vérification de la taille du fichier et optimisation si nécessaire
  3. Transcription : Conversion de l'audio en texte avec AWS Transcribe
  4. Analyse IA : Traitement de la transcription par Claude 3.7 Sonnet via AWS Bedrock
  5. Création des métadonnées : Génération d'un fichier de chapitrage structuré
  6. Stockage : Enregistrement des métadonnées sur S3 pour utilisation par le lecteur vidéo

Optimisation des fichiers volumineux

La première étape de ma solution traite le problème de la taille des fichiers. Lorsque l'enregistrement d'un live est déposé sur S3, j'ai mis en place une fonction Lambda qui vérifie automatiquement sa taille. Si le fichier dépasse la limite de 2 Go acceptée par AWS Transcribe, une astuce technique entre en jeu.

J'utilise alors AWS MediaConvert pour supprimer la couche vidéo et ne conserver que la piste audio. Cette opération réduit drastiquement la taille du fichier, le rendant compatible avec AWS Transcribe tout en préservant l'intégralité du contenu verbal nécessaire au chapitrage.

Transcription audio en texte

Une fois le fichier optimisé si nécessaire, il est transmis à AWS Transcribe qui génère une transcription complète au format VTT (Web Video Text Tracks). Ce format est particulièrement adapté car il associe chaque segment de texte à un timestamp précis dans la vidéo, information essentielle pour créer un chapitrage synchronisé avec le contenu.

🧠

L'intelligence de Claude 3.7 Sonnet via AWS Bedrock

La partie la plus innovante de cette solution réside dans l'utilisation de Claude 3.7 Sonnet, accessible via AWS Bedrock, pour analyser intelligemment la transcription et en extraire un chapitrage pertinent.

AWS Bedrock offre un accès simplifié aux modèles d'IA générative les plus performants, dont ceux d'Anthropic. Pour ce projet, j'ai choisi Claude 3.7 Sonnet en raison de ses capacités exceptionnelles de compréhension contextuelle et de structuration de l'information.

Un prompt optimisé en XML

L'un des éléments clés de la réussite de ce projet a été la conception d'un prompt structuré en XML pour Claude. J'ai observé que Claude est particulièrement efficace pour comprendre et générer du contenu structuré en XML, ce qui en fait le format idéal pour cette tâche.

Mon prompt contient deux parties principales :

  1. La transcription complète du contenu audio, encapsulée dans un nœud XML spécifique
  2. Des instructions précises demandant à Claude de générer un chapitrage structuré, également en format XML

Cette approche permet à Claude de comprendre à la fois le contenu global de la session et la structure attendue pour le résultat, produisant ainsi un chapitrage cohérent et utilisable par notre système.

La structure du chapitrage généré

Le chapitrage généré par Claude est structuré en XML avec, pour chaque chapitre :

  • Un titre représentatif du contenu
  • Un timestamp de début
  • Une brève description du contenu abordé
  • Des mots-clés associés

Cette structure riche permet non seulement une navigation intuitive dans le replay, mais facilite également l'indexation du contenu pour les recherches internes à la plateforme Wooskill.

🔄

Orchestration complète avec AWS Step Functions

Pour assurer la fiabilité et la scalabilité de cette solution, j'ai utilisé AWS Step Functions comme chef d'orchestre de l'ensemble du processus. Cette approche présente plusieurs avantages :

  • Visualisation claire du workflow et de son état d'exécution
  • Gestion automatique des erreurs et des retries
  • Parallélisation des tâches lorsque c'est possible
  • Traçabilité complète de chaque étape du processus

L'ensemble du workflow est déclenché automatiquement par un événement sur S3 lorsqu'un nouvel enregistrement est déposé dans un chemin spécifique. Cette automatisation complète garantit que chaque replay est traité de manière cohérente, sans intervention manuelle.

📈

Résultats et bénéfices pour Wooskill

La mise en place de ce système de chapitrage automatisé a apporté de nombreux bénéfices à Wooskill et à sa communauté :

  1. Amélioration de l'expérience utilisateur : Les apprenants peuvent désormais naviguer facilement dans les replays et accéder directement aux sections qui les intéressent

  2. Valorisation du contenu : Les Skillers peuvent proposer des replays mieux structurés, augmentant ainsi leur valeur perçue et leur potentiel de monétisation

  3. Gain de temps : Le chapitrage manuel d'une session de plusieurs heures pouvait prendre jusqu'à 1 heure de travail humain, désormais automatisé

  4. Consistance : Tous les replays bénéficient du même niveau de qualité de chapitrage, indépendamment de leur durée ou de leur contenu

Les retours des utilisateurs ont été extrêmement positifs, avec une augmentation notable du taux de consultation des replays et de leur durée moyenne de visionnage.

🏁

Conclusion : L'IA au service de l'expérience utilisateur

Ce projet de chapitrage automatisé illustre parfaitement comment l'IA générative peut être intégrée dans des workflows pratiques pour créer de la valeur réelle. En combinant plusieurs services AWS et en exploitant les capacités de Claude 3.7 Sonnet via AWS Bedrock, j'ai pu développer une solution élégante et efficace à un problème concret.

La force de cette approche réside dans son caractère entièrement automatisé et dans la qualité remarquable des résultats produits par Claude, qui se rapprochent de ce qu'un humain aurait pu réaliser manuellement.

À mesure que les modèles d'IA générative continuent de s'améliorer, je suis convaincu que nous verrons émerger de plus en plus d'applications pratiques comme celle-ci, transformant profondément notre façon de travailler et d'interagir avec le contenu numérique.

Si vous souhaitez en savoir plus sur les technologies utilisées dans ce projet, n'hésitez pas à consulter les liens ci-dessous pour découvrir en détail mes compétences dans ces domaines.

Damien Gilbrin

Damien Gilbrin

Développeur fullstack passionné, je crée des applications web performantes et modernes grâce à mon expertise en React, Next.js, PHP Symfony et les solutions AWS.