Aller au contenu principal
Il y a présentement des items dans votre panier d'achat.
Auteur et co-auteurs
Mohamed Karaa
ÉTS - École de technologie supérieure
Raed Bahria, Hakim Ghazzai, Lokman Sboui
Ecole de technologie supérieure, King Abdullah University of Science and Technology (KAUST)
5a. Résumé

La vidéo surveillance génère un volume important de données qui doivent être transmises sur des canaux de communication. Dans les zones rurales et isolées, l’accès aux réseaux de télécommunications à bon débit n’est toujours pas garanti. Cela impose la nécessité de réduire le volume de données afin de permettre la tâche de surveillance à temps réel. Nous présentons un système basé sur l’intelligence artificielle pour effectuer la compression efficace des vidéos dans un cadre de communication sémantique. La compression se fait en générant des représentations abstraites des objets qui tiennent les informations les plus pertinentes à la surveillance.

Le système combine plusieurs modèles d’apprentissage profond qui génèrent différentes représentations sémantiques qui varient en taille et signification. Un modèle de détection et suivi des objets, YOLOv10, permet d’identifier les objets et leurs mouvements. Un grand modèle de langage pour la vidéo génère des descriptions textuelles de la scène. D’autres modules permettent la séparation d’arrière-plan statique et l’échantillonnage temporel des images vidéo pour éliminer les redondances spatio-temporelles. Ce système permet de transmettre des données représentant seulement 1 % à 12 % du volume initial de la vidéo. Nous établissons ainsi une mesure pour évaluer la valeur sémantique des représentations extraites. Le système vise également à trouver un équilibre entre le taux de compression et la valeur sémantique.