La gestion des flux de voyageurs dans les gares et dans les transports en commun est un enjeu majeur pour les opérateurs, tant pour garantir la sécurité des voyageurs que pour leur assurer une expérience confortable et plaisante.

Dans ce contexte, l’intégration d’un logiciel d’analyse automatique de flux vidéo comme Cityvision peut constituer un outil efficace d’amélioration de la performance sur les défis stratégiques et opérationnels sous-jacents : réactivité des équipes de sûreté, suivi des affluences et des densités en temps réel, information voyageurs dynamique, réaménagement des espaces.

Des équipes sûreté plus réactives

Un système de vidéosurveillance intelligent

En s’appuyant sur les innovations les plus puissantes en intelligence artificielle, un logiciel d’analyse automatique de vidéo est capable d’analyser en temps réel les flux provenant de n’importe quelle caméra installée dans les gares ou dans les trains pour produire automatiquement des alertes en cas de situation anormale ou dangereuse. Avec un tel outil d’aide à la décision, les opérateurs vidéo peuvent se concentrer sur leurs prérogatives à plus fortes valeurs ajoutées, comme l’affectation des effectifs sur le terrain pour répondre à des dangers ou des menaces.

Réagir rapidement

Les intrusions sur voies figurent parmi les incidents qui mobilisent régulièrement les équipes de sûreté et qui pénalisent largement le bon déroulé des opérations ferroviaires. L’analyse vidéo s’avère être un outil efficace pour détecter de manière très fiable et précise ces comportements : la précision de Cityvision dépasse en effet 99% tout en maintenant les fausses alertes à un niveau très faible. Les opérateurs vidéo peuvent donc pleinement s’appuyer sur l’analyse algorithmique pour identifier les intrusions. Ils prennent ensuite le relais pour organiser immédiatement l’intervention afin de réduire le risque d’accident grave et rétablir rapidement la circulation.

Les colis abandonnés font aussi partie des incidents les plus récurrents et les plus pénalisants pour la continuité des opérations. L’analyse vidéo peut à nouveau aider les opérateurs de sûreté en détectant automatiquement ces situations. En étant immédiatement alertés, les agents peuvent rapidement travailler à l’identification des voyageurs concernés et intervenir sur le terrain pour minimiser les éventuels risques d’arrêt des opérations.

L’analyse intelligente offre d’autres capacités de détection d’incidents ou de situations dangereuses : stationnements gênants obstruant les accès pompiers, détection d’actes violents ou de vandalisme, etc. Ces multiples fonctionnalités contribuent donc à une amélioration conséquente de la réactivité des équipes de sûreté.

Au-delà de ces apports pour la sûreté et sécurité, naturellement liés aux dispositifs de vidéoprotection, l’intelligence artificielle peut aussi faire de la caméra un véritable outil de pilotage transversal, capable de capter des données précieuses sur les flux de voyageurs pour optimiser la conduite des opérations.

Une meilleure connaissance des flux de passagers

Les gares et les transports en commun sont souvent équipés d’un réseau dense de caméras. En y ajoutant un logiciel d’analyse automatique de flux vidéo, les caméras deviennent une source d’information complète, précise et fine sur l’affluence et les parcours voyageurs au sein de l’infrastructure et du réseau.

Des décisions d’aménagement éclairées

De telles informations permettent d’abord une analyse précise des flux de passagers à travers les zones clés telles que les entrées, les éventuels points de contrôles, les guichets, les quais, les halls, les zones commerciales. Elles alimentent de meilleures décisions d’aménagement en tenant compte des usages constatés et des points d’engorgement. Les données peuvent également mettre en lumière les espaces délaissés pour bâtir des stratégies d’optimisation des espaces commerciaux, source de revenus stratégique pour les gares et les stations.

Une meilleure information voyageurs

Les données d’affluences permettent aussi de proposer une information de meilleure qualité aux voyageurs, élément clé dans l’expérience globale et dans la satisfaction vis à vis du réseau. Ainsi, selon une étude menée par Transdev, « si globalement 87% sont satisfaits de leur réseau […], le manque d’information est, à contrario, un vrai facteur d’insatisfaction et un irritant. »

Les données d’affluence collectées sur les quais et dans les matériels roulants peuvent être diffusées sur des écrans d’affichage ou des applications voyageurs pour mieux les orienter : proposer de laisser passer un train en approche bondé pour attendre le suivant et disposer d’une place assise, guider vers les voitures les moins remplies, proposer de descendre sur les parties de quais les moins peuplées, etc.

Un pilotage optimisé des ressources

Mieux comprendre les flux permet enfin une planification et un pilotage plus efficaces des ressources, avec la possibilité d’augmenter ou ralentir en temps réel la fréquence des lignes automatiques selon les affluences mesurées, d’ajuster les plannings horaires de services selon les demandes réellement observées, d’ajuster le nombre de guichets ouverts en fonction des files d’attente ou encore d’affecter du personnel d’information supplémentaire dans les zones d’engorgement.

Revue des enjeux de mobilité urbaine par des industriels du secteur

Dans le cadre d’un groupe de travail organisé par Inskip, la French Tech et la Métropole du Grand Paris, Wintics a eu l’occasion de collaborer avec différents acteurs sur les thématiques de la smart city et montrer sa solution au service d’une mobilité plus intelligente.

Les centres urbains sont confrontés à de nombreuses problématiques liées à la mobilité.

Chaque jour, des centaines de milliers de personnes transitent entre leurs lieux de travail, de loisirs et d’habitation. Ces flux pendulaires créent de la congestion sur tous les réseaux de transport (routier, ferroviaire, etc.) causant ainsi des nuisances sonores, de la pollution, du stress pour les populations. Ces problèmes ont d’ailleurs tendance à se renforcer depuis quelques années avec l’étalement urbain qui s’accompagne de l’éloignement croissant des lieux d’habitation par rapport aux centres-villes où se situe une grande partie des emplois.

Comment répondre à ces problématiques ? Quelles solutions pour les villes de demain ?

Le groupe de travail a identifié certains enjeux et apporte des premiers éléments de réponse.

Enjeu 1 : La nécessité d’une densification des offres de transport alternatives aux voitures individuelles

Face aux enjeux de la mobilité, toutes les villes ne sont pas logées à la même enseigne.

Les aménagements, la géographie, l’architecture des lieux diffèrent fortement d’une ville à l’autre, ce qui a des impacts importants sur la gestion des transports.

À cet égard, les métropoles denses sont généralement mieux armées que les villes de taille secondaire puisqu’elles regroupent des réseaux de transport denses et des habitats concentrés plus proches des lieux d’emploi.

Par exemple, la comparaison entre les villes de Paris et d’Aulnay-sous-Bois est emblématique de ces différences. Aulnay représente à elle seule la surface totale des 7 premiers arrondissements de Paris pour seulement 83 000 habitants. Pourtant, la ville ne dispose que d’environ 100 arrêts de métro, bus, transports collectifs, en comparaison des 570 arrêts existants pour les 7 premiers arrondissements de Paris.

Le défi du maillage des villes secondaires en transports en commun est essentiel puisque ce sont elles qui tirent la croissance démographique des villes.

Faute de transports en commun suffisant, leurs habitants sont poussés à utiliser leurs voitures individuelles qui sont source de congestion du trafic, de pollution et de nuisance sonore… 

Des solutions existent pour répondre à ce besoin de solutions alternatives à la voiture individuelle : développement des réseaux cyclables (pertinents pour les trajets courts de moins de 3km qui correspondent à la moitié des déplacements en Ile-de-France), promotion du covoiturage, déploiement de nouvelles lignes de transport en commun, mise en place de solutions de transports en commun à la demande, etc.

L’enjeu majeur pour le fort développement de ces mobilités alternatives réside bien souvent dans l’impulsion politique donnée pour créer une réelle dynamique d’adoption par les usagers (avec des prix subventionnés, des investissements dans les infrastructures, etc.).

Selon l’ADEME, en Ile-de-France la moitié des trajets font moins de 3 km, ces trajets peuvent donc être facilement effectué par le biais de solutions de transports collectifs partagés. 

Hugues Hansen, fondateur de VanO 

Enjeu 2 : La gestion du stationnement pour une mobilité intelligente

De nombreuses villes, ont été construites il y a plusieurs centaines d’années. Malgré la croissance de la population urbaine, leur organisation a peu évolué et ne s’est pas toujours adaptée aux modes de vie modernes. Cette observation soulève une question : où stationner les véhicules des particuliers dans un espace de plus en plus restreint ? 

Lorsqu’on analyse le stationnement, il faut différencier quatre grands usages :

  • Le stationnement de loisirs situé près de zones d’activités sportives et culturelles
  • Le stationnement marchand situé à proximité des commerces
  • Le stationnement proche de moyens de transport comme les gares, les aéroports, etc. 
  • Le stationnement résidentiel situé à proximité des zones d’habitation

Ces usages ne sont pas tous confrontés aux mêmes problèmes de saturation du stationnement puisqu’ils sont généralement situés dans des quartiers différents qui n’ont pas eu la possibilité de tous s’adapter au même rythme.

Dans les zones les plus saturées, les flux de véhicules en quête d’une place de stationnement représentent l’une des premières sources de congestion du trafic : les automobilistes ralentissent, cherchent une place, s’arrêtent. Il est donc essentiel d’optimiser ce flux en ville.

En plus des nuisances qui touchent les habitants, les flux congestionnés sont source de désertion des centres urbains. La gestion du stationnement est donc aussi une question d’attractivité territoriale.

Si le cœur de la ville n’est pas facilement accessible, avec toutes les mobilités, les habitants désertent ces centres.

Raphaël Jatteau, Fondateur de Cocoparks

Mais comment bien gérer le stationnement ?

L’une des principales problématiques pour les villes est de collecter suffisamment de données qualitatives et précises pour objectiver, comprendre et proposer des solutions adéquates aux problèmes relevés.

Grâce à Cityvision, logiciel d’analyse vidéo en temps réel développé par Wintics, il est possible d’observer et de comprendre le fonctionnement des flux de mobilité en ville par le biais de toutes les caméras déjà installées.

Parmi une large gamme applicative, le logiciel Cityvision permet ainsi aux villes de disposer d’un observatoire du stationnement capable d’identifier en temps réel la disponibilité des places, qu’elles soient situées en voirie ou dans des parkings en ouvrage. Cette information de disponibilité est diffusée aux automobilistes via des panneaux de jalonnement ou des applications mobiles pour les aider à se garer facilement. Elle est aussi précieuse pour les gestionnaires de voirie puisqu’elle est la source d’études statistiques détaillées sur le stationnement afin de les aider à mieux planifier le déploiement des places de parking.

Enjeu 3 : Répondre aux problématiques liées à la congestion grâce à la mobilité intelligente

Comme expliqué ci-dessus, la congestion du trafic est source de nombreux tourments en ville : pollution, nuisances sonores, agacement et irritation des usagers.

La question se pose alors pour les collectivités de bien comprendre ces flux pour mieux les gérer et éventuellement les hiérarchiser.

Différentes technologies permettent d’y répondre. Le comptage et l’analyse en temps réel en font partie. « Aujourd’hui, il y a une multiplication des centres de supervision urbains (CSU), qui disposent de caméras uniquement utilisées par leurs opérateurs, pour constater des infractions. » Précise Matthias Houllier, cofondateur de Wintics.

Et si ces caméras permettaient également de répondre à d’autres sujets comme la gestion des mobilités ?

Avec Wintics, il est possible d’utiliser ces caméras pour analyser une quantité d’information importante et ainsi optimiser l’investissement conséquent d’une ville dans ces points de contrôles. 

Matthias Houllier, Cofondateur de Wintics 

En capitalisant sur des équipements déjà installés, les villes peuvent ainsi disposer d’un très large panel de données de mobilités : comptages multi-modes, analyse des temps d’attente aux carrefours différenciés par mode de déplacement, disponibilité du stationnement, etc.

Ces données sont essentielles pour permettre aux villes de déployer des initiatives fortes contre la congestion :

  • Régulation dynamique des feux tricolores en fonction de l’état d’un carrefour en temps réel afin d’optimiser les temps d’attentes.
  • Promotion et sécurisation des mobilités actives avec des temps de feux adaptés
  • Contrôle du bon usage des couloirs de bus afin de garantir leur fluidité et donc d’améliorer la vitesse commerciale des bus.

Le logiciel Wintics Cityvision ayant été conçu dans le concept de “privacy by design”, ces différents indicateurs sont produits sans analyse d’aucune donnée personnelle ni conservation d’aucun flux vidéo.

En synthèse

Grâce à sa technologie, Wintics permet ainsi aux collectivités d’optimiser leurs investissements en rendant intelligentes les caméras déjà existantes et en permettant aux acteurs de la ville de répondre au mieux aux attentes des usagers. 

Cityvision, une solution incontournable pour accompagner les villes dans leurs politiques d’aménagement.

Depuis plusieurs années, la Ville de Paris est engagée dans une politique de promotion du vélo qui passe notamment par le développement du réseau cyclable.

Cette politique cyclable a connu une forte accélération en 2020 avec le déploiement de nombreuses pistes cyclables sanitaires (aussi appelées coronapistes) visant à faciliter le report modal des usagers du métro ne souhaitant plus utiliser les transports en commun pour des raisons sanitaires.

Ces nouvelles pistes cyclables ont d’abord été déployées de façon temporaire dans le cadre d’opérations d’urbanisme tactique. Ce type d’opérations se déroule généralement en trois étapes :

  • un réaménagement rapide d’un espace public (qui s’accompagne souvent de coûts limités) avec des équipements légers,
  • un diagnostic poussé des impacts (positifs ou négatifs) du nouvel aménagement,
  • une décision sur la pérennisation ou la modification de l’aménagement.

La Ville de Paris a ainsi mené de nombreuses opérations d’urbanisme tactique en 2020 et 2021 avec le déploiement de pistes cyclables temporaires sur des axes majeurs (rue de Rivoli, Grands Boulevards, rue Lafayette, canal St Martin, rue d’Amsterdam, etc.)

Des atouts qui ont permis de déployer rapidement des dispositifs performants

Afin de disposer de données fiables et objectives sur l’impact de ces nouvelles pistes cyclables, la Ville de Paris a recours au logiciel d’analyse vidéo Wintics Cityvision.

Les dispositifs Cityvision installés par la société Evesa (sous-traitant de la ville de Paris sur les sujets d’éclairage public et de signalisation tricolore) présentent différents atouts :

  • Le logiciel Cityvision produit des données de trafic très détaillées par mode de déplacement. Pour la ville de Paris, les modes analysés sont : vélos, trottinettes, 2-roues motorisés, véhicules légers, poids lourds et bus. Ce niveau de différenciation est possible sur voies dédiées ou sur voies mixtes.
  • Pour produire ces données, Cityvision analyse en temps réel les flux vidéo des caméras thermiques déjà existantes (Flir Thermicam) ce qui a permis un déploiement très rapide des dispositifs.
  • Les caméras analysées filmant généralement toute la largeur de voirie (parfois plus de 10 mètres), un unique dispositif Cityvision – qui analyse toutes les voies de circulation visibles – peut produire simultanément des statistiques sur l’usage de 4 voies de circulation.
  • Les analyses sont réalisées en local au niveau de la caméra (ce que l’on appelle le Edge Computing ou Calcul Embarqué) sans aucun enregistrement ni transmission d’image. Seules les statistiques anonymes de comptage sont envoyées vers un tableau de bord de visualisation.
  • Les données de trafic sont produites instantanément par Cityvision et transmises en temps réel au logiciel qui gère le rythme des feux de circulation de la ville. A terme, cela doit permettre de piloter automatiquement et de façon dynamique les feux tricolores en fonction de l’état réel du trafic.

La ville de Paris a par ailleurs décidé de publier en Open Source les données produites par Cityvision afin (i) de permettre à chacun de connaitre le trafic des différentes modes de déplacement sur des grands axes de la capitale et (ii) de les réutiliser pour des éventuelles études sur les mobilités.

L’usage de Cityvision récompensé par un Prix Territoria d’Or

La Ville de Paris a remporté le prix Territoria d’Or de la catégorie Mobilité pour des initiatives qu’elle a réalisées avec Cityvision dans le cadre des opérations d’urbanisme tactique pour le développement du vélo.

Les équipes de la ville ont profité de ce prix pour présenter leurs usages de Cityvision dans une vidéo ci-dessous.

Grace au dispositif, nous disposons de nouvelles données enrichies afin de mieux concevoir l’espace public. Ces données servent à la régulation en temps réel. Elles servent à rééquilibrer les temps de feu au niveau des carrefours.

Richard Nguyen – Responsable innovation du PC Lutèce – Ville de Paris

La création de nouvelles infrastructures cyclables, une tendance forte depuis le déconfinement.

Dans le cadre du déconfinement, de nombreuses collectivités ont déployé des pistes cyclables temporaires avec l’objectif de promouvoir un mode de déplacement non polluant et propice au respect des règles de distanciation physique.

En créant de nouvelles infrastructures cyclables, les grandes villes poursuivent ainsi un double objectif :

  • Proposer aux usagers des transports en commun une alternative afin d’éviter les situations de trop forte affluence dans les métros, bus et trams
  • Favoriser un mode de déplacement propre qui doit garantir la qualité de l’air en ville en évitant que les personnes n’aient recours à leur véhicule individuel pour se déplacer dans le respect des règles de distanciation

Dans leurs réflexions, les collectivités ont pu être accompagnées du Cerema qui a identifié dans son rapport « Aménagements cyclables temporaires : tester pour aménager durablement » différentes recommandations techniques pour le déploiement de ces nouvelles infrastructures comme les aménagements de voies tels que ceux présentés ci-dessous.

De très nombreuses pistes cyclables temporaires ont ainsi vu le jour au cours des mois de mai, juin et juillet 2020. Celles-ci concernent plusieurs villes françaises (Lille, Paris, Reims, Rouen, Lyon, Toulouse, Nantes, Montpellier, Strasbourg, Bordeaux, Rennes) mais aussi étrangères (Bogota, Mexico, Berlin, Londres, etc).

En Ile-de-France où le nombre de pistes cyclables nouvellement créées est le plus élevé, le Collectif Vélo et la Métropole du Grand Paris ont recensé toutes les pistes temporaires et proposent une carte interactive pour permettre aux cyclistes de préparer leurs trajets.

Les pistes temporaires à l’étranger font quant à elles l’objet d’un article détaillé de la part d’Adrien Lelièvre (journaliste aux Echos) que vous pouvez retrouver ici.

Mesurer l’impact de ces pistes temporaires pour envisager leur pérennisation

La récente vague de déploiement de pistes cyclables temporaires est inédite et peut faire office, dans une certaine mesure, d’expérimentation grandeur nature pour les villes souhaitant promouvoir le vélo.

Dès lors, la mesure de la fréquentation de ces pistes est un enjeu majeur afin de valider la pertinence de ces déploiements et leur adéquation avec les besoins des citoyens.

Pour cela, l’analyse vidéo (réalisée par des logiciels tels que Wintics Cityvision) présente des atouts indéniables par rapport aux autres solutions de comptage de trafic :

  • Le logiciel peut compter de façon différenciée tous les modes de déplacement susceptibles d’être rencontrés sur une piste cyclable (vélos, trottinettes, 2RM, piétons), donnant ainsi une image fidèle de l’usage réel de l’infrastructure
  • Le logiciel prend en charge n’importe quelle caméra (optique ou thermique) permettant ainsi de capitaliser sur des équipements existants
  • Aucun travaux n’est nécessaire au-delà de l’hébergement d’un micro-PC dans une armoire de rue ou un coffret étanche, ce qui accélère grandement la rapidité de déploiement
  • Le logiciel peut analyser les trajectoires des vélos (notamment pour compter le trafic par sens de circulation sur les pistes bidirectionnelles)
  • La solution est agile et paramétrable à distance. Elle peut s’adapter sans travaux aux évolutions d’aménagement de la chaussée (ex : changement de destination d’une voie)

Le schéma ci-dessous synthétise l’installation d’un tel dispositif.

Au-delà de ce monitoring intrinsèque des infrastructures cyclables, le logiciel Cityvision permet de mesurer l’impact du déploiement de la nouvelle infrastructure sur les voies adjacentes.

Avec une caméra filmant à la fois la piste cyclable et la voie des véhicules motorisés, le même dispositif d’analyse vidéo peut produire en temps réel des statistiques sur l’usage de la piste cyclable par les vélos mais aussi de la voie des véhicules motorisés pour identifier d’éventuelles sur-fréquentations ou situations de congestion nouvelles et répétées.

Comme présenté sur l’image ci-dessous, la mise en service d’un dispositif d’analyse du trafic par la vidéo suppose un paramétrage initial pour matérialiser les zones d’intérêts (i.e. les zones dans lesquelles on souhaite compter le trafic). Ces zones sont paramétrables à distance et permettent donc d’adapter très facilement le dispositif aux éventuelles modifications de l’aménagement urbain.

La vidéo au service de la mobilité

La vision par ordinateur est une discipline de l’IA qui consiste à analyser, traiter et comprendre automatiquement des images. Jusqu’à très récemment, les avancées technologiques dans le domaine étaient limitées. Les algorithmes manquaient de flexibilité et étaient très sensibles aux variations contextuelles (luminosité, angle de vue, distance). Les applications nécessitaient une ingénierie lourde et des algorithmes d’analyses de pixels sur-mesure. Par conséquent, seuls quelques cas d’usage étaient suffisamment robustes pour être utilisés à grande échelle. Dans la mobilité, seule la lecture automatique de plaque d’immatriculation s’est largement répandue. Pour les autres applications, la grande majorité des images restait alors traitée manuellement, avec un déficit de ressources humaines et financières pour en exploiter le plein potentiel.

Mais le Deep Learning a tout changé. En 2015, le réseau de neurones convolutif ResNet (erreur de 3.6%*) permet pour la première fois de dépasser l’erreur humaine estimée à environ 5% au concours de classification ImageNet (compétition mondiale de référence en vision par ordinateur).

S’ensuit alors un nouvel engouement autour de l’analyse automatique de vidéos. La caméra apparait potentiellement comme le capteur ultime permettant d’alimenter les gestionnaires de mobilité en données fines, fiables et disponibles à grande échelle pour toute une série d’initiatives de fluidification :

  • Détecter le nombre de personnes à l’intérieur des véhicules pour mettre en place des politiques en faveur des covoitureurs (voies dédiées, tarifs préférentiels sur autoroutes ou parkings, etc.)
  • Détecter les places de stationnement disponibles pour guider les automobilistes souhaitant se garer
  • Collecter des statistiques de trafic directionnelles et multimodales (piétons, vélos, deux-roues, voitures, utilitaires, poids lourds) aux intersections pour réguler les feux tricolores de manière dynamique afin de réduire les temps de parcours et sécuriser les mobilités douces
  • Collecter des statistiques de trafic sur voies rapides (débits par mode, taux d’occupation et vitesse) pour pallier l’obsolescence des dispositifs en place (boucles électromagnétiques) afin d’opérer efficacement les infrastructures : information sur les temps de parcours et études fiables en vue de réaménagements
  • Collecter des informations permettant une tarification fiable et efficace aux péages (avec ou sans barrière) : classification de véhicules, comptage du nombre d’essieux
  • Détecter automatiquement des incidents de trafic (véhicule arrêté, etc.) pour sécuriser rapidement les infrastructures

Les secrets du Deep Learning

Les algorithmes de Deep Learning s’appuient sur des réseaux de neurones artificiels pour analyser des données. Les données d’input (à analyser) passent par plusieurs couches qui les décomposent pour obtenir un résultat d’analyse (output).

En informatique, et en particulier dans l’analyse d’image, il s’agit d’un véritable changement de paradigme. Le logiciel passe en effet d’un rôle de super exécutant à celui de super apprenant.

Dans le rôle traditionnel du logiciel de « super exécutant », le codeur renseigne une série de règles qui permettent aux programmes d’exécuter des suites d’opérations logiques (ex : if/ else ) pour aboutir à des conclusions différentes selon les contextes. Dans le cas de l’analyse d’images, cette technique consiste par exemple à renseigner (i) un seuil de variation de pixels à partir duquel on considère qu’il y a un mouvement sur l’image, permettant par exemple d’incrémenter un compteur dans le cas des statistiques de trafic et (ii) des seuils variables pour différencier les modes de transport selon leurs tailles moyennes (ex. camions vs. voitures). Cette approche simpliste est limitée par :

  • La complexité du paramétrage : la taille en pixel des objets varie selon les résolutions d’images et les prises de vue
  • Le manque de fiabilité : forte sensibilité aux variations de lumières et aux mouvements de la caméra
  • Le manque de finesse d’analyse : comment distinguer un vélo d’un deux-roues motorisé avec des règles simples ?

Dans son nouveau rôle de super apprenant, la logique est inversée : le développeur logiciel montre une grande quantité d’exemples de bons résultats aux modèles qui apprennent seuls les chemins logiques les guidant vers un résultat. Pour fonctionner, ce type de logiciel nécessite un triptyque gagnant :

  • Données: le logiciel a besoin d’une grande quantité d’exemples d’images d’un objet donné pour apprendre à reconnaître ce même type d’objet sur une image qu’il n’a jamais vue. A titre d’exemple, le réseau de neurones convolutif ResNet vainqueur du concours ImageNet en 2015 s’était entrainé sur 15 millions d’images.
  • Algorithmie: les architectures les plus performantes sont souvent les plus complexes. Le modèle FasterRCNN considéré comme détenant l’état de l’art dans la détection contient plus de 152 couches d’analyses.
  • Hardware: ces modèles nécessitent des ressources de calcul importantes, aussi bien pour l’entrainement que pour l’inférence (i.e. leur utilisation). L’entraînement d’une variante du FasterRCNN sur un serveur disposant de 8 cartes graphiques professionnelles (300 watts de consommation par carte) dure une semaine. En production, ce modèle a besoin d’environ 1 seconde avec une carte graphique type 2080 Ti (serveur centralisé) pour se prononcer sur une seule image.

L’Intelligence Artificielle étant une discipline où l’open source est une pratique très répandue, il n’est pas rare que des non-initiés considèrent qu’il s’agit d’une commodité. Il serait facile de s’approprier les travaux partagés par les membres de la communauté scientifique pour les appliquer sur des cas d’usages industriels : par exemple, transformer la caméra en capteur de données de mobilité.

Néanmoins, le Deep Learning présente une série d’obstacles techniques à surmonter pour concrétiser des ambitions au niveau industriel.

Le Deep Learning à l’épreuve du terrain : les limites de l’open source

Transformer la caméra en capteur de données de mobilité implique des enjeux majeurs pour chacun des composants faisant le succès du Deep Learning :

  • Données: tous les modèles de détection partagés par les membres de la communauté scientifique ont été entraînes sur des images de bonne qualité (pas de pixellisation, pas d’éblouissement, pas de pluie, etc.) et sont très sensibles à la qualité des images. Or, les images vidéo issues de milieu urbain sont généralement de faible qualité, ce qui rend l’application de ces modèles – en l’état – très compliquée. Par ailleurs, les bases de données d’images (qui servent à l’entrainement et aux tests des algorithmes) n’intègrent pas tous les types de véhicules et objets présents en milieu urbain (ex : pas de taxis, pas de véhicules d’urgence, pas de trottinettes, pas de poussettes, pas de fauteuils roulants, etc.).
  • Algorithmie: les solutions algorithmiques partagées par la communauté scientifique ne sont pas encore fiables dans le cas de flux denses de piétons ou de véhicules où les objets se masquent les uns les autres. Cela mène à la création d’identités multiples, à la non-détection d’objets ou à l’échange d’identité entre objets ce qui fausse largement les conclusions des algorithmes.
  • Hardware: les modèles de détection les plus performants disponibles en open source demandent de très grandes ressources de calcul, tant pour leur entrainement que pour leur exécution. Or, les utilisateurs potentiels de ces modèles ne disposent généralement ni des budgets, ni des équipements, ni des infrastructures réseaux et électriques pour utiliser ces types de matériel.

Passer à l’échelle : la valeur de l’expertise du spécialiste

Wintics met à profit son expertise en Deep Learning pour contourner ces difficultés et rendre possible l’exploitation à grande échelle des caméras pour extraire en temps réel des données précieuses de mobilité.  Grâce à notre équipe d’experts fortement impliquée et nos liens étroits avec les laboratoires de recherche les plus réputés, nos efforts en R&D nous ont notamment permis d’apporter les solutions suivantes :

  • Données: notre pipeline dédié à la détection nous permet d’intégrer un nombre illimité d’objets en quelques heures avec une précision moyenne au moins deux fois supérieure à celle de l’open source. Surtout, nos algorithmes de détection ont été entraînés sur des images spécifiques au milieu urbain (jour et nuit, hautes et basses définitions, optiques et thermiques, etc.) pour atteindre des niveaux de détection compris entre 85% et 99% sur n’importe quelle caméra installée dans l’espace public
  • Algorithmie: notre Tracker (algorithme permettant de suivre un objet unique d’une image à l’autre en faisant ainsi une fonctionnalité nécessaire aux applications de comptage) est codé de toutes pièces par nos ingénieurs et entièrement adapté aux contextes urbains : sa précision est six fois plus élevée que l’open source dans les cas complexe de masquage d’objets et de trafic dense
  • Hardware: l’ensemble de notre code base a été optimisée, nous permettant d’atteindre une vitesse de calcul 50 fois plus rapide que l’open source et ainsi capables de tourner en edge dans des micro-boîtiers type Nvidia Jetson (dimension 11 cm max ; consommation entre 5 et 10 watts)

Wintics continue ses efforts de R&D pour faire de toutes les caméras des capteurs de données de mobilité facilement exploitables, précis et économiques. Nous travaillons notamment sur la scalabilité de notre solution, pour être en mesure de proposer le branchement de notre logiciel en quelques clics sur une interface web.

(*) l’erreur de classification des modèles est calculée en retenant la meilleure prédiction parmi les 5 plus probables exprimées par le modèle.

De plus en plus de voitures dans des espaces contraints et saturés

La démocratisation de l’automobile a progressivement fait de la voiture le moyen de transport individuel et quotidien d’une majorité de français : de 6,2 millions de voitures enregistrées en 1960, on en dénombre plus de 38 millions aujourd’hui.

Couplé au phénomène d’urbanisation grandissante, ce nombre croissant de voitures s’est de plus en plus concentré dans et autour des villes, dans des espaces déjà très contraints et limités. Si les pouvoirs publics ont accompagné ces mouvements en investissant massivement dans des infrastructures routières performantes et capables de drainer de plus en plus véhicules, les réseaux routiers ne peuvent s’étendre à l’infini et semblent aujourd’hui souvent saturés. En particulier dans les villes, l’espace disponible est rare et les municipalités ont au contraire tendance à mettre en place des politiques limitant l’accès des voitures dans les centres historiques.

Le trafic soulève des défis économiques et environnementaux importants

Les automobilistes sont alors confrontés à de plus en plus de bouchons, pendant et en dehors des heures de pointe. A Paris, les conducteurs passent 64 heures par an dans les bouchons, soit 11% de leur temps de conduite. À Marseille, Bordeaux et Lyon, les usagers perdent 28 heures par an dans les embouteillages.

Au niveau national, ce temps perdu constitue un manque à gagner estimé à 20 milliards d’euros par an pour les professionnels de tous secteurs : perte de productivité, perte de clients ou de fournisseurs, complexification des tournées et allongement des délais de livraison, surconsommation de carburant, etc.

Ce phénomène dégrade aussi significativement la qualité de vie en ville en générant du stress, de l’anxiété et surtout de la pollution, constituant ainsi un enjeu immense de santé publique et écologique. Plus un véhicule passe de temps dans la circulation, plus il consomme de carburant et plus il émet d’éléments polluants. La consommation d’essence au kilomètre est en effet multipliée par deux pour une même distance par rapport à un trafic fluide. De même, on estime que, sur un tronçon d’autoroute, un embouteillage génère seize fois plus d’émissions de gaz à effet de serre qu’un trafic fluide.

La vision par ordinateur, une technologie récente qui peut contribuer à réduire la congestion

L’augmentation de capacité des infrastructures étant souvent exclue ou impossible, les pouvoirs publics et les villes sont à la recherche de solutions innovantes permettant de réduire la congestion. Ils adoptent notamment de nouvelles approches dites « smart » qui placent le numérique et les nouvelles technologies au cœur de leurs démarches visant à améliorer la qualité de vie de leurs citoyens. Les « smart cities » déploient par exemple de plus en plus d’appareil connectés (IoT) pour mieux connaitre les usages de leurs habitants et des automobilistes. En particulier, les caméras couplées aux dernières technologies de vision par ordinateur, constituent une formidable opportunité pour mieux piloter et fluidifier le trafic automobile.

La vision par ordinateur est une discipline de l’intelligence artificielle qui consiste à analyser, traiter et comprendre automatiquement des images et vidéos. Jusqu’à très récemment, les avancées technologiques dans le domaine étaient limitées. Les algorithmes manquaient de flexibilité et étaient très sensibles aux variations (luminosité, angle de vue, distance). Les applications nécessitaient une ingénierie lourde et des algorithmes d’analyses de pixels sur-mesure. Par conséquent, seuls quelques cas d’usage étaient suffisamment robustes pour être utilisés à grande échelle dans les villes et sur les routes (par exemple la lecture automatique de plaque d’immatriculation). La grande majorité des images restait ainsi sous-exploitée du fait d’un déficit de ressources humaines et financières pour en tirer le plein potentiel.

Les récentes innovations algorithmiques, notamment le deep learning, conjuguées à une démocratisation des infrastructures de calcul (cartes graphiques) et des quantités de données gigantesques et facilement accessibles ont fait entrer la vision par ordinateur dans une nouvelle ère. Il devient désormais possible de l’utiliser à grande échelle, sur les centaines de milliers de caméras installées sur les routes, pour détecter, catégoriser, suivre et analyser automatiquement le comportement de véhicules sur des réseaux routiers, quelle que soit la luminosité, l’angle de vue et la qualité des images.

Des caméras pour mieux piloter les flux et penser des réseaux plus adaptés

Le premier apport de la vision par ordinateur est ainsi de pouvoir démocratiser et préciser la statistique routière. L’analyse automatique de vidéo permet de compter et suivre en temps réel de manière fiable et différenciée (piétons, vélos, véhicules légers, poids lourds, transports en commun, etc.) les flux sur un réseau, là où les dispositifs historiques (boucles de comptage) fournissent de l’information peu différenciée, de comptage simple (sans notion directionnelle), tombent souvent en panne et sont difficiles à entretenir.

Les gestionnaires de réseaux routiers disposent ainsi d’une information de meilleure qualité et disponible à grande échelle (milliers de caméras déjà installées) pour prendre des décisions éclairées quant à la gestion dynamique du réseau et aux travaux d’aménagement permettant de l’améliorer.

L’utilisation en temps différé de la statistique issue des caméras permet d’analyser les infrastructures sur longue période pour évaluer l’adéquation des usages avec les besoins des utilisateurs. S’il est compliqué d’agrandir les réseaux, il est possible de les adapter pour qu’ils correspondent davantage aux flux réels.

S’appuyer sur les caméras pour mettre en place la régulation dynamique de vitesse selon le taux d’occupation des voies

La statistique en temps réel fournie par les caméras permet de constater automatiquement et en direct les situations denses qui correspondent aux cas les plus sujets aux embouteillages : il suffit en effet qu’un automobiliste freine brusquement pour provoquer une réaction en chaine et d’importants bouchons. Pour l’éviter, il est alors possible d’utiliser cette information pour mettre en place la régulation dynamique de vitesse, qui consiste à imposer des limitations de vitesse variables en fonction de la densité de circulation observée. Il est en effet démontré que maîtriser un ralentissement en abaissant légèrement et ponctuellement la vitesse maximale autorisée permet d’éviter les coups de frein intempestifs et donc de fluidifier la circulation plutôt que de la bloquer.

Utiliser les statistiques issues des caméras pour synchroniser plus efficacement les feux tricolores

Connaitre en temps réel l’encombrement des axes grâce aux caméras peut aussi permettre de synchroniser de manière dynamique les feux tricolores pour fluidifier le trafic. Un tel système automatisé a été mis en place en 2013 à Los Angeles, alors considérée comme la ville la plus embouteillée des États-Unis. Le système recueille, en temps réel, des données concernant le trafic routier et les utilise pour adapter la durée des feux de signalisation et synchroniser les phases d’arrêt et de circulation (rouge/vert), ce qui permet de fluidifier la circulation, notamment en réduisant les temps d’arrêt et donc, directement, le temps de conduite et les émissions polluantes associées. La mesure s’avère efficace : les automobilistes ont réduit leur temps de parcours de 14%, leur temps d’arrêt de 31% et leurs retards de 21%.

Surtout, l’analyse vidéo, contrairement à un système de comptage classique, permet de prendre en compte les mobilités douces (vélos, trottinettes, etc.) et les piétons pour intégrer aussi les temps d’attente de ces populations dans les algorithmes de régulation des feux.

Détecter automatiquement les incidents de trafic et décourager les comportements dangereux

L’analyse de vidéo en temps réel permet aussi de détecter automatiquement des incidents de trafic, qui peuvent significativement impacter la fluidité du trafic : accident, véhicule à contre-sens, panne, etc. Avec l’émission d’alertes automatiques, les gestionnaires de réseaux sont prévenus instantanément et peuvent réagir plus rapidement pour normaliser le trafic.

La vision par ordinateur pourra aussi automatiser et généraliser la vidéo-verbalisation, constituant ainsi un outil majeur de dissuasion des comportements dangereux sur les axes routiers qui contribuent largement à la congestion (vitesses excessives, dépassements dangereux, etc.).

Orienter les automobilistes vers les places de stationnement disponibles

Enfin, les nouveaux algorithmes de vision par ordinateur sont aussi capables de détecter et compter automatiquement les places de stationnement disponibles dans la rue ou dans des parkings. En capitalisant sur les systèmes de vidéo-surveillance des rues qui offrent un maillage assez exhaustif et fins des villes, il est alors possible d’orienter intelligemment les automobilistes vers les emplacements libres. De telles solutions permettraient de réduire significativement la congestion urbaine : on estime en effet qu’à Paris, à tout instant, 2 à 3 véhicules sur 10 sont à la recherche d’une place de stationnement. Ce sont autant de véhicules qui encombrent la circulation et participent à la création d’embouteillages.