Quels sont les principes de fonctionnement et les caractéristiques techniques d'une caméra binoculaire USB à large plage dynamique ?
En termes simples, elle se compose de deux caméras, généralement espacées de la moitié de la distance entre les yeux humains, simulant ainsi la vision humaine. En capturant simultanément des images sous deux perspectives différentes et en utilisant des algorithmes pour les fusionner en une seule image avec des informations de profondeur et de couleur, un effet visuel 3D plus réaliste est obtenu.
Dans des domaines tels que la vision par ordinateur, la reconnaissance intelligente et la perception spatiale, les caméras binoculaires, grâce à leur capacité à simuler l'imagerie stéréoscopique comme les yeux humains, sont devenues des dispositifs essentiels pour l'acquisition d'informations spatiales 3D. Le module de caméra binoculaire à large plage dynamique 2UK2 d'Yinglongxin intègre une imagerie haute définition de 2 mégapixels, une large plage dynamique de 90 dB, un gyroscope à trois axes, deux microphones en silicium et d'autres fonctions. Grâce à la collaboration matérielle et à l'optimisation des algorithmes, il permet une perception de haute précision et une sortie stable dans des scénarios complexes. Cet article disséquera systématiquement ce module sous deux aspects : son principe de fonctionnement et ses caractéristiques techniques.
I. Principe de fonctionnement principal
(I) Principe d'imagerie stéréoscopique binoculaire
Le 2UK2 utilise une technologie de vision binoculaire passive. Sa logique principale simule le mécanisme humain de télémétrie par parallaxe binoculaire, acquérant simultanément des images de la scène via deux caméras et calculant les informations de profondeur spatiale. Sa base matérielle se compose de deux capteurs de 2 mégapixels avec un espacement horizontal fixe (distance de base). Les deux caméras capturent simultanément la même scène sous des perspectives différentes, générant deux images de résolution 1920×1080 (canaux gauche et droit), qui sont ensuite assemblées horizontalement pour produire un flux vidéo composite de 3840×1080@30FPS.
Le cœur du calcul de profondeur réside dans le calcul de parallaxe et la triangulation : le système utilise un algorithme de mise en correspondance de points caractéristiques pour localiser les positions des pixels d'objets correspondants dans les images gauche et droite, calculant la disparité entre eux, c'est-à-dire le décalage en pixels du même objet dans les images gauche et droite. En combinant des paramètres connus tels que la distance de base de la double caméra et la distance focale de l'objectif, le système utilise des formules de triangulation pour déduire inversement les coordonnées 3D de l'objet. La disparité est inversement proportionnelle à la distance ; plus la distance est courte, plus la disparité est grande. Combinée à la résolution haute définition de 2 mégapixels, une précision de positionnement en profondeur au millimètre peut être atteinte. Pendant ce temps, la fréquence d'images de 30 FPS assure des mises à jour en temps réel des informations de profondeur, répondant aux besoins de perception dans les scènes dynamiques.
(II) Principe d'imagerie à large plage dynamique 90 dB
La technologie Wide Dynamic Range (WDR) vise à résoudre le problème de distorsion d'image dans les scènes présentant à la fois un éclairage fort et faible. Une plage dynamique de 90 dB signifie que la caméra peut reconnaître un rapport d'illumination de 3162:1 entre les zones les plus claires et les plus sombres (dB = 20log(illumination la plus claire/illumination la plus sombre)), dépassant de loin la plage de la vision humaine normale. Le 2UK20 utilise une technologie de fusion d'exposition multi-images au niveau du capteur, appartenant à la catégorie de la véritable plage dynamique étendue, qui diffère de l'optimisation par interpolation logicielle de la plage dynamique numérique traditionnelle.
Son flux de travail est le suivant : Le capteur acquiert rapidement deux (ou plus) images avec des temps d'exposition différents pour la même scène. Une image utilise une exposition courte pour capturer les détails dans les zones lumineuses, évitant ainsi la surexposition ; l'autre image utilise une exposition longue pour restaurer les informations dans les zones sombres, compensant la sous-exposition. Grâce à l'algorithme de fusion au niveau des pixels de la puce DSP, les informations de pixels efficaces des deux images sont extraites, et les pixels déformés dans les zones surexposées et sous-exposées sont supprimés, synthétisant finalement une image avec des détails clairs dans les zones claires et sombres, adaptable aux environnements d'éclairage complexes tels que le rétroéclairage, la lumière directe intense et les ombres entrelacées.
(III) Principe de la fusion du gyroscope à trois axes et de la vision binoculaire
Le gyroscope trois axes intégré au module (IMU) peut acquérir la vitesse angulaire et les données d'accélération linéaire de l'appareil à haute fréquence, dépassant largement la fréquence d'images visuelles. Sa fonction principale est de compenser les lacunes de la vision binoculaire dans les scènes dynamiques. Les systèmes de vision binoculaire sont sujets à des problèmes tels que l'échec de la correspondance des points caractéristiques et les lacunes dans le calcul de la profondeur lors de mouvements rapides, de scènes avec des textures manquantes ou d'occlusions temporaires. Le gyroscope peut fournir des données de changement d'attitude de l'appareil en temps réel, permettant une compensation collaborative de la "vision + inertie".
Grâce à des algorithmes de fusion de données, les données d'attitude du gyroscope peuvent prédire le décalage de position de l'image suivante, aidant le système binoculaire à verrouiller rapidement les points caractéristiques et à corriger les erreurs d'imagerie causées par le flou de mouvement. Simultanément, lorsque les informations visuelles sont brièvement perdues, les données du gyroscope maintiennent l'estimation de la pose de l'appareil, évitant ainsi les interruptions dans le calcul de la profondeur. Cette architecture de fusion crée un avantage complémentaire de "calibrage visuel de la dérive inertielle, et compensation inertielle des angles morts visuels", améliorant la stabilité de la perception dans les scènes dynamiques.
(IV) Acquisition audio et principe collaboratif de deux microphones en silicium
Les deux microphones en silicium intégrés adoptent une disposition en réseau, s'appuyant sur la technologie de formation de faisceaux pour obtenir une capture sonore directionnelle et une réduction du bruit. Les deux microphones acquièrent simultanément des signaux sonores, et des algorithmes calculent les différences de phase et de temps entre les deux signaux pour localiser précisément la direction de la source sonore. Simultanément, une annulation de phase est effectuée sur le bruit ambiant, supprimant le bruit provenant des directions non ciblées (telles que le bruit de flux d'air et le bruit de fond) par inversion et superposition de signaux, tout en améliorant la source sonore cible.
L'acquisition audio et l'imagerie visuelle forment un flux de données audio-visuelles synchronisé. L'étalonnage temporel au niveau matériel assure un alignement précis des images sonores et visuelles, fournissant un support fondamental pour l'analyse de fusion audio-visuelle (telle que la lecture labiale, la localisation de la source sonore et la synchronisation d'images), évitant ainsi les problèmes de délai de synchronisation des appareils audio-visuels séparés traditionnels.
II. Caractéristiques techniques principales
(I) Imagerie haute définition et sortie haute fréquence d'images, équilibrant précision et performance en temps réel
Le module est équipé de deux capteurs CMOS de 2 mégapixels, produisant des images de résolution 1920×1080 par canal. Le stitching horizontal crée une image ultra-large de 3840×1080, avec une densité de pixels suffisante pour capturer les détails de petites cibles. Les capteurs utilisent une taille de capteur de 1/2,9 pouce avec une taille de pixel de 2,8 µm. Combiné à une circuitry photosensible optimisée, le rapport signal/bruit atteint 38 dB dans des conditions de faible luminosité, maintenant la clarté de l'image et réduisant les interférences de bruit même dans des environnements peu éclairés.
Une fréquence d'images stable de 30 images par seconde couvre entièrement les besoins des scènes dynamiques typiques. La technologie de synchronisation d'images au niveau matériel garantit que l'erreur de synchronisation de l'acquisition par double caméra est contrôlée à la microseconde près, évitant les déviations de calcul de parallaxe causées par l'asynchronisme des images, ce qui constitue une garantie fondamentale pour la précision de la mesure de profondeur. Elle prend également en charge la sortie au format RAW sans perte, préservant plus de détails d'image et réservant de l'espace pour l'optimisation des algorithmes backend.
(II) Large plage dynamique 90 dB, s'adaptant aux scénarios d'éclairage complexes
La plage dynamique étendue de 90 dB se situe à un niveau intermédiaire pour les applications industrielles. En utilisant la technologie d'exposition multi-images native du capteur, elle offre une fidélité d'image et une rétention des détails supérieures à celles de la plage dynamique étendue numérique (dWDR), sans sur-accentuation ni distorsion des couleurs. Dans des scénarios de forte luminosité et de contre-jour, tels que le contrôle d'accès, la surveillance extérieure et les systèmes de vision embarqués, elle peut clairement présenter à la fois les traits du visage et l'environnement de fond, évitant ainsi les problèmes des caméras traditionnelles tels que les "zones lumineuses surexposées et les zones sombres sous-exposées".
La collaboration approfondie entre l'algorithme de large plage dynamique et le capteur permet un réglage automatique de l'exposition, ajustant dynamiquement la combinaison de durée d'exposition en fonction de l'intensité lumineuse de la scène. Il s'adapte à une large gamme de conditions d'éclairage, du soleil direct (comme le soleil de midi) aux environnements à faible luminosité (comme la nuit en intérieur), produisant de manière stable des images claires sans intervention manuelle.
(III) La fusion du gyroscope à trois axes améliore la stabilité de la perception dynamique
L'introduction d'un gyroscope à trois axes permet au module de percevoir la posture de mouvement, autorisant une surveillance en temps réel du tangage, du roulis et du lacet de l'appareil, avec des fréquences d'échantillonnage atteignant le niveau du kilohertz. Dans les applications dynamiques telles que les robots mobiles, les appareils portables et les scénarios montés sur véhicule, il compense efficacement le flou d'image causé par les secousses de l'appareil, aidant les systèmes binoculaires à réaliser le suivi de cibles mobiles et une mesure de distance précise.
Cette architecture de fusion emploie un mécanisme de traitement à quatre niveaux : couche de capteur - couche de prétraitement - couche de fusion - couche d'optimisation. Les données du gyroscope sont utilisées pour calibrer les données visuelles en temps réel, corrigeant les erreurs de mouvement dans les calculs de parallaxe. Cela garantit que l'atténuation de la précision de la mesure de profondeur est contrôlée à moins de 5 % même dans des environnements à mouvement rapide ou vibrants, surpassant considérablement les systèmes de vision binoculaire purs.
(IV) L'adaptabilité multi-lentilles étend les scénarios
Le module est livré avec un objectif grand angle par défaut de 90°, répondant aux exigences de couverture du champ de vision de la plupart des scénarios généraux. Il offre également une riche sélection d'objectifs optionnels, couvrant différents angles de champ de vision et niveaux de contrôle de la distorsion, s'adaptant à divers scénarios d'application. Les objectifs de la série sans distorsion (45°, 60°, 89°, 100°) utilisent une conception optique à faible distorsion, avec des taux de distorsion strictement contrôlés à moins de 0,5 %, maximisant la préservation de l'intégrité géométrique de l'image. Cela les rend adaptés aux scénarios sensibles à la distorsion d'image, tels que la mesure par vision artificielle et la reconnaissance faciale de haute précision. L'objectif micro-distorsion de 120° minimise la distorsion tout en maintenant un large champ de vision, équilibrant la couverture de la scène et la précision de l'image, ce qui le rend adapté à la perception panoramique dans des espaces moyens à grands tels que les halls d'exposition et les salles de conférence. L'objectif grand angle de 165° permet la capture de scènes à grande échelle, s'adaptant aux besoins de surveillance extérieure et de couverture de grands lieux. L'objectif global de 220° utilise une structure optique fisheye, permettant une acquisition panoramique quasi sans angle mort. Combiné à des algorithmes de stitching IA, il peut couvrir l'intégralité du champ de vision dans des espaces clos, adapté aux scénarios VR, à la surveillance de petites salles de serveurs et à d'autres scénarios spéciaux.
Tous les objectifs utilisent l'interface standard M12, offrant une installation et un démontage pratiques ainsi qu'une forte compatibilité. Ils prennent également en charge des filtres à bande étroite optionnels tels que les filtres infrarouges 850 nm, élargissant les capacités d'imagerie infrarouge et s'adaptant aux scénarios de faible luminosité tels que la reconnaissance faciale nocturne. Grâce à un schéma d'étalonnage optique unifié, quel que soit l'objectif utilisé, un faible niveau de distorsion inférieur à 0,5 % peut être maintenu, réduisant efficacement l'impact de la distorsion géométrique de l'image sur le calcul de parallaxe binoculaire et la mesure de profondeur. Cela garantit une précision de perception constante sur différentes configurations d'objectifs, fournissant une base d'image stable pour l'optimisation des algorithmes backend.
(V) Intégration audio à double microphone en silicium pour une perception audio-visuelle collaborative
Les deux microphones en silicium intégrés utilisent une solution de réduction du bruit de qualité industrielle, améliorant la réduction du bruit de plus de 40 % par rapport à l'enregistrement à microphone unique. Cela permet d'atteindre plus de 95 % de précision dans la reconnaissance de la voix humaine, même dans des environnements bruyants de 60 dB (tels que les ateliers et les lieux publics). La technologie d'ajustement dynamique du gain s'adapte automatiquement aux sources sonores de différents volumes, évitant ainsi l'enregistrement peu clair des paroles douces et la distorsion des paroles fortes.
La synchronisation audio-vidéo utilise un étalonnage temporel matériel, avec une latence contrôlée à moins de 10 ms. Cela permet la localisation de la source sonore et la liaison de l'image — après avoir localisé la position de la source sonore par différence de phase sonore, elle se lie à la vision binoculaire pour se concentrer sur la zone cible, adaptée aux scénarios nécessitant une analyse audio-vidéo collaborative, tels que la surveillance intelligente et l'interaction homme-machine.
III. Scénarios d'application et valeur technologique
Le module Yinglongxin 2UK2, avec sa large plage dynamique, sa perception de profondeur de haute précision et ses fonctionnalités de collaboration audio-visuelle, est largement adaptable à divers domaines tels que les systèmes de contrôle d'accès et de pointage, les robots intelligents, la vision embarquée et la surveillance de sécurité. Dans les scénarios de contrôle d'accès, la combinaison d'une large plage dynamique et de lentilles infrarouges peut résoudre les défis de la reconnaissance faciale en contre-jour et la nuit ; dans le domaine des robots mobiles, la fusion gyroscope et binoculaire peut améliorer la précision de la navigation et de l'évitement d'obstacles ; dans les scénarios automobiles, l'imagerie ultra-large et la compensation dynamique peuvent réaliser des fonctions telles que la reconnaissance des lignes de voie et la mesure de la distance des obstacles.
La valeur fondamentale de ce module réside dans le dépassement des limitations d'application des appareils à vision ou à audio unique grâce à l'intégration de fonctions matérielles et à l'optimisation collaborative des algorithmes. Avec ses capacités complètes de "imagerie haute définition + mesure de distance précise + attitude stable + réception sonore claire", il répond aux besoins de perception intelligente dans des scénarios complexes, fournissant une solution de perception sous-jacente hautement fiable pour les appareils terminaux.