Análisis en profundidad de la cámara binocular de amplio rango dinámico Yinglongxin 2UK2

Creado 04.14
¿Cuáles son los principios de funcionamiento y las características técnicas de una cámara binocular USB de amplio rango dinámico?
En pocas palabras, consta de dos cámaras, típicamente espaciadas a la mitad de la distancia entre los ojos humanos, simulando la visión humana. Al capturar simultáneamente imágenes desde dos perspectivas diferentes y utilizar algoritmos para fusionarlas en una sola imagen con información de profundidad y color, se logra un efecto visual 3D más realista.
En campos como la visión artificial, el reconocimiento inteligente y la percepción espacial, las cámaras binoculares, con su capacidad para simular la imagen estéreo como los ojos humanos, se han convertido en dispositivos centrales para la adquisición de información espacial 3D. El módulo de cámara binocular de amplio rango dinámico 2UK2 de Yinglongxin Intelligent integra imágenes de alta definición de 2 megapíxeles, amplio rango dinámico de 90 dB, un giroscopio de tres ejes, micrófonos de silicio duales y otras funciones. A través de la colaboración de hardware y la optimización de algoritmos, logra una percepción de alta precisión y una salida estable en escenarios complejos. Este artículo diseccionará sistemáticamente este módulo desde dos aspectos: su principio de funcionamiento y sus características técnicas.
I. Principio de funcionamiento principal
(I) Principio de imagen estéreo binocular
El 2UK2 emplea tecnología de visión binocular pasiva. Su lógica central simula el mecanismo humano de telémetro por paralaje binocular, adquiriendo simultáneamente imágenes de la escena a través de cámaras duales y calculando información de profundidad espacial. Su base de hardware consta de dos sensores de 2 megapíxeles con una separación horizontal fija (distancia de base). Las dos cámaras capturan simultáneamente la misma escena desde diferentes perspectivas, generando dos imágenes de resolución 1920×1080 (canales izquierdo y derecho), que luego se unen horizontalmente para generar una transmisión de video compuesta de 3840×1080@30FPS.
El núcleo del cálculo de profundidad reside en el cálculo de paralaje y la triangulación: El sistema utiliza un algoritmo de coincidencia de puntos característicos para localizar las posiciones de píxeles de objetos correspondientes en las imágenes izquierda y derecha, calculando la disparidad entre ellas —el desplazamiento de píxeles del mismo objeto en las imágenes izquierda y derecha. Combinando parámetros conocidos como la distancia de la línea base de la cámara dual y la distancia focal de la lente, el sistema utiliza fórmulas de triangulación para deducir inversamente las coordenadas 3D del objeto. La disparidad es inversamente proporcional a la distancia; cuanto menor es la distancia, mayor es la disparidad. Combinado con la resolución de alta definición de 2 megapíxeles, se puede lograr una precisión de posicionamiento de profundidad a nivel de milímetros. Mientras tanto, la velocidad de fotogramas de 30 FPS garantiza actualizaciones en tiempo real de la información de profundidad, satisfaciendo las necesidades de percepción en escenas dinámicas.
(II) Principio de imagen de amplio rango dinámico de 90 dB
La tecnología de Amplio Rango Dinámico (WDR, por sus siglas en inglés) tiene como objetivo resolver el problema de distorsión de imagen en escenas con luz intensa y baja. Un rango dinámico de 90 dB significa que la cámara puede reconocer una relación de iluminación de 3162:1 entre las áreas más brillantes y más oscuras (dB = 20log(iluminación más brillante/iluminación más oscura)), superando con creces el rango de la visión humana normal. El 2UK20 utiliza tecnología de fusión de exposición multifotograma a nivel de sensor, perteneciente a la categoría de verdadero rango dinámico amplio, que difiere de la optimización por interpolación de software del rango dinámico digital tradicional.
Su flujo de trabajo es el siguiente: El sensor adquiere rápidamente dos (o más) fotogramas de imágenes con diferentes tiempos de exposición para la misma escena. Un fotograma utiliza una exposición corta para capturar detalles en áreas brillantes, evitando la sobreexposición; el otro fotograma utiliza una exposición larga para restaurar información en áreas oscuras, compensando la subexposición. A través del algoritmo de fusión a nivel de píxel del chip DSP, se extrae la información de píxeles efectiva de los dos fotogramas y se eliminan los píxeles distorsionados en áreas sobreexpuestas y subexpuestas, sintetizando finalmente una imagen con detalles claros tanto en áreas brillantes como oscuras, adaptable a entornos de iluminación complejos como contraluz, luz directa intensa y sombras entrelazadas.
(III) Principio de Fusión de Giroscopio de Tres Ejes y Visión Binocular
El giroscopio de tres ejes (IMU) integrado en el módulo puede adquirir datos de velocidad angular y aceleración lineal del dispositivo a alta frecuencia, superando con creces la velocidad de fotogramas visual. Su función principal es compensar las deficiencias de la visión binocular en escenas dinámicas. Los sistemas de visión binocular son propensos a problemas como fallos en la coincidencia de puntos de referencia y huecos en el cálculo de profundidad al moverse rápidamente, encontrar texturas de escena faltantes o experimentar oclusiones temporales. El giroscopio puede emitir datos de cambio de actitud del dispositivo en tiempo real, logrando una compensación colaborativa de "visión + inercia".
Mediante algoritmos de fusión de datos, los datos de actitud del giroscopio pueden predecir el desplazamiento posicional del siguiente fotograma, lo que ayuda al sistema binocular a bloquear rápidamente los puntos característicos y corregir los errores de imagen causados por el desenfoque de movimiento. Simultáneamente, cuando la información visual se pierde brevemente, los datos del giroscopio mantienen la estimación de la pose del dispositivo, evitando interrupciones en el cálculo de la profundidad. Esta arquitectura de fusión forma una ventaja complementaria de "calibración visual de la deriva inercial y compensación inercial de los puntos ciegos visuales", mejorando la estabilidad de la percepción en escenas dinámicas.
(IV) Adquisición de audio y principio colaborativo de micrófono de doble silicio
Los micrófonos duales de silicio integrados adoptan un diseño de matriz, que se basa en la tecnología de formación de haces para lograr una captación de sonido direccional y reducción de ruido. Los dos micrófonos adquieren simultáneamente señales de sonido, y los algoritmos calculan las diferencias de fase y tiempo entre las dos señales para localizar con precisión la dirección de la fuente de sonido. Simultáneamente, se realiza una cancelación de fase del ruido ambiental, suprimiendo el ruido de direcciones no objetivo (como el ruido del flujo de aire y el ruido de fondo) a través de la inversión y superposición de señales, al tiempo que se mejora la fuente de sonido objetivo.
La adquisición de audio y la imagen visual forman un flujo de datos audiovisual sincronizado. La calibración de tiempo a nivel de hardware garantiza una alineación precisa de los fotogramas de sonido e imagen, proporcionando soporte fundamental para el análisis de fusión audiovisual (como lectura de labios, localización de fuentes de sonido y sincronización de imágenes), evitando los problemas de retraso de sincronización de los dispositivos audiovisuales separados tradicionales.
II. Características Técnicas Principales
(I) Imagen de alta definición y salida de alta velocidad de fotogramas, equilibrando precisión y rendimiento en tiempo real
El módulo está equipado con sensores CMOS duales de 2 megapíxeles, que generan imágenes de 1920 × 1080 píxeles por canal. La unión horizontal crea una imagen ultra ancha de 3840 × 1080 píxeles, con una densidad de píxeles suficiente para capturar detalles de objetivos pequeños. Los sensores utilizan un tamaño de sensor de 1/2.9 pulgadas con un tamaño de píxel de 2.8 µm. Combinado con circuitos fotosensibles optimizados, la relación señal/ruido alcanza los 38 dB en condiciones de poca luz, manteniendo la claridad de la imagen y reduciendo la interferencia de ruido incluso en entornos con poca luz.
Una tasa de fotogramas estable de 30 FPS cubre completamente las necesidades de las escenas dinámicas típicas. La tecnología de sincronización de fotogramas a nivel de hardware garantiza que el error de temporización de la adquisición de doble cámara se controle dentro de los microsegundos, evitando desviaciones en el cálculo de paralaje causadas por la asincronía de fotogramas, lo que proporciona una garantía fundamental para la precisión de la medición de profundidad. También admite la salida en formato RAW sin pérdidas, conservando más detalles de la imagen y reservando espacio para la optimización de algoritmos de backend.
(II) Amplio rango dinámico de 90 dB, adaptación a escenarios de iluminación complejos
El amplio rango dinámico de 90 dB se encuentra en un nivel intermedio para aplicaciones industriales. Utilizando la tecnología nativa de exposición multimarco del sensor, ofrece una mayor fidelidad de imagen y retención de detalles en comparación con el rango dinámico amplio digital (dWDR), sin sobre-realzar ni distorsionar el color. En escenarios de luz intensa y contraluz, como control de acceso, monitoreo exterior y sistemas de visión montados en vehículos, puede presentar claramente tanto los rasgos faciales como el entorno de fondo, evitando los puntos débiles de las cámaras tradicionales como "áreas brillantes sobreexpuestas y áreas oscuras subexpuestas".
La profunda colaboración entre el algoritmo de amplio rango dinámico y el sensor permite el ajuste automático de la exposición, ajustando dinámicamente la combinación de duración de la exposición según la intensidad de la luz de la escena. Se adapta a una amplia gama de condiciones de iluminación, desde la luz solar directa (como el sol del mediodía) hasta entornos con poca luz (como interiores nocturnos), produciendo imágenes nítidas de forma estable sin intervención manual.
(III) La Fusión del Giroscopio de Tres Ejes Mejora la Estabilidad de la Percepción Dinámica
La introducción de un giroscopio de tres ejes permite al módulo percibir la postura del movimiento, lo que permite el monitoreo en tiempo real del movimiento de cabeceo, balanceo y guiñada del dispositivo, con frecuencias de muestreo que alcanzan el nivel de kilohertz. En aplicaciones dinámicas como robots móviles, dispositivos portátiles y escenarios montados en vehículos, contrarresta eficazmente el desenfoque de la imagen causado por la vibración del dispositivo, ayudando a los sistemas binoculares a lograr el seguimiento de objetivos en movimiento y la medición precisa de la distancia.
Esta arquitectura de fusión emplea un mecanismo de procesamiento de cuatro niveles: capa de sensor - capa de preprocesamiento - capa de fusión - capa de optimización. Los datos del giroscopio se utilizan para calibrar los datos visuales en tiempo real, corrigiendo los errores de movimiento en los cálculos de paralaje. Esto garantiza que la atenuación de la precisión de la medición de profundidad se controle dentro del 5% incluso en entornos de movimiento rápido o vibración, superando significativamente a los sistemas de visión binocular puros.
(IV) La adaptabilidad de múltiples lentes amplía los escenarios
El módulo viene con una lente gran angular predeterminada de 90°, que cumple con los requisitos de cobertura del campo de visión de la mayoría de los escenarios generales. También ofrece una rica selección de lentes opcionales, que cubren diferentes ángulos de campo de visión y niveles de control de distorsión, adaptándose a diversos escenarios de aplicación. Las lentes de la serie sin distorsión (45°, 60°, 89°, 100°) emplean un diseño óptico de baja distorsión, con tasas de distorsión estrictamente controladas a menos del 0,5%, maximizando la preservación de la integridad geométrica de la imagen. Esto las hace adecuadas para escenarios sensibles a la distorsión de la imagen, como la medición de visión artificial y el reconocimiento facial de alta precisión. La lente de microdistorsión de 120° minimiza la distorsión al tiempo que mantiene un amplio campo de visión, equilibrando la cobertura de la escena y la precisión de la imagen, lo que la hace adecuada para la percepción panorámica en espacios medianos a grandes, como salas de exposiciones y salas de conferencias. La lente gran angular de 165° permite la captura de escenas a gran escala, adaptándose a las necesidades de monitorización en exteriores y cobertura de grandes recintos. La lente global de 220° utiliza una estructura óptica de ojo de pez, logrando una adquisición panorámica casi sin puntos ciegos. Combinada con algoritmos de costura de IA, puede cubrir todo el campo de visión en espacios cerrados, adecuada para escenarios de RV, monitorización de salas de servidores pequeñas y otros escenarios especiales.
Todas las lentes utilizan la interfaz estándar M12, lo que ofrece una instalación y desmontaje convenientes y una gran compatibilidad. También admiten filtros de banda estrecha opcionales, como filtros infrarrojos de 850 nm, lo que amplía las capacidades de imagen infrarroja y se adapta a escenarios de poca luz, como el reconocimiento facial nocturno. Gracias a un esquema de calibración óptica unificado, independientemente de la lente utilizada, se puede mantener un nivel de distorsión bajo, inferior al 0,5 %, lo que reduce eficazmente el impacto de la distorsión geométrica de la imagen en el cálculo del paralaje binocular y la medición de profundidad. Esto garantiza una precisión de percepción constante en diferentes configuraciones de lentes, proporcionando una base de imagen estable para la optimización de algoritmos de backend.
(V) Integración de audio con micrófono de silicio dual para percepción audiovisual colaborativa
Los micrófonos duales de silicio integrados emplean una solución de reducción de ruido de grado industrial, mejorando la reducción de ruido en más del 40% en comparación con la grabación con un solo micrófono. Esto logra más del 95% de precisión en el reconocimiento de voz humana incluso en entornos ruidosos de 60 dB (como talleres y lugares públicos). La tecnología de ajuste de ganancia dinámica se adapta automáticamente a fuentes de sonido de diferentes volúmenes, evitando grabaciones poco claras de voz baja y distorsión de voz alta.
La sincronización de audio y video utiliza calibración de tiempo por hardware, con una latencia controlada dentro de los 10 ms. Esto permite la localización de la fuente de sonido y el enlace de imágenes: después de localizar la posición de la fuente de sonido a través de la diferencia de fase del sonido, se vincula con la visión binocular para enfocar el área objetivo, adecuado para escenarios que requieren análisis colaborativo de audio y video, como monitoreo inteligente e interacción humano-computadora.
III. Escenarios de Aplicación y Valor Tecnológico
El módulo Yinglongxin 2UK2, con su amplio rango dinámico, percepción de profundidad de alta precisión y funciones de colaboración audiovisual, es ampliamente adaptable a diversos campos como sistemas de control de acceso y asistencia, robots inteligentes, visión vehicular y monitoreo de seguridad. En escenarios de control de acceso, la combinación de amplio rango dinámico y lentes infrarrojos puede resolver los desafíos del reconocimiento facial en contraluz y de noche; en el campo de los robots móviles, la fusión de giroscopio y binocular puede mejorar la precisión de la navegación y la evitación de obstáculos; en escenarios vehiculares, la imagen ultra gran angular y la compensación dinámica pueden lograr funciones como el reconocimiento de líneas de carril y la medición de distancia a obstáculos.
El valor central de este módulo radica en romper las limitaciones de aplicación de dispositivos de visión o audio únicos a través de la integración de funciones de hardware y la optimización colaborativa de algoritmos. Con sus capacidades integrales de "imagen de alta definición + medición de distancia precisa + actitud estable + recepción de sonido clara", satisface las necesidades de percepción inteligente en escenarios complejos, proporcionando una solución de percepción subyacente altamente confiable para dispositivos terminales.
Contacto
Deja tu información y nos pondremos en contacto contigo.

Sobre nosotros

Acerca de waimao.163.com
Acerca de 163.com

Customization process

Video tutorial

News and Information

Servicios al cliente

Centro de ayuda
Comentarios

Binocular camera

Optical zoom camera

Other

Vender en waimao.163.com

Programa de socios

Contact number:+86 18028782667

WeChat:YLXZN666

Facebook:

https://www.seecaps.com/