USB広ダイナミックレンジ双眼カメラの動作原理と技術的特徴は何ですか?
簡単に言うと、人間の目の間の距離の半分に通常配置された2つのカメラで構成され、人間の視覚をシミュレートします。2つの異なる視点から同時に画像をキャプチャし、アルゴリズムを使用してそれらを深度と色情報を持つ単一の画像に融合することで、よりリアルな3D視覚効果を実現します。
機械視覚、インテリジェント認識、空間知覚などの分野において、人間の目に似た立体画像を取得する能力を持つステレオカメラは、3D空間情報を取得するためのコアデバイスとなっています。英龍芯インテリジェント2UK2ワイドダイナミックレンジステレオカメラモジュールは、2メガピクセル高精細画像、90dBワイドダイナミックレンジ、3軸ジャイロスコープ、デュアルシリコンマイクなどの機能を統合しています。ハードウェアの連携とアルゴリズムの最適化により、複雑なシナリオで高精度な知覚と安定した出力を実現します。本稿では、このモジュールの動作原理と技術的特徴の2つの側面から体系的に解析します。
I. コア動作原理
(I)双眼ステレオビジョン撮像原理
2UK2は、パッシブ型ステレオビジョン技術を採用しています。そのコアロジックは、人間の両眼視差測距メカニズムをシミュレートし、デュアルカメラで同時にシーン画像を取得し、空間的な深度情報を計算します。ハードウェアの基盤は、固定された水平間隔(ベースライン距離)を持つ2つの2メガピクセルセンサーで構成されています。2台のカメラは異なる視点から同じシーンを同時にキャプチャし、2つの1920×1080解像度の画像(左チャンネルと右チャンネル)を生成し、それらを水平方向にステッチして、3840×1080@30FPSの複合ビデオストリームを出力します。
奥行き計算の核心は、視差計算と三角測量にあります。システムは特徴点マッチングアルゴリズムを使用して、左右の画像における対応するオブジェクトのピクセル位置を特定し、それらの間の視差(左右の画像における同じオブジェクトのピクセルオフセット)を計算します。デュアルカメラのベースライン距離やレンズの焦点距離などの既知のパラメータと組み合わせることで、システムは三角測量式を使用してオブジェクトの3D座標を逆算します。視差は距離に反比例し、距離が近いほど視差は大きくなります。2メガピクセルの高解像度と組み合わせることで、ミリメートルレベルの奥行き測位精度を実現できます。一方、30FPSのフレームレートは奥行き情報のリアルタイム更新を保証し、動的なシーンでの知覚ニーズを満たします。
(II)90dB広ダイナミックレンジ撮像原理
ワイドダイナミックレンジ(WDR)技術は、強い光と弱い光が混在するシーンでの画像歪みを解決することを目的としています。90dBのダイナミックレンジは、カメラが最も明るい領域と最も暗い領域の間で3162:1の照明比率を認識できることを意味します(dB = 20log(最も明るい照明/最も暗い照明))。これは通常の人間が見る範囲をはるかに超えています。2UK20は、センサーレベルのマルチフレーム露光フュージョン技術を採用しており、従来のデジタルワイドダイナミックレンジのソフトウェア補間最適化とは異なり、真のワイドダイナミックレンジに属します。
そのワークフローは以下の通りです。センサーは、同じシーンの異なる露出時間を持つ2つ(またはそれ以上)の画像フレームを迅速に取得します。1つのフレームは短い露出を使用し、明るい領域の詳細を捉え、露出過多を回避します。もう1つのフレームは長い露出を使用し、暗い領域の情報を復元し、露出不足を補います。DSPチップのピクセルレベル融合アルゴリズムにより、2つのフレームの効果的なピクセル情報が抽出され、露出過多および露出不足領域の歪んだピクセルが除去され、最終的に明るい領域と暗い領域の両方に鮮明な詳細を持つ画像を合成し、逆光、直接的な強い光、影のインターレースなどの複雑な照明環境に適応します。
(III)3軸ジャイロスコープと両眼視の融合原理
モジュールの内蔵3軸ジャイロスコープ(IMU)は、デバイスの角速度と線形加速度データを、ビジュアルフレームレートをはるかに超える高周波で取得できます。その中核機能は、動的なシーンにおける両眼視の欠点を補うことです。両眼視システムは、急速に移動したり、シーンのテクスチャが欠落したり、一時的なオクルージョンが発生したりすると、特徴点マッチングの失敗や深度計算のギャップなどの問題を起こしやすいです。ジャイロスコープはリアルタイムのデバイス姿勢変化データを出力でき、「ビジョン+慣性」の協調補償を実現します。
データ融合アルゴリズムにより、ジャイロスコープの姿勢データを次のフレームの位置ずれ予測に活用し、両眼システムが特徴点を迅速に捕捉するのを支援し、モーションブラーによる撮像誤差を補正します。同時に、視覚情報が一時的に失われた場合でも、ジャイロスコープデータはデバイスの姿勢推定を維持し、深度計算の中断を防ぎます。この融合アーキテクチャは、「視覚による慣性ドリフトのキャリブレーション、および慣性による視覚のブラインドスポットの補償」という相補的な利点を形成し、動的なシーンでの知覚安定性を向上させます。
(IV)デュアルシリコンマイク音声取得と協調原理
内蔵されたデュアルシリコンマイクはアレイレイアウトを採用し、ビームフォーミング技術によって指向性のある集音とノイズリダクションを実現しています。2つのマイクが同時に音響信号を取得し、アルゴリズムが2つの信号間の位相差と時間差を計算することで、音源の方向を正確に特定します。同時に、周囲のノイズに対して位相キャンセルを実行し、信号の反転と重ね合わせによって、ターゲット以外の方向からのノイズ(空気の流れのノイズや背景ノイズなど)を抑制し、ターゲット音源を強調します。
音声取得と映像取得は同期されたオーディオビジュアルデータストリームを形成します。ハードウェアレベルのタイミングキャリブレーションにより、音声と映像フレームの正確なアライメントが保証され、オーディオビジュアル融合分析(リップリーディング、音源定位、映像同期など)の基本的なサポートを提供し、従来の別々のオーディオビジュアルデバイスの同期遅延問題を回避します。
II. コア技術的特徴
(I)高解像度イメージングと高フレームレート出力、精度とリアルタイムパフォーマンスのバランス
このモジュールは、デュアル2メガピクセルCMOSセンサーを搭載しており、チャンネルごとに1920×1080解像度の画像を生成します。水平方向にステッチングすることで、超広角の3840×1080画像を生成し、ピクセル密度は小さなターゲットの詳細を捉えるのに十分です。センサーは1/2.9インチのセンサーサイズと2.8µmのピクセルサイズを採用しています。最適化された感光回路と組み合わせることで、低照度下での信号対雑音比は38dBに達し、低照度環境でも画像の鮮明さを維持し、ノイズ干渉を低減します。
安定した30FPSのフレームレートは、一般的な動的なシーンのニーズを完全にカバーします。ハードウェアレベルのフレーム同期技術により、デュアルカメラ取得のタイミングエラーをマイクロ秒単位で制御し、フレーム非同期による視差計算のずれを防ぎ、深度測定精度の基本的な保証を提供します。また、ロスレスRAW形式の出力をサポートし、より多くの画像詳細を保持し、バックエンドアルゴリズム最適化のためのスペースを確保します。
(II)90dB広ダイナミックレンジ、複雑な照明シナリオに対応
90dBの広いダイナミックレンジは、産業用途としては中程度のレベルです。センサーネイティブのマルチフレーム露光技術を活用することで、デジタルワイドダイナミックレンジ(dWDR)と比較して、オーバーシャープネスや色歪みを伴わずに、より高い画像忠実度とディテール保持を実現します。アクセス制御、屋外監視、車載ビジョンシステムなどの強い光や逆光のシナリオにおいて、顔の特徴と背景環境の両方を明確に提示でき、従来のカメラの「明るい部分の露出オーバーと暗い部分の露出アンダー」という課題を回避します。
広ダイナミックレンジアルゴリズムとセンサーの深い連携により、シーンの光強度に応じて露出時間設定を動的に調整し、自動露出調整を実現します。直射日光(真昼の太陽など)から低照度環境(屋内夜間など)まで、幅広い照明条件に対応し、手動操作なしで安定して鮮明な画像を生成します。
(III)3軸ジャイロスコープフュージョンによる動的知覚安定性の向上
3軸ジャイロスコープの導入により、モジュールは動作姿勢を認識できるようになり、デバイスのピッチ、ロール、ヨーの動きをリアルタイムで監視できます。サンプリング周波数はキロヘルツレベルに達します。モバイルロボット、ハンドヘルドデバイス、車両搭載シナリオなどの動的なアプリケーションでは、デバイスのジッターによる画像ブレを効果的に相殺し、双眼システムが移動ターゲットの追跡と正確な距離測定を達成するのを支援します。
この融合アーキテクチャは、センサー層 - 前処理層 - 融合層 - 最適化層の4段階の処理メカニズムを採用しています。ジャイロスコープデータは、視覚データをリアルタイムでキャリブレーションするために使用され、視差計算におけるモーションエラーを補正します。これにより、高速移動または振動環境でも、深度測定精度の減衰を5%以内に制御でき、純粋な双眼視覚システムを大幅に上回ります。
(IV)マルチレンズ適応性によるシナリオ拡張
このモジュールには、ほとんどの一般的なシナリオの視野角カバレッジ要件を満たす、デフォルトの90°広角レンズが付属しています。また、さまざまな視野角と歪み制御レベルをカバーする豊富なオプションレンズセレクションを提供し、多様なアプリケーションシナリオに対応します。歪み補正シリーズレンズ(45°、60°、89°、100°)は、低歪み光学設計を採用し、歪み率を0.5%以内に厳密に制御することで、画像の幾何学的完全性を最大限に維持します。これにより、機械的視覚測定や高精度顔認識など、画像歪みに敏感なシナリオに適しています。120°マイクロ歪みレンズは、広い視野角を維持しながら歪みを最小限に抑え、シーンのカバレッジと画像精度をバランスさせ、展示ホールや会議室などのミディアムからラージスペースでのパノラマ認識に適しています。165°広角レンズは、大規模なシーンキャプチャを可能にし、屋外監視や大規模会場のカバレッジニーズに対応します。220°グローバルレンズは、魚眼光学構造を使用し、ほぼ死角のないパノラマ取得を実現します。AIステッチングアルゴリズムと組み合わせることで、閉鎖空間全体をカバーでき、VRシナリオ、小型サーバー室監視、その他の特殊シナリオに適しています。
すべてのレンズはM12標準インターフェースを採用しており、取り付け・取り外しが容易で互換性も高いです。また、850nm赤外線フィルターなどのオプションのナローバンドフィルターもサポートしており、赤外線イメージング機能を拡張し、夜間顔認識などの低照度シナリオに対応します。統一された光学キャリブレーションスキームにより、使用するレンズに関わらず、0.5%未満の低歪みレベルを維持でき、画像幾何歪みが両眼視差計算や深度測定に与える影響を効果的に低減します。これにより、異なるレンズ構成間での知覚精度のばらつきがなくなり、バックエンドアルゴリズムの最適化に安定した画像基盤を提供します。
(V)デュアルシリコンマイクオーディオ統合による協調オーディオビジュアル認識
内蔵デュアルシリコンマイクは、産業グレードのノイズリダクションソリューションを採用しており、シングルマイク録音と比較してノイズリダクションが40%以上向上しています。これにより、60dBの騒がしい環境(ワークショップや公共の場所など)でも、人間の音声認識精度が95%以上達成されます。ダイナミックゲイン調整技術は、異なる音量の音源に自動的に適応し、小さな声の不明瞭な録音や大きな声の歪みを回避します。
オーディオ・ビデオ同期はハードウェアタイミングキャリブレーションを使用し、遅延は10ms以内に制御されます。これにより、音源定位と画像連携が可能になります。音源位置を音響位相差で特定した後、両眼視と連携してターゲットエリアに焦点を合わせます。これは、インテリジェント監視やヒューマン・コンピューター・インタラクションなど、オーディオ・ビデオの協調分析を必要とするシナリオに適しています。
III. 応用シナリオと技術的価値
Yinglongxin 2UK2モジュールは、その広いダイナミックレンジ、高精度な深度知覚、および視聴覚連携機能により、入退室管理および勤怠管理システム、インテリジェントロボット、車両ビジョン、セキュリティ監視などのさまざまな分野に広く適応できます。入退室管理のシナリオでは、広いダイナミックレンジと赤外線レンズの組み合わせにより、逆光や夜間での顔認識の課題を解決できます。モバイルロボットの分野では、ジャイロスコープと双眼フュージョンにより、ナビゲーションと障害物回避の精度を向上させることができます。車両のシナリオでは、超広角イメージングと動的補償により、車線認識や障害物距離測定などの機能を実現できます。
本モジュールのコアバリューは、ハードウェア機能の統合とアルゴリズムの協調最適化により、単一の視覚または音声デバイスのアプリケーションの限界を打破することにあります。「高精細画像+高精度距離測定+安定した姿勢+クリアな音声受信」という包括的な能力により、複雑なシナリオにおけるインテリジェントな知覚ニーズを満たし、端末デバイスに非常に信頼性の高い基盤となる知覚ソリューションを提供します。