清华大学陈宏伟教授团队:基于光学逐像素余弦编码的动作识别方法

Xsens动作捕捉 2023-05-10 3181

研究内容

视觉是人类感知世界的重要方式。相机作为记录视觉信息的载体,使得视觉信息得以保存和传播,同时赋予了机器“眼睛”,开启了机器视觉的时代。经过三次成像革命,经典成像方法在空间、时间、光谱等维度的发展已经达到瓶颈,光学模块、传感器模块、ISP模块、视觉算法模块等分离的视觉感知架构在各自独立优化的技术演进路线上其综合成像性能已经接近理论极限。近日,针对经典分立式成像模型存在的链路冗余、成本高昂、效率低下、缺乏协同等问题,清华大学陈宏伟教授团队提出新一代视觉感知引擎-元相机(MetaCam),面向不同视觉任务,构建光电联合全链路设计架构,打破信息融合壁垒,显著提高成像性能,拓宽视觉边界,有望成为元宇宙之“眼”,引领下一代成像技术。

清华大学陈宏伟教授团队:基于光学逐像素余弦编码的动作识别方法  第1张

该课题组依托元相机引擎,打造光学逐像素余弦编码技术,面向动作识别视觉任务,显著提高动作识别性能与效率,相关成果已发表于AIP出版社期刊APL Photonics,并被选为当期的亮点论文(Featured Article)。

清华大学陈宏伟教授团队:基于光学逐像素余弦编码的动作识别方法  第2张

动作识别是指对动态场景中出现的动作行为自动进行分类。主流动作识别架构的输入数据是相机逐帧拍摄的二维图片序列,即视频。其主要缺陷是时间分辨率与数据量存在矛盾,低帧率相机在捕捉高速运动会产生运动模糊,不利于动作识别;高帧率相机可以捕捉高速运动,避免运动模糊,但是捕捉相同时间区间的运动会导致数据量急剧增加,对数据存储、传输和计算造成巨大负担,使识别性能和速率受限。

清华大学陈宏伟教授团队:基于光学逐像素余弦编码的动作识别方法  第3张

离散余弦变换(DCT)是信号处理和数据压缩中广泛使用的变换技术,包括数字图像(如 JPEG 和 HEIF)、数字视频(如 MPEG 和 H.26x)等。DCT 具有“能量压缩”特性,能够在低数据量下实现高质量压缩。研究人员设计了通过光学逐像素编码方式采集场景时域DCT谱的方法,将时域DCT作为动作识别的输入数据,使得其数据需求大大下降。

该方法通过光学逐像素编码直接从真实的动态场景中捕获时域DCT 数据。首先,动态场景通过一组成像镜头投射到空间光调制器 (DMD) 上,DMD加载一组随时间变化的 DCT 编码基对场景光信号进行逐像素编码。编码光信号通过中间透镜后传输到图像传感器,中间透镜会逐像素缩放信号大小以适应传感器尺寸。最后,在曝光时间内对编码信号进行积分,从而实现在单次拍摄中捕获时域DCT 数据。此外,研究人员提出了频率注意力机制,通过采样不同频率的频谱来进行动作识别,筛选出对动作识别有用的频谱,去除对动作识别无用的频谱,实现了自适应频谱采集。

清华大学陈宏伟教授团队:基于光学逐像素余弦编码的动作识别方法  第4张

实验证明该方法以更少的数据、更少的通信带宽和更少的计算负担达到了更高的动作识别性能。与基于视频的动作识别方法相比,仿真和实验都表明该方法能够将数据量减少75%,动作识别性能提升5.2%,提高了动作识别效率。

清华大学陈宏伟教授团队:基于光学逐像素余弦编码的动作识别方法  第5张

研究提出的光学逐像素余弦编码方案可以扩展到实现其他各种基于视频的视觉任务中。这项研究有望在安防监控、自动驾驶、虚拟现实、智慧城市等领域得到广泛应用。


团队介绍:

清华大学陈宏伟教授团队主要从事光电混合计算及信息处理、光子智能感知及集成光电子技术等方面研究工作。主持了国家重点研发计划项目、国家自然科学基金重点项目以及北京市科技项目等,获得省部级奖励3项。研究成果发表于Nature CommunicationsLight: Science & Applications等国际著名学术期刊。累计发表SCI期刊论文100余篇,获国家发明专利授权14项。科研成果被MIT Technology Review、SPIE Newsroom、科学网、《中国科学报》等中外科技媒体报道。


原文信息

标题:Action recognition based on discrete cosine transform by optical pixel-wise encoding

期刊:APL Photonics 7, 116101 (2022)

作者:Yu Liang, Honghao Huang, Jingwei Li, Xiaowen Dong, Minghua Chen, Sigang Yang, and Hongwei Chen

原文链接:
https://doi.org/10.1063/5.0109807


期刊介绍

APL Photonics 旨在促进光子学的基础、应用和多学科研究。我们的目标是通过稳健的编辑流程,出版高质量的、代表了重大突破,全新理解的科研成果,或具有长期影响的前瞻性文章。我们的使命是为国际光子学和更广泛的社区提供公开的资源。

清华大学陈宏伟教授团队:基于光学逐像素余弦编码的动作识别方法  第6张


AIP出版社

美国物理联合会出版社(AIP 出版社)是美国物理联合会(AIP)旗下的非营利独资出版社。AIP 出版社的使命是在物理和相关科学领域开展学术出版活动,以支持AIP的慈善、科学和教育目标。我们也代表出版合作伙伴进行出版活动,以帮助其积极推进自身的使命。

访问主页:
https://publishing.aip.org/

清华大学陈宏伟教授团队:基于光学逐像素余弦编码的动作识别方法  第7张

The End