Hey, miles

莫等闲,白了少年头q

0%

11.IEEE_Radar_1

A paper form 2020 IEEE Radar Conference (RadarConf20)

Title & Authors:

NLP based Skeletal Pose Estimation using mmWave Radar Point-Cloud: A Simulation Approach
Arindam Sengqupta, Feng Jin and Siyang Cao
Department of Electircal and Computer Engineering
The University of Arizona

Abstract

人体骨架位姿估计可以在从远程病人监控,行人检测到国防安全和监控傻上看到应用。然而,传统的使用高分辨率的基于视觉的传感器容易在运作上遭受低光照或者目标遮挡的影响。雷达可以克服这些挑战,即使需要付出低分辨率的成本。毫米波雷达因为(on account of)有更高的带宽,有能力将目标呈现为一个稀疏点云,点云的分辨率比传统比与其类似的传统雷达高。一个受监督学习的方法被采纳并应用于点云的骨架估计,由于点云从帧到帧的随机性使得精确的(explicit)点到点之间的关系变得十分重要(non-trivial)。然而,可获得的雷达数据集的缺失使得开发有助于提升基于雷达的计算机视觉应用的机器学习辅助(machine-learning aided)方法极为困难。这篇文章中,我们介绍(present)了一个使用模拟的毫米波雷达类似(mmWave-radar-like)的点云数据来估计人类骨架上的关键点,方法使用了一个自然语言处理的手段。雷达点云的稀疏性和随机性通过在使用微软Kinect获得的数据上叠加随机采样进行模拟。两个模拟雷达点云的连贯的帧首次被体素化和聚合,并且一个序列到序列(seq2seq)的结构被用作“总结(summarizing)”点云到想要的(desired)骨架关键点。使用随机采样获得(obtained)的仿真数据来自(i)将3-D骨架基准坐标叠加偏差变化高斯噪声,(ii)进一步叠加随机的点云噪声。仿真数据被用来评估模型的性能。综合方法论,结果以及讨论都在这篇文章中被介绍。来自这个验证概念的仿真研究的有可信度的(promising)结果,可以作为未来使用毫米波雷达实验性研究的基础,这些研究也将为基于雷达的环境感知(perception)和计算机视觉的公共研究和开发而开源。
关键词——毫米波雷达,骨架跟踪,NLP,seq2seq,文本摘要(abstractive summarization)

I. Introduction

远程监控,检测和跟踪是对于健康监护,交通管理,安全监控和自动设备(autonomous vehicles)是极为重要的。虽然目标检测和跟踪可以使用经典的方法解决,最近在人工智能辅助系统上的进步拥有更大的能力去提供被检测目标的种类信息,例如汽车,建筑或者行人,在「4-6」中。特别是人类目标,骨架的关键点估计是计算机视觉社区中普遍的研究领域,任务是在静止的图片或者视频数据中辨认和检测人体上特定的关节点(joints)。这可以被用来以姿势的形式提供被检测到人体目标的颗粒信息,这是十分必要的,尤其是在目前医护监视职工缺失的远程病人监控上面。然而,前面提到的应用场景首先会使用光学传感的手段,例如红外传感器。虽然视觉长安起提供了高分辨率的场景叙述(depiction of the scene),他们也容易操作上遭受(suffer operationally)低照明,不利环境,或者甚至当目标被遮挡起来的影响,这可能会在现实场景中导致毁灭性的后果(devastating consequences),就像最近在Uber和Tesla自动驾驶机器上看到的测试事故。更多地,不断增加的因此顾虑也组织了光学器件被用在病人监护系统上。
另一方面,雷达在操作上就对场景照明或者天气条件更加robust,即使相比视觉传感器提供的是更低分辨率的场景信息。更多地,骨架姿势估计是相对来说在雷达传感器上未被探索的领域。有了高带宽配置,毫米波雷达(millimeter-wave, mmWave)雷达可以比传统雷达以更高分辨率呈现目标,但是相比视觉传感器依旧是稀疏的点云。然而,雷达点云帧到帧的随机性使得为被检测目标建立精确联系变得困难。基于受监督学习(Supervised machine learning, ML)的方法可以被采用,来学习关键的信息特征,和从分布点云中辨别与提取骨架上的关键点。然而,可获得的雷达点云数据集的缺失使得前面的全部在进一步的研究和开发方面更加地具有挑战性。
感觉这里好啰嗦

在这篇文章,我们提出(present) mmPose-NLP,一个使用仿真生成的毫米波雷达类似的点云数据的基于自然语言处理的姿势估计方法。仿真的数据是这样获得的:首先添加噪声到微软Kinect获得的骨架关节数据集中,然后使用随机采样的方法去大致地模仿雷达点云的随机性和稀疏性。使用了体素化的方法去生成独特的3-D位置到索引字典。使用了序列到序列(Sequence-to-Sequence, seq2seq)的结构进行点云的“文本摘要”和提取提取想要的骨架关键点。尽我们所知,我们提出的方法,除了我们之前的工作mm-Pose[10],是唯一一个基于电磁频率的能够预测>15个骨架关键点的姿势估计方法。mmPose-NLP能偶找到几个有用的应用场景,例如如图1所示的实时远程病人监控和自动器械,还有国防以及安全监控上。

现有的骨架关键点估计方法在Section II进行了文字叙述,随后是Section III叙述了我们提出的方法。在Section IV,为了验证我们提出的方法,我们讨论了研究过程(study)和结果,最后在Section V是结论和未来的工作。

骨架姿势估计已经被计算机视觉社区进行了广泛的研究,主要是使用光学传感器和ML架构。这一领域早期的一个工作包括Strike a Pose,方法从图片或者视频中检测人体姿势来定位10个不同的身体部位[10]。DeepCut以及加强的DeeperCut使用了一个ResNet架构开发了多人姿势估计模型[12-13]。谷歌的top-down方法使用全卷积的ResNet架构预测关键点,在COCO(Common Objects in Context)数据集上达到了很高的精度[14]。人体姿势估计中一个最流行的架构是卡耐基梅隆大学2016年获奖OpenPose(One of the most popular architectures for human pose estimation is Carnegie Mellon University’s 2016 COCO key-points challenge winning OpenPose, 这句话很奇怪),模型使用了部分亲和字段(Part Affinity Fields, PAF)展示和联系个体们不同的身体部分来估计他们的姿势[15],还有其跨平台的多功能性以及开源的数据集,使得它成为生成精准的GT数据集中最受欢迎的benchmarks。然而,前面提到的方法能够估计2-D的骨架姿势,因为他们使用了单眼摄像头获得的数据。为了帮助3-D骨架姿势估计的发展,HumanEva数据集被创建了,数据集使用了一个同步视频相机的环形阵列,还有一个需要在目标物上标记反光标记的ViconPeak动作捕获系统来获取GT[16]。另外的,使用微软Kinect获得的RGB相机和IR相机数据结合的像素级分类也能够产生骨架关键点的3-D位置信息[17],这也已经被用于仿真雷达micro-doppler特征[18].

虽然多种多样的使用雷达信号的人类行为检测方法已经被探索[19-21],骨架姿势估计与跟踪是RF和雷达社区中相对新和未被探索的研究领域,部分由于雷达相比视觉传感器更低的分辨率,部分由于开源雷达GT数据集的缺失。MIT的CSAIL实验室一直是基于RF的姿势估计的领先者,提出的RF-Capture是辨别几个人体部分的第一个方法,方法使用调频连续波(Frequency Modulated Continuous Wave, FMCW)信号,穿过墙壁,将他们“缝合”在一起获得一个粗糙的骨架[22]。紧随其后的RF-PoseRF-Based 3D Skeletons,同样是同一个团队提出,使用了1.8Ghz带宽(5.4 GHz-7.2 GHz)的FMCW信号以及垂直和水平分布的天线阵列配置,使用雷达热力图(radar heat-maps)估计2-D与3-D骨架姿势,分别是[23], [24]。在2019年,我们提出了mm-Pose,一个实时的使用77GHz毫米波雷达的姿势估计方法,使用了一个全新的低复杂性的雷达点云和能量等级的表示,作为一个分叉的CNN结构的输入去估计17个骨架关键点[10]。最终,一个使用3.3GHz-10GHz FMCW雷达阵列实现穿越墙的姿势成像的方法没提出,可结合卷积神经网络,区域生成网络和递归神经网络估计15个骨架关键点[25]。

本篇文章,我们提出mmPose-NLP,一个基于NLP的mmPose的扩展,应用与毫米波雷达点云的人体骨架关键点估计。类似毫米波雷达点云的数据,是通过随机采样一个噪声诱导(noise-induced)使用Kinect获得的骨架关键点信息仿真获得,来保持(retain)毫米波雷达点云中可观测道德稀疏性和随机性,这个研究的主要目标是探索一个类似(analogous)“抽象文本摘要”的方法来从稀疏随机点云表示中获得想要的骨架关键点,同时,相比前面提到的方法最小化定位误差。采样方法以及架构说明在接下来的章节中介绍。

III. Proposed Approach

一般地,毫米波雷达使用FMCW信号照明目标,返回的信号通过一个相干处理间隔(coherent processing interval, CPI)构成一个雷达数据立方体,三个坐标由fast-time,slow-time和channel构成。fast-time维度代表了反射点的距离信息,距离精度与chirp信号的带宽(β)有关,公式为 $$\frac{c}{2\beta}$$。slow-time维度提供了多普勒或者径向的速度信息,精度依赖于一个CPI中传播的脉冲数,或者说脉冲重复间隔(pulse repetition interval)。channel维度依赖于天线配置,提供了目标的角度信息。雷达数据立方体的处理方法首先是对三个维度各自使用FFT,随后使用移动目标指示(Moving Target Indication, MTI)和恒虚预警率(Constant False Alarm Rate, CFAR),聚类和跟踪,最终得到目标的点云表示,点云并非是反射点的绝对范围,速度和角度信息,同样N个反射点相对于雷达的的3-D位置$$(x_i,y_i,z_i) \forall i \in N$$。典型地,毫米波雷达操作带宽范围在3GHz-4GHz之间,获得3.75cm到5cm的范围分辨率。这暗示这一个单一的反射目标可以由多个反射点,并且因此可以被展示为点云。然而这个点云相对于视觉传感手段表示是非常稀疏的。更多地,反射点的数量经验地将会在帧与帧之间变化,导致了被检测目标在每帧点云数量上的随机性。在这篇研究中,我们计划仿真毫米波雷达类似的拥有稀疏性和随机性两个主要的目标特性的点云,同时保持一个和典型毫米波雷达可比较的分辨率。

A. Generating Simulated Radar Point-Cloud