近期在啃一份200+页的博士论文《Network Streaming and Com pression for Mixed Reality Tele-Immersion》,本来准备大致看一遍再梳理,无奈实在担心看完后面忘了前面,并且过程中要填的坑巨多,所以还是把看的东西一点点整理下来,看得懂就直接摘重点翻译,看不懂的地方可能会单独列出来。
翻译和整理过程中可能会有不少错误,欢迎指出!
下面是整个论文的第一章整理,基本是个概述,后面的部分整理完后我会把内容链接加上。
Keywords
3D混合现实,3D网络,3D网格压缩,3D点云压缩,3D渲染
研究动机
3D数据采集
3D数据采集设备逐渐普及。这些功能与运算能力的结合使得用户能够获得更完整的3D数据,例如具有基于3D网格和点云属性的3D几何。
压缩技术
媒体数据类型的标准化压缩技术已得到应用,而实时采集的3D点云和网格数据还没有广泛认可的编码标准。
带宽和服务质量
网络带宽和服务质量不断提升,这意味着可以传输更为复杂的3D数据。同时,诸如SDN(Software Defined Network, 软件定义网络)这样的新技术能够更好地控制网络性能。
3D渲染
Direct3D, OpenGL这样的API为我们提供了更可靠的渲染方式,特别是对于点云和网格,并且支持跨平台调用。
社交网络
LinkedIn, Facebook这样的社交网站类应用不断普及,让世界各地的人更方便地通信。在未来,社交网络很可能和混合现实相结合,从而产生更便捷的应用:远程面试、协作;社交游戏等。
研究挑战
3D压缩
重建后的3D网格和点云包含巨大数据量。本论文的一个重点内容就是研究如何有效地对它们进行压缩。这种压缩不仅要有效,更要能够满足端到端的实时性。
3D数据传输
3D数据量十分庞大,通常每帧数据量就超过1Mb。而往往很少的数据损失就会导致模型产生严重失真。另外,帧速率和帧大小会频繁变化,这给数据流同步带来了更大挑战。本论文将在一个实际的系统中专门处理这些问题。
信号和会话管理
不同类型的3D数据包含了如动画、纹理、网格、点云和立体声等信息,它们需要用合适的信号进行传输,并进行会话管理。
系统整合
3D混合现实系统相当复杂,包含了3D采集技术,3D渲染,网络模块和AI模块。每个模块运行在它们自己的线程上,调用不同的库函数,这中间就会产生冲突,比如兼容性、命名空间、操作系统问题等。
质量评估
如何评估不同的采集、渲染、压缩和传输方法的质量差异?
大型远程沉浸式系统架构
如上图所示,一个大型远程沉浸式系统架构主要包括:
3D采集模块
图中以黄色方块表示,主要用于从视频和音频数据流中获取有意义的3D信息。该模块主要包括三维重建、角色分析和3D音频采样。
人工智能模块
图中以蓝色方块表示,主要用于结合人工智能进行的认知、识别和动画。理想功能主要包括表情理解和虚拟形象对话能力。
网络模块
图中以绿色方块表示,主要用于处理网络、流量控制和数据压缩。本论文将开发适合该项目的网络和编码支持。
渲染模块
图中以粉色方块表示,它们是3D渲染相关的函数。主要包括3D音频合成、场景搭建和漫游。该模块在客户端会针对不同的3D数据使用不同的渲染器,它们之间并行工作,并将渲染结果合并在单个场景中。
研究问题
主要问题
- 在当前网络环境和压缩技术下,如何支持实时(以小于300毫秒为标准)的端到端数据流传输?
本论文将采用一个实验性集成系统来研究问题。这种以系统为中心的研究方法有着明显的优点,特别是在集成和优化策略的问题上。同时,这个雏形系统可以被用户真实体验到,便于获取不同技术实现方式下用户的反馈,做到以用户为中心的设计。
问题1
- 目前最先进的支持远程沉浸混合现实系统是什么?它与其他3D媒体应用有何关联?
这个问题目的是探索前人的相关工作,找到以前哪种混合现实系统有所发展,以及哪种技术能够在下一代系统中投入使用。
问题2
- 如何利用当下最先进的压缩算法,对高真实感的3D重建人物进行实时压缩和传输?
目前的技术存在这样的问题:当顶点数量增加时,对网格进行编解码的复杂度将线性增长。而前人对试试编解码的研究工作相对较少,使得我们的研究充满挑战。同时,压缩3D数据更容易产生数据丢失。因此本问题的目标在于找到一个可靠的传输协议,并同时较好地支持实时传输。
问题3
- 如何对基于网格的高真实感3D复制品实现高度自适应(有损)的实时压缩和传输?且网格可以用于不同的比特率和细节水平。
为了在真实的互联网上支持实时会话,必须在带宽变化时支持不同比特率。此外,由计算机图形学中的概念,3D物体可以用较低的细节程度(levels of detail, LoD)进行渲染,通常当物体在场景较远处时采用。基于这些动机,本论文将探索一种高度自适应的网格有损编解码器。
问题4
- 与实践中的实时点云压缩的现有技术相比,如何设计一种用于实时压缩随时间变化的3D点云算法,以达到有损彩色编码和具有可忽略的感知失真的帧间预测?
相比网格而言,点云更容易获取且内容较小。虽然实时点云压缩问题在过去有过不少相关研究,但和混合现实系统相结合的研究却寥寥。因此本论文调研了实时点云压缩的三个方面:实时有损彩色编码,有损帧间预测和系统评价方法。
问题5
- 如何为3D沉浸式系统设计一个特殊的3D流媒体引擎,使其与当前的互联网基础设施(即现有的传输和信令协议)进行兼容的通信?
本论文将研究混合现实系统(包含3D采集和渲染模块)中的3D流媒体支持,并为3D相关的模块开发一套统一的API来使用网络流设备。最后,在系统中加入支持媒体同步的模块。
贡献
- 用于互联网的3D远程沉浸式混合现实系统的全新架构和框架。
- 适合3D远程沉浸式混合现实系统的新几何编码方法;
- 3D远程沉浸式和混合现实系统的网络流媒体和信号处理方法;
- 将系统集成到大规模原型里,并初步建立以用户为中心的评估系统;
- 提出未来视频和图像编码标准的需求,开发基准测试工具,实现编解码器平台。