Reading | 混合现实系统中的网络流媒体和压缩技术(综述)

近期在啃一份200+页的博士论文《Network Streaming and Com pression for Mixed Reality Tele-Immersion》，本来准备大致看一遍再梳理，无奈实在担心看完后面忘了前面，并且过程中要填的坑巨多，所以还是把看的东西一点点整理下来，看得懂就直接摘重点翻译，看不懂的地方可能会单独列出来。

翻译和整理过程中可能会有不少错误，欢迎指出！

下面是整个论文的第一章整理，基本是个概述，后面的部分整理完后我会把内容链接加上。

Keywords

3D混合现实，3D网络，3D网格压缩，3D点云压缩，3D渲染

研究动机

3D数据采集

3D数据采集设备逐渐普及。这些功能与运算能力的结合使得用户能够获得更完整的3D数据，例如具有基于3D网格和点云属性的3D几何。

压缩技术

媒体数据类型的标准化压缩技术已得到应用，而实时采集的3D点云和网格数据还没有广泛认可的编码标准。

带宽和服务质量

网络带宽和服务质量不断提升，这意味着可以传输更为复杂的3D数据。同时，诸如SDN(Software Defined Network, 软件定义网络)这样的新技术能够更好地控制网络性能。

3D渲染

Direct3D, OpenGL这样的API为我们提供了更可靠的渲染方式，特别是对于点云和网格，并且支持跨平台调用。

社交网络

LinkedIn, Facebook这样的社交网站类应用不断普及，让世界各地的人更方便地通信。在未来，社交网络很可能和混合现实相结合，从而产生更便捷的应用：远程面试、协作；社交游戏等。

研究挑战

3D压缩

重建后的3D网格和点云包含巨大数据量。本论文的一个重点内容就是研究如何有效地对它们进行压缩。这种压缩不仅要有效，更要能够满足端到端的实时性。

3D数据传输

3D数据量十分庞大，通常每帧数据量就超过1Mb。而往往很少的数据损失就会导致模型产生严重失真。另外，帧速率和帧大小会频繁变化，这给数据流同步带来了更大挑战。本论文将在一个实际的系统中专门处理这些问题。

信号和会话管理

不同类型的3D数据包含了如动画、纹理、网格、点云和立体声等信息，它们需要用合适的信号进行传输，并进行会话管理。

系统整合

3D混合现实系统相当复杂，包含了3D采集技术，3D渲染，网络模块和AI模块。每个模块运行在它们自己的线程上，调用不同的库函数，这中间就会产生冲突，比如兼容性、命名空间、操作系统问题等。

质量评估

如何评估不同的采集、渲染、压缩和传输方法的质量差异？

大型远程沉浸式系统架构

如上图所示，一个大型远程沉浸式系统架构主要包括：

3D采集模块

图中以黄色方块表示，主要用于从视频和音频数据流中获取有意义的3D信息。该模块主要包括三维重建、角色分析和3D音频采样。

人工智能模块

图中以蓝色方块表示，主要用于结合人工智能进行的认知、识别和动画。理想功能主要包括表情理解和虚拟形象对话能力。

网络模块

图中以绿色方块表示，主要用于处理网络、流量控制和数据压缩。本论文将开发适合该项目的网络和编码支持。

渲染模块

图中以粉色方块表示，它们是3D渲染相关的函数。主要包括3D音频合成、场景搭建和漫游。该模块在客户端会针对不同的3D数据使用不同的渲染器，它们之间并行工作，并将渲染结果合并在单个场景中。

研究问题

主要问题

在当前网络环境和压缩技术下，如何支持实时(以小于300毫秒为标准)的端到端数据流传输？

本论文将采用一个实验性集成系统来研究问题。这种以系统为中心的研究方法有着明显的优点，特别是在集成和优化策略的问题上。同时，这个雏形系统可以被用户真实体验到，便于获取不同技术实现方式下用户的反馈，做到以用户为中心的设计。

问题1

目前最先进的支持远程沉浸混合现实系统是什么？它与其他3D媒体应用有何关联？

这个问题目的是探索前人的相关工作，找到以前哪种混合现实系统有所发展，以及哪种技术能够在下一代系统中投入使用。

问题2

如何利用当下最先进的压缩算法，对高真实感的3D重建人物进行实时压缩和传输？

目前的技术存在这样的问题：当顶点数量增加时，对网格进行编解码的复杂度将线性增长。而前人对试试编解码的研究工作相对较少，使得我们的研究充满挑战。同时，压缩3D数据更容易产生数据丢失。因此本问题的目标在于找到一个可靠的传输协议，并同时较好地支持实时传输。

问题3

如何对基于网格的高真实感3D复制品实现高度自适应（有损）的实时压缩和传输？且网格可以用于不同的比特率和细节水平。

为了在真实的互联网上支持实时会话，必须在带宽变化时支持不同比特率。此外，由计算机图形学中的概念，3D物体可以用较低的细节程度(levels of detail, LoD)进行渲染，通常当物体在场景较远处时采用。基于这些动机，本论文将探索一种高度自适应的网格有损编解码器。

问题4

与实践中的实时点云压缩的现有技术相比，如何设计一种用于实时压缩随时间变化的3D点云算法，以达到有损彩色编码和具有可忽略的感知失真的帧间预测？

相比网格而言，点云更容易获取且内容较小。虽然实时点云压缩问题在过去有过不少相关研究，但和混合现实系统相结合的研究却寥寥。因此本论文调研了实时点云压缩的三个方面：实时有损彩色编码，有损帧间预测和系统评价方法。

问题5

如何为3D沉浸式系统设计一个特殊的3D流媒体引擎，使其与当前的互联网基础设施（即现有的传输和信令协议）进行兼容的通信？

本论文将研究混合现实系统（包含3D采集和渲染模块）中的3D流媒体支持，并为3D相关的模块开发一套统一的API来使用网络流设备。最后，在系统中加入支持媒体同步的模块。

贡献

用于互联网的3D远程沉浸式混合现实系统的全新架构和框架。
适合3D远程沉浸式混合现实系统的新几何编码方法；
3D远程沉浸式和混合现实系统的网络流媒体和信号处理方法；
将系统集成到大规模原型里，并初步建立以用户为中心的评估系统；
提出未来视频和图像编码标准的需求，开发基准测试工具，实现编解码器平台。

Reading | 混合现实系统中的网络流媒体和压缩技术(综述)

Keywords

研究动机

3D数据采集

压缩技术

带宽和服务质量

3D渲染

社交网络

研究挑战

3D压缩

3D数据传输

信号和会话管理

系统整合

质量评估

大型远程沉浸式系统架构

3D采集模块

人工智能模块

网络模块

渲染模块

研究问题

主要问题

问题1

问题2

问题3

问题4

问题5

贡献

大纲

第二章相关工作和技术背景

第三章流媒体实时优化

第四章优化渲染过程的编解码器

第五章高度自适应网格编解码器

第六章实时点云压缩的新方法

第七章整体框架整合

Keywords

研究动机

3D数据采集

压缩技术

带宽和服务质量

3D渲染

社交网络

研究挑战

3D压缩

3D数据传输

信号和会话管理

系统整合

质量评估

大型远程沉浸式系统架构

3D采集模块

人工智能模块

网络模块

渲染模块

研究问题

主要问题

问题1

问题2

问题3

问题4

问题5

贡献

大纲

第二章 相关工作和技术背景

第三章 流媒体实时优化

第四章 优化渲染过程的编解码器

第五章 高度自适应网格编解码器

第六章 实时点云压缩的新方法

第七章 整体框架整合

第二章相关工作和技术背景

第三章流媒体实时优化

第四章优化渲染过程的编解码器

第五章高度自适应网格编解码器

第六章实时点云压缩的新方法

第七章整体框架整合