让多媒体数据变得安全可控｜上海市科学技术奖

2023-11-09 09:21:58 35

、

2022年度上海市科学技术奖

强国复兴有我

优秀创新成果展示

今年5月，科技蓝闪耀上海。期间，暌违两年的上海市科学技术奖于5月26日在上海展览中心再度揭晓。胸怀“国之大者”，坚持“四个面向”，一大批标志性成果竞相涌现，为正处于关键跃升期的上海国际科技创新中心建设增添底色和亮度。

2022年度上海市科学技术一等奖获奖项目优秀创新成果来啦！本栏目以“强国复兴有我”为主题，重点围绕项目要解决的问题、取得的重要创新、实际应用效果等方面，向社会公众展示获奖成果。

本期“档案”大揭秘

项目名称：多媒体数据保护的理论与方法

完成单位：上海大学

完成人：张新鹏等

奖励等级：自然科学奖一等奖

图像、视频、音频等多媒体数据的应用越来越广泛，已经占据日常消费数据的90%以上。多媒体数据从生成、传输、处理到最终用户使用，每个环节都可能受到各种安全威胁。在生成环节，由于多媒体数据易于复制修改，出现了“特朗普伪造《时代》封面”等广受关注的内容篡改案例。在传输环节，多媒体数据可以成为机密消息的重要载体，如“911 事件”中恐怖分子把机密信息伪装为数字图像以实现隐蔽传输。在处理环节，云计算已成为主流发展趋势，如果为了保护隐私而将多媒体数据加密，又会使云服务器难以进行数据处理。彻底解决“内容认证”“机密伪装”“安全处理”三大问题，是多媒体信息安全的核心目标。

如何让多媒体数据变得安全可控？上海大学通信与信息工程学院教授、国家杰出青年科学基金获得者张新鹏带领的多媒体信息安全团队进行长期的探索和研究，巧妙地利用多媒体数据冗余来解决多媒体数据处理与数据安全难以兼顾的矛盾。多媒体数据中含有大量重复多余数据，这些冗余数据不提供真正信息，又与真正信息交融在一起，这是多媒体数据的固有属性。张新鹏带领研究团队发现原始域、隐蔽域、密文域的多媒体数据冗余内在规律，并借助这些看似无用的冗余数据，在数据冗余空间规范各种处理而对真正信息进行保护，取得一系列原创性成果，使得广大用户可以安全可控地有效使用多媒体数据，实现了多媒体数据从生产、传输、处理到使用的全流程保护。

鉴别图像真伪并恢复原始内容

数字内容非常易于篡改，特别是由数码相机或手机拍摄的照片。多年以前，利用photoshop这样的图像处理软件就可以轻易制作出以假乱真的照片，近年来利用深度学习方法的“换脸”技术更让人们不再相信“有图有真相”。虚假内容的泛滥会严重误导社会认知，已经成为困扰大众的重要问题。

张新鹏团队发展出了一系列自嵌入水印方法，就是将数字图像的重要内容经过处理后，以不可见的方式再嵌入于数字图像自身中，对数字图像起到保护作用。一旦图像内容被恶意篡改，便可利用已嵌入数据的被破环情况定位篡改区域，并且还可以利用未被破坏的已嵌入数据恢复篡改区域的原始内容。

内容篡改并发和水印数据浪费是自嵌入水印的痛点问题，导致真伪鉴定性能不高。张新鹏提出了参考数据共享机制与内容投影表示机制，可以有效克服上述两个难题，得到了国际学术界的广泛认可。以往方法只能实现图像块级别的篡改定位，而张新鹏的成果可以实现像素级别的精准定位；以往方法只能实现原始内容的大致恢复，而张新鹏的成果可以在篡改面积小于24%时完全无误地恢复原始内容。

利用多媒体数据承载机密信息

“脏纸通信模型”是一类经典的通信模型，已有40年历史。其含义就是在存在发送机产生的背景信号情况下怎样进行高效、可靠通信，类比于在脏纸上写字；而不存在背景信号的通信模型可以看作是在白纸上写字。信息隐写是脏纸模型的典型代表，通过修改普通的多媒体数据将机密信息嵌入于其中（多媒体数据即脏纸模型中的背景信号），用于机密信息的伪装或通信，核心目标是以低的失真实现高的嵌入率。

由信息论可证明脏纸模型的“嵌入率—平均失真”性能理论界与无背景信号的“白纸模型”相同，但已有方法的性能与理论界相距较大。为了提高“率失真”性能，张新鹏团队提出了双层隐写编码结构和多层编码结构，双层隐写编码结构可以由性能优异的二元隐写码衍生出性能优异的三元隐写码（如果二元隐写码性能达到理论界，则衍生的三元隐写码的性能也一定达到理论界），而多层编码结构可以耦合不同编码方法的优势，由一个性能优异的隐写码衍生出一系列性能优异、嵌入率不同的隐写码。这些编码方法的性能已接近“率失真”性能理论上界，11年来未被超越，剑桥出版社出版的国际通用教材《数字媒体隐写》用两节介绍该成果，并称“相当令人惊叹”。

密文多媒体数据的压缩和隐藏

加密是保护多媒体数据的常用手段，以往人们普遍认为加密破坏了信号内容及数据冗余，因而难以对密文数据进行进一步处理，这严重地限制了密文数据的云端处理与应用。张新鹏团队揭示了密文多媒体数据中仍然存在潜在冗余，并突破密文信号无法处理的传统观念，进一步揭示了对潜在冗余进行密文处理的效应在解密后会以明文形式呈现。

张新鹏团队对密文多媒体数据进行正交变换，然后舍弃过于粗糙和过于细节的量化数据就可以大大降低密文数据量，在没有密钥条件下实现密文域压缩；而接收方在有密钥的条件下，可根据压缩后的密文数据和自然图像特性进行迭代计算，逐步恢复原始明文图像，即同时进行解密和解压。有了密文多媒体数据压缩技术，可将密文多媒体数据的存储和传输效率平均提高4倍。

张新鹏团队还开拓了密文域信息隐藏这一新的研究方向，利用密文域的潜在冗余，可以将用于数据管理的额外数据嵌入到密文多媒体数据中。这些额外数据可以用于标识密文数据种类或密级，如果密文数据是个人隐私数据，那么额外数据可以是密文数据的所有者信息，这样不需要解密便可以实现密文数据的有效管理。

上述成果获国家自然科学基金重点、杰青、优青资助。在中国文化传媒知识产权保护平台、三六零科技有限公司、上海市音像馆等得到成功应用，并被国内外多媒体编码标准采纳11项，为维护规范、安全的网络秩序作出重要贡献。

查看更多创新成果报道

《奋楫·科技自立自强—

上海科技奖励新闻报道集锦》

点击文末阅读原文~

供稿来源：上海市科学技术奖励中心

供稿：张新鹏

编辑：蓝悦

查看更多创新成果报道

请点击 ↙↙「阅读原文」

↓点赞