多媒体技术论文怎么写

发布时间:2017-06-17 04:58

多媒体技术是一种把文本、图形、图像、动画和声音等形式的信息结合在一起,能完成一系列交互式操作的信息技术。小编为大家整理的多媒体技术论文,希望你们喜欢。

多媒体技术论文怎么写

多媒体技术论文篇一

多媒体技术漫谈

摘要:这篇文章,主要是从宏观上总结了一下现阶段图像视频底层技术的发展及应用点,从一个图像视频算法研?a href='http://www.xx.com/yangsheng/kesou/' target='_blank'>咳嗽钡慕嵌忍敢惶付哉飧隽煊虻娜鲜丁M枷袷悠盗煊虻纳桃涤τ茫性诙嗝教?a href='http://www.xx.com/news/yule/' target='_blank'>娱乐、互联网、智能监控、工业机器视觉、OCR、生物特征识别、医学图像处理以及军事国防几个领域,多媒体领域是其中的一个重要分支,很多图像视频领域的新算法和新理论往往在多媒体领域得到最先的应用。

关键词:多媒体;视频智能编辑;视频感兴趣区;图像视频场景分析

中图分类号:TP37 文献标识码:A文章编号:1007-9599(2012)01-0000-02

Multimedia Technology Study

Du Pengxiang,Huang Shanshi

(China Telecom Co.,Ltd.,Wenzhou Branch,Wenzhou325000,China)

Abstract:This article is from the macro summarizes the development and application point of the current image video of the underlying technology from the perspective of an image of video algorithms researchers talk about the understanding of this area.The field of image and video business applications, multimedia entertainment,the Internet, intelligent monitoring,industrial machine vision,OCR,biometrics, medical image processing,as well as military defense in several areas, multimedia areas is an important branch of a lot of image field of video the new algorithms and new theories are often the first application in the multimedia field.

Keywords:Multimedia;Video intelligent editing;Video interest region;Image video scene analysis

多媒体领域主要集中了MicroSoft、Adobe、MITSUBISHI、Cyberlink、Muvee、Autodesk、Corel、Sony、2D3、MotionDSP等一批公司,以及与之相关的PAMI、IJCV、CVPR、ICCV、ECCV、SIGRAPH等众多多高水平的学术期刊和学术会议。多媒体领域的研究方向比较杂,包括但不限于下面几类,视频智能编辑、视频感兴趣区、图像视频场景分析、图像视频修复及后处理、人脸系列技术、非真实感渲染(NPL)系列技术、3D系列技术、人机交互技术等。

一、视频智能编辑

主要包括视频镜头边界检测以及在此基础上的视频自动故事片生成、视频广告检测、视频废镜头检测等。视频镜头边界检测在经历了一段时间的发展之后,检测率也达到一定的程度,目前基本上不再有新的文章出现。视频自动故事片生成往往需要音视频技术的结合,并且由于缺乏有效的评级机制,最近几年已经不是研究的热点,但是相信各个视频编辑领域的公司仍在研究或者开发过程之中。视频中的广告检测作为其中的一个小的分支,可能因为没有很大的商业价值,研究的并不多,但想要真正实现高的检测率,仍然有很多值得研究的地方。视频废镜头检测其实是视频修复的一部分,包括检测视频中的抖动片段、模糊片段、过曝过暗片段等,从而达到视频修复的目的。

(一)视频感兴趣区的研究

最近是一个热点方向,感兴趣区提取和跟踪可以用来做视频智能缩放,可以用来指导视频编辑中的精彩视频片段选择,还可以在片源采集时就用来指导摄像机捕捉精彩片段。人脸、人物、车辆、小动物、房屋、花草树木等在特定的场景下等都可以作为感兴趣区,感兴趣区提取的方式方法也比较多,但除了人脸、人物检测技术上还比较成熟之外,其他目标的检测很难达到满意的准确度。人物检测基础上的精细分割抠像技术,也是图像领域的一个基础研究方向,准确的抠像,是换背景等智能化效果的基础。

(二)图像视频场景分析

主要用在视频管理和视频按场景选择和编辑。通过对不同的场景的特征进行分析设计分类器进行分类,对于视频管理这种不要求很高精度的应用点可以满足要求。照片和视频按场景内容管理,跟基于人脸识别技术的照片管理,是基于内容管理的两个方式,相信今后的多媒体编辑和管理软件都会逐步增加这个功能。

(三)图像视频的修复及后处理

主要包括视频抖动修复、图像视频去模糊、视频过曝过暗修复、视频去雾化、老电影旧照片修复、马赛克修复、视频图像超分辨率、视频图像智能变比例缩放、视频帧插值、图像视频去噪等。

视频抖动修复关键是摄像机轨迹的检测,确定了摄像机的移动轨迹,视频修复就有了基础的指导。通过寻找视频中的特征点,然后对特征点进行跟踪,通过分析每个特征点的轨迹,确定摄像机的整体轨迹。如果假定视频中的内容都是一个平面上,只考虑摄像机在2D平面的轨迹,事情要容易的多,但事实上摄像机的轨迹应该是3D的,这就变成了一个“Structure from Motion”的问题,处理起来就比较复杂,但如果想得到理想的稳像效果,得出摄像机3D轨迹是必须的。另外,摄像机3D轨迹的求取,也是其他基于3D的视频应用的基础,这个后面再讲。

图像视频去模糊,这个的关键是寻找模糊核,也就是拍摄的瞬间摄像机或相机的运动轨迹,在这个运动轨迹上反卷积,就可以恢复摄像机不动情况下拍摄的视频、图像,也就是不模糊的视频、图像了。所以,对视频的去模糊,比起对图像的去模糊,手段要多一些,因为视频去模糊可以通过视频序列的信息来得到摄像机的运动轨迹。而图像的去模糊,这个运动轨迹只能是通过对图像内部结构的分析进行估计。考虑到轨迹估计和反卷积的运算量,不管是图像去模糊还是视频去模糊,目前都不算很成熟,但是成熟的产品应该会在短期内出现。

视频过曝过暗修复,如果视频质量不是太差,直方图被挤压的不是太厉害,还可以通过直方图均衡化的方式进行简单修复,但是如果直方图被挤压的很严重,那就只能删除了。

视频、图像去雾化,简单点说,就是把被雾化的图像建模为一个正常的无雾的图像与纯雾的图像的合成,因为拍摄得到图像中雾的灰度值与景深有关,所以好的去雾算法,应该是以准确的景深估计为基础的,3D景深估计也是一个很热的方向。

老电影旧照片修复,大概包括色彩的修复和一些划痕修复,色彩修复,可以以类似去雾的建模方式,也可以简单的做色调调节,问题都不大。划痕修复就比较复杂,除了要把划痕检测到,还要用周围的像素来填充划痕的像素,比较典型的全变分方法可以用来处理这类问题。

马赛克修复,马赛克修复基本上还是要从产生的原因入手,如果是编解码层的问题,可以对编解码的数据尝试修复。如果到了解码后的图像数据,想要修复就是一个无中生有的问题了,只能是依靠边缘纹理来去掉马赛克的效果,但是想要恢复图像内容,除非后台有一个强大的针对特定目标的数据库来支持虚构类似的内容,否则毫无办法。

视频、图像超分辨率,超分辨率的方法,总体来说两种思路,一种是挖掘图像的边缘信息,在图像放大的时候,尽量保边缘,这类方法以NEDI方法为典型,缺点是速度比较慢。另一类是基于Patch的方法,首先建立一个低分辨率Patch对应高分辨率Patch的映射表,前期先把这个映射关系建立好,然后就只需要通过查找映射表来进行超分辨率操作了。如果建立的映射表足够大,那就可以得到比较理想的超分辨率结果,理论上讲不论速度还是质量都比前一种方法要好。

视频图像智能变比例缩放,是指通过分析图像视频中的内容,在图像、视频缩放的过程中,保留有内容的关键区域比例不变,而压缩、扩展不重要的区域,这样看起来缩放后的图像、视频主要内容不会变形。基于图像的智能缩放算法比较成熟,基于视频的由于要考虑视频序列的前后帧的连续性,必须加入时间轴的约束,因此效果不如图像理想,做的不好会引出视频的抖动问题。

视频帧插值,可以用来解决帧率变化的情况下,出现的视频抖动问题,主要是一个视频的全局运动,类似于视频抖动检测,应该说技术上不复杂,但是视频中的局部运动会干扰全局的运动估计,这样插值出来的帧就会存在一定的瑕疵。

图像视频去噪,方法很多,简单点通过滤波高频信号的方法如高斯滤波,或者简单的中值滤波都可以有一定的效果,但是目前看来,最理想的方法还是非局部均值(NLM)方法。其他的一些例如偏微分方程的方法也可以尝试。

五、人脸系列技术

包括人脸检测、跟踪,人脸特征点定位,人脸识别,人脸的表情识别,人的年龄、性别识别,人脸的美化,人脸卡通效果,人脸的变形效果,人脸的3D重建等以及与此相关的眼睛检测和红眼修复等。

六、非真实感渲染(NPL)系列技术

包括水墨画、水彩画、油画、漫画效果等人工画效果,风、雪、雨、烟、雾、火焰、海浪等一些自然环境的模拟效果。

人工画效果的实现主要是基于Stroke的方式,难点在于图像的解析,一个好的人工画效果,需要正确的将图像分解为不同的区域,并分析不同区域的结构特点来确定用笔方式、Stroke的精细度等参数。

对自然环境的模拟,主要是一些粒子的模拟,可以采用基于物理模型的方式研究粒子的受力及运动方式,流体力学的相关方法是这个领域的核心。

NPL技术,除了用于对图像、视频的特效上,另外像一些烟雾效果和水墨画效果用于艺术字的特效也是不错的选择。

七、3D系列技术

3D技术在视频中的应用点,可以看到的有3D稳像、3D对象嵌入等等,这里的关键是获取摄像机的3D轨迹与视频中的特征点的3D深度信息,通过视频序列分析摄像机的3D轨迹的技术叫“Structure from Motion”,大量的文章可以参考。有了摄像机的3D轨迹与视频中的特征点的3D深度信息,2维的图像信息就一定程度扩展到了3维。全景图的拼接技术,本质上也利用了基于双目视觉3维重构的一部分技术。得到了3D摄像头轨迹,可以利用这个信息进行3D插帧,借此虚拟重构双目视觉画面,通过3D眼镜,就可以看到比较理想的3D场景了。3D的应用,可以想象的空间比较大,多了一维信息,总可以做出一些新的东西。

八、人机交互技术

人机交互是指通过摄像头捕捉人的手势、身体的姿态、面部表情、眼睛的移动等信息,代替传统的鼠标键盘来指导计算机做出相应的处理。技术层面主要涉及目标的检测、跟踪以及姿态的识别。相比之前提到的多媒体的各种方向,人机交互应该是最有市场前景的方向,应用点也非常多。

九、结论:

除了上述的这些技术方向之外,在此基础上或者与这些技术相关的一些其他的应用也可能不断的出现,多媒体领域可以说是人工智能的一个试验田,很多即使不成熟的新技术都很可能首先在这个领域出现和发展。这个领域几乎可以囊括图像视频处理、模式识别的所有底层技术,必然可以衍生出很多很杂的应用点。

多媒体技术论文篇二

浅谈多媒体技术

摘要:多媒体技术是一种把文本、图形、图像、动画和声音等形式的信息结合在一起,并通过计算机进行综合处理和控制,并且能完成一系列交互式操作的信息技术。它的发展改变了计算机的使用领域,广泛应用于生产管理、教育教学、信息咨询、广告、家庭娱乐等领域。多媒体技术实现了通信技术、计算机技术、音像技术的紧密结合,它的研究涉及计算机软硬件、网络、人工智能、电子出版、通讯等多种技术。

关键词:多媒体技术 图形 图像

中图分类号:TP39 文献标识码:A 文章编号:1007-3973(2011)006-082-02

多媒体技集文字、声音、图像、视频、通信等多项技术于一体,采用计算机的数字记录和传输传送方式,对各种媒体进行处理,具有广泛的用途,甚至可代替目前的各种家用电器,集计算机、电视机、录音机、录像机、VCD机、DVD机、电话机、传真机等各种电器为一体,是一个涉及面极广的综合技术,是开放性的没有最后界限的技术,其产业涉及电子工业、计算机工业、广播电视、出版业和通讯业等。

1 多媒体技术应用的意义

多媒体技术发展到今天,已经对人类的现实生活产生了深远的意义和影响,具体表现在以下几个方面:一是使计算机可以处理人类生活中最直接、最普遍的信息,从而使得计算机应用领域及功能得到了极大的扩展。二是使计算机系统的人机交互界面更加友好方便,非专业人员可以方便地使用和操作计算机。这也使计算机的应用可以很快速的普及;三是多媒体技术使音像技术、计算机技术和通信技术三大信息处理技术紧密地结合起来,大大的促进了信息处理技术的发展,声音、视频、图像压缩方面的基础技术已逐步成熟,并形成了产品进入市场,形成一个巨大的产业链。

2 多媒体技术涉及的内容

多媒体技术涉及的内容包括多媒体数据压缩、多媒体处理、多媒体数据存储、多媒体开发工具等。下面加以简单介绍:

多媒体数据压缩涉及多模态转换、压缩编码;多媒体处理主要是音频信息处理,如音乐合成、语音识别、文字与语音相互转换;

多媒体数据存储主要涉及数据库技术,这里指多媒体数据库,如图像处理会产生大量数据,就要考虑数据库存储技术;

多媒体开发工具:第一种是基于时间的,它以可视的时间轴来决定事件的顺序和对象上演的时间。这种时间轴包括许多行道或频道,以使安排多种对象同时展现。比如Director和Action;第二种是基于图符或流线的,它把多媒体成分和交互队列(事件)按结构化框架或过程组织为对象。使项目的组织方式简化且多数情况下是显示沿各分支路径上各种活动的流程图。比如Authorware;第三种是基于卡片或页面的,它提供一种可以将对象连接于页面或卡片的工作环境,一页卡片便是数据结构中的一个节点,它类似于教科书中的一页或数据袋内的一张卡片,如HyperCard;第四种是以传统程序语言为基础的,需要用户编程量较大,而且重用性差、不便于组织和管理多媒体素材、调试困难,如VB、Delphi等。

3 主要多媒体技术的发展状况

多媒体技术的发展状况可以从以下几个方面分析:

(1)音频技术。音频技术主要包括四个方面:音频数字化、语音处理、语音合成及语音识别。

音频数字化目前是较为成熟的技术,多媒体声卡就是采用此技术而设计的,在这种技术的支持下,数字音响一改传统的模拟方式而达到了理想的音响效果。音频采样包括两个重要的参数即采样频率和采样数据位数。采样频率即对声音每秒钟采样的次数,采样频率越高音质越好,存贮数据量越大。采样数据位数即每个采样点的数据表示范围,目前常用的有8、12和16位三种。采样位数越高,存贮数据量越大,音质也越好。

语音处理主要集中在音频压缩上,目前最新的MPEG语音压缩算法可将声音压缩六倍。

语音合成又称文语转换(Textto Speech)技术,它能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。涉及声学、语言学、数字信号处理、计算机科学等多个学科技术。

语音识别在音频技术中难度最大最吸引人,就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。让计算机听懂人说话是发展人机语音通信和新一代智能计算机的主要目标。

(2)视频技术。视频技术包括视频数字化和视频编码技术两个方面。视频数字化是将模拟视频信号经模数转换和彩色空间变换转为计算机可处理的数字信号,使得计算机可以显示和处理视频信号。视频数字化后色彩、清晰度及稳定性都有了明显的提高。视频编码技术是将数字化的视频信号经过编码成为电视信号,从而可以在电视上播放。

(3)图像压缩技术。图像压缩一直是技术热点,是计算机处理图像和视频以及网络传输的重要基础,目前有三个压缩标准即JPEG、MPEG和H.26。

JPEG是国际上彩色、灰度、静止图像的第一个国际标准,它不仅适于静态图像的压缩,电视图像序列的帧内图像的压缩编码,也常采用JPEG压缩标准。它包括两部分:一是基于DPCM(空间线性预测)技术的无失真编码,一是基于DCT(离散余弦变换)和哈夫曼编码的有失真算法。前者图像压缩无失真,但是压缩比很小,目前主要应用的是后一种算法,图像有损失但压缩比很大,压缩20倍左右时基本看不出失真。MPEG是针对运动图像的数据压缩技术。目前又分为MPEG-I、MPEG-II、MPEG-IV、MPEG-7和MPEG-21。它除了对单幅图像进行编码以外还利用图像序列中的相关原则,将帧间的冗余去掉,这样大大提高了图像的压缩比例。H.26是视频图像压缩编码国际标准,主要用于视频电话和电视会议,可以以较好的质量来传输更复杂的图像。

4 多媒体技术应用领域

多媒体技术的应用领域非常广泛,涉及农业生产、军事、旅游、互联网、家庭娱乐、电子地图、网络通信、办公自动化、航空航天、生产管理、教育教学、信息咨询、商业广告等等,下面从几个方面进行简单说明:

(1)教育和娱乐:它可能是多媒体技术应用最多的一个领域,一般的游戏都使用了动画,三维图形,视频播放,声音处理等技术,还有影视娱乐业中的电影特技、变形效果,电视/电影/卡通混编特技、MTV特技制作、仿真游戏。在教育方面,多媒体技术主要体现在形象教学、模拟展示上,比如电子教案、形象教学、模拟交互过程、网络多媒体教学、仿真工艺过程等,这使得教学过程具有很好的交互性,并可用逼真的形象表现所需的信息。

(2)商业广告:是另一种对多媒体技术需求较多的应用领域,主要体现在特技合成、大型演示中,象影视商业广告、公共招贴广告、大型显示屏广告、平面印刷广告等,这里要用到视频捕捉、图像压缩与解压缩、图像编辑与转换、音频同步,添加字幕等技术。

(3)虚拟现实技术和远程传输:它可以用来模拟复杂的动作和仿真,利用计算机和其它的相关设备将人们带入一个虚拟的世界。虚拟现实技术体现在人工智能模拟上,象生物形态模拟、生物智能模拟、人类行为智能模拟,比较典型的例子就是驾驶训练系统,它就使用了虚拟现实技术;多媒体技术在远程传输上的最成功表现就是多媒体在Intemet上的应用,它突破了Intemet只能传输字符的限制,从而展示给远处一个接近现实的画面,这在医疗上体现了具大的作用,象远程诊断、远程手术。

多媒体技术在上述应用领域发展的过程中,不仅促进了多媒体软件的发展,同时也促进了多媒体硬件的发展。对于软件来说,可以分成以下几类:

文字处理:记事本、写字板、Word、WPS

图形图像处理:PhotoShop、CorelDraw、Freehand等;

动画制作:AutoDesk、Animator Pro、3DS MAX、Maya、Flash等;

声音处理:Ulead Media Studio、Sound Forge、Audition(Cool Edit)、Wave Edit等;

视频处理:Ulead Media Studio、Adobe Premiere等;

对于硬件来说,不仅声频卡(Audio Card)、光盘(CD-ROM)、视频卡(Video Card)等这些基本产品得到了广泛的发展,其它的硬件设备如摄像机、扫描仪、触摸屏、打印机、影碟机、音响设备等也得到快速的发展和广泛的普及,这些产品已走进平常百姓家,给人们带来了很多生活乐趣。

参考文献:

[1]尹敬齐,多媒体技术[M],机械工业出版社

[1]沈大林,多媒体CAI课件制作案例教程[M],中国铁道出版社

多媒体技术论文怎么写的评论条评论