数字媒体及其应
-
第三章数字媒体及应用
学习目的:
理解
GB2312
,
GB
K
和
GB18030
三种汉字编码规范
的内容、
关系与应用,
熟悉中文文本准备的方法;熟悉图像在计
算机中的表示;掌握声音获取的方法与设
备;熟悉视频压缩编码的几种规范及其应用。<
/p>
学习重点:
中西文编码、图像、声音在
计算机中的表示。
学习难点
:中西文
编码、视频压缩编码规范。
5
p>
.
1
文本与文本处理
文字:一种书面语言,由一系列称为
“
字符
”
(
character
p>
)的书写符号构成。
文本(
text
)
:文字信息在计算机中的表示形式,是基
于特定字符集的、具有上下文相关性的一
个(二进制编码)字符流,是计算机中最常用的
一种数字媒体。组成文本的基本元素是字符,
字符在计算机中采用二进制编码表示。
p>
文本在计算机中的处理过程:文本的准备(例如汉字的输入)
p>
,文本编辑,文本处理,文本
存储与传输、文本展现等,根据应用的
不同,各个处理环节的内容和要求可能有很大的差别。
一、字符的编码
1
.西文字符的编码
字符集:常用字符的集合。
西文字符
集:由拉丁字母、数字、标点符号及一些特殊符号组成。字符的编码:字符集中
每一个字
符各有一个代码,即字符的二进制表示,称为该字符的编码。字符代码表:字符集中
不同
字符的编码互相区别,构成该字符集的代码表。
ASCII<
/p>
字符集和
ASCII
码
< br>
美国规范信息交换码
(American
Standard Code for Information Interchange)
< br>:使用
7
个二进位
对字符进行编
码(叫做规范
ASCII
码)
,称为<
/p>
ISO-646
规范。
基本的
ASCII
字符集共有
128
个字符。
96
个可打印字符(常
用字母、数字、标点符号等)
和
32
个
控制字符。特殊字符的
ASCII
码有空格(
< br>32
)
、
A
(
65
)
、
a
(
97
)
、
0
(
48
)
。
规范
AS
CII
码是七位的编码,但字节是计算机中最基本的处理单位,故以一个字节来存放
p>
一个
ASCII
字符。每个字节中多出来的
一位一般保持为
“0”
,在数据传输时可用作奇偶校验位。
p>
扩充
ASCII
字符集:规范
ASCII
字符集只有
128
个不同的字符,在很多应用中无法满足要求。
按照
ISO20
22
规范(
《七位字符集的代码扩充技术》
)的规定,
ISO
陆续制定了一批适用于不同
地区的扩充
ASCII
字符集,每个扩充
ASCII
字符集分别可以扩充
128
个字符,这些扩充字符的
编码均是高位为
1
的
8
位代码(十进制数
128
~
255
)
< br>,称为扩展
ASCII
码。
2
.汉字的编码
(
1
)
GB2312-80
汉字编码
《信息交换用汉字编码字符集
p>
·
基本集》
(GB2312-80)
p>
组成:第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、
p>
希腊字母、
汉语拼音等共
682
个
(统称为
GB2312
图形符号)
。
第二部分:
一级常用汉字
,
共
3755
个,按汉语拼音排列。第
三部分:二级常用字,共
3008
个,按偏旁部首排列。
区位码:
GB2312
国标字符集构成一个二维平面,它分成
94
行、
94
列,行号称为区号,列
号称为位号。每一个汉
字或符号在码表中都有各自的位置,字符的位置用它所在的区号
(
行号
)
及位号
(
列号
)
来表示。每个汉字的区号和位号分别用
1
个字节来表示,
如:<
/p>
“
大
”
字的区号
20
,位号
83
,区位码是
20 83
用
2
个字节表示为:
00010100
01010011
。
国标交换码:<
/p>
为了避免汉字区位码与通信控制码的冲突,
ISO2022
规定,每个汉字的区号
和位号必须分别加上
3
2
(即二进制
0010
0000
)
。
经过这样处理得到的代码称为汉字的
“
国标交换码
”
(简称交换码)
。因此,
“
大
”
字的交换码
< br>是:
00110100
01110011
。
机内码:
把一个汉字看作两个扩展
ASCII
码,
p>
使表示
GB2312
汉字的两个字节的最高
位
(b
7
)
都
等于
“1”
。这种高位为
l
的双字节
(16
位
)
p>
汉字编码就称为
GB2312
汉字的
“
机内码
”
,又称内
码。
如:
“
大
”
字的内码是:
10110100
11110011
(
B4F3
)
高位字节
(7
位<
/p>
)
:
qqq qqqq => 0qqq
qqqq(
区号
)
低位字节
(7
位
)
:
www wwww => 0www wwww(
位号
)
例如:
“
啊
”
区位码:
16 01
=> 10 01H
0001 0000
0000
0001
国标码:
30 21H <= 10 01H
+
20 20H
0011 0000
0010
0001
机内码:
B0 A1H
<= 30 21H
+
80 80H
1011 0000
1010 0001
(
2
)
GBK
汉字内码扩充规范
问题:
GB2312-80
只有<
/p>
6763
个汉字,使用时功能不够。
<
/p>
解决方法:
1995
年发布
GBK
,全称为《汉字内码扩展规范》
GBK
字符集中一共有
21003
个汉字和
883
个图形符号,它与
GB2312
国标汉字字符集及其内码保持兼容。
组成:<
/p>
21003
个汉字,
883
个图形符号。
应用:
操作系统
——
Windows 95<
/p>
以上简体中文版,采用
GBK
代码,并提
供了多种输入法和字体
应用软件
——
Office 95
p>
以上简体中文版本提供
GBK
码的检索和排
序
互联网应用
——
< br>许多网站的网页使用
GBK
代码,但目前还不是所有搜索
引擎都支持
GBK
汉字文本的搜索
(
< br>3
)
UCS/Unicode
与
GB18030
汉字编码规范
优点:
编码空间极大,能容纳足够多的各种字符集(
< br>13
亿字符)
。
缺点:
4
字节的字符编码使存储空间浪费严重。
p>
克服:
在
UCS
/Unicode
编码空间中,把第
1
和第
2
字节均为
“0”
的一个子空间
(称为基本多
文种平面
< br>BMP
)
,作为
UCS/Uni
code
的子集来使用,记作
UCS-2
。
UCS-2
是双字节编码,共有
字
符
49194
个,其中包括:欧洲及中东地区使用的拉丁字母、
音节文字;各种标点符号、数学
符号、技术符号、几何形状、箭头及其他符号;中、日、
韩(
CJK
)统一编码的汉字。
二、文本的准备
文本信息的输入方法:
人工输入:通过键盘、手写笔或语音输入方式输入字符。
特点:速度慢、成本高,不适合需处理大批量文字的应用。
<
/p>
自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码。
特点:速度快,效率高。
文字的自动识别分为:印刷体识别和手写体识别。
1
.汉字键盘输入
< br>由于汉字字数很多,无法使每个汉字与西文键盘上的键一一对应,因此必须使用一个或几
< br>个键来表示汉字,这就称为汉字的
“
键盘输入编码
”
。
好的汉字键盘
输入编码技术方案的特点:
易学习、
易记忆、
< br>效率高
(
平均击键次数较少
)<
/p>
、
重码少、
容量大
(
可输入的汉字字数多
)
等。
汉字的输入编码与汉字的内码是不同范畴的概念。
使用不同的
输入编码方法向计算机输入的同一个汉字,它们的内码是相同的。
汉字输入编码方法的分类:
(
1
)数字编码:使用一串数字来表示汉字的编码方法,例如电报码、区
位码等。
缺点:难以记忆,不易推广。
(
p>
2
)字音编码:一种基于汉语拼音的编码方法,简单易学,适合于非
专业人员。
缺点:同音字引起的重码多,需增加选择操作。
(
3
)字形编码:将汉字的字形分解归类而给出的编
码方法,重码少、输入速度较快,如五笔字
形法和表形码等。
缺点:编码规则不易掌握。
(
4
)形音编码:吸取了字音编码和字形编码的优点,使编码规则适当简
化、重码减少
缺点:不易掌握。
2
.非击键式的汉字输入方法
三、文本的分类与表示
文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。由于文字和符号< p>
采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分
类、索引、检索等)
。使用计算机制作的数字文本,根据用途分为:简
单文本、丰富格式文本和
超文本三类。
1
.简单文本(纯文本)
简单文本(
plain text
)<
/p>
:是由一连串的字符组成的,除了用于表达正文内容的字符(包括汉
字)及
“
回车
”
、
“
换行
”
、
“
制表
”
等有限的几个打印(显示)控制字符之外,几乎不包含任何其他
格式信息和结构信息。这
种文本通常称为纯文本或
ASCII
文本,在
< br>PC
机中的文件后缀名是
.txt
特性:呈现为一种线性结构,以行、字为单位,顺序写作与阅读是最通用的文本文件格式,
< br>文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理不能插入图片、
表格等,
不能建立超链接
2
.丰富格式文本
3
.超文本
线性文本:传统的顺序式阅读。
超文
本
(hypertext)
的阅读方式:通过链接、跳转、导航
、回溯等操作实现跳跃式阅读。
超文本的结构:节点(
node
)和节点包含的内容。
超链(
hyperlink
)
:链源和链宿。
超媒体(
Hyp
ermedia
)
:超文本中的节点不单是文本节点,还包含图
形、图像、声音或动画
节点,这种基于多媒体信息结点的超文本,有时也称为
“
超媒体
”
。
四、文本处理
1
.文本编辑
文本编辑的主要功能:对字、词、句、段落进行添加、删除、修改等操作。字的处理:设
置字体、字号、字的排列方向、间距、颜色、效果等;段落的处理:设置行距、段间距、段缩
< br>进、对称方式等;页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等。
“
所见即所得
”
(
What You See Is What You Get,
简称
WYSIWYG
)
:一方面所有的编辑操作
效果立即可以在屏幕上看到,另一方面在屏幕上看到的效果与打
印机的输出结果相同。
2
.文本处理
文本处理内容:字数统计,字频统计,简
/
繁体相互转换,汉
字
/
拼音相互转换;词语排序,
词语错
误检测,文句语法检查;自动分词,词频统计,词性标注,词义辨识,大陆
/
台湾术语转
换;文本压缩,文本加密,文本著作权保护;关键词提取,文摘
自动生成,文本分类;文本检
索(关键词检索、全文检索)
,文
本过滤;文语转换(语音合成)
,文种转换(机器翻译)
;篇章
理解,自动问答,自动写作等。
3
.常用文本处理软件
(
1
)面向通信的文本处理软件
(
2
)面向办公的文本处理软件
典型软件:
MS-Office
p>
、
WPS2000
、永中
< br>Office
中的文本处理软件。
(
3
)面向出版的文本处理软件
典型排版软件:方正集团公司的
“
飞腾
”
排版软件、美国
Adobe
公司的
PageMaker
和
< br>PDF
Writer
。
p>
(
4
)面向网络信息发布和电子出版的文本
处理软件
5
.文本的展现
文本输出:在屏幕上显示文本,用打印机打印文本等操作。文本输出过程:首先要对文本
的格式描述进行解释,然后生成文字和图表的映像(
bitmap
< br>)
,最后再传送到显示器或打印机输
出。文本阅读器:承
担上述文本输出任务的软件,也称为浏览器。它们可以是嵌入在文本处理
软件中的一个模
块,如微软的
Word
,也可以是独立的软件,如
Adobe
公司的
Acrobat Reader<
/p>
,
微软公司的
IE
等。
5
.
2
图像与图形
图像按生成方法分类:
从现实世界中通过数字化设备获取的图像,
< br>称为:
取样图像
(
sample
d
image
)
、点阵图像(
dot
matrix
image
)
、位图图像(
bitmap
image
)
——
简称图像(
image
)
。计
算机合成的图像
(synthetic
image)
,称为:矢量图形(
vector graphi
cs
)
,简称图形(
graphics
)
。
一、图像的获取
1
.图像的数字化
< br>图像的获取(
capturing
)
:从现实世界中获得数字图像的过程。图像获取的过程实质上是模
拟信号的数字化过
程,它的处理步骤:取样、分色、量化。
2
.数字图像获取设备
设备:从现实世界获得数字图像过程中所使用的设备通称为数字图像获取设备。设备的功能:
将现实的景物输入到计算机内并以取样图像的形式表示。
2D
图像获取设备(如扫描仪、数码相
机等)只能对图片或景物的
2D
投影进行数字化。
3D
扫描仪能获取包括深度信息在内的
3D
景
物的信息。
二、图像的表示与压缩编码
1
.图像的表示方法与主要参数
p>
从取样图像的获取过程可以知道,一幅取样图像由
M
(行)
* N
(列)个取样点组成,每个
取样点是组成取样图像的基本单位,称为
像素
(
p>
picture
element,
简写
为
pel
)
。彩色图像的像素
是矢量,它由多个彩色分量组成,黑白图像的像素只有
1
个亮度值。
图像的属性信息:
图像大小,也称图像分辨率
(
包括垂直分辨率和水平分辨率<
/p>
)
;位平面的数目,
即矩阵的数目,
p>
也就是彩色分量的数目;
颜色空间的类型,指彩色图像所使用的颜色
描述方法,
也叫颜色模型。常用颜色模型:
RGB(
红、绿、蓝
)
、
CMYK
(
青、品红、黄、黑
)
、
HSV(
色彩、
饱和度、亮度
)
、
YUV(
亮度、色度
)
等;像素深度,即像素的所有颜色分量的位数之和,它决定
了不同颜色(亮度)的最大数目。
2
.图像的压缩编码
一幅图像的数据量可按下面的公式进行计算(以字节为单位)
:
图像数据量=图像水平分辨率×图像垂直分辨率×像素深度/
8
图像数据压缩的可能性:由于数字图像中的数据相关性很强,数据的冗余度很大,因此对
数字图像进行大幅度的数据压缩是完全可能的。而且,人眼的视觉有一定的局限性,即使
压缩
前后的图像有一定失真,只要限制在人眼允许的误差范围之内,也是允许的。
图像压缩方法很多,不同方法适用于不同的应用,在计算机中常常是
多种压缩方法的综合
使用。为得到较高的数据压缩比,一般都采用有损压缩。压缩编码方
法优劣的评价:压缩倍数
的大小、重建图像的质量(有损压缩时)
、压缩算法的复杂程度。
图像压缩编码方法的国际规范和工
业规范:
ISO
和
IEC
两个国际机构联合组成了一个专家
组
(Joint Photographic Experts Group, JPEG
)
,
制定了一个静止图像数据压缩编码的国际规范,
称
为
JPEG
规范。
p>
JPEG 2000
:适用于各种不同类型(黑白、灰度、彩色等)
和不同特性(自然、
医学、遥感、合成)的图像,可用于不同的应用模式(实时传输、检
索、存档等)
。采用了小波
分析等先进算法,提供了更好的图像
质量,更低的码率,更适合在
WWW
网上传输等,它兼容