《第四章》 数据库系统

考察数据库系统

考察数据库系统

数据库系统

数据:是数据库中存储的基本对象,是描述事物的符号记录。

数据的种类:文本、图形、图像、音频、视频、学生的档案记录、货物的运输情况等。

数据库DB:是长期存储在计算机内、有组织的、可共享的大量数据的集合。

数据库的基本特征:
    数据按一定的数据模型组织、描述和存储;
    可为各种用户共享;
    冗余度较小;
    数据独立性较高;
    易扩展。
数据库系统DBS:是一个采用了数据库技术,有组织地、动态地存储大量相关数据,

方便多用户访问的计算机系统。其由下面四个部分组成:
    数据库(统一管理、长期存储在计算机内的,有组织的相关数据的集合)
    硬件(构成计算机系统包括存储数据所需的外部设备)
    软件(操作系统、数据库管理系统及应用程序)
    人员(系统分析和数据库设计人员、应用程序员、最终用户、数据库管理员DBA)
数据库管理系统DBMS的功能
    实现对共享数据有效的组织、管理和存取。
    包括数据定义、数据库操作、数据库运行管理、数据的存储管理、数据库的建立和维护等。

三级模式-两级映像

内模式:管理如何存储物理的数据,对应具体物理存储文件。

    模式一内模式映像:是表和数据的物理存储之间的映射,存在概念级和内部级之间,
        若修改了数据存储方式,只需要修改此映射,而不需要去修改应用程序。

模式:又称为概念模式,就是我们通常使用的基本表,根据应用、需求将物理数据划分成一张张表。

    外模式一模式映像:是表和视图之间的映射,存在于概念级和外部级之间,
        若表中数据发生了修改,只需要修改此映射,而无需修改应用程序。

外模式:对应数据库中的视图这个级别,将表进行一定的处理后再提供给用户使用。


扩展下,三级模式-两级映像存在的意义是什么?
    主要保证了数据的独立性,数据的独立性是指数据与程序独立,
    将数据的定义从程序中分离出来,由DBMS(数据库管理系统)负责数据的存储,
    从而简化应用程序,大大减少应用程序编制的工作量。

数据的独立性是由DBMS的二级映像功能来保证的。数据的独立性包括数据的物理独立性和数据的逻辑独立性。

什么是数据的物理独立性?
答:数据的物理独立性是指当数据库的内模式发生改变时,数据的的逻辑结构不变。
    由于应用程序处理的只是数据的逻辑结构,这样物理独立性可以保证,
        当数据的物理结构改变了,应用程序不用改变。
        但是,为了保证应用程序能够正确执行,需要修改概念模式/内模式之间的映像。

什么是数据的逻辑独立性?
答:数据的逻辑独立性是指用户的应用程序与数据库结构是相互独立的。
    数据的逻辑结构发生变化后,用户程序也可以不修改。
    但是,为了保证应用程序能够正确执行,需要修改外模式/概念模式之间的映像。

数据库设计

需求分析:即分析数据存储的要求,产出物有数据流图、数据字典、需求说明书。
概念结构设计:就是设计E-R图,也即实体-联系图,与物理实现无关,说明有哪些实体,实体有哪些属性。
逻辑结构设计:将E-R图,转换成关系模式,也即转换成实际的表和表中的列属性,这里要考虑很多规范化的东西。
物理设计:根据生成的表等概念,生成物理数据库。

数据模型

关系模型是二维表的形式表示的实体-联系模型(做开发的人可以理解为数据库表),是将实体-联系模型转换而来的,经过开发人员设计的;
概念模型是从用户的角度进行建模的,是现实世界到信息世界的第一抽象,是真正的实体-联系模型。
网状模型表示实体类型及其实体之间的联系,一个事物和另外几个都有联系,形成一张网。
面向对象模型是采用面向对象的方法设计数据库,以对象为单位,每个对象包括属性和方法,具有类和继承等特点。
数据模型三要素:数据结构(所研究的对象类型的集合)、数据操作(对数据库中各种对象的实例允许执行的操作的集合)、数据的约束条件(一组完整性规则的集合)。

关系代数

关系代数就是说白了就是表跟表之间的逻辑运算!
- 并:结果是两张表中所有记录数合并,相同记录只显示一次。
- 交:结果是两张表中相同的记录。
- 差:S1-S2,结果是S1表中有而S2表中没有的那些记录。
- 笛卡尔积:S1*S2,产生的结果包括S1和S2的所有属性列,并且S1中每条记录依次和S2中所有记录组合成一条记录,最终属性列为S1+S2属性列,记录数为S1*S2记录数。
- 投影:实际是按条件选择某关系模式中的某列,列也可以用数字表示。符号(π)
- 选择:实际是按条件选择某关系模式中的某条记录。符号(σ)
- 自然连接:自然连接的结果显示全部的属性列,但是相同属性列只显示一次,显示两个关系模式中属性相同且值相同的记录。

笛卡尔积与自然连接相互转换的原则:先投影(π),选出不重复的列,然后选择(σ)找出相同的行。

函数依赖

给定一个X,能唯一确定一个Y,就称X确定Y,或者说Y依赖于X,例如Y=X*X函数。

部分函数依赖:A可确定C,(A,B)也可确定C,(A,B)中的一部分(即A)可以确定C,称为部分函数依赖。
传递函数依赖:当A和B不等价时,A可确定B,B可确定C,则A可确定C,是传递函数依赖;若A和B等价,则不存在传递,直接就可确定C。

设关系模式R<U,F>,U是关系模式R的属性全集,F是关系模式R的一个函数依赖集。
- 对于R<U,F>来说有以下的:
- 自反律:若Y⊆X⊆U,则X→Y为F所逻辑蕴含。
- 增广律:若X→Y为F所逻辑蕴含,且Z⊆U,则XZ→YZ为F所逻辑蕴含。
- 传递律:若X→Y和Y→Z为F所逻辑蕴含,则X→Z为F所逻辑蕴含。
- 合并规则:若X→Y,X→Z,则X→YZ为F所蕴涵。
- 伪传递率:若X→Y,WY→Z,则XW→Z为F所蕴涵。
- 分解规则:若X→Y,Z⊆Y,则X→Z为F所蕴涵

键与约束

超键:能唯一标识此表的属性的组合。
候选键:超键中去掉冗余的属性,剩余的属性是候选键。
主键:任选一个候选键,即可作为主键。
外键:其他表中的主键。
主属性:候选键内的属性为主属性,其他属性为非主属性。

以学生表为例(包含学号,身份证号,姓名,年龄),

假设学号,身份证号是唯一标识,超键只要包含学号,身份证号即可,
    比如(学号,身份证号),(学号,身份证号,姓名),(学号,身份证号,姓名,年龄),以上都属于超键,有没有冗余没有关系!

候选键就是(学号,身份证号),去掉冗余的属性。

主键就是,学号或者身份证号,任选一个候选键即可。

实体完整性约束:即主键约束,主键值不能为空,也不能重复。

参照完整性约束:即外键约束,外键必须是其他表中已经存在的主键的值,或者为空。

用户自定义完整性约束:自定义表达式约束,如设定年龄属性的值必须在0到150之间。

范式

第一范式   关系中的每一个分量必须是一个不可分的数据项。通俗地说,第一范式就是表中不允许有小表的存在。

    用一个单一的关系模式学生来描述学校的教务系统:学生(学号,学生姓名,系号,系主任姓名,课程号,成绩)
    依赖关系:(学号->学生姓名,学号->系号,系号->系主任姓名,学号->课程号,(学号,课程号)->成绩)

第二范式    如果关系R属于1NF,且每一个非主属性完全函数依赖于任何一个候选码,则R属于2NF.
            通俗地说,2NF就是在1NF的基础上,表中的每一个非主属性不会依赖复合主键中的某一个列。
    第二范式,消除了非主属性对于主属性的部分函数依赖!
    部分函数依赖只存在于联合主键里,
    主键是多个的才存在部分函数依赖!对于只有一个主键,它必然满足第二范式!

    上面的学生表就不满足2NF,因为学号不能完全确定课程号和成绩(每个学生可以选多门课)。
    将学生表分解为:
    学生(学号,学生姓名,系编号,系名,系主任)
    选课(学号,课程号,成绩)。

第三范式    在满足2NF的基础上,表中不存在非主属性对码的传递依赖。

    学生关系模式就不属于3NF,
    因为学生无法直接决定系主任和系名,是由学号->系编号,再由系编号->系主任,系编号->系名,因此存在非主属性对主属性的传递依赖。

    将学生表进一步分解为:
    学生(学号,学生姓名,系编号)
    系(系编号,系名,系主任)
    选课(学号,课程号,成绩)

BC范式    BC范式BCNF,是指在第三范式的基础上进一步消除主属性对于码的部分函数依赖和传递依赖。
        通俗的来说,就是在每一种情况下,每一个依赖的左边决定因素都必然包含候选键

并发控制

事务:由一系列操作组成,这些操作,要么全做,要么全不做,拥有四种特性,详解如下:
    - 原子性:要么全做,要么全不做。
    - 一致性:事务发生后数据是一致的,例如银行转账,不会存在A账户转出,但是B账户没收到的情况。
    - 隔离性:任一事务的更新操作直到其成功提交的整个过程对其他事务都是不可见的,不同事务之间是隔离的,互不干涉。
    - 持续性:事务操作的结果是持续性的。
事务是并发控制的前提条件,并发控制就是控制不同的事务并发执行,提高系统效率,但是并发控制中存在下面三个问题:
- 丢失更新:事务1对数据A进行了修改并写回,事务2也对A进行了修改并写回,此时事务2写回的数据会覆盖事务1写回的数据,就丢失了事务1对A的更新。即对数据A的更新会被覆盖。
- 不可重复读:事务2读A,而后事务1对数据A进行了修改并写回,此时若事务2再读A,发现数据不对。即一个事务重复读A两次,会发现数据A有误。
- 读脏数据:事务1对数据A进行了修改后,事务2读数据A,而后事务1回滚,数据A恢复了原来的值,那么事务2对数据A做的事是无效的,读到了脏数据。

封锁协议

X锁是排它锁(写锁)。若事务T对数据对象A加上X锁,则只允许T读取和修改A,其他事务都不能再对A加任何类型的锁,直到T释放A上的锁。
S锁是共享锁(读锁)。若事务T对数据对象A加上S锁,则只允许T读取A,但不能修改A,其他事务只能再对A加S锁(也即能读不能修改),直到T释放A上的S锁。

共分为三级封锁协议,如下:
    * 一级封锁协议:事务在修改数据R之前必须先对其加X锁,直到事务结束才释放。  可解决丢失更新问题。
    * 二级封锁协议:一级封锁协议的基础上加上事务T在读数据R之前必须先对其加S锁,读完后即可释放S锁。  可解决丢失更新、读脏数据问题。
    * 三级封锁协议:一级封锁协议加上事务T在读取数据R之前先对其加S锁,直到事务结束才释放。   可解决丢失更新、读脏数据、数据重复读问题。

数据库安全

* 静态转储:即冷备份,指在转储期间不允许对数据库进行任何存取、修改操作;
    优点是非常快速的备份方法、容易归档(直接物理复制操作);
    缺点是只能提供到某一时间点上的恢复,不能做其他工作,不能按表或按用户恢复。
* 动态转储:即热备份,在转储期间允许对数据库进行存取、修改操作,因此,转储和用户事务可并发执行;
    优点是可在表空间或数据库文件级备份,数据库扔可使用,可达到秒级恢复;
    缺点是不能出错,否则后果严重,若热备份不成功,所得结果几乎全部无效。

* 完全备份:备份所有数据。
* 差量备份:仅备份上一次完全备份之后变化的数据。
* 增量备份:备份上一次备份之后变化的数据。

* 日志文件:在事务处理过程中,DBMS把事务开始、事务结束以及对数据库的插入、删除和修改的每一次操作写入日志文件。
    一旦发生故障,DBMS的恢复子系统利用日志文件撤销事务对数据库的改变,回退到事务的初始状态。

**差量备份跟增量备份的区别是,差量备份是备份上一次完全备份之后变化的数据,(主要是这个上一次完全备份!**

分布式数据库

分布式也有自己的三级模式两级映像    
局部数据库位于不同的物理位置,使用一个全局DBMS将所有局部数据库联网管理,这就是分布式数据库。 

分片模式    
水平分片:将表中水平的记录分别存放在不同的地方。    
垂直分片:将表中的垂直的列值分别存放在不同的地方。   

分布透明性   
分片透明性:用户或应用程序不需要知道逻辑上访问的表具体是如何分块存储的。    
位置透明性:应用程序不关心数据存储物理位置的改变。   
逻辑透明性:用户或应用程序无需知道局部使用的是哪种数据模型。  
复制透明性:用户或应用程序不关心复制的数据从何而来。

数据仓库技术

数据仓库是一个面向主题的、集成的、非易失的、且随时间变化的数据集合,用于支持管理决策。

    - 面向主题:按照一定的主题域进行组织的。
    - 集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,
        必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
    - 相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,
        一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,
        但修改和删除操作很少,通常只需要定期的加载、刷新。
    - 反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,
        通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

数据仓库的结构通常包含四个层次,如下图所示:
    1.数据源:是数据仓库系统的基础,是整个系统的数据源泉。
    2.数据的存储与管理:是整个数据仓库系统的核心。
    3.OLAP(联机分析处理)服务器:对分析需要的数据进行有效集成,按多维模型组织,以便进行多角度、多层次的分析,并发现趋势。
    4.前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。

    BI系统主要包括数据预处理、建立数据仓库、数据分析和数据展现四个主要阶段。

    数据预处理是整合企业原始数据的第一步,它包括数据的抽取(Extraction)、转换(Transformation)和加载(Load)三个过程(ETL过程);

    建立数据仓库则是处理海量数据的基础;

    数据分析是体现系统智能的关键,一段采用联机分析处理(OLAP)和数据挖掘两大技术。联机分析处理不仅进行数据汇总/聚集,
        同时还提供切片、切块、下钻、上卷和旋转等数据分析功能,用户可以方便地对海量数据进行多维分析。
        数据挖掘的目标则是挖掘数据背后隐藏的知识,通过关联分析、聚类和分类等方法建立分析模型,预测企业未来发展趋势和将要面临的问题;

    在海量数据和分析手段增多的情况下,数据展现则主要保障系统分析结果的可视化。