关系数据库设计及优化原则

一直以来就想总结一下自己这么多年来在关系数据库上积累的经验。奈何自己是一个比较懒的人一直不想动手去写。扎克伯格曾说过:“想做一件事的话,最好的办法就是先开始”。索性就先写一点东西,这些东西不会太长,自然也不会包括太多细节(如果有纸上谈兵的情况,也敬请谅解)。

    本文的主要内容是对关系数据库的设计及优化总结出一些基本原则,这些原则可以帮助提高数据库的设计质量的同时避免一些常见的性能问题。(软件行业没有银弹,任何原则是指一种参考,困难的是懂得何时打破这些原则).

原则一 OLTP负载尽量遵循第三范式

    不少程序员对数据库范式理解不透彻,甚至嗤之以鼻,为了简便在不同的表冗余字段,甚至害怕一对一,一对多,多对多这种关系。阿里还流传着不要关联数据表的神奇传说。关系数据库不使用关系,那就没有必要用关系数据库了。

    遵守第三范式带来的好就是减少数据冗余,同时使得模型中对单一表的CRUD操作不会互相影响,专业术语叫做更新异常。更新异常往往是大量bug的滋生地。更新异常甚至会大大影响查询性能。

    最后重申一下本条原则适用范围,当你在使用关系数据库(键值对,文档数据库除外)去设计业务模型的时候(OLTP负载就是频繁的增加删除修改型的应用场景),尽量遵循业务实体中的关系,并将它们设计为满足第三范式的数据模型。

原则二 选择正确的数据类型和长度

    很多程序员在设计数据类型和长度方面显得非常草率,甚至是不负责任的。例如将日期类型存储为字符串型,将数字类型也设计为字符串型,一切类型均为字符串型,并随意给与50,100,200的可变长度,一了百了。这种随意性是对程序质量的亵渎。很多人说这不影响开发,能跑起来就行了。

    本条原则要强调,针对你要解决的问题请慎重选择数据类型。例如时间请用合适的日期类型(datetime,date, smalldate)。整数请选择int,bigint等,货币类型请选择decimal类型。不合适的类型会导致数据转换,在程序中也会导致数据转换,这不仅仅是性能杀手,更是众多bug的来源。

    请慎重选择适合的长度,如果业务需求仅需要10个长度的字符,那就给与10个长度,不要因为害怕长度不够而给与20个或者200个长度。慷慨往往是不明智的。

     在具有大量数据的表中,不合适的长度会浪费大量存储空间,这将导致数据库每一页中存储的数据行数就会变少,数据库引擎加载到内存中的页也就随之变少,进而影响到查询的性能。同时数据库的备份也明显增大,影响备份还原的效率。

    如果遵循本条原则精心选择数据类型和长度(尤其是对那些可能包含海量数据的大表)将显著提高数据模型的设计质量,为后续的程序开发奠定了良好的基础。

原则三 请正确创建索引

    在我的早期职业生涯的时候,曾遇到过不给任何表增加索引的设计(仅有主键),理由是索引会减缓INSERT,UPDATE效率。也遇到过给每个字段都增加索引的匪夷所思的设计。

    要了解如何正确使用索引,必须了解索引是提高查询效率?大多数人都知道索引类似书本最后一页的词汇索引,告诉你某一词汇在书中的多少页。但很多人对多因的基本结构缺乏了解,虽然大多知道索引是B-Tree,但不知道B-Tree为什么能提高查询效率。简单的讲就是B-Tree是一颗特殊的平衡树,找到某一数据所用的时间总是一定的。例如:在1000000万个订单中找到任意订单记录所需时间是一样的。这是由B-Tree结构保证的,数据库引擎从根节点出发查找一条特定记录总是跨越2-3层,所以时间总是相等的,这个时间并不与数据量相关,而仅仅与树的深度相关。这就是索引能提高查询效率的基本原理。

    请创建合适的聚集索引,很多人把聚集索引和主键相混淆,因为大多数数据库引擎会自动在主键上创建聚集索引。其实聚集索引就是按照主键顺序来实际组织磁盘上数据的物理顺序,因为物理数据只能按照一种顺序组织,所以一个表只能有一个聚集索引。聚集索引就是物理数据本身,这是一个非常重要的概念。聚集索引一般使用自增长的数据类型,int类型是大多数的选择,这可以避免数据库引擎维护聚集索引。

    创建合适的非聚集索引,按照某些字段查询记录的需求是非聚集索引使用的适合场景,例如按照姓名,年龄,性别查询一些员工的时候,如果在这三个字段上创建一个非聚集索引,将会显著改善查询性能。非聚集索引的页只包含非聚集索引数据,如果要查询表中其他列的数据,就要做一次lookup操作通过聚集索引把对应的记录提取出来。(为避免lookup操作,就产生了覆盖索引)

    考虑创建覆盖索引,例如很多场景下仅需要根据姓名查询,但是需要同时提取年龄等信息(select name,age where name = ’张三‘), 我们仅仅为name创建一个非聚集索引就可以大幅度提高查询效率,但如果为name在增加一个覆盖索引name(age),就可以直接从索引中提取需要的数据,而不必要再去做一个lookup操作从聚集索引中查找,这将大大提高查询性能。

    考虑重建索引,对索引性能影响最大的就是碎片,频繁的insert,update 可能会导致大量的页拆分,进而导致索引页的连续地址和物理的连续地址不同,影响索引顺序扫描,导致性能下降。索引中有个填充率的参数就是为了避免页拆分而预留的空间,但是填充率过低又会导致索引页过多降低索引查询效率。所以好的解决办法是当碎片过多的时候,可以考虑重建索引。重建后索引页的顺序和物理顺序会保持一直。

    索引带来的附加好处,索引带来查询性能提升的同时,还可以大大降低锁的争用,因为查询可以利用索引,优化器会尽可能少的对数据行和页进行加锁,并发能力就可能提高。优化器可以利用索引的排序,有效降低对CPU的消耗。对于Order by 或 gourp by 子句将会带来性能提升,同时降低CPU使用率。CPU使用率降低会提高数据库服务器的吞吐量。

    最后,请为那些经常被执行的查询创建合适的索引(主要分析where后面的条件)。同时请谨慎考虑索引创建,如果你不确定数据库引擎是否正确使用索引,请不要随意创建索引,因为索引会占用磁盘空间,还会导致insert,update效率降低。

原则四 使用合适的隔离级别(以SQLServer为例)

    关系数据库最大的基本特征就是保持数据一致性,为了保持数据一致性而施加了很多锁。事务的隔离级别主要是用于控制某一事务受其他事务的影响的程度,这一程度会影响其他事务对同一数据的读取和修改操作,进而影响并发能力。

    较低的隔离级别可以增强许多用户同时访问数据的能力,但也增加了用户可能遇到的并发副作用(例如脏读或丢失更新)的数量。相反,较高的隔离级别减少了用户可能遇到的并发副作用的类型,但需要更多的系统资源,并增加了一个事务阻塞其他事务的可能性。应平衡应用程序的数据完整性要求与每个隔离级别的开销,在此基础上选择相应的隔离级别。最高隔离级别(可序列化)保证事务在每次重复读取操作时都能准确检索到相同的数据,但需要通过执行某种级别的锁定来完成此操作,而锁定可能会影响多用户系统中的其他用户。最低隔离级别(未提交读)可以检索其他事务已经修改、但未提交的数据。在未提交读中,所有并发副作用都可能发生,但因为没有读取锁定或版本控制,所以开销最少。

 重要

选择事务隔离级别不影响为保护数据修改而获取的锁。事务总是在其修改的任何数据上获取排他锁并在事务完成之前持有该锁,不管为该事务设置了什么样的隔离级别。对于读取操作,事务隔离级别主要定义保护级别,以防受到其他事务所做更改的影响。

    例如SQLServer的默认隔离级别READ COMMITTED,数据库引擎会使用共享锁防止其他事务在当前事务执行读取操作期间修改行。共享锁还会阻止语句在其他事务完成之前读取由这些事务修改的行。共享锁类型确定它将于何时释放。行锁在处理下一行之前释放。页锁在读取下一页时释放,表锁在语句完成时释放。如果查询某个表中获取大量数据并未有效使用索引,共享锁可能会升级到锁页和锁表,其他对该表的insert update delete操作将不得不等到锁释放,给用户带来的影响就是这些操作变慢了。

    如果业务允许读取一定的未提交数据,可以考虑使用 READ UNCOMMITTED,数据库引擎会使用最少的锁,当查询数据时候,不会阻塞insert update delete 操作。一般对于查询日志表,审计表等允许容忍一定的脏读情况下使用该隔离级别,这样可以不阻塞业务表的操作。

    如果需要更高的一致性,例如在一个事务修改某一行但未提交时候,限制其他事务修改同样的行,那么可以使用 REPEATABLE READ。但是并发级别会大大降低,除非你确保需要此种业务场景,否则应谨慎使用。

    对于需要频读取数据,并又要尽量保证不阻塞其他事务insert,update,delete操作的场景,编写查询语句的时候可以考虑使用READ_COMMITTED_SNAPSHOT 隔离级别。已提交读隔离使用行版本控制提供语句级读取一致性。读取操作只需要 SCH-S 表级别的锁,不需要页锁或行锁。也就是说,SQL Server数据库引擎使用行版本控制来呈现每个语句,其中包含在语句开始时存在的数据的事务一致性快照。不使用锁来防止其他事务更新数据。 该隔离级别会导致更新时候出现版本冲突异常,这点需要应用程序抓取异常并进行重试。该隔离级别就可以满足读写互不影响。(很多人并未完全理解事务隔离级别,就盲目采用所谓读写分离技术增加设计的复杂度。)

总结

    关系数据库引擎依然是当今最最流行,满足常见商业逻辑需要的ACID特性的技术之一,并且建立在可靠的数学集合理论之上。设计精良的关系数据库模型会提升应用程序的可靠性。设计糟糕的模型会导致上层应用的失败。

    以上所属的一些原则有助于提提高数据模型设计的质量,充分利用数据库提供的特性,可以简化设计方案。