游天堂X游聚社区

标题: SQL Server优化50法 [打印本页]

作者: 天狗 时间: 2012-4-21 17:33
标题: SQL Server优化50法
虽然查询速度慢的原因很多，但是如果通过一定的优化，也可以使查询问题得到一定程度的解决。

　　查询速度慢的原因很多，常见如下几种：

没有索引或者没有用到索引(这是查询慢最常见的问题，是程序设计的缺陷)

I/O吞吐量小，形成了瓶颈效应。

没有创建计算列导致查询不优化。

内存不足

网络速度慢

查询出的数据量过大(可以采用多次查询，其他的方法降低数据量)

锁或者死锁(这也是查询慢最常见的问题，是程序设计的缺陷)

sp_lock, sp_who, 活动的用户查看，原因是读写竞争资源。

返回了不必要的行和列

查询语句不好，没有优化，可以通过如下方法来优化查询 :

在创建成员表后，在每个成员服务器上定义一个分布式分区视图，并且每个视图具有相同的名称。这样，引用分布式分区视图名的查询可以在任何一个成员服务器上运行。系统操作如同每个成员服务器上都有一个原始表的复本一样，但其实每个服务器上只有一个成员表和一个分布式分区视图。数据的位置对应用程序是透明的。

重建索引DBCC REINDEX, DBCC INDEXDEFRAG, 收缩数据和日志DBCC SHRINKDB, DBCC SHRINKFILE. 设置自动收缩日志。对于大的数据库不要设置数据库自动增长，它会降低服务器的性能。在T-SQL的写法上有很大的讲究，下面列出常见的要点：首先，DBMS处理查询计划的过程是这样的：

[li] 查询语句的词法、语法检查 [/li][li] 将语句提交给DBMS的查询优化器 [/li][li] 优化器做代数优化和存取路径的优化 [/li][li] 由预编译模块生成查询规划 [/li][li] 然后在合适的时间提交给系统处理执行 [/li][li] 最后将执行结果返回给用户其次，看一下SQL SERVER的数据存放的结构：一个页面的大小为8K(8060)字节，8个页面为一个盘区，按照B树存放。 [/li]
Commit和rollback的区别。Rollback:回滚所有的事务；Commit:提交当前的事务。没有必要在动态SQL里写事务，如果要写请写在外面，如： begin tran exec(@s) commit trans 或者将动态SQL 写成函数或者存储过程。在查询Select语句中用Where字句限制返回的行数，避免表扫描，如果返回不必要的数据，浪费了服务器的I/O资源，加重了网络的负担降低性能。如果表很大，在表扫描的期间将表锁住，禁止其他的联接访问表，否则后果严重。 SQL的注释申明对执行没有任何影响。尽可能不使用光标，它占用大量的资源。如果需要row-by-row地执行，尽量采用非光标技术,如：在客户端循环，用临时表，Table变量，用子查询，用Case语句等等。游标可以按照它所支持的提取选项进行分类：

READ_ONLY：

OPTIMISTIC WITH valueS:

OPTIMISTIC WITH ROW VERSIONING:

SCROLL LOCKS

用Profiler来跟踪查询，得到查询所需的时间，找出SQL的问题所在;用索引优化器优化索引. 注意UNion和UNion all 的区别：UNION ALL好注意使用DISTINCT，在没有必要时不要用，它同UNION一样会使查询变慢。重复的记录在查询里是没有问题的查询时不要返回不需要的行、列用sp_configure 'query governor cost limit'或者SET QUERY_GOVERNOR_COST_LIMIT来限制查询消耗的资源。当评估查询消耗的资源超出限制时，服务器自动取消查询,在查询之前就扼杀掉。SET LOCKTIME设置锁的时间用select top 100 / 10 Percent 来限制用户返回的行数或者SET ROWCOUNT来限制操作的行在SQL 2000以前，一般不要用如下的字句: "IS NULL", "", "!=", "!", "!", "NOT", "NOT EXISTS", "NOT IN", "NOT LIKE", and "LIKE '%500'"，因为他们不走索引全是表扫描。也不要在where字句中的列名加函数，如convert，substring等，如果必须用函数的时候，创建计算列再创建索引来替代。还可以变通写法：WHERE SUBSTRING(firstname,1,1) = 'm' 改为 WHERE firstname like 'm%'(索引扫描)，一定要将函数和列名分开。并且索引不能建得太多和太大。NOT IN会多次扫描表，使用EXISTS, NOT EXISTS, IN, LEFT OUTER JOIN 来替代，特别是左连接，而Exists比IN更快，最慢的是NOT操作。如果列的值含有空，以前它的索引不起作用，现在2000的优化器能够处理了。相同的是"IS NULL", "NOT", "NOT EXISTS", "NOT IN"能优化她，而""等还是不能优化，用不到索引。使用Query Analyzer，查看SQL语句的查询计划和评估分析是否是优化的SQL。一般的20%的代码占据了80%的资源，我们优化的重点是这些慢的地方。如果使用了IN或者OR等时发现查询没有走索引，使用显示申明指定索引： SELECT * FROM PersonMember (INDEX = IX_Title) WHERE processid IN ('男'，'女') 将需要查询的结果预先计算好放在表中，查询的时候再SELECT。这在SQL7.0以前是最重要的手段。例如医院的住院费计算。 MIN() 和 MAX()能使用到合适的索引。数据库有一个原则是代码离数据越近越好，所以优先选择Default，依次为Rules, Triggers, Constraint(约束如外健主健CheckUNIQUE……，数据类型的最大长度等等都是约束), Procedure。这样不仅维护工作小，编写程序质量高，并且执行的速度快。如果要插入大的二进制值到Image列，使用存储过程，千万不要用内嵌insert来插入(不知JAVA是否)。因为这样应用程序首先将二进制值转换成字符串(尺寸是它的两倍)，服务器受到字符后又将他转换成二进制值。存储过程就没有这些动作: 方法：Create procedure p_insert as insert into table(Fimage) values (@image), 在前台调用这个存储过程传入二进制参数，这样处理速度明显改善。 Between在某些时候比IN速度更快，Between能够更快地根据索引找到范围。用查询优化器可见到差别。 select * from chineseresume where title in ('男','女') Select * from chineseresume where between '男' and '女' 是一样的。由于in会在比较多次，所以有时会慢些。在必要时对全局或者局部临时表创建索引，有时能够提高速度，但不是一定会这样，因为索引也耗费大量的资源。他的创建同是实际表一样。不要建没有作用的事务例如产生报表时，浪费资源。只有在必要使用事务时使用它。用OR的字句可以分解成多个查询，并且通过UNION 连接多个查询。他们的速度只同是否使用索引有关，如果查询需要用到联合索引，用UNION ALL执行的效率更高。多个OR的字句没有用到索引，改写成UNION的形式再试图与索引匹配。一个关键的问题是否用到索引。尽量少用视图，它的效率低。对视图操作比直接对表操作慢，可以用stored procedure来代替她。特别的是不要用视图嵌套，嵌套视图增加了寻找原始资料的难度。我们看视图的本质：它是存放在服务器上的被优化好了的已经产生了查询规划的SQL。对单个表检索数据时，不要使用指向多个表的视图，直接从表检索或者仅仅包含这个表的视图上读，否则增加了不必要的开销，查询受到干扰。为了加快视图的查询，MsSQL增加了视图索引的功能。没有必要时不要用DISTINCT和ORDER BY，这些动作可以改在客户端执行。它们增加了额外的开销。这同UNION 和UNION ALL一样的道理。在IN后面值的列表中，将出现最频繁的值放在最前面，出现得最少的放在最后面，减少判断的次数。当用SELECT INTO时，它会锁住系统表(sysobjects，sysindexes等等)，阻塞其他的连接的存取。创建临时表时用显示申明语句，而不是select INTO. drop table t_lxh begin tran select * into t_lxh from chineseresume where name = 'XYZ' --commit，在另一个连接中SELECT * from sysobjects可以看到 SELECT INTO 会锁住系统表，Create table 也会锁系统表(不管是临时表还是系统表)。所以千万不要在事务内使用它!!!这样的话如果是经常要用的临时表请使用实表，或者临时表变量。一般在GROUP BY 和HAVING字句之前就能剔除多余的行，所以尽量不要用它们来做剔除行的工作。他们的执行顺序应该如下最优：select 的Where字句选择所有合适的行，Group By用来分组个统计行，Having字句用来剔除多余的分组。这样Group By 个Having的开销小，查询快。对于大的数据行进行分组和Having十分消耗资源。如果Group BY的目的不包括计算，只是分组，那么用Distinct更快一次更新多条记录比分多次更新每次一条快，就是说批处理好少用临时表，尽量用结果集和Table类型的变量来代替它，Table 类型的变量比临时表好。在SQL2000下，计算字段是可以索引的，需要满足的条件如下：

[li]计算字段的表达是确定的 [/li][li]不能用在text, ntext, Image数据类型 [/li][li]必须配制如下选项 ANSI_NULLS = ON, ANSI_PADDINGS = ON, ……. [/li]
尽量将数据的处理工作放在服务器上，减少网络的开销，如使用存储过程。存储过程是编译好、优化过、并且被组织到一个执行规划里、且存储在数据库中的SQL语句，是控制流语言的集合，速度当然快。反复执行的动态SQL, 可以使用临时存储过程，该过程(临时表)被放在Tempdb中。以前由于SQL SERVER对复杂的数学计算不支持，所以不得不将这个工作放在其他的层上而增加网络的开销。SQL2000支持UDFs, 现在支持复杂的数学计算，函数的返回值不要太大，这样的开销很大。用户自定义函数象光标一样执行的消耗大量的资源，如果返回大的结果采用存储过程。不要在一句话里再三的使用相同的函数，浪费资源，将结果放在变量里再调用更快。 SELECT COUNT(*)的效率较低，尽量变通他的写法，而EXISTS快。同时请注意区别： select count(Field of null) from Table 和 select count(Field of NOT null) from Table 的返回值是不同的!!! 当服务器的内存够多时，配制线程数量 = 最大连接数+5，这样能发挥最大的效率;否则使用“配制线程数量最大连接数启用SQL SERVER的线程池”来解决，如果还是数量 = 最大连接数+5，严重的损害服务器的性能。按照一定的次序来访问你的表。如果你先锁住表A，再锁住表B，那么在所有的存储过程中都要按照这个顺序来锁定它们。如果你(不经意的)某个存储过程中先锁定表B，再锁定表A，这可能就会导致一个死锁。如果锁定顺序没有被预先详细的设计好，死锁很难被发现。通过SQL Server Performance Monitor监视相应硬件的负载Memory: Page Faults / sec计数器如果该值偶尔走高，表明当时有线程竞争内存。如果持续很高，则内存可能是瓶颈。

[li]Process:% DPC Time 指在范例间隔期间处理器用在缓延程序调用(DPC) 接收和提供服务的百分比。(DPC 正在运行的为比标准间隔优先权低的间隔)。由于 DPC 是以特权模式执行的，DPC 时间的百分比为特权时间百分比的一部分。这些时间单独计算并且不属于间隔计算总数的一部分。这个总数显示了作为实例时间百分比的平均忙时。 [/li][li]%Processor Time计数器　如果该参数值持续超过95%，表明瓶颈是CPU。可以考虑增加一个处理器或换一个更快的处理器。 [/li][li]% Privileged Time 指非闲置处理器时间用于特权模式的百分比。(特权模式是为操作系统组件和操纵硬件驱动程序而设计的一种处理模式。它允许直接访问硬件和所有内存。另一种模式为用户模式，它是一种为应用程序、环境分系统和整数分系统设计的一种有限处理模式。操作系统将应用程序线程转换成特权模式以访问操作系统服务)。特权时间的 % 包括为间断和 DPC 提供服务的时间。特权时间比率高可能是由于失败设备产生的大数量的间隔而引起的。这个计数器将平均忙时作为样本时间的一部分显示。 [/li][li]% User Time表示耗费CPU的数据库操作，如排序，执行aggregate functions等。如果该值很高，可考虑增加索引，尽量使用简单的表联接，水平分割大表格等方法来降低该值。 Physical Disk: Curretn Disk Queue Length计数器该值应不超过磁盘数的1.5~2倍。要提高性能，可增加磁盘。 SQLServer:Cache Hit Ratio计数器该值越高越好。如果持续低于80%，应考虑增加内存。注意该参数值是从SQL Server启动后，就一直累加记数，所以运行经过一段时间后，该值将不能反映系统当前值。 [/li]
分析select emp_name form. employee where salary 3000 在此语句中若salary是Float类型的，则优化器对其进行优化为Convert(float,3000)，因为3000是个整数，我们应在编程时使用3000.0而不要等运行时让DBMS进行转化。同样字符和整型数据的转换。查询的关联同写的顺序

select a.personMemberID, * from chineseresume a,personmember b where personMemberID = b.referenceid and a.personMemberID = 'JCNPRH39681' （A = B ,B = '号码'）
select a.personMemberID, * from chineseresume a,personmember b where a.personMemberID = b.referenceid and a.personMemberID = 'JCNPRH39681' and b.referenceid = 'JCNPRH39681' （A = B ,B = '号码'， A = '号码'）
select a.personMemberID, * from chineseresume a,personmember b where b.referenceid = 'JCNPRH39681' and a.personMemberID = 'JCNPRH39681' （B = '号码'， A = '号码'）

[li]IF 没有输入负责人代码 THEN code1=0 code2=9999 ELSE code1=code2=负责人代码 END IF 执行SQL语句为: SELECT 负责人名 FROM P2000 WHERE 负责人代码=:code1 AND负责人代码 =:code2 [/li][li]IF 没有输入负责人代码 THEN SELECT 负责人名 FROM P2000 ELSE code= 负责人代码 SELECT 负责人代码 FROM P2000 WHERE 负责人代码=:code END IF 第一种方法只用了一条SQL语句,第二种方法用了两条SQL语句。在没有输入负责人代码时，第二种方法显然比第一种方法执行效率高，因为它没有限制条件; 在输入了负责人代码时，第二种方法仍然比第一种方法效率高，不仅是少了一个限制条件，还因相等运算是最快的查询运算。我们写程序不要怕麻烦。 [/li]关于JOBCN现在查询分页的新方法（如下），用性能优化器分析性能的瓶颈，如果在I/O或者网络的速度上，如下的方法优化切实有效，如果在CPU或者内存上，用现在的方法更好。请区分如下的方法，说明索引越小越好。
DECLARE @local_variable table (FID int identity(1,1),ReferenceID varchar(20))
insert into @local_variable (ReferenceID)
select top 100000 ReferenceID from chineseresume order by ReferenceID
select * from @local_variable where Fid > 40 and fid <= 60
end 和
begin
DECLARE @local_variable table (FID int identity(1,1),ReferenceID varchar(20))
insert into @local_variable (ReferenceID)
select top 100000 ReferenceID from chineseresume order by updatedate
select * from @local_variable where Fid > 40 and fid <= 60
end 的不同
begin
create table #temp (FID int identity(1,1),ReferenceID varchar(20))
insert into #temp (ReferenceID)
select top 100000 ReferenceID from chineseresume order by updatedate
select * from #temp where Fid > 40 and fid <= 60 drop table #temp
end

作者: 怪蜀黍 时间: 2012-4-21 19:53
学好数据库很重要啊，我就是典型没有学好的

欢迎光临游天堂X游聚社区 (https://bbs.gotvg.com/)