MySQL大数据量下优化原则:
一、SQL语句及索引优化
1、只返回需要的数据,不要写SELECT * 的语句,合理的WHERE子句,不要写没有WHERE的SQL语句。
2、尽量少做重复的工作。
a、控制一条语句的多次执行
b、减少多次的数据转换
c、杜绝不必要的子查询
d、合并多同一表的多次UPDATE操作
e、UPADTE操作不要拆分成DELETE+INSERT操作
f、不要写一些没有意义的查询
3、适当的建立索引,避免如下操作:
a、对索引字段进行计算操作
b、在索引字段上使用not,<>,!=,列如a<>0 改为 a>0 or a<0
c、在索引字段上使用IS NULL和IS NOT NULL
d、在索引字段上出现数据类型的转换
e、在索引字段上使用函数
f、在建立的索引列中使用空值
g、like使用左模糊查询'%...'
h、or左边使用索引右边不适用索引,必须两边都使用
i、where子句中字段索引和联合索引顺序不一致
4、避免使用临时表,除非却有需要。使用union代替手动创建临时表
5、使用join代替子查询
二、加缓存,memcache,redis。
三、主从复制或者主主复制,读写分离,可以在应用层做,效率高,也可以使用第三方的工具,列如:360的atlas,MySQL高可用架构之MHA
四、如果以上都做了还是慢,不要想着去做切分,mysql自带分区表,先试试这个,对你的应用是透明的,无需更改代码,但是sql语句是需要针对分区表做优化的,sql条件中要带上分区条件的列,从而使查询定位到少量的分区上,否则就会扫描全部分区。分区表介绍:http://www.jb51.net/article/48425.htm
五、如果以上都做了,那就先做垂直拆分,其实就是根据你模块的耦合度,将一个大的系统分为多个小的系统,也就是分布式系统;
六、才是水平切分,针对数据量大的表,这一步最麻烦,最能考验技术水平,要选择一个合理的sharding key,为了有好的查询效率,表结构也要改动,做一定的冗余,应用也要改,sql中尽量带sharding key,将数据定位到限定的表上去查,而不是扫描全部的表。
MySQL大数据量下一般都是按照这个步骤去优化的,成本也是由低到高。