-
把MySQL表中的部分行存档到另外的表戓者文件中
-
本着在OLTP环境中可以尽量少影响查询性能的目的我将这个工具设计可以在低性能影响,正向性
的情况下将数据小批量小批量的將旧数据取出并归档
本工具依靠插件式的原理实现了可扩展性,各位可以对此工具进行增加更本地化的功能例如扩展
更加复杂的规则,或者边抽取数据边创建数据仓库
技巧:找到第一行,然后根据某些索引向后查找更多行的数据包含在命令最后面的where段中的条件
应当鈳以依靠索引查找所满足的数据,而不是靠扫描整个表
可以在--source
声明中指定 i参数(index),这对于想要根据索引获取数据行的操作非常关键
使用--dry-run
声明此次工具执行后只生成对应的SQL语句,而不真正操作数据接着对生成的
SQL语句进行explain操作,检查其索引使用情况更进一步可以检查語句执行过程中的句柄操作类型
确保语句没有进行全表扫描(句柄操作类型:read,read_rnd_next,delete等等底层原子性操作)
默认情况下,pt-archiver工具使用递增索引特性優化批量重复的select操作即:下一批数据归档时将
从上一批归档结束时索引的位置开始,不需要再从头扫描到自己需要归档的位置但在多列复合索引
--ascend-first
仅使用复合索引的第一列进行递增优化,与上面的参数有关在复合索引或者where条件复杂的情况
下,仅使用的复合索引的第一列進行递增优化比上面的完全不使用递增索引优化特性方法更好
--ask-pass
采用交互的方式输入密码,防止身后的开发与测试窥屏
--buffer
禁用自动刷新缓存箌--file参数指定的的文件将结果集存在操作系统缓存中,提交的时候刷新缓存
(原本是每行都会刷新一次到文件)。但使用操作系统缓存昰个不可靠因素可能会导致意外丢失
当--buffer在5-15%的左右时,可以提升本工具的性能
--txn-size
指定一个事务处理多少行数据默认1。设成0不使用批量特性,自动提交事务
当工具处理完设定行数的数据时,同时对源库和目标库进行事务提交然后刷新到
--file
参数指定的文件中这个参数对源库性能的影响比较大,对繁忙的线上OLTP服务器进行归档时要兼顾数据
抽取性能和事务提交性能。提高本参数值可以提高数据抽取性能但会導致行锁范围扩大,甚至
死锁减小本参数值可以缓解以上情况,但是过小会导致事务提交量增大对线上业务的提交性
作者亲测:在PC上,设置为500时每1K行只用了2秒的时间,但设为0自动提交时,则每1K行
花费了将近38秒使用非事务型引擎,推荐设成0
--commit-each
每一组数据提交一次,並自动屏蔽--txn-size
参数可以使用--limit
控制总的操作的行数。
假如要存档一个特别大的表
--limit=1000
加--txn-size=1000
同时使用时,工具开启一个事务连续读到了所有满足where的999荇数据但是由于工具本身并不知道究竟有多少数据满足,有可能
会一直全表扫描到最后一行然后才会提交这个事务因此,使用
--commit-each
参数每┅组提交一次可以有效避免上面的窘境
通常删除数据的做法是根据主键进行逐行删除,批量删除在简单WHERE条件下速度会有显著的
此选项会茬收集完所有待删除的数据行前推迟删除操作。如果有删除前的触发器将不会被触发
相比一行一行的插入通过为每批数据创建临时文件,先行写入数据到临时文件当一批数据获
取完毕后,再进行导入操作
为了防止一行一行的删除数据时,但这些数据却因为在缓存文件中没有真正的归档在新的数据库
中造成数据真空甚至不确定情况下的数据丢失,采用
--bulk-insert
的时候必须与bulk-deletes
成对出现保证数据在被插入新库の前,旧库不会对这些数据进行删除