Sample抽样函数用于支持数据挖掘。Sample 函数使得数据分析操作在样本数据上进行,而不是在整张表上进行。
选择10%的记录
select * from atest sample(11)
选择0.1%的记录
select * from atest sample(0.1)
根据数据块选择1%的记录
select * from atest sample block(1)
使用数据块选择与使用记录行选择的区别:使用数据块选择表示样本的采集是基于数据块采集的,也就是说样本如果一个数据块被采集为样本,
则数据块里的记录全部都是样本
样本统计是基于统计学采集的,是有概率问题,不一定完全准确,如你要取50%的记录,但实际可能返回给你49%的记录集,也可能返回给你51%的记录集
例如
如果表T1有数据块B1,B2
B1有记录R1,R2,R3,R4,R5
B2有记录R6,R7,R8,R9,R10
如果使用如下SQL选择50%的数据
select * from atest sample block(50)
则返回的结果可能是数据块B1的记录
R1,R2,R3,R4,R5
也可能是数据块B2的记录
R6,R7,R8,R9,R10
也可能不返回记录集
如果使用如下SQL选择50%的数据
select * from atest sample (50)
则返回的结果可能是
R2,R3,R5,R8,R9
也可能是如下的样子
R1,R3,R4,R8