定义

数据采集

数据抽样是统计分析用于选择、操作和分析具有代表性的数据点子集,以确定更大范围内的模式和趋势的技术数据集被检查。它使数据科学家预测建模者和其他数据分析师可以处理关于统计数据的少量可管理的数据人口更快地建立和运行分析模型,同时仍然产生准确的结果。

数据抽样的优点和挑战

对于数据集太大而无法进行全面有效分析的情况下,抽样尤其有用大数据分析应用程序或调查。识别和分析一个有代表性的样本比调查整个数据或人口更有效率和更具成本效益。

然而,一个重要的考虑因素是所需数据样本的大小和引入一个抽样误差.在某些情况下,一个小样本可以揭示关于数据集的最重要的信息。在其他情况下,使用更大的样本可以增加准确地代表整个数据的可能性,即使增加的样本规模可能会妨碍操纵和解释。

数据抽样方法的类型

从数据中提取样本有许多不同的方法;理想的情况取决于数据集和情况。抽样可以基于概率,该方法使用随机数与数据集中的点对应,以确保为样本选择的点之间没有相关性。概率抽样的进一步变化包括:

  • 简单随机抽样:利用软件从整个人群中随机抽取受试者。
  • 分层抽样:数据集或总体的子集是基于一个公共因素创建的,并且从每个子组中随机收集样本。
  • 整群抽样:较大的数据集被划分为若干子集(集群),然后对聚类进行随机抽样分析。
  • 多级抽样:这是一种更复杂的整群抽样形式,它还包括将较大的人口划分为若干组。然后根据一个次要因素得出第二阶段的聚类,然后对这些聚类进行抽样和分析。这暂存可以继续识别、聚类和分析多个子集。
  • 系统抽样:通过设置从更大的总体中提取数据的间隔来创建样本——例如,在包含200个项目的电子表格中每隔10行进行选择,以创建一个20行的样本进行分析。

抽样也可以是基于非概率的,一种根据分析人员的判断确定和提取数据样本的方法。由于纳入是由分析人员决定的,因此与使用概率抽样时相比,很难推断样本是否准确地代表更大的总体。

概率抽样和非概率抽样
数据抽样可以用概率方法或非概率方法来完成。

非概率数据抽样方法包括:

  • 便利抽样:数据是从易于访问和可用的组中收集的。
  • 连续采样:从每个符合标准的受试者中收集数据,直到达到预定的样本量。
  • 目的性或判断性抽样:研究者根据预定义的标准选择数据进行抽样。
  • 定额抽样:研究人员确保在数据集或总体的所有子组的样本中有相等的表示。

一旦生成,示例可以用于预测分析.例如,零售企业可能使用数据抽样来发现关于客户行为和预测建模创造更有效的销售策略。

这是最近更新的2018年9月

继续阅读关于数据抽样

深入挖掘数据分析

搜索数据管理
搜索AWS
搜索内容管理
搜索甲骨文
搜索SAP
搜索SQL服务器
关闭