训练分类器
来源:wenku163.com 资料编号:WK16317300 资料等级:★★★★★ %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9AWK16317300
资料介绍
训练分类器(中文4500字,英文PDF)
本章探讨分类的第一阶段:模型训练。开发分类器是个动态的过程,要求你创造性地思考出描述数据特征的最佳方式,并考虑在训练模型中所选用的学习算法中如何使用这些数据特征。某些数据很容易就可以为分类所用,而有些则会给分类工作带来很大挑战,让你同时感受到沮丧、有趣和物有所值。
在本章中,你将学会挑选并有效地提取各种特征以构建Mahout分类器。特征提取所涉及的工作比第13章介绍的简化步骤多得多。我们将详细探讨特征提取,包括如何对原始数据进行预处理,将其变成可分类数据,以及如何将可分类数据变成适用于Mahout分类算法的向量。我们将以一个计算营销问题为例,演示如何从数据库中提取训练数据。
一旦理解如何为分类准备数据之后,我们将在14.4节给出一个示例,该示例利用Mahout中的随机梯度下降(SGD)算法在一个标准数据集20 Newsgroup上构建分类器。
|