Zhe Yang

tensorflow 笔记-fetch_20newsgroups

参考网站:https://blog.csdn.net/qq_35082030/article/details/70211552

Sklearn是一个机器学习的python库,里面包含了几乎所有常见的机器学习与数据挖掘的各种算法。具体的,它常见的包括数据预处理(preprocessing)(正则化,归一化等),特征提取(feature_extraction)(TFIDF等),降维(decomposition)(PCA等),以及常见的机器学习算法(分类、聚类、回归),更特别的,它也包括了评估(混淆矩阵与PRF及Acc值)和参数优化等(GridSearchCV),甚至是交叉验证(cross_validation)等都包含在内,可谓是机器学习整个流程都有了。

从下面的代码中,我们可以看到获取数据很简单:

from sklearn.datasets import fetch_20newsgroups 
categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med'] 
twenty_train = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=42)

那么这里最重要的就是这个fetch_20newsgroups方法了,下面我们来详细讲解:

fetch_20newsgroups(data_home=None,subset='train',categories=None,shuffle=True,random_state=42,remove=(),download_if_missing=True) 
data_home指的是数据集的地址,如果默认的话,所有的数据都会在'~/scikit_learn_data'文件夹下. 
subset就是train,test,all三种可选,分别对应训练集、测试集和所有样本。 
categories:是指类别,如果指定类别,就会只提取出目标类,如果是默认,则是提取所有类别出来。 
shuffle:是否打乱样本顺序,如果是相互独立的话。 
random_state:打乱顺序的随机种子 
remove:是一个元组,用来去除一些停用词的,例如标题引用之类的。 
download_if_missing: 如果数据缺失,是否去下载。
码字很辛苦,转载请注明来自Zhe Yang@Shandong University《tensorflow 笔记-fetch_20newsgroups》

评论

友情链接:张小丽的博客