张家界旅游攻略-亚搏娱乐-亚搏娱乐app-亚搏娱乐app下载

专栏引荐

(此处已增加圈子卡片,请到今天头条客户端标签10张家界旅行攻略-亚搏文娱-亚搏文娱app-亚搏文娱app下载检查)

正文

现在有一张家界旅行攻略-亚搏文娱-亚搏文娱app-亚搏文娱app下载个数据集spamTrain.mat和spamTest.mat,这两个数据集,其间一个是操练集数据,其间一个是测验集数据,咱们先从中取出操练集特征X,操练数据y,以及测验集Xtest特征,以及测验集ytest的标示,咱们输出看一下咱们的操练集数据是什么样的?

其实它是一个邮件分类的数据集,只不过咱们对其现已进行好了处理,其实这个处理(将字词映射到为操练供给的字典中的ID),而其他的预处理过程(如HTML删去,词干,标准化等)现已完结。 这儿越过机器学习使命,张家界旅行攻略-亚搏文娱-亚搏文娱app-亚搏文娱app下载而不是重现这些预处理过程,其间包含从预处理过的操练集构建分类器,以及将垃圾邮件和非垃圾邮件转换为单词呈现次数的向量的测验数据集。)

其间每个文档现已转换为一个向量,其间1,899个维对应于词汇表中的1,899个单词。 它们的值为二进制,表明文档中是否存在单词。标签1 在这一点上,操练评价是用一个分类器拟合测验数据的问题。

下面咱们来拟合这个数据集

svc = 张家界旅行攻略-亚搏文娱-亚搏文娱app-亚搏文娱app下载svm.SVC()

svc.fit(X, y)

下面来看一下咱们的咱们此刻的操练集数据和测验集数据

print('Training 张家界旅行攻略-亚搏文娱-亚搏文娱app-亚搏文娱app下载accuracy = {0}%'.format(np.round(svc.score(X, y) * 100, 2)))

print标签17('Test accuracy = {0}%'.format(np.round(标签11svc.score(Xtest, ytest) * 100, 2))标签10)

成果为:

Training accuracy = 94.4%

Test accuracy = 95.3%

悉数代码:

from sklearn import svm
import numpy as np标签11
import pand标签20as as pd
import matplotlib.py张家界旅行攻略-亚搏文娱-亚搏文娱app-亚搏文娱app下载plot as plt
import seaborn as sb
from scip张家界旅行攻略-亚搏文娱-亚搏文娱app-亚搏文娱app下载y.io import loadmat
spam_train = loadmat('spamTrain.ma标签1t')
spa标签20m_test = loadmat('spamTest.mat')
X = spam_train['X']
Xtest = spam_test['Xtest']
y = spam_train['y'].ravel()
ytest标签19 = spam_test['ytest'].ravel()
print (标签5X)
print (y)
svc = svm.SVC()
svc.fit(X, y)
print('Training accuracy = {0}%'.format标签19(np.round(svc.score(X, y) * 100, 2)))
print('Test accuracy标签17 = {0}%'.format(np.round(svc.score(Xtest, ytest) * 100, 2)))

Write a Comment

电子邮件地址不会被公开。 必填项已用 *标注