摘要
解的稀疏性的丧失——所有的训练样本均作为支持向量,是最小二乘支持向量机的缺点之一,针对导致模型复杂度提高和模型训练、识别速度降低的问题,从数据挖掘和支持向量的几何分布含义两个方面出发,提出了一种新的支持向量预选取算法。一方面对原数据集的每类数据分别进行K均值聚类,将所有的类中心作为原始数据的表征集;另一方面对原数据集用K最近邻方法提取原数据集的边界样本;最后将这两种方法提取的所有样本点的并集作为预选支持向量进行训练和预测。UCI数据库的实验表明:该方法充分融合了K均值和K最近邻预选取算法的优点,能有效的预选取出支持向量,同时保持较高的识别率,而且稀疏效果更稳定,稀疏性能优于经典的迭代剪枝算法。