Weka的PCA使用

2022-10-08 | 阅读：次

	Instances data=new Instances(new BufferedReader(new FileReader("diabetes.arff")));
        data.setClassIndex(data.numAttributes()-1);
        PrincipalComponents pca=new PrincipalComponents();
        pca.setCenterData(true);
        AttributeSelection filter=new AttributeSelection();
        filter.setEvaluator(pca);
        filter.setInputFormat(data);
        filter.setSearch(new Ranker());
        Instances useFilter = Filter.useFilter(data, filter);
        System.out.println(useFilter);
        System.out.println(pca);

首先读取数据，设置最后一列（是否为阳性）为标签（防止被其降维掉）。然后构造PCA分析对象，然后我们设置使用根据协方差而不是相关矩阵进行处理。接下来我们可以根据需要设置覆盖的方差比例。如果为1那么就是取全部的特征值。默认为0.95，即取前k大的特征值至总和的95%。

接下来构造属性选择器（降维器），设置降维算法为pca，使用Ranker进行排序，然后进行降维处理。

在95%的方差覆盖下，数据被降至两维

降维效果显著。

如果设置

pca.setVarianceCovered(1)

那么可以看到全部的特征值情况

可以看出最后几个特征向量的占比极低，将这些维度的数据剔除后不会产生多大负面影响。

Newtank

Weka的PCA使用

目录