Classification ML

Classification Algorithm - MLlib - Apache Spark

Download data set from :
https://github.com/apache/spark/blob/master/data/mllib/sample_binary_classification_data.txt
Open Eclipse and create maven project.
Below is the pom.xml file where we need to add the spark dependency

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <groupId>anshul</groupId>
  <artifactId>KMeansClustering</artifactId>
  <version>0.0.1-SNAPSHOT</version>
  <packaging>jar</packaging>

  <name>KMeansClustering</name>
  <url>http://maven.apache.org</url>

  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
  </properties>

  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>3.8.1</version>
      <scope>test</scope>
    </dependency>
    
      <dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-mllib_2.10</artifactId>
    <version>1.3.1</version>
    </dependency>
    
  </dependencies>
</project>

Binary Classification Java Class

package anshul.KMeansClustering;


import scala.Tuple2;
import java.util.HashMap;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.mllib.regression.LabeledPoint;
import org.apache.spark.mllib.tree.RandomForest;
import org.apache.spark.mllib.tree.model.RandomForestModel;
import org.apache.spark.mllib.util.MLUtils;

public class Classification {
	
	
public static void main(String args[]){
	
	SparkConf sparkConf = new SparkConf().setMaster("local[4]").setAppName("JavaRandomForestClassification");
	JavaSparkContext sc = new JavaSparkContext(sparkConf);

	// Load and parse the data file.
	String datapath = "/home/anshul/Documents/random forest.txt";
	JavaRDD<LabeledPoint> data = MLUtils.loadLibSVMFile(sc.sc(), datapath).toJavaRDD();
	// Split the data into training and test sets (30% held out for testing)
	JavaRDD<LabeledPoint>[] splits = data.randomSplit(new double[]{0.7, 0.3});
	JavaRDD<LabeledPoint> trainingData = splits[0];
	JavaRDD<LabeledPoint> testData = splits[1];

	// Train a RandomForest model.
	//  Empty categoricalFeaturesInfo indicates all features are continuous.
	Integer numClasses = 2;
	HashMap<Integer, Integer> categoricalFeaturesInfo = new HashMap<Integer, Integer>();
	Integer numTrees = 3; // Use more in practice.
	String featureSubsetStrategy = "auto"; // Let the algorithm choose.
	String impurity = "gini";
	Integer maxDepth = 5;
	Integer maxBins = 32;
	Integer seed = 12345;

	final RandomForestModel model = RandomForest.trainClassifier(trainingData, numClasses,
	  categoricalFeaturesInfo, numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins,
	  seed);

	// Evaluate model on test instances and compute test error
	JavaPairRDD<Double, Double> predictionAndLabel =
	  testData.mapToPair(new PairFunction<LabeledPoint, Double, Double>() {
	    public Tuple2<Double, Double> call(LabeledPoint p) {
	      return new Tuple2<Double, Double>(model.predict(p.features()), p.label());
	    }
	  });
	Double testErr =
	  1.0 * predictionAndLabel.filter(new Function<Tuple2<Double, Double>, Boolean>() {
	    public Boolean call(Tuple2<Double, Double> pl) {
	      return !pl._1().equals(pl._2());
	    }
	  }).count() / testData.count();
	System.out.println("Test Error: " + testErr);
	System.out.println("Learned classification forest model:\n" + model.toDebugString());

	// Save and load model
	model.save(sc.sc(), "myModelPath");
	RandomForestModel sameModel = RandomForestModel.load(sc.sc(), "myModelPath");
	
}
	

}

Output Image :

Thank You :)
Anshul Shrivastava