small style edits

gingsmith · gingsmith · commit 81475b9af661 · 2015-01-08T14:58:44.000-08:00
diff --git a/run-demo-cluster.sh b/run-demo-cluster.sh
@@ -3,7 +3,7 @@
 /root/spark/bin/spark-submit \
   --master `cat /root/spark-ec2/cluster-url` \
   --class "distopt.driver" \
-  --driver-memory 80423M \
+  --driver-memory 8G \
   --driver-java-options "-Dspark.local.dir=/mnt/spark,/mnt2/spark -XX:+UseG1GC" \
   target/scala-2.10/cocoa-assembly-0.1.jar \
   "$@"
diff --git a/src/main/scala/driver.scala b/src/main/scala/driver.scala
@@ -33,6 +33,7 @@ object driver {
     val localIterFrac = options.getOrElse("localIterFrac","1.0").toDouble; // fraction of local points to be processed per round, H = localIterFrac * n
     val beta = options.getOrElse("beta","1.0").toDouble;  // scaling parameter when combining the updates of the workers (1=averaging)
     val debugIter = options.getOrElse("debugIter","10").toInt // set to -1 to turn off debugging output
+    val seed = options.getOrElse("seed","0").toInt // set seed for debug purposes
 
     // print out inputs
     println("master:       " + master);          println("trainFile:    " + trainFile);
@@ -41,7 +42,7 @@ object driver {
     println("testfile:     " + testFile);        println("justCoCoA     " + justCoCoA);       
     println("lambda:       " + lambda);          println("numRounds:    " + numRounds);       
     println("localIterFrac:" + localIterFrac);   println("beta          " + beta);     
-    println("debugIter     " + debugIter);       
+    println("debugIter     " + debugIter);       println("seed          " + seed);   
 
     // start spark context
     val conf = new SparkConf().setMaster(master)
@@ -72,22 +73,22 @@ object driver {
 
 
     // run CoCoA
-    val (finalwCoCoA, finalalphaCoCoA) = CoCoA.runCoCoA(sc, data, n, wInit, numRounds, localIters, lambda, beta, chkptIter, testData, debugIter)
+    val (finalwCoCoA, finalalphaCoCoA) = CoCoA.runCoCoA(sc, data, n, wInit, numRounds, localIters, lambda, beta, chkptIter, testData, debugIter, seed)
     OptUtils.printSummaryStatsPrimalDual("CoCoA", data, finalwCoCoA, finalalphaCoCoA, lambda, testData)
 
     // optionally run other methods for comparison
     if(!justCoCoA) { 
 
       // run Mini-batch CD
-      val (finalwMbCD, finalalphaMbCD) = MinibatchCD.runMbCD(sc, data, n, wInit, numRounds, localIters, lambda, beta, chkptIter, testData, debugIter)
+      val (finalwMbCD, finalalphaMbCD) = MinibatchCD.runMbCD(sc, data, n, wInit, numRounds, localIters, lambda, beta, chkptIter, testData, debugIter, seed)
       OptUtils.printSummaryStatsPrimalDual("Mini-batch CD", data, finalwMbCD, finalalphaMbCD, lambda, testData)
 
       // run Mini-batch SGD
-      val finalwMbSGD = SGD.runSGD(sc, data, n, wInit, numRounds, localIters, lambda, local=false, beta, chkptIter, testData, debugIter)
+      val finalwMbSGD = SGD.runSGD(sc, data, n, wInit, numRounds, localIters, lambda, local=false, beta, chkptIter, testData, debugIter, seed)
       OptUtils.printSummaryStats("Mini-batch SGD", data, finalwMbSGD, lambda, testData)
     
       // run Local SGD
-      val finalwLocalSGD = SGD.runSGD(sc, data, n, wInit, numRounds, localIters, lambda, local=true, beta, chkptIter, testData, debugIter)
+      val finalwLocalSGD = SGD.runSGD(sc, data, n, wInit, numRounds, localIters, lambda, local=true, beta, chkptIter, testData, debugIter, seed)
       OptUtils.printSummaryStats("Local SGD", data, finalwLocalSGD, lambda, testData)
 
     }
diff --git a/src/main/scala/solvers/CoCoA.scala b/src/main/scala/solvers/CoCoA.scala
@@ -35,7 +35,8 @@ object CoCoA {
     beta: Double, 
     chkptIter: Int, 
     testData: RDD[SparseClassificationPoint], 
-    debugIter: Int) : (Array[Double], RDD[(Int, Double)]) = {
+    debugIter: Int,
+    seed: Int) : (Array[Double], RDD[(Int, Double)]) = {
     
     val parts = data.partitions.size 	// number of partitions of the data, K in the paper
     println("\nRunning CoCoA on "+n+" data examples, distributed over "+parts+" workers")
@@ -45,16 +46,16 @@ object CoCoA {
     var w = wInit
     val scaling = beta / parts;
 
-    for(t <- 1 until numRounds+1){
+    for(t <- 1 to numRounds){
 
       // zip alpha with data
       val zipData = alpha.zip(data)
 
       // find updates to alpha, w
-      val updates = zipData.mapPartitions(partitionUpdate(_,w,localIters,lambda,n,scaling),preservesPartitioning=true).persist()
+      val updates = zipData.mapPartitions(partitionUpdate(_,w,localIters,lambda,n,scaling,seed+t),preservesPartitioning=true).persist()
       alpha = updates.map(kv => kv._2)
       val primalVariables = updates.map(kv => kv._1)
-      val primalUpdates = primalVariables.mapPartitions(singleElementFromPartition,preservesPartitioning=true).reduce(_ plus _)
+      val primalUpdates = primalVariables.mapPartitions(x => Iterator(x.next())).reduce(_ plus _)
       w = primalUpdates.times(scaling).plus(w)
 
       // optionally calculate errors
@@ -75,13 +76,6 @@ object CoCoA {
     return (w, alpha)
   }
 
-  private def singleElementFromPartition(
-    primalVariables: Iterator[Array[Double]]): Iterator[Array[Double]] = {
-    var wVectorList = List[Array[Double]]()
-    wVectorList = primalVariables.next() :: wVectorList
-    return wVectorList.iterator
-  }
-
   /**
    * Performs one round of local updates using a given local dual algorithm, 
    * here locaSDCA. Will perform localIters many updates per worker.
@@ -92,6 +86,7 @@ object CoCoA {
    * @param lambda
    * @param n
    * @param scaling this is the scaling factor beta/K in the paper
+   * @param seed
    * @return
    */
   private def partitionUpdate(
@@ -100,14 +95,15 @@ object CoCoA {
     localIters: Int, 
     lambda: Double, 
     n: Int, 
-    scaling: Double): Iterator[(Array[Double], (Int, Double))] = {
+    scaling: Double,
+    seed: Int): Iterator[(Array[Double], (Int, Double))] = {
 
     val zipArr = zipData.toArray
     var localData = zipArr.map(x => x._2)
     var alpha = zipArr.map(x => x._1._2)
     val indices = (0 to localData.length-1).map(x => localData(x).index).toArray
     val alphaOld = alpha.clone
-    val (deltaAlpha, deltaW) = localSDCA(localData, wInit, localIters, lambda, n, alpha, alphaOld)
+    val (deltaAlpha, deltaW) = localSDCA(localData, wInit, localIters, lambda, n, alpha, alphaOld, seed)
     
     alpha = alphaOld.plus(deltaAlpha.times(scaling))
     var wArray = Array.fill(localData.length)(Array(0.0))
@@ -134,6 +130,7 @@ object CoCoA {
    * @param n global number of points (needed for the primal-dual correspondence)
    * @param alpha
    * @param alphaOld
+   * @param seed
    * @return deltaAlpha and deltaW, summarizing the performed local changes, see paper
    */
   def localSDCA(
@@ -143,10 +140,11 @@ object CoCoA {
     lambda: Double, 
     n: Int,
     alpha: Array[Double], 
-    alphaOld: Array[Double]): (Array[Double], Array[Double]) = {
+    alphaOld: Array[Double],
+    seed: Int): (Array[Double], Array[Double]) = {
     var w = wInit
     val nLocal = localData.length
-    var r = new scala.util.Random
+    var r = new scala.util.Random(seed)
     var deltaW = Array.fill(wInit.length)(0.0)
 
     // perform local udpates
@@ -172,7 +170,7 @@ object CoCoA {
         val qii  = x.dot(x)
         var newAlpha = 1.0
         if (qii != 0.0) {
-          newAlpha = Math.min(Math.max(alpha(idx) - grad / qii, 0.0), 1.0)
+          newAlpha = Math.min(Math.max((alpha(idx) - (grad / qii)), 0.0), 1.0)
         }
 
         // update primal and dual variables
diff --git a/src/main/scala/solvers/MinibatchCD.scala b/src/main/scala/solvers/MinibatchCD.scala
@@ -33,7 +33,8 @@ object MinibatchCD {
     beta: Double, 
     chkptIter: Int, 
     testData: RDD[SparseClassificationPoint], 
-    debugIter: Int) : (Array[Double], RDD[(Int, Double)]) = {
+    debugIter: Int,
+    seed: Int) : (Array[Double], RDD[(Int, Double)]) = {
     
     val parts = data.partitions.size 	// number of partitions of the data, K in the paper
     println("\nRunning Mini-batch CD on "+n+" data examples, distributed over "+parts+" workers")
@@ -43,16 +44,16 @@ object MinibatchCD {
     var w = wInit
     val scaling = beta / (parts * localIters);
 
-    for(t <- 1 until numRounds+1){
+    for(t <- 1 to numRounds){
 
       // zip alpha with data
       val zipData = alpha.zip(data)
 
       // find updates to alpha, w
-      val updates = zipData.mapPartitions(partitionUpdate(_,w,localIters,lambda,n,scaling),preservesPartitioning=true).persist()
+      val updates = zipData.mapPartitions(partitionUpdate(_,w,localIters,lambda,n,scaling,seed+t),preservesPartitioning=true).persist()
       alpha = updates.map(kv => kv._2)
       val primalVariables = updates.map(kv => kv._1)
-      val primalUpdates = primalVariables.mapPartitions(singleElementFromPartition,preservesPartitioning=true).reduce(_ plus _)
+      val primalUpdates = primalVariables.mapPartitions(x => Iterator(x.next())).reduce(_ plus _)
       w = primalUpdates.times(scaling).plus(w)
 
       // optionally calculate errors
@@ -73,13 +74,6 @@ object MinibatchCD {
     return (w, alpha)
   }
 
-  private def singleElementFromPartition(
-    primalVariables: Iterator[Array[Double]]): Iterator[Array[Double]] = {
-    var wVectorList = List[Array[Double]]()
-    wVectorList = primalVariables.next() :: wVectorList
-    return wVectorList.iterator
-  }
-
   /**
    * Performs one round of mini-batch CD updates
    *
@@ -97,7 +91,8 @@ object MinibatchCD {
     localIters: Int, 
     lambda: Double, 
     n: Int, 
-    scaling: Double): Iterator[(Array[Double], (Int, Double))] = {
+    scaling: Double,
+    seed: Int): Iterator[(Array[Double], (Int, Double))] = {
 
     val zipArr = zipData.toArray
     var localData = zipArr.map(x => x._2)
@@ -106,7 +101,7 @@ object MinibatchCD {
     val alphaOld = alpha.clone
     var w = wInit
     val nLocal = localData.length
-    var r = new scala.util.Random
+    var r = new scala.util.Random(seed)
     var deltaW = Array.fill(wInit.length)(0.0)
 
         // perform local udpates
@@ -132,7 +127,7 @@ object MinibatchCD {
         val qii  = x.dot(x)
         var newAlpha = 1.0
         if (qii != 0.0) {
-          newAlpha = Math.min(Math.max(alpha(idx) - grad / qii, 0.0), 1.0)
+          newAlpha = Math.min(Math.max((alpha(idx) - (grad / qii)), 0.0), 1.0)
         }
 
         // update primal and dual variables
diff --git a/src/main/scala/solvers/SGD.scala b/src/main/scala/solvers/SGD.scala
@@ -36,7 +36,8 @@ object SGD {
     beta: Double, 
     chkptIter: Int,
     testData: RDD[SparseClassificationPoint],
-    debugIter: Int) : Array[Double] = {
+    debugIter: Int,
+    seed: Int) : Array[Double] = {
     
     val parts = data.partitions.size 	// number of partitions of the data, K in the paper
     println("\nRunning SGD (with local updates = "+local+") on "+n+" data examples, distributed over "+parts+" workers")
@@ -51,7 +52,7 @@ object SGD {
       scaling = beta / (parts * localIters)
     }
 
-    for(t <- 1 until numRounds+1){
+    for(t <- 1 to numRounds){
 
       // update step size
       val step = 1/(lambda*(t))
@@ -63,7 +64,7 @@ object SGD {
       }
 
       // find updates to w
-      val updates = data.mapPartitions(partitionUpdate(_, w, lambda, ((t-1) * localIters * parts), localIters, local, parts), preservesPartitioning = true).persist()
+      val updates = data.mapPartitions(partitionUpdate(_, w, lambda, ((t-1) * localIters * parts), localIters, local, parts, seed+t), preservesPartitioning = true).persist()
       val primalUpdates = updates.reduce(_ plus _)
       if (local) {
         w = primalUpdates.times(scaling).plus(w)
@@ -102,11 +103,12 @@ object SGD {
     t:Double, 
     localIters:Int, 
     local:Boolean, 
-    parts:Int) : Iterator[Array[Double]] = {
+    parts:Int,
+    seed: Int) : Iterator[Array[Double]] = {
 
     val dataArr = localData.toArray
     val nLocal = dataArr.length
-    var r = new scala.util.Random
+    var r = new scala.util.Random(seed)
     var w = wInit.clone
     var deltaW = Array.fill(wInit.length)(0.0)