Inline createSlots into applyGradients

juliabeliaeva · juliabeliaeva · commit 4741e397ee3a · 2022-12-24T02:12:24.000+01:00
Create optimizer variables directly at the place they are used.
diff --git a/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/AdaDelta.kt b/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/AdaDelta.kt
@@ -74,10 +74,7 @@ public class AdaDelta(
         epsilonConstant = tf.constant(epsilon, getDType())
 
         for ((i, variable) in weights.withIndex()) {
-            val varName = variable.ref().op().name()
-
-            val accumSlot: Variable<Float> = getSlot(varName, ACCUMULATOR)
-            val accumUpdateSlot: Variable<Float> = getSlot(varName, ACCUMULATOR_UPDATE)
+            val (accumSlot, accumUpdateSlot) = createAdaDeltaSlot(graph, tf, variable.asOutput())
 
             targets.add(
                 tf.train.applyAdadelta(
@@ -107,10 +104,6 @@ public class AdaDelta(
         return accumulator to accumulatorUpdate
     }
 
-    override fun createSlots(graph: KGraph, tf: Ops, variables: List<Output<Float>>): List<Variable<Float>> {
-        return variables.flatMap { createAdaDeltaSlot(graph, tf, it.asOutput()).toList() }
-    }
-
     override val optimizerName: String get() = "Adadelta"
 
     override val isRunningOnGPU: Boolean get() = true
diff --git a/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/AdaGrad.kt b/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/AdaGrad.kt
@@ -64,9 +64,7 @@ public class AdaGrad(
         learningRateConst = tf.constant(learningRate, getDType())
 
         for ((i, variable) in weights.withIndex()) {
-            val varName = variable.ref().op().name()
-
-            val slot: Variable<Float> = getSlot(varName, ACCUMULATOR)
+            val slot = createAdaGradSlot(graph, tf, variable.asOutput())
 
             targets.add(
                 tf.train.applyAdagrad(
@@ -90,10 +88,6 @@ public class AdaGrad(
         return createSlot(graph, tf, v.asOutput(), ACCUMULATOR, initializer)
     }
 
-    override fun createSlots(graph: KGraph, tf: Ops, variables: List<Output<Float>>): List<Variable<Float>> {
-        return variables.map { createAdaGradSlot(graph, tf, it.asOutput()) }
-    }
-
     override val optimizerName: String get() = "Adagrad"
 
     override val isRunningOnGPU: Boolean get() = true
diff --git a/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/AdaGradDA.kt b/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/AdaGradDA.kt
@@ -76,12 +76,14 @@ public class AdaGradDA(
         l1StrengthConst = tf.constant(l1Strength, getDType())
         l2StrengthConst = tf.constant(l2Strength, getDType())
 
-        for ((i, variable) in weights.withIndex()) {
-            val varName = variable.ref().op().name()
-
-            val gradSlot: Variable<Float> = getSlot(varName, ACCUMULATOR)
-            val gradSquaredSlot: Variable<Float> = getSlot(varName, SQUARED_ACCUMULATOR)
+        globalStep = tf.withName(GLOBAL_STEP).variable(Shape.scalar(), getDType())
+        val globalStepAssignName = defaultAssignOpName(GLOBAL_STEP)
+        val globalStepInit: Assign<*> = tf.withName(globalStepAssignName)
+            .assign(globalStep, tf.withName(defaultInitializerOpName(GLOBAL_STEP)).constant(0.0f))
+        graph.addOptimizerVariableInitializer(globalStepInit)
 
+        for ((i, variable) in weights.withIndex()) {
+            val (gradSlot, gradSquaredSlot) = createAdaGradDASlot(graph, tf, variable.asOutput())
             targets.add(
                 tf.train.applyAdagradDa(
                     variable,
@@ -117,15 +119,6 @@ public class AdaGradDA(
         return accumulator to squaredAccumulator
     }
 
-    override fun createSlots(graph: KGraph, tf: Ops, variables: List<Output<Float>>): List<Variable<Float>> {
-        globalStep = tf.withName(GLOBAL_STEP).variable(Shape.scalar(), getDType())
-        val globalStepAssignName = defaultAssignOpName(GLOBAL_STEP)
-        val globalStepInit: Assign<*> = tf.withName(globalStepAssignName)
-            .assign(globalStep, tf.withName(defaultInitializerOpName(GLOBAL_STEP)).constant(0.0f))
-        graph.addOptimizerVariableInitializer(globalStepInit)
-        return variables.flatMap { createAdaGradDASlot(graph, tf, it.asOutput()).toList() }
-    }
-
     override val optimizerName: String get() = "AdaGradDA"
 
     override val isRunningOnGPU: Boolean get() = true
diff --git a/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/Adam.kt b/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/Adam.kt
@@ -80,12 +80,26 @@ public class Adam(
         learningRateConst = tf.constant(learningRate, getDType())
         epsilonConstant = tf.constant(epsilon, getDType())
 
-        for ((i, variable) in weights.withIndex()) {
-            val varName = variable.ref().op().name()
+        betaOnePower = tf.withName(FIRST_BETA_POWER_NAME).variable(Shape.scalar(), getDType())
+        val betaOnePowerAssignName = defaultAssignOpName(FIRST_BETA_POWER_NAME)
+        val betaOnePowerInit: Assign<*> = tf.withName(betaOnePowerAssignName)
+            .assign(
+                betaOnePower,
+                tf.withName(defaultInitializerOpName(FIRST_BETA_POWER_NAME)).constant(beta1, getDType())
+            )
+        graph.addOptimizerVariableInitializer(betaOnePowerInit)
 
-            val firstMomentSlot: Variable<Float> = getSlot(varName, FIRST_MOMENT)
-            val secondMomentSlot: Variable<Float> = getSlot(varName, SECOND_MOMENT)
+        betaTwoPower = tf.withName(SECOND_BETA_POWER_NAME).variable(Shape.scalar(), getDType())
+        val betaTwoPowerAssignName = defaultAssignOpName(SECOND_BETA_POWER_NAME)
+        val betaTwoPowerInit: Assign<*> = tf.withName(betaTwoPowerAssignName)
+            .assign(
+                betaTwoPower,
+                tf.withName(defaultInitializerOpName(SECOND_BETA_POWER_NAME)).constant(beta2, getDType())
+            )
+        graph.addOptimizerVariableInitializer(betaTwoPowerInit)
 
+        for ((i, variable) in weights.withIndex()) {
+            val (firstMomentSlot, secondMomentSlot) = createAdamSlot(graph, tf, variable.asOutput())
             targets.add(
                 tf.train.applyAdam(
                     variable,
@@ -132,31 +146,6 @@ public class Adam(
         return firstMoment to secondMoment
     }
 
-    override fun createSlots(graph: KGraph, tf: Ops, variables: List<Output<Float>>): List<Variable<Float>> {
-        betaOnePower = tf.withName(FIRST_BETA_POWER_NAME).variable(Shape.scalar(), getDType())
-
-        val betaOnePowerAssignName = defaultAssignOpName(FIRST_BETA_POWER_NAME)
-        val betaOnePowerInit: Assign<*> = tf.withName(betaOnePowerAssignName)
-            .assign(
-                betaOnePower,
-                tf.withName(defaultInitializerOpName(FIRST_BETA_POWER_NAME)).constant(beta1, getDType())
-            )
-        graph.addOptimizerVariableInitializer(betaOnePowerInit)
-
-
-        betaTwoPower = tf.withName(SECOND_BETA_POWER_NAME).variable(Shape.scalar(), getDType())
-
-        val betaTwoPowerAssignName = defaultAssignOpName(SECOND_BETA_POWER_NAME)
-        val betaTwoPowerInit: Assign<*> = tf.withName(betaTwoPowerAssignName)
-            .assign(
-                betaTwoPower,
-                tf.withName(defaultInitializerOpName(SECOND_BETA_POWER_NAME)).constant(beta2, getDType())
-            )
-        graph.addOptimizerVariableInitializer(betaTwoPowerInit)
-
-        return variables.flatMap { createAdamSlot(graph, tf, it.asOutput()).toList() }
-    }
-
     override val optimizerName: String get() = "Adam"
 
     override val isRunningOnGPU: Boolean get() = true
diff --git a/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/Adamax.kt b/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/Adamax.kt
@@ -79,14 +79,19 @@ public class Adamax(
         learningRateConst = tf.constant(learningRate, getDType())
         epsilonConstant = tf.constant(epsilon, getDType())
 
+        betaOnePower = tf.withName(FIRST_BETA_POWER_NAME).variable(Shape.scalar(), getDType())
+        val betaOnePowerAssignName = defaultAssignOpName(FIRST_BETA_POWER_NAME)
+        val betaOnePowerInit: Assign<*> = tf.withName(betaOnePowerAssignName)
+            .assign(
+                betaOnePower,
+                tf.withName(defaultInitializerOpName(FIRST_BETA_POWER_NAME)).constant(beta1, getDType())
+            )
+        graph.addOptimizerVariableInitializer(betaOnePowerInit)
+
         val scope = Scope(graph.tfGraph)
 
         for ((i, variable) in weights.withIndex()) {
-            val varName = variable.ref().op().name()
-
-            val firstMomentSlot: Variable<Float> = getSlot(varName, FIRST_MOMENT)
-            val secondMomentSlot: Variable<Float> = getSlot(varName, SECOND_MOMENT)
-
+            val (firstMomentSlot, secondMomentSlot) = createAdamaxSlot(graph, tf, variable.asOutput())
             targets.add(
                 ApplyAdaMax.create(
                     scope,
@@ -104,10 +109,9 @@ public class Adamax(
             )
         }
 
-        val betaOnePowerInit = tf
-            .assign(betaOnePower, tf.math.mul(betaOnePower, betaOneConst))
+        val betaOnePowerInit2 = tf.assign(betaOnePower, tf.math.mul(betaOnePower, betaOneConst))
 
-        graph.addOptimizerVariableInitializer(betaOnePowerInit)
+        graph.addOptimizerVariableInitializer(betaOnePowerInit2)
         graph.addOptimizerVariable(betaOnePower)
 
         return targets
@@ -127,20 +131,6 @@ public class Adamax(
         return firstMoment to secondMoment
     }
 
-    override fun createSlots(graph: KGraph, tf: Ops, variables: List<Output<Float>>): List<Variable<Float>> {
-        betaOnePower = tf.withName(FIRST_BETA_POWER_NAME).variable(Shape.scalar(), getDType())
-        val betaOnePowerAssignName = defaultAssignOpName(FIRST_BETA_POWER_NAME)
-
-        val betaOnePowerInit: Assign<*> = tf.withName(betaOnePowerAssignName)
-            .assign(
-                betaOnePower,
-                tf.withName(defaultInitializerOpName(FIRST_BETA_POWER_NAME)).constant(beta1, getDType())
-            )
-        graph.addOptimizerVariableInitializer(betaOnePowerInit)
-
-        return variables.flatMap { createAdamaxSlot(graph, tf, it.asOutput()).toList() }
-    }
-
     override val optimizerName: String get() = "Adamax"
 
     override val isRunningOnGPU: Boolean get() = false
diff --git a/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/Ftrl.kt b/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/Ftrl.kt
@@ -91,10 +91,8 @@ public class Ftrl(
         learningRatePowerConst = tf.constant(learningRatePower, getDType())
 
         for ((i, variable) in weights.withIndex()) {
-            val varName = variable.ref().op().name()
+            val (accumSlot, linearSlot) = createFtrlSlot(graph, tf, variable.asOutput())
 
-            val accumSlot: Variable<Float> = getSlot(varName, ACCUMULATOR)
-            val linearSlot: Variable<Float> = getSlot(varName, LINEAR_ACCUMULATOR)
             val options = ApplyFtrl.useLocking(true)
 
             targets.add(
@@ -130,10 +128,6 @@ public class Ftrl(
         return accumulator to linearAccumulator
     }
 
-    override fun createSlots(graph: KGraph, tf: Ops, variables: List<Output<Float>>): List<Variable<Float>> {
-        return variables.flatMap { createFtrlSlot(graph, tf, it.asOutput()).toList() }
-    }
-
     override val optimizerName: String get() = "Ftrl"
 
     override val isRunningOnGPU: Boolean get() = false
diff --git a/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/Momentum.kt b/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/Momentum.kt
@@ -50,7 +50,7 @@ public class Momentum(
         momentumConst = tf.constant(momentum)
 
         for ((i, variable) in weights.withIndex()) {
-            val slot = getSlot(variable.ref().op().name(), MOMENTUM)
+            val slot = createMomentumSlot(graph, tf, variable.asOutput())
 
             targets.add(
                 tf.train.applyMomentum(
@@ -74,10 +74,6 @@ public class Momentum(
         return createSlot(graph, tf, v.asOutput(), MOMENTUM, initializer)
     }
 
-    override fun createSlots(graph: KGraph, tf: Ops, variables: List<Output<Float>>): List<Variable<Float>> {
-        return variables.map { createMomentumSlot(graph, tf, it.asOutput()) }
-    }
-
     override val optimizerName: String get() = "Momentum"
 
     override val isRunningOnGPU: Boolean get() = true
diff --git a/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/Optimizer.kt b/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/Optimizer.kt
@@ -46,9 +46,6 @@ public abstract class Optimizer(public val clipGradient: ClipGradientAction) {
         slots = mutableMapOf()
 
         val gradients: Gradients = computeGradients(tf, loss, weights)
-
-        createSlots(graph, tf, weights.map { it.asOutput() }) // empty action if not overridden
-
         return applyGradients(graph, tf, weights, gradients)
     }
 
@@ -77,13 +74,6 @@ public abstract class Optimizer(public val clipGradient: ClipGradientAction) {
         return tf.gradients(loss, weights)
     }
 
-    /**
-     * No-op slot creation method.
-     *
-     * @param variables The variables to create slots for.
-     */
-    protected open fun createSlots(graph: KGraph, tf: Ops, variables: List<Output<Float>>): List<Variable<Float>> = emptyList()
-
     /** Returns optimizer name. */
     public abstract val optimizerName: String
 
diff --git a/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/RMSProp.kt b/tensorflow/src/main/kotlin/org/jetbrains/kotlinx/dl/api/core/optimizer/RMSProp.kt
@@ -65,13 +65,12 @@ public class RMSProp(
         epsilonConstant = tf.constant(epsilon, getDType())
 
         for ((i, variable) in weights.withIndex()) {
-            val varName = variable.ref().op().name()
-
-            val rmsSlot: Variable<Float> = getSlot(varName, RMS)
-            val momentumSlot: Variable<Float> = getSlot(varName, MOMENTUM)
+            val slots = createRMSPropSlot(graph, tf, variable.asOutput())
+            val rmsSlot: Variable<Float> = slots[0]
+            val momentumSlot: Variable<Float> = slots[1]
 
             if (centered) {
-                val mgSlot: Variable<Float> = getSlot(varName, MG)
+                val mgSlot: Variable<Float> = slots[2]
                 targets.add(
                     tf.train.applyCenteredRmsProp(
                         variable,
@@ -130,10 +129,6 @@ public class RMSProp(
         return listOf(rms, momentum)
     }
 
-    override fun createSlots(graph: KGraph, tf: Ops, variables: List<Output<Float>>): List<Variable<Float>> {
-        return variables.flatMap { createRMSPropSlot(graph, tf, it.asOutput()) }
-    }
-
     override val optimizerName: String get() = "RMSProp"
 
     override val isRunningOnGPU: Boolean get() = true