making helpers private; inlining/cleanup

sifakis · sifakis · commit e9c07a464ac2 · 2025-10-20T12:36:13.000-05:00
diff --git a/nanovdb/nanovdb/tools/cuda/CoarsenGrid.cuh b/nanovdb/nanovdb/tools/cuda/CoarsenGrid.cuh
@@ -6,7 +6,7 @@
 
     \authors Efty Sifakis
 
-    \brief 2x Coarsening/Downsampling of NanoVDB indexGrids on the device
+    \brief 2x Topological coarsening of NanoVDB indexGrids on the device
 
     \warning The header file contains cuda device code so be sure
              to only include it in .cu files (or other .cuh files)
@@ -62,6 +62,7 @@ public:
     GridHandle<BufferT>
     getHandle(const BufferT &buffer = BufferT());
 
+private:
     void coarsenRoot();
 
     void coarsenInternalNodes();
@@ -70,7 +71,6 @@ public:
 
     void coarsenLeafNodes();
 
-private:
     static constexpr unsigned int mNumThreads = 128;// for kernels spawned via lambdaKernel (others may specialize)
     static unsigned int numBlocks(unsigned int n) {return (n + mNumThreads - 1) / mNumThreads;}
 
@@ -80,9 +80,6 @@ private:
     int                     mVerbose{0};
     const GridT             *mDeviceSrcGrid;
     TreeData                mSrcTreeData;
-
-public:
-    const GridT* deviceSrcGrid() const { return mDeviceSrcGrid; }
 };// tools::cuda::CoarsenGrid<BuildT>
 
 //-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
@@ -224,7 +221,7 @@ void CoarsenGrid<BuildT>::processGridTreeRoot()
 {
     // Copy GridData from source grid
     // By convention: this will duplicate grid name and map. Others will be reset later
-    cudaCheck(cudaMemcpyAsync(&mBuilder.data()->getGrid(), deviceSrcGrid()->data(), GridT::memUsage(), cudaMemcpyDeviceToDevice, mStream));
+    cudaCheck(cudaMemcpyAsync(&mBuilder.data()->getGrid(), mDeviceSrcGrid->data(), GridT::memUsage(), cudaMemcpyDeviceToDevice, mStream));
     util::cuda::lambdaKernel<<<1, 1, 0, mStream>>>(1, topology::detail::BuildGridTreeRootFunctor<BuildT>(), mBuilder.deviceData());
     cudaCheckError();
 }// CoarsenGrid<BuildT>::processGridTreeRoot
diff --git a/nanovdb/nanovdb/tools/cuda/DilateGrid.cuh b/nanovdb/nanovdb/tools/cuda/DilateGrid.cuh
@@ -66,6 +66,7 @@ public:
     GridHandle<BufferT>
     getHandle(const BufferT &buffer = BufferT());
 
+private:
     void dilateRoot();
 
     void dilateInternalNodes();
@@ -74,7 +75,6 @@ public:
 
     void dilateLeafNodes();
 
-private:
     static constexpr unsigned int mNumThreads = 128;// for kernels spawned via lambdaKernel (others may specialize)
     static unsigned int numBlocks(unsigned int n) {return (n + mNumThreads - 1) / mNumThreads;}
 
@@ -85,9 +85,6 @@ private:
     const GridT                  *mDeviceSrcGrid;
     morphology::NearestNeighbors mOp{morphology::NN_FACE_EDGE_VERTEX};
     TreeData                     mSrcTreeData;
-
-public:
-    const GridT* deviceSrcGrid() const { return mDeviceSrcGrid; }
 };// tools::cuda::DilateGrid<BuildT>
 
 //-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
@@ -238,17 +235,17 @@ void DilateGrid<BuildT>::dilateInternalNodes()
             using Op = util::morphology::cuda::DilateInternalNodesFunctor<BuildT, morphology::NN_FACE>;
             util::cuda::operatorKernel<Op>
                 <<<dim3(mSrcTreeData.mNodeCount[1],Op::SlicesPerLowerNode,1), Op::MaxThreadsPerBlock, 0, mStream>>>
-                (deviceSrcGrid(), mBuilder.deviceProcessedRoot(), mBuilder.deviceUpperMasks(), mBuilder.deviceLowerMasks()); }
+                (mDeviceSrcGrid, mBuilder.deviceProcessedRoot(), mBuilder.deviceUpperMasks(), mBuilder.deviceLowerMasks()); }
         else if (mOp == morphology::NN_FACE_EDGE) {
             using Op = util::morphology::cuda::DilateInternalNodesFunctor<BuildT, morphology::NN_FACE_EDGE>;
             util::cuda::operatorKernel<Op>
                 <<<dim3(mSrcTreeData.mNodeCount[1],Op::SlicesPerLowerNode,1), Op::MaxThreadsPerBlock, 0, mStream>>>
-                (deviceSrcGrid(), mBuilder.deviceProcessedRoot(), mBuilder.deviceUpperMasks(), mBuilder.deviceLowerMasks()); }
+                (mDeviceSrcGrid, mBuilder.deviceProcessedRoot(), mBuilder.deviceUpperMasks(), mBuilder.deviceLowerMasks()); }
         else if (mOp == morphology::NN_FACE_EDGE_VERTEX) {
             using Op = util::morphology::cuda::DilateInternalNodesFunctor<BuildT, morphology::NN_FACE_EDGE_VERTEX>;
             util::cuda::operatorKernel<Op>
                 <<<dim3(mSrcTreeData.mNodeCount[1],Op::SlicesPerLowerNode,1), Op::MaxThreadsPerBlock, 0, mStream>>>
-                (deviceSrcGrid(), mBuilder.deviceProcessedRoot(), mBuilder.deviceUpperMasks(), mBuilder.deviceLowerMasks()); }
+                (mDeviceSrcGrid, mBuilder.deviceProcessedRoot(), mBuilder.deviceUpperMasks(), mBuilder.deviceLowerMasks()); }
     }
 }// DilateGrid<BuildT>::dilateInternalNodes
 
@@ -259,7 +256,7 @@ void DilateGrid<BuildT>::processGridTreeRoot()
 {
     // Copy GridData from source grid
     // By convention: this will duplicate grid name and map. Others will be reset later
-    cudaCheck(cudaMemcpyAsync(&mBuilder.data()->getGrid(), deviceSrcGrid()->data(), GridT::memUsage(), cudaMemcpyDeviceToDevice, mStream));
+    cudaCheck(cudaMemcpyAsync(&mBuilder.data()->getGrid(), mDeviceSrcGrid->data(), GridT::memUsage(), cudaMemcpyDeviceToDevice, mStream));
     util::cuda::lambdaKernel<<<1, 1, 0, mStream>>>(1, topology::detail::BuildGridTreeRootFunctor<BuildT>(), mBuilder.deviceData());
     cudaCheckError();
 }// DilateGrid<BuildT>::processGridTreeRoot
@@ -276,14 +273,14 @@ void DilateGrid<BuildT>::dilateLeafNodes()
             using Op = util::morphology::cuda::DilateLeafNodesFunctor<BuildT, morphology::NN_FACE>;
             util::cuda::operatorKernel<Op>
                 <<<dim3(mBuilder.data()->nodeCount[1],Op::SlicesPerLowerNode,1), Op::MaxThreadsPerBlock, 0, mStream>>>
-                (deviceSrcGrid(), static_cast<GridT*>(mBuilder.data()->d_bufferPtr)); }
+                (mDeviceSrcGrid, static_cast<GridT*>(mBuilder.data()->d_bufferPtr)); }
         else if (mOp == morphology::NN_FACE_EDGE)
             throw std::runtime_error("dilateLeafNodes() not implemented for NN_FACE_EDGE stencil");
         else if (mOp == morphology::NN_FACE_EDGE_VERTEX) {
             using Op = util::morphology::cuda::DilateLeafNodesFunctor<BuildT, morphology::NN_FACE_EDGE_VERTEX>;
             util::cuda::operatorKernel<Op>
                 <<<dim3(mBuilder.data()->nodeCount[1],Op::SlicesPerLowerNode,1), Op::MaxThreadsPerBlock>>>
-                (deviceSrcGrid(), static_cast<GridT*>(mBuilder.data()->d_bufferPtr)); }
+                (mDeviceSrcGrid, static_cast<GridT*>(mBuilder.data()->d_bufferPtr)); }
     }
 
     // Update leaf offsets and prefix sums
diff --git a/nanovdb/nanovdb/tools/cuda/MergeGrids.cuh b/nanovdb/nanovdb/tools/cuda/MergeGrids.cuh
@@ -63,6 +63,7 @@ public:
     GridHandle<BufferT>
     getHandle(const BufferT &buffer = BufferT());
 
+private:
     void mergeRoot();
 
     void mergeInternalNodes();
@@ -71,7 +72,6 @@ public:
 
     void mergeLeafNodes();
 
-private:
     static constexpr unsigned int mNumThreads = 128;// for kernels spawned via lambdaKernel (others may specialize)
     static unsigned int numBlocks(unsigned int n) {return (n + mNumThreads - 1) / mNumThreads;}
 
@@ -83,10 +83,6 @@ private:
     const GridT             *mDeviceSrcGrid2;
     TreeData                mSrcTreeData1;
     TreeData                mSrcTreeData2;
-
-public:
-    const GridT* deviceSrcGrid1() const { return mDeviceSrcGrid1; }
-    const GridT* deviceSrcGrid2() const { return mDeviceSrcGrid2; }
 };// tools::cuda::MergeGrids<BuildT>
 
 //-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
@@ -236,12 +232,12 @@ void MergeGrids<BuildT>::mergeInternalNodes()
     if (mSrcTreeData1.mNodeCount[1]) { // Unless the first grid to merge is empty
         util::cuda::operatorKernel<Op>
             <<<mSrcTreeData1.mNodeCount[1], Op::MaxThreadsPerBlock, 0, mStream>>>
-            (deviceSrcGrid1(), mBuilder.deviceProcessedRoot(), mBuilder.deviceUpperMasks(), mBuilder.deviceLowerMasks());
+            (mDeviceSrcGrid1, mBuilder.deviceProcessedRoot(), mBuilder.deviceUpperMasks(), mBuilder.deviceLowerMasks());
     }
     if (mSrcTreeData2.mNodeCount[1]) { // Unless the second grid to merge is empty
         util::cuda::operatorKernel<Op>
             <<<mSrcTreeData2.mNodeCount[1], Op::MaxThreadsPerBlock, 0, mStream>>>
-            (deviceSrcGrid2(), mBuilder.deviceProcessedRoot(), mBuilder.deviceUpperMasks(), mBuilder.deviceLowerMasks());
+            (mDeviceSrcGrid2, mBuilder.deviceProcessedRoot(), mBuilder.deviceUpperMasks(), mBuilder.deviceLowerMasks());
     }
 }// MergeGrids<BuildT>::mergeInternalNodes
 
@@ -250,10 +246,10 @@ void MergeGrids<BuildT>::mergeInternalNodes()
 template <typename BuildT>
 void MergeGrids<BuildT>::processGridTreeRoot()
 {
-    // Copy GridData from source grid
+    // Copy GridData from first source grid
     // TODO: Check for instances where extra processing is needed
     // TODO: check that the second grid input has consistent GridData, too
-    cudaCheck(cudaMemcpyAsync(&mBuilder.data()->getGrid(), deviceSrcGrid1()->data(), GridT::memUsage(), cudaMemcpyDeviceToDevice, mStream));
+    cudaCheck(cudaMemcpyAsync(&mBuilder.data()->getGrid(), mDeviceSrcGrid1->data(), GridT::memUsage(), cudaMemcpyDeviceToDevice, mStream));
     util::cuda::lambdaKernel<<<1, 1, 0, mStream>>>(1, topology::detail::BuildGridTreeRootFunctor<BuildT>(), mBuilder.deviceData());
     cudaCheckError();
 }// MergeGrids<BuildT>::processGridTreeRoot
@@ -267,12 +263,12 @@ void MergeGrids<BuildT>::mergeLeafNodes()
     if (mSrcTreeData1.mNodeCount[1]) { // Unless first input grid is empty
         util::cuda::operatorKernel<Op>
             <<<dim3(mSrcTreeData1.mNodeCount[1],Op::SlicesPerLowerNode,1), Op::MaxThreadsPerBlock, 0, mStream>>>
-            (deviceSrcGrid1(), static_cast<GridT*>(mBuilder.data()->d_bufferPtr));
+            (mDeviceSrcGrid1, static_cast<GridT*>(mBuilder.data()->d_bufferPtr));
     }
     if (mSrcTreeData2.mNodeCount[1]) { // Unless second input grid is empty
         util::cuda::operatorKernel<Op>
             <<<dim3(mSrcTreeData2.mNodeCount[1],Op::SlicesPerLowerNode,1), Op::MaxThreadsPerBlock, 0, mStream>>>
-            (deviceSrcGrid2(), static_cast<GridT*>(mBuilder.data()->d_bufferPtr));
+            (mDeviceSrcGrid2, static_cast<GridT*>(mBuilder.data()->d_bufferPtr));
     }
 
     // Update leaf offsets and prefix sums
diff --git a/nanovdb/nanovdb/tools/cuda/PruneGrid.cuh b/nanovdb/nanovdb/tools/cuda/PruneGrid.cuh
@@ -63,6 +63,7 @@ public:
     GridHandle<BufferT>
     getHandle(const BufferT &buffer = BufferT());
 
+private:
     void pruneRoot();
 
     void pruneInternalNodes();
@@ -71,7 +72,6 @@ public:
 
     void pruneLeafNodes();
 
-private:
     static constexpr unsigned int mNumThreads = 128;// for kernels spawned via lambdaKernel (others may specialize)
     static unsigned int numBlocks(unsigned int n) {return (n + mNumThreads - 1) / mNumThreads;}
 
@@ -82,9 +82,6 @@ private:
     const GridT             *mDeviceSrcGrid;
     const Mask<3>           *mDeviceSrcLeafMask;
     TreeData                mSrcTreeData;
-
-public:
-    const GridT* deviceSrcGrid() const { return mDeviceSrcGrid; }
 };// tools::cuda::PruneGrid<BuildT>
 
 //-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
@@ -227,7 +224,7 @@ void PruneGrid<BuildT>::processGridTreeRoot()
 {
     // Copy GridData from source grid
     // By convention: this will duplicate grid name and map. Others will be reset later
-    cudaCheck(cudaMemcpyAsync(&mBuilder.data()->getGrid(), deviceSrcGrid()->data(), GridT::memUsage(), cudaMemcpyDeviceToDevice, mStream));
+    cudaCheck(cudaMemcpyAsync(&mBuilder.data()->getGrid(), mDeviceSrcGrid->data(), GridT::memUsage(), cudaMemcpyDeviceToDevice, mStream));
     util::cuda::lambdaKernel<<<1, 1, 0, mStream>>>(1, topology::detail::BuildGridTreeRootFunctor<BuildT>(), mBuilder.deviceData());
     cudaCheckError();
 }// PruneGrid<BuildT>::processGridTreeRoot
diff --git a/nanovdb/nanovdb/tools/cuda/RefineGrid.cuh b/nanovdb/nanovdb/tools/cuda/RefineGrid.cuh
@@ -6,7 +6,7 @@
 
     \authors Efty Sifakis
 
-    \brief 2x Subdivision/Upsampling of NanoVDB indexGrids on the device
+    \brief 2x Topological refinement of NanoVDB indexGrids on the device
 
     \warning The header file contains cuda device code so be sure
              to only include it in .cu files (or other .cuh files)
@@ -62,6 +62,7 @@ public:
     GridHandle<BufferT>
     getHandle(const BufferT &buffer = BufferT());
 
+private:
     void refineRoot();
 
     void refineInternalNodes();
@@ -70,7 +71,6 @@ public:
 
     void refineLeafNodes();
 
-private:
     static constexpr unsigned int mNumThreads = 128;// for kernels spawned via lambdaKernel (others may specialize)
     static unsigned int numBlocks(unsigned int n) {return (n + mNumThreads - 1) / mNumThreads;}
 
@@ -80,9 +80,6 @@ private:
     int                     mVerbose{0};
     const GridT             *mDeviceSrcGrid;
     TreeData                mSrcTreeData;
-
-public:
-    const GridT* deviceSrcGrid() const { return mDeviceSrcGrid; }
 };// tools::cuda::RefineGrid<BuildT>
 
 //-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
@@ -239,7 +236,7 @@ void RefineGrid<BuildT>::processGridTreeRoot()
 {
     // Copy GridData from source grid
     // By convention: this will duplicate grid name and map. Others will be reset later
-    cudaCheck(cudaMemcpyAsync(&mBuilder.data()->getGrid(), deviceSrcGrid()->data(), GridT::memUsage(), cudaMemcpyDeviceToDevice, mStream));
+    cudaCheck(cudaMemcpyAsync(&mBuilder.data()->getGrid(), mDeviceSrcGrid->data(), GridT::memUsage(), cudaMemcpyDeviceToDevice, mStream));
     util::cuda::lambdaKernel<<<1, 1, 0, mStream>>>(1, topology::detail::BuildGridTreeRootFunctor<BuildT>(), mBuilder.deviceData());
     cudaCheckError();
 }// RefineGrid<BuildT>::processGridTreeRoot