JohnSnowLabs · xyutech · Apr 19, 2021 · Apr 29, 2021 · Apr 29, 2021 · May 23, 2021
diff --git a/README.md b/README.md
@@ -44,7 +44,7 @@ set JSL_OCR_LICENSE=license_key
   * Select `SparkOcrSimpleExample.ipynb` notebook.
 * Set `secret` and `license` variables to valid values in first cell.
 * Run all cells: Runtime -> Run all.
-* Restart runtime: Runtime -> Resturt runtime (Need restart first time after installing new packages).
+* Restart runtime: Runtime -> Restart runtime (Need restart first time after installing new packages).
 * Run all cellls again.
 
 ### Run notebooks locally using jupyter
@@ -66,5 +66,5 @@ jupyter-notebook
 * Open `jupyter/SparkOcrSimpleExample.ipynb` notebook.
 * Set `secret` and `license` variables to valid values in first cell.
 * Run all cells: Cell -> Run all.
-* Restart runtime: Kernel -> Resturt (Need restart first time after installing new packages).
+* Restart runtime: Kernel -> Restart (Need restart first time after installing new packages).
 * Run all cellls again.
diff --git a/databricks/python/SparkOcrPdfProcessing.ipynb b/databricks/python/SparkOcrPdfProcessing.ipynb
diff --git a/databricks/python/SparkOcrSimpleExample.ipynb b/databricks/python/SparkOcrSimpleExample.ipynb
diff --git a/databricks/scala/SparkOcrSimpleExample.scala b/databricks/scala/SparkOcrSimpleExample.scala
@@ -30,15 +30,26 @@ def pipeline() = {
     val binaryToImage = new BinaryToImage()
       .setInputCol("content")
       .setOutputCol("image")
+
+   val transformer = new GPUImageTransformer()
+      .addHuangTransform()
+      .addScalingTransform(2)
+      .addDilateTransform(2,2)
+      .addErodeTransform(2,2)
+      .setInputCol("image")
+      .setOutputCol("transformed_image")
 
     // Run OCR
     val ocr = new ImageToText()
-      .setInputCol("image")
+      .setInputCol("transformed_image")
       .setOutputCol("text")
       .setConfidenceThreshold(65)
-
+      .setModelType("best")
+      .setLanguage("eng")
+
     new Pipeline().setStages(Array(
       binaryToImage,
+      transformer,
       ocr
     ))
 }
@@ -50,25 +61,25 @@ def pipeline() = {
 // COMMAND ----------
 
 // MAGIC %sh
-// MAGIC OCR_DIR=/dbfs/tmp/ocr
+// MAGIC OCR_DIR=/dbfs/tmp/ocr_1
 // MAGIC if [ ! -d "$OCR_DIR" ]; then
 // MAGIC     mkdir $OCR_DIR
 // MAGIC     cd $OCR_DIR
-// MAGIC     wget https://s3.amazonaws.com/auxdata.johnsnowlabs.com/public/ocr/datasets/images.zip
-// MAGIC     unzip images.zip
+// MAGIC     wget https://s3.amazonaws.com/auxdata.johnsnowlabs.com/public/ocr/datasets/news.2B.0.png.zip
+// MAGIC     unzip news.2B.0.png.zip
 // MAGIC fi
 
 // COMMAND ----------
 
-display(dbutils.fs.ls("dbfs:/tmp/ocr/images/"))
+display(dbutils.fs.ls("dbfs:/tmp/ocr_1/0/"))
 
 // COMMAND ----------
 
 // MAGIC %md ## Read images as binary files from DBFS
 
 // COMMAND ----------
 
-val imagesPath = "/tmp/ocr/images/*.tif"
+val imagesPath = "/tmp/ocr_1/0/*.png"
 val imagesExampleDf = spark.read.format("binaryFile").load(imagesPath).cache()
 display(imagesExampleDf)
 

diff --git a/jupyter/SparkOcrImageTableCellRecognition.ipynb b/jupyter/SparkOcrImageTableCellRecognition.ipynb
diff --git a/jupyter/SparkOcrImageTableDetection.ipynb b/jupyter/SparkOcrImageTableDetection.ipynb
diff --git a/jupyter/SparkOcrImageTableRecognition.ipynb b/jupyter/SparkOcrImageTableRecognition.ipynb
diff --git a/jupyter/data/tab_images/cTDaR_t10011.jpg b/jupyter/data/tab_images/cTDaR_t10011.jpg
diff --git a/jupyter/data/tab_images/cTDaR_t10168.jpg b/jupyter/data/tab_images/cTDaR_t10168.jpg