Resize image keeping aspect ratio intact and padding

ayooshkathuria · ayooshkathuria · commit e21f8beecd0e · 2018-04-30T04:30:34.000+05:30
diff --git a/detect.py b/detect.py
@@ -69,7 +69,7 @@ def arg_parse():
                         default = "yolov3.weights", type = str)
     parser.add_argument("--reso", dest = 'reso', help = 
                         "Input resolution of the network. Increase to increase accuracy. Decrease to increase speed",
-                        default = "320", type = str)
+                        default = "416", type = str)
     parser.add_argument("--scales", dest = "scales", help = "Scales to use for detection",
                         default = "1,2,3", type = str)
     
@@ -242,11 +242,24 @@ def arg_parse():
         print("No detections were made")
         exit()
         
-    output_recast = time.time()
-    output[:,1:5] = torch.clamp(output[:,1:5], 0.0, float(inp_dim))
+    im_dim_list = torch.index_select(im_dim_list, 0, output[:,0].long())
+    
+    scaling_factor = torch.min(inp_dim/im_dim_list,1)[0].view(-1,1)
+    
+    
+    output[:,[1,3]] -= (inp_dim - scaling_factor*im_dim_list[:,0].view(-1,1))/2
+    output[:,[2,4]] -= (inp_dim - scaling_factor*im_dim_list[:,1].view(-1,1))/2
+    
     
-    im_dim_list = torch.index_select(im_dim_list, 0, output[:,0].long())/inp_dim
-    output[:,1:5] *= im_dim_list
+    
+    output[:,1:5] /= scaling_factor
+    
+    for i in range(output.shape[0]):
+        output[i, [1,3]] = torch.clamp(output[i, [1,3]], 0.0, im_dim_list[i,0])
+        output[i, [2,4]] = torch.clamp(output[i, [2,4]], 0.0, im_dim_list[i,1])
+        
+        
+    output_recast = time.time()
     
     
     class_load = time.time()
diff --git a/preprocess.py b/preprocess.py
@@ -12,6 +12,21 @@
 from PIL import Image, ImageDraw
 
 
+def letterbox_image(img, inp_dim):
+    '''resize image with unchanged aspect ratio using padding'''
+    img_w, img_h = img.shape[1], img.shape[0]
+    w, h = inp_dim
+    new_w = int(img_w * min(w/img_w, h/img_h))
+    new_h = int(img_h * min(w/img_w, h/img_h))
+    resized_image = cv2.resize(img, (new_w,new_h), interpolation = cv2.INTER_CUBIC)
+    
+    canvas = np.full((inp_dim[1], inp_dim[0], 3), 128)
+
+    canvas[(h-new_h)//2:(h-new_h)//2 + new_h,(w-new_w)//2:(w-new_w)//2 + new_w,  :] = resized_image
+    
+    return canvas
+
+
         
 def prep_image(img, inp_dim):
     """
@@ -22,7 +37,7 @@ def prep_image(img, inp_dim):
 
     orig_im = cv2.imread(img)
     dim = orig_im.shape[1], orig_im.shape[0]
-    img = cv2.resize(orig_im, (inp_dim, inp_dim))
+    img = (letterbox_image(orig_im, (inp_dim, inp_dim)))
     img_ = img[:,:,::-1].transpose((2,0,1)).copy()
     img_ = torch.from_numpy(img_).float().div(255.0).unsqueeze(0)
     return img_, orig_im, dim
diff --git a/video_demo.py b/video_demo.py
@@ -7,7 +7,7 @@
 import cv2 
 from util import *
 from darknet import Darknet
-from preprocess import prep_image, inp_to_image
+from preprocess import prep_image, inp_to_image, letterbox_image
 import pandas as pd
 import random 
 import pickle as pkl
@@ -36,7 +36,7 @@ def prep_image(img, inp_dim):
 
     orig_im = img
     dim = orig_im.shape[1], orig_im.shape[0]
-    img = cv2.resize(orig_im, (inp_dim, inp_dim))
+    img = (letterbox_image(orig_im, (inp_dim, inp_dim)))
     img_ = img[:,:,::-1].transpose((2,0,1)).copy()
     img_ = torch.from_numpy(img_).float().div(255.0).unsqueeze(0)
     return img_, orig_im, dim
@@ -151,11 +151,17 @@ def arg_parse():
             
 
             
-        
-            output[:,1:5] = torch.clamp(output[:,1:5], 0.0, float(inp_dim))
+            im_dim = im_dim.repeat(output.size(0), 1)
+            scaling_factor = torch.min(inp_dim/im_dim,1)[0].view(-1,1)
+            
+            output[:,[1,3]] -= (inp_dim - scaling_factor*im_dim[:,0].view(-1,1))/2
+            output[:,[2,4]] -= (inp_dim - scaling_factor*im_dim[:,1].view(-1,1))/2
             
-            im_dim = im_dim.repeat(output.size(0), 1)/inp_dim
-            output[:,1:5] *= im_dim
+            output[:,1:5] /= scaling_factor
+    
+            for i in range(output.shape[0]):
+                output[i, [1,3]] = torch.clamp(output[i, [1,3]], 0.0, im_dim[i,0])
+                output[i, [2,4]] = torch.clamp(output[i, [2,4]], 0.0, im_dim[i,1])
             
             classes = load_classes('data/coco.names')
             colors = pkl.load(open("pallete", "rb"))
diff --git a/video_demo_half.py b/video_demo_half.py
@@ -7,7 +7,7 @@
 import cv2 
 from util import *
 from darknet import Darknet
-from preprocess import prep_image, inp_to_image
+from preprocess import prep_image, inp_to_image, letterbox_image
 import pandas as pd
 import random 
 import pickle as pkl
@@ -36,7 +36,7 @@ def prep_image(img, inp_dim):
 
     orig_im = img
     dim = orig_im.shape[1], orig_im.shape[0]
-    img = cv2.resize(orig_im, (inp_dim, inp_dim))
+    img = (letterbox_image(orig_im, (inp_dim, inp_dim)))
     img_ = img[:,:,::-1].transpose((2,0,1)).copy()
     img_ = torch.from_numpy(img_).float().div(255.0).unsqueeze(0)
     return img_, orig_im, dim
@@ -153,10 +153,18 @@ def arg_parse():
                 continue
 
         
-            output[:,1:5] = torch.clamp(output[:,1:5], 0.0, float(inp_dim))
+            im_dim = im_dim.repeat(output.size(0), 1)
+            scaling_factor = torch.min(inp_dim/im_dim,1)[0].view(-1,1)
+            
+            output[:,[1,3]] -= (inp_dim - scaling_factor*im_dim[:,0].view(-1,1))/2
+            output[:,[2,4]] -= (inp_dim - scaling_factor*im_dim[:,1].view(-1,1))/2
+            
+            output[:,1:5] /= scaling_factor
+    
+            for i in range(output.shape[0]):
+                output[i, [1,3]] = torch.clamp(output[i, [1,3]], 0.0, im_dim[i,0])
+                output[i, [2,4]] = torch.clamp(output[i, [2,4]], 0.0, im_dim[i,1])
             
-            im_dim = im_dim.repeat(output.size(0), 1)/inp_dim
-            output[:,1:5] *= im_dim
             
             classes = load_classes('data/coco.names')
             colors = pkl.load(open("pallete", "rb"))