wasiahmad
diff --git a/‎README.md
+1-1 b/‎README.md
+1-1
diff --git a/‎evaluation/nl_eval.py
+7-4 b/‎evaluation/nl_eval.py
+7-4
diff --git a/‎multilingual/data/prepare.sh
+1-1 b/‎multilingual/data/prepare.sh
+1-1
diff --git a/‎multilingual/data/process.py
+23-16 b/‎multilingual/data/process.py
+23-16
diff --git a/‎multilingual/multi_task/run.sh
+5-5 b/‎multilingual/multi_task/run.sh
+5-5
diff --git a/‎multilingual/plbart/lang_dict.txt
+1-1 b/‎multilingual/plbart/lang_dict.txt
+1-1
diff --git a/‎multilingual/single_task/generation.sh
+8-8 b/‎multilingual/single_task/generation.sh
+8-8
diff --git a/‎multilingual/single_task/summarization.sh
+8-8 b/‎multilingual/single_task/summarization.sh
+8-8
diff --git a/‎pretrain/csnet/binarize.sh
+84 b/‎pretrain/csnet/binarize.sh
+84
@@ -42,7 +42,7 @@ Go to `data/stackoverflow` directory and follow instructions.
 ```bash
 cd pretrain
 bash binarize.sh
-bash absolute.sh GPU_IDS
+bash pretrain.sh GPU_IDS
 ```
 
 Note. We pre-trained PLBART on 8 `GeForce RTX 2080` (11gb) GPUs (took 11.5 days).
 
@@ -16,7 +16,9 @@
 
 import re
 import sys
+import json
 import math
+import argparse
 import xml.sax.saxutils
 
 # Added to bypass NIST-style pre-processing of hyp and ref files -- wade
@@ -158,7 +160,7 @@ def splitPuncts(line):
     return ' '.join(re.findall(r"[\w]+|[^\s\w]", line))
 
 
-def computeMaps(prediction_file, goldfile):
+def computeMaps(prediction_file, goldfile, is_goldfile_json):
     predictionMap = {}
     goldMap = {}
     predictions = open(prediction_file, 'r', encoding='utf-8')
@@ -173,6 +175,8 @@ def computeMaps(prediction_file, goldfile):
         if rid in predictionMap:  # Only insert if the id exists for the method
             if rid not in goldMap:
                 goldMap[rid] = []
+            if is_goldfile_json:
+                row = ' '.join(json.loads(row.strip())['docstring_tokens'])
             goldMap[rid].append(splitPuncts(row.strip().lower()))
 
     predictions.close()
@@ -196,16 +200,15 @@ def bleuFromMaps(m1, m2):
 
 
 if __name__ == '__main__':
-    import argparse
-
     parser = argparse.ArgumentParser(description='Evaluate leaderboard predictions for BigCloneBench dataset.')
     parser.add_argument('--references', help="filename of the labels, in txt format.")
     parser.add_argument('--predictions', help="filename of the leaderboard predictions, in txt format.")
+    parser.add_argument('--json_refs', action='store_true', help='reference files are JSON files')
 
     args = parser.parse_args()
 
     reference_file = args.references
     prediction_file = args.predictions
-    (goldMap, predictionMap) = computeMaps(prediction_file, reference_file)
+    (goldMap, predictionMap) = computeMaps(prediction_file, reference_file, args.json_refs)
     res = bleuFromMaps(goldMap, predictionMap)
     print("BLEU Score:\t%.2f" % res[0])
@@ -58,6 +58,6 @@ fairseq-preprocess \
 
 mkdir -p $DATA_DIR;
 PYTHONPATH=${HOME_DIR} python process.py;
-for lang in java python ruby go js php; do
+for lang in java python ruby go javascript php; do
     spm_preprocess $lang && binarize $lang
 done
@@ -20,37 +20,44 @@ def count_file_lines(file_path):
 def prepare():
     for lang in ['go', 'java', 'python', 'ruby', 'javascript', 'php']:
         for split in ['train', 'valid', 'test']:
-            lang_iso = 'js' if lang == 'javascript' else lang
             src_writer = open(
-                'processed/{}.{}-en_XX.{}'.format(split, lang_iso, lang_iso), 'w', encoding='utf-8'
+                'processed/{}.{}-en_XX.{}'.format(split, lang, lang), 'w', encoding='utf-8'
             )
             tgt_writer = open(
-                'processed/{}.{}-en_XX.en_XX'.format(split, lang_iso), 'w', encoding='utf-8'
+                'processed/{}.{}-en_XX.en_XX'.format(split, lang), 'w', encoding='utf-8'
             )
             filename = '{}/{}.jsonl'.format(lang, split)
             with open(filename) as f:
                 for line in tqdm(
                         f, total=count_file_lines(filename), desc="{}-{}".format(lang, split)
                 ):
                     ex = json.loads(line.strip())
+                    code = ' '.join(ex['code_tokens'])
+                    code = re.sub("[\n\r\t ]+", " ", code).strip()
+                    docstring = ' '.join(ex['docstring_tokens'])
+                    docstring = re.sub("[\n\r\t ]+", " ", docstring).strip()
+                    if len(code) == 0 or len(docstring) == 0:
+                        continue
+
+                    tokenized_code = None
+                    if lang == 'python' or lang == 'java':
+                        _tokens = tokenize_python(ex['code']) \
+                            if lang == 'python' else tokenize_java(ex['code'])
+                        tokenized_code = ' '.join(_tokens)
+                        tokenized_code = re.sub("[\n\r\t ]+", " ", tokenized_code).strip()
+                        if len(tokenized_code) == 0:
+                            continue
+
                     try:
                         if lang == 'python' or lang == 'java':
-                            code_tokens = tokenize_python(ex['code']) \
-                                if lang == 'python' else tokenize_java(ex['code'])
-                            if len(code_tokens) > 0:
-                                raise ValueError('Empty tokenized code')
+                            # this line can throw error `UnicodeEncodeError`
+                            src_writer.write(tokenized_code + '\n')
                         else:
-                            code_tokens = ex['code_tokens']
+                            src_writer.write(code + '\n')
                     except:
-                        code_tokens = ex['code_tokens']
+                        src_writer.write(code + '\n')
 
-                    code = ' '.join(code_tokens)
-                    code = re.sub("[\n\r\t ]+", " ", code)
-                    docstring = ' '.join(ex['docstring_tokens'])
-                    docstring = re.sub("[\n\r\t ]+", " ", docstring)
-                    if len(code) > 0 and len(docstring) > 0:
-                        src_writer.write(code.strip() + '\n')
-                        tgt_writer.write(docstring.strip() + '\n')
+                    tgt_writer.write(docstring + '\n')
 
             src_writer.close()
             tgt_writer.close()
 
@@ -20,7 +20,7 @@ if [[ $LANGUAGE_GROUP_CORRECT = "" ]] ; then
     exit;
 fi
 
-GROUP_LISTS="java python go ruby php js"
+GROUP_LISTS="java python go ruby php javascript"
 LANGUAGE_GROUP_CORRECT=`echo $GROUP_LISTS | grep -w $LANG`;
 if [[ $LANGUAGE_GROUP_CORRECT = "" ]]; then
     echo "LANGUAGE(3rd parameter) must be one of the following";
@@ -193,21 +193,21 @@ then
     evaluate_summarization $LANG;
 else
     if [[ "$LANGUAGE_GROUP" == 'all' ]]; then
-        languages=(java python js php ruby go);
+        languages=(java python javascript php ruby go);
         MAX_UPDATE=400000;
         WARMUP=5000;
     elif [[ "$LANGUAGE_GROUP" == 'compiled' ]]; then
         languages=(java ruby go);
     elif [[ "$LANGUAGE_GROUP" == 'interpreted' ]]; then
-        languages=(php python js);
+        languages=(php python javascript);
     elif [[ "$LANGUAGE_GROUP" == 'static' ]]; then
         languages=(java go);
     elif [[ "$LANGUAGE_GROUP" == 'dynamic' ]]; then
-        languages=(js python php ruby);
+        languages=(javascript python php ruby);
     elif [[ "$LANGUAGE_GROUP" == 'strong' ]]; then
         languages=(java go python ruby);
     elif [[ "$LANGUAGE_GROUP" == 'weak' ]]; then
-        languages=(php js);
+        languages=(php javascript);
     fi
 
     lang_pairs="";
 
@@ -1,7 +1,7 @@
 java
 python
 en_XX
-js
+javascript
 php
 ruby
 go
@@ -20,7 +20,7 @@ if [[ $LANGUAGE_GROUP_CORRECT = "" ]] ; then
     exit;
 fi
 
-GROUP_LISTS="java python go ruby php js"
+GROUP_LISTS="java python go ruby php javascript"
 LANGUAGE_GROUP_CORRECT=`echo $GROUP_LISTS | grep -w $LANG`;
 if [[ $LANGUAGE_GROUP_CORRECT = "" ]]; then
     echo "LANGUAGE(3rd parameter) must be one of the following";
@@ -42,16 +42,16 @@ BATCH_SIZE=8;
 UPDATE_FREQ=4;
 
 # CSNET data size is as follows
-# java: 165k, python: 252k, php: 241k, go: 167k, js: 58k, ruby:25k
+# java: 165k, python: 252k, php: 241k, go: 167k, javascript: 58k, ruby:25k
 # So, number of mini-batches for each language would be:
-# java: ~5100, python: ~7800, php: ~7500, go: ~5200, js: ~1800, ruby: ~780
+# java: ~5100, python: ~7800, php: ~7500, go: ~5200, javascript: ~1800, ruby: ~780
 
 declare -A LANG_WISE_WARMUP
 LANG_WISE_WARMUP['java']=5000
 LANG_WISE_WARMUP['python']=5000
 LANG_WISE_WARMUP['php']=5000
 LANG_WISE_WARMUP['go']=5000
-LANG_WISE_WARMUP['js']=2000
+LANG_WISE_WARMUP['javascript']=2000
 LANG_WISE_WARMUP['ruby']=1000
 
 
@@ -162,19 +162,19 @@ else
     SAVE_DIR=${SAVE_DIR}/generation;
     mkdir -p $SAVE_DIR
     if [[ "$LANGUAGE_GROUP" == 'all' ]]; then
-        languages=(java python js php ruby go);
+        languages=(java python javascript php ruby go);
     elif [[ "$LANGUAGE_GROUP" == 'compiled' ]]; then
         languages=(java ruby go);
     elif [[ "$LANGUAGE_GROUP" == 'interpreted' ]]; then
-        languages=(php python js);
+        languages=(php python javascript);
     elif [[ "$LANGUAGE_GROUP" == 'static' ]]; then
         languages=(java go);
     elif [[ "$LANGUAGE_GROUP" == 'dynamic' ]]; then
-        languages=(js python php ruby);
+        languages=(javascript python php ruby);
     elif [[ "$LANGUAGE_GROUP" == 'strong' ]]; then
         languages=(java go python ruby);
     elif [[ "$LANGUAGE_GROUP" == 'weak' ]]; then
-        languages=(php js);
+        languages=(php javascript);
     fi
 
     # a list language pairs to train multilingual models, e.g. "en-java,en-python"
 
@@ -20,7 +20,7 @@ if [[ $LANGUAGE_GROUP_CORRECT = "" ]] ; then
     exit;
 fi
 
-GROUP_LISTS="java python go ruby php js"
+GROUP_LISTS="java python go ruby php javascript"
 LANGUAGE_GROUP_CORRECT=`echo $GROUP_LISTS | grep -w $LANG`;
 if [[ $LANGUAGE_GROUP_CORRECT = "" ]]; then
     echo "LANGUAGE(2nd parameter) must be one of the following";
@@ -42,16 +42,16 @@ BATCH_SIZE=8;
 UPDATE_FREQ=4;
 
 # CSNET data size is as follows
-# java: 165k, python: 252k, php: 241k, go: 167k, js: 58k, ruby:25k
+# java: 165k, python: 252k, php: 241k, go: 167k, javascript: 58k, ruby:25k
 # So, number of mini-batches for each language would be:
-# java: ~5100, python: ~7800, php: ~7500, go: ~5200, js: ~1800, ruby: ~780
+# java: ~5100, python: ~7800, php: ~7500, go: ~5200, javascript: ~1800, ruby: ~780
 
 declare -A LANG_WISE_WARMUP
 LANG_WISE_WARMUP['java']=5000
 LANG_WISE_WARMUP['python']=5000
 LANG_WISE_WARMUP['php']=5000
 LANG_WISE_WARMUP['go']=5000
-LANG_WISE_WARMUP['js']=2000
+LANG_WISE_WARMUP['javascript']=2000
 LANG_WISE_WARMUP['ruby']=1000
 
 
@@ -158,19 +158,19 @@ else
     SAVE_DIR=${SAVE_DIR}/summarization;
     mkdir -p $SAVE_DIR
     if [[ "$LANGUAGE_GROUP" == 'all' ]]; then
-        languages=(java python js php ruby go);
+        languages=(java python javascript php ruby go);
     elif [[ "$LANGUAGE_GROUP" == 'compiled' ]]; then
         languages=(java ruby go);
     elif [[ "$LANGUAGE_GROUP" == 'interpreted' ]]; then
-        languages=(php python js);
+        languages=(php python javascript);
     elif [[ "$LANGUAGE_GROUP" == 'static' ]]; then
         languages=(java go);
     elif [[ "$LANGUAGE_GROUP" == 'dynamic' ]]; then
-        languages=(js python php ruby);
+        languages=(javascript python php ruby);
     elif [[ "$LANGUAGE_GROUP" == 'strong' ]]; then
         languages=(java go python ruby);
     elif [[ "$LANGUAGE_GROUP" == 'weak' ]]; then
-        languages=(php js);
+        languages=(php javascript);
     fi
 
     # a list language pairs to train multilingual models, e.g. "java-en,python-en"
 
@@ -0,0 +1,84 @@
+#!/usr/bin/env bash
+
+export PYTHONIOENCODING=utf-8;
+
+CURRENT_DIR=`pwd`
+HOME_DIR=`realpath ../..`;
+
+SPM_DIR=${HOME_DIR}/sentencepiece
+DICT_FILE=${SPM_DIR}/dict.txt
+SPM_VOCAB=${SPM_DIR}/sentencepiece.bpe.vocab
+SPM_ENC_SCRIPT=${SPM_DIR}/encode.py
+
+DATA_DIR=${CURRENT_DIR}/data
+SHARD_DIR=${DATA_DIR}/shard
+mkdir -p $SHARD_DIR
+cp $DICT_FILE $SHARD_DIR
+
+
+function preprocess_pl () {
+
+for LANG in java python javascript php go ruby; do
+    python $SPM_ENC_SCRIPT \
+        --model-file $SPM_DIR/sentencepiece.bpe.model \
+        --inputs $DATA_DIR/$LANG/train.functions.tok \
+        --outputs $DATA_DIR/$LANG/train.functions.spm \
+        --max_len 510 \
+        --workers 60;
+    python $SPM_ENC_SCRIPT \
+        --model-file $SPM_DIR/sentencepiece.bpe.model \
+        --inputs $DATA_DIR/$LANG/valid.functions.tok \
+        --outputs $DATA_DIR/$LANG/valid.functions.spm \
+        --max_len 510 \
+        --workers 60;
+done
+
+}
+
+function preprocess_nl () {
+
+python $SPM_ENC_SCRIPT \
+    --model-file $SPM_DIR/sentencepiece.bpe.model \
+    --inputs $DATA_DIR/train.docstring.tok \
+    --outputs $DATA_DIR/train.docstring.spm \
+    --max_len 510 \
+    --workers 60;
+python $SPM_ENC_SCRIPT \
+    --model-file $SPM_DIR/sentencepiece.bpe.model \
+    --inputs $DATA_DIR/valid.docstring.tok \
+    --outputs $DATA_DIR/valid.docstring.spm \
+    --max_len 510 \
+    --workers 60;
+
+}
+
+function binarize_pl () {
+
+for LANG in java python javascript php go ruby; do
+    fairseq-preprocess \
+        --only-source \
+        --trainpref $DATA_DIR/$LANG/train.functions.spm \
+        --validpref $DATA_DIR/$LANG/valid.functions.spm \
+        --destdir $SHARD_DIR/$LANG \
+        --srcdict $DICT_FILE \
+        --workers 60;
+done
+
+}
+
+function binarize_nl () {
+
+fairseq-preprocess \
+    --only-source \
+    --trainpref $DATA_DIR/train.docstring.spm \
+    --validpref $DATA_DIR/valid.docstring.spm \
+    --destdir $SHARD_DIR/en_XX \
+    --srcdict $DICT_FILE \
+    --workers 60;
+
+}
+
+preprocess_pl
+preprocess_nl
+binarize_pl
+binarize_nl
-Original file line number
+Diff line change
 java
 python
 en_XX
 -js
 +javascript
 php
 ruby
 go