adjust vocab with random lines

vince62s · vince62s · commit 9f59a502f6e7 · 2017-10-22T22:25:34.000+02:00
diff --git a/tensor2tensor/data_generators/generator_utils.py b/tensor2tensor/data_generators/generator_utils.py
@@ -338,13 +338,19 @@ def generate():
 
         # Use Tokenizer to count the word occurrences.
         with tf.gfile.GFile(filepath, mode="r") as source_file:
-          file_byte_budget = 3.5e5 if filepath.endswith("en") else 7e5
+          file_byte_budget = 1e6 if filepath.endswith("en") else 1e6
+          counter = 0
+          countermax = int(source_file.size() / 1e6)
           for line in source_file:
-            if file_byte_budget <= 0:
-              break
-            line = line.strip()
-            file_byte_budget -= len(line)
-            yield line
+            if counter < countermax:
+              counter += 1
+            else:
+              if file_byte_budget <= 0:
+                break
+              line = line.strip()
+              file_byte_budget -= len(line)
+              counter = 0
+              yield line
 
   return get_or_generate_vocab_inner(data_dir, vocab_filename, vocab_size,
                                      generate())
diff --git a/tensor2tensor/data_generators/translate_enfr.py b/tensor2tensor/data_generators/translate_enfr.py
@@ -41,7 +41,7 @@
 _ENFR_TRAIN_DATASETS = [
     [
         "https://s3.amazonaws.com/opennmt-trainingdata/baseline-1M-enfr.tgz",
-        ("baseline-1M-enfr/baseline-1M_train.en", "baseline-1M-enfr/baseline-1M_train.en")
+        ("baseline-1M-enfr/baseline-1M_train.en", "baseline-1M-enfr/baseline-1M_train.fr")
     ],
 #    [
 #        "http://www.statmt.org/wmt13/training-parallel-commoncrawl.tgz",

Original file line number	Diff line number	Diff line change
`@@ -41,7 +41,7 @@`
`41`	`41`	`_ENFR_TRAIN_DATASETS = [`
`42`	`42`	`[`
`43`	`43`	`"https://s3.amazonaws.com/opennmt-trainingdata/baseline-1M-enfr.tgz",`
`44`		`- ("baseline-1M-enfr/baseline-1M_train.en", "baseline-1M-enfr/baseline-1M_train.en")`
	`44`	`+ ("baseline-1M-enfr/baseline-1M_train.en", "baseline-1M-enfr/baseline-1M_train.fr")`
`45`	`45`	`],`
`46`	`46`	`# [`
`47`	`47`	`# "http://www.statmt.org/wmt13/training-parallel-commoncrawl.tgz",`