ftyers · tamriq · Oct 31, 2018 · Nov 20, 2018 · Nov 20, 2018 · Nov 25, 2018
diff --git a/2018-komp-ling/.DS_Store b/2018-komp-ling/.DS_Store
diff --git a/2018-komp-ling/practicals/.DS_Store b/2018-komp-ling/practicals/.DS_Store
diff --git a/2018-komp-ling/practicals/Practical_3.md b/2018-komp-ling/practicals/Practical_3.md
@@ -0,0 +1,29 @@
+### Practical 3
+
+1. Мой код (его можно посмотреть в файле *train.py*) состоит из шести функций. Input: размеченный корпус текстов, output - четыре столбца с частотностью, кол-вом употребления и словоформами. (output_pic) 
+
+* **conllu_open** обрабатывает корпус текстов и возвращает корпус построчно в виде списков.
+
+* **data_count_table** принимает строки из **conllu_open** и создает большой словарь, вложенный в словарь, в котором содержатся все словоформы, теги и то, сколько раз каждая словоформа была употреблена с определенным тегом. 
+
+* **data_freq_table** принимает результат функции **data_count_table** и заменяет с значениях вложенного словаря *количество появления тегов на частотность их появления*
+
+* **count_tag** принимает результат **data_count_table**  и составляет отдельный словарь { тег : кол-во раз появления тега }
+
+* **freq_tag** заменяет в словаре **count_tag** количества раз на частотность
+
+* **nice_lists** извлекает из предыдущих четырех функций необходимую информацию и создает list of lists с итоговыми необходимыми значениями
+
+В конце я представила данные в удобочитаемом виде:
+
+```python
+print('# P', ' '*6, 'count', ' '*4, 'tag', ' '*6, 'form', ' '*5)
+for i in nice_lists():
+    for s in i:
+        x = str(s)
+        print(s, ' '*(10-len(x)), end='')
+    print('\n')
+```
+
+2. *What might be a simple improvement to the language model for languages with orthographic case ?*
+
diff --git a/2018-komp-ling/practicals/Rank/.DS_Store b/2018-komp-ling/practicals/Rank/.DS_Store
diff --git a/2018-komp-ling/practicals/Rank/before_rank.py b/2018-komp-ling/practicals/Rank/before_rank.py
@@ -0,0 +1,23 @@
+import sys
+
+vocab = {}
+f = open(sys.argv[1], 'r')
+for line in f.readlines():
+    if '\t' not in line:
+        continue
+    row = line.split('\t')
+    if len(row) != 10:
+        continue
+    form = row[1]
+    if form not in vocab:
+        vocab[form] = 0
+    vocab[form] = vocab[form] + 1
+
+freq = []
+for w in vocab:
+    freq.append('%d\t%s' % (vocab[w], w))
+
+freq.sort(reverse=True)
+print(*freq, sep='\n')
+
+