ftyers · Olya0596 · Oct 30, 2018 · Nov 3, 2018 · Nov 3, 2018 · Nov 21, 2018
diff --git a/2018-komp-ling/practicals/MaxMatch.tex b/2018-komp-ling/practicals/MaxMatch.tex
@@ -0,0 +1,22 @@
+    MaxMatch инструкциz	
+     import sys
+
+with open(sys.argv[1]) as f:
+  dictionary = sorted([l.strip() for l in f], key=len, reverse=True)
+
+def tokenize(sentence):
+  if len(sentence) == 0:
+    return []
+  try:
+    word = next(w for w in dictionary if sentence.startswith(w))
+  except StopIteration:
+    word = sentence[0]
+  return [word] + tokenize(sentence[len(word):])
+
+for sentence in sys.stdin:
+  for word in tokenize(sentence):
+    print(word)
+
+
+
+	К сожалению, не успела сделать wer.py
diff --git a/2018-komp-ling/practicals/Segmentation.tex b/2018-komp-ling/practicals/Segmentation.tex
@@ -0,0 +1,20 @@
+Practical 1.
+Сравнение двух сегментаторов.
+В практическом задании я использовала два сегментатора, которые были предложены в задании: pragmatic segementer(Ruby) и NLTK sent tokenization(библиотека Python).
+В качестве данных был использован текст на русском языке, а также на английском . 
+Текст был предоставлен сегментаторам рандомно. 
+Pragmatic segmenter был выполнен по инструкции, которая была в задани.В итоге pragmatic_segmenter на русском тексте сработал немного хуже, чем на английском тексте. В основном ошибки были в аббревиатурах и скоращениях.
+А NLTK sent_tokenizer показал себя одинаково и на русском тексте и на английском. Но все же в каких-то местах текст на английском языке был токенизирован лучше. 
+
+Примеры: 
+'В собрании Лейденского музея сохранился древнеегипетский папирус «Речение Ипувера» (ок.',
+ 'XIII - XVIII вв.',
+ 'до н.э.)',
+ 'красочно описывающий трагические события смуты, сопровождавшейся разорением и распадом страны.',
+ 'По мнению ряда историков, речь в этом документе может идти о первом известном в истории массовом социальном движении, или даже «гражданской войне».',
+ 'Такого же характера другое древнеегипетское произведение «Пророчество Неферти» (ок.',
+ 'XV в. до н.э), где сказано:«Я показываю тебе сына в виде врага, брата в виде противника; Человек будет убивать своего отца… Будет страна мала, а её руководители многочисленны».'
+
+ 'The novel is the first semi-fictional work written by Ottaviani; previously, he had taken no creative license with the characters he depicted, portraying them strictly according to historical sources.',
+ 'Bone Sharps follows two scientists, Othniel Charles Marsh and Edward Drinker Cope (pictured), as they pursue their hotheaded and sometimes illegal acquisitions of fossils.',
+ 'Along the way, they encounter P. T. Barnum, Buffalo Bill, Alexander Graham Bell, Ulysses S. Grant, and other figures of the Gilded Age.'
diff --git a/2018-komp-ling/practicals/practical2/Transliteration.py b/2018-komp-ling/practicals/practical2/Transliteration.py
@@ -0,0 +1,21 @@
+Transliteration
+
+
+text = open("filename", 'r')
+def transliteration(text):
+    cyrillic = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'
+    latin = 'a|b|v|g|d|e|yo|zh|z|i|i|k|l|m|n|o|p|r|s|t|u|f|kh|tc|ch|sh|shch||y||y|yu|ya'.split('|')
+    trantab = {k:v for k,v in zip(cyrillic,latin)}
+    newtext = ''
+    for ch in text:
+        casefunc =  str.capitalize if ch.isupper() else str.lower
+        newtext += casefunc(trantab.get(ch.lower(),ch))
+    return newtext
+if __name__ == "__main__": 
+
+
+Пример :
+    s = 'Литва́ (), официальное название — Лито́вская Респу́блика () — государство, расположенное в Северной Европе (одна из стран Балтии). Столица страны — Вильнюс.'
+    print(transliteration(s))
+
+Litvá (), ofitcialnoe nazvanie — Litóvskaya Respúblika () — gosudarstvo, raspolozhennoe v Severnoi Evrope (odna iz stran Baltii). Stolitca strany — Vilnyus.
diff --git a/2018-komp-ling/practicals/practical2/rank.ry b/2018-komp-ling/practicals/practical2/rank.ry
@@ -0,0 +1,17 @@
+import sys
+file = open("file.txt", 'r')
+freq = []
+for line in sys.stdin.readlines():
+    line = line.strip('\n')
+    (f, w) = line.split('\t')
+    freq.append((int(f), w))
+freq.sort(reverse=True)
+rank = 1
+min = freq[0][0]
+ranks = []
+for i in range(0, len(freq)): 
+    if freq[i][0] < min: 
+        rank = rank + 1
+        min = freq[i][0]
+    ranks.append((rank, freq[i][0], freq[i][1]))
+print (freq[0:4])