Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
Show all changes
45 commits
Select commit Hold shift + click to select a range
c104200
Add quiz-01 rezults
ananastii Oct 31, 2018
2245f34
add segmentation.md and maxmatch.py
ananastii Nov 3, 2018
c814802
Add tokenization.md
ananastii Nov 3, 2018
af6a238
Add files for frequrncy-rank practical
ananastii Nov 12, 2018
71c1e2c
Delete ru_syntagrus-ud-train.conllu
ananastii Nov 12, 2018
8ebff50
Change picture for the better version
ananastii Nov 12, 2018
6f5a13d
Merge branch 'master' of github.com:DorkEMK/ftyers.github.io cause I
ananastii Nov 12, 2018
40b94c0
Add report
ananastii Nov 12, 2018
1b54e70
Add transliteration practical
ananastii Nov 20, 2018
dbc5cab
Add directory and pic1
ananastii Nov 26, 2018
3fb5a3d
Add Q2 response ver1
ananastii Nov 26, 2018
d2c36f3
Fix problems with image
ananastii Nov 26, 2018
8b54001
Add Q2 1-4 full version
ananastii Nov 26, 2018
4427b2d
Add fst2.jpg
ananastii Nov 26, 2018
f93d596
Rename fst5.jpg
ananastii Nov 26, 2018
7f7c526
Add final version
ananastii Nov 26, 2018
7a0aedf
Delete technical files
ananastii Nov 26, 2018
dc740a5
Add practical 3a
ananastii Jan 2, 2019
5fe0756
Reorganize directories
ananastii Jan 2, 2019
4dabdaf
Rename freq_rank.md to report.md
ananastii Jan 2, 2019
20114f9
Make reorganization and hope I didn't loose anything
ananastii Jan 2, 2019
d17a26b
Moar reorganozation
ananastii Jan 2, 2019
5bdb980
Rename the directory
ananastii Jan 2, 2019
ea0225a
Add quiz 3
ananastii Jan 7, 2019
f919141
n
ananastii Mar 24, 2019
c294326
Create README.md
ananastii Mar 24, 2019
2986d56
some message
ananastii Mar 24, 2019
d780a3a
change segmentation.md to segmentation-response.md
ananastii Mar 26, 2019
9ca2082
update tokenization-responce.md
ananastii Mar 26, 2019
8bef96e
update to transliteration-response.md
ananastii Mar 26, 2019
def49ce
merge with ranking.response
ananastii Mar 26, 2019
d386016
change name
ananastii Mar 26, 2019
4a33097
Add practical 4 and edit elder pracs
ananastii Mar 26, 2019
ff07ff6
Merge branch 'master' of github.com:DorkEMK/ftyers.github.io
ananastii Mar 26, 2019
81efadf
delete ipynb dirs
ananastii Mar 26, 2019
91b28d8
add image
ananastii Mar 26, 2019
138efba
Update unigram_part-of-speech_tagger-response.md
ananastii Mar 26, 2019
efbb2b8
Add practical 5
ananastii Mar 29, 2019
29ea777
Copy reports to have more chances to be cathed by script
ananastii Mar 29, 2019
20f4916
fix practical 5
ananastii Mar 29, 2019
c5e3ec4
edit name
ananastii Apr 2, 2019
89ae895
edit name of responses
ananastii Apr 2, 2019
42d5ea3
edit name of response
ananastii Apr 2, 2019
21e3811
edit name
ananastii Apr 2, 2019
de10570
Create README.md
ananastii Oct 10, 2019
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
38 changes: 38 additions & 0 deletions 2018-komp-ling/practicals/coreference-response.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,38 @@
### udpipe
Я взяла готовую модель и файл ```paragraph.txt```. В результате получла файл ```paragraph.conllu```
```bash
$ cat paragraph.txt | udpipe --tokenize --tag --parse ru_syntagrus-ud.udpipe > paragraph.conllu
```
Аннотация прошла не без ошибок, например, токен "пищало" был определён как существительное, хотя в данном тексте является глаголом.
### xrenner
Я создала директорию /rus и скопировала базовые настройки модели /udx, внеся изменения в соответствии с аннотируемым текстом:
```pronouns.tab```
```
он male
его male
ему male
```
```entities.tab```
```
достоевский person person/male 1
ф. person person/male 1
м. person person/male 1
федор person person/male 1
кот animal animal 1
роман object object 1
животное animal animal 1
```
```conf.ini```
```
proper_pos=/PROPN/
```
Эксперименты с ```entity-heads.tab```, ```coref.tab```, ```names.tab``` не привели к улучшению разрешения кореференции. Также я пробовала изменить первое правило *(The first rule below illustrates a very ‘safe’ strategy, searching for proper noun markables with identical text (=$1) in the previous 100 sentences, since these are almost always coreferent, and undertaking no feature propagation.)* так, чтобы оно работало для русского языка (Достоевский-Достоевского), и прописала идентичность не текста, а леммы, но это не помогло.
``` coref_rules.tab```
```
#first match identical proper markables
form="proper";form="proper"&lemma=$1&takefirst;100;nopropagate
```
Результат - в файле ```paragraph.conllu```
```bash
$ python3 xrenner.py -m rus -o html paragraph.conllu > /tmp/paragraph.html
```
38 changes: 38 additions & 0 deletions 2018-komp-ling/practicals/coreference/coreference-response.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,38 @@
### udpipe
Я взяла готовую модель и файл ```paragraph.txt```. В результате получла файл ```paragraph.conllu```
```bash
$ cat paragraph.txt | udpipe --tokenize --tag --parse ru_syntagrus-ud.udpipe > paragraph.conllu
```
Аннотация прошла не без ошибок, например, токен "пищало" был определён как существительное, хотя в данном тексте является глаголом.
### xrenner
Я создала директорию /rus и скопировала базовые настройки модели /udx, внеся изменения в соответствии с аннотируемым текстом:
```pronouns.tab```
```
он male
его male
ему male
```
```entities.tab```
```
достоевский person person/male 1
ф. person person/male 1
м. person person/male 1
федор person person/male 1
кот animal animal 1
роман object object 1
животное animal animal 1
```
```conf.ini```
```
proper_pos=/PROPN/
```
Эксперименты с ```entity-heads.tab```, ```coref.tab```, ```names.tab``` не привели к улучшению разрешения кореференции. Также я пробовала изменить первое правило *(The first rule below illustrates a very ‘safe’ strategy, searching for proper noun markables with identical text (=$1) in the previous 100 sentences, since these are almost always coreferent, and undertaking no feature propagation.)* так, чтобы оно работало для русского языка (Достоевский-Достоевского), и прописала идентичность не текста, а леммы, но это не помогло.
``` coref_rules.tab```
```
#first match identical proper markables
form="proper";form="proper"&lemma=$1&takefirst;100;nopropagate
```
Результат - в файле ```paragraph.html```
```bash
$ python3 xrenner.py -m rus -o html paragraph.conllu > /tmp/paragraph.html
```
101 changes: 101 additions & 0 deletions 2018-komp-ling/practicals/coreference/paragraph.conllu
Original file line number Diff line number Diff line change
@@ -0,0 +1,101 @@
# newdoc
# newpar
# sent_id = 1
# text = Однажды Ф.М.Достоевский, царство ему небесное, поймал на улице кота.
1 Однажды однажды ADV _ Degree=Pos 10 advmod _ _
2 Ф. ф. PROPN _ Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing 10 nsubj _ SpaceAfter=No
3 М. м. PROPN _ Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing 2 flat:name _ SpaceAfter=No
4 Достоевский достоевский PROPN _ Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing 2 flat:name _ SpaceAfter=No
5 , , PUNCT _ _ 4 punct _ _
6 царство царство NOUN _ Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing 2 conj _ _
7 ему он PRON _ Case=Dat|Gender=Masc|Number=Sing|Person=3 6 iobj _ _
8 небесное небесный ADJ _ Case=Nom|Degree=Pos|Gender=Neut|Number=Sing 6 amod _ SpaceAfter=No
9 , , PUNCT _ _ 8 punct _ _
10 поймал поймать VERB _ Aspect=Imp|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act 0 root _ _
11 на на ADP _ _ 12 case _ _
12 улице улица NOUN _ Animacy=Inan|Case=Loc|Gender=Fem|Number=Sing 10 obl _ _
13 кота кот NOUN _ Animacy=Anim|Case=Gen|Gender=Masc|Number=Sing 12 nmod _ SpaceAfter=No
14 . . PUNCT _ _ 13 punct _ _

# sent_id = 2
# text = Ему надо было живого кота для романа.
1 Ему он PRON _ Case=Dat|Gender=Masc|Number=Sing|Person=3 2 iobj _ _
2 надо надо ADV _ Degree=Pos 0 root _ _
3 было быть AUX _ Aspect=Imp|Gender=Neut|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act 5 cop _ _
4 живого живой ADJ _ Animacy=Anim|Case=Acc|Degree=Pos|Gender=Masc|Number=Sing 5 amod _ _
5 кота кот NOUN _ Animacy=Anim|Case=Acc|Gender=Masc|Number=Sing 7 obj _ _
6 для для ADP _ _ 7 case _ _
7 романа роман NOUN _ Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing 2 obl _ SpaceAfter=No
8 . . PUNCT _ _ 7 punct _ _

# sent_id = 3
# text = Бедное животное пищало, визжало, хрипело и закатывало глаза, потом притворилось мертвым.
1 Бедное бедной ADJ _ Case=Nom|Degree=Pos|Gender=Neut|Number=Sing 3 amod _ _
2 животное животной ADJ _ Case=Nom|Degree=Pos|Gender=Neut|Number=Sing 3 amod _ _
3 пищало пищало NOUN _ Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing 5 nsubj _ SpaceAfter=No
4 , , PUNCT _ _ 3 punct _ _
5 визжало визжать VERB _ Aspect=Imp|Gender=Neut|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act 0 root _ SpaceAfter=No
6 , , PUNCT _ _ 5 punct _ _
7 хрипело хрипеть VERB _ Aspect=Imp|Gender=Neut|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act 5 conj _ _
8 и и CCONJ _ _ 9 cc _ _
9 закатывало закатывать VERB _ Aspect=Imp|Gender=Neut|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act 5 conj _ _
10 глаза глаз NOUN _ Animacy=Inan|Case=Acc|Gender=Masc|Number=Plur 9 obj _ SpaceAfter=No
11 , , PUNCT _ _ 10 punct _ _
12 потом потом ADV _ Degree=Pos 13 advmod _ _
13 притворилось притвориваться VERB _ Aspect=Perf|Gender=Neut|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Mid 5 conj _ _
14 мертвым мертвый ADJ _ Case=Ins|Degree=Pos|Gender=Neut|Number=Sing 13 obl _ SpaceAfter=No
15 . . PUNCT _ _ 14 punct _ _

# sent_id = 4
# text = Тут он его и отпустил.
1 Тут тут ADV _ Degree=Pos 5 advmod _ _
2 он он PRON _ Case=Nom|Gender=Masc|Number=Sing|Person=3 5 nsubj _ _
3 его он PRON _ Case=Acc|Gender=Masc|Number=Sing|Person=3 5 obj _ _
4 и и PART _ _ 5 discourse _ _
5 отпустил отпускать VERB _ Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act 0 root _ SpaceAfter=No
6 . . PUNCT _ _ 5 punct _ _

# sent_id = 5
# text = Обманщик укусил бедного, в свою очередь, писателя за ногу и скрылся.
1 Обманщик Обманщик NOUN _ Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing 2 nsubj _ _
2 укусил укусать VERB _ Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act 0 root _ _
3 бедного бедный ADJ _ Animacy=Anim|Case=Acc|Degree=Pos|Gender=Masc|Number=Sing 2 obl _ SpaceAfter=No
4 , , PUNCT _ _ 3 punct _ _
5 в в ADP _ _ 7 case _ _
6 свою свой DET _ Case=Acc|Gender=Fem|Number=Sing 7 det _ _
7 очередь очередь NOUN _ Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing 2 obl _ SpaceAfter=No
8 , , PUNCT _ _ 7 punct _ _
9 писателя писатель NOUN _ Animacy=Anim|Case=Acc|Gender=Masc|Number=Sing 2 obj _ _
10 за за ADP _ _ 11 case _ _
11 ногу нога NOUN _ Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing 2 obl _ _
12 и и CCONJ _ _ 13 cc _ _
13 скрылся скрываться VERB _ Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Mid 2 conj _ SpaceAfter=No
14 . . PUNCT _ _ 13 punct _ _

# sent_id = 6
# text = Так остался невоплощенным лучший роман Федора Михайловича Достоевского, царство ему небесное, "Бедное животное".
1 Так так ADV _ Degree=Pos 2 advmod _ _
2 остался оставаться VERB _ Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Mid 0 root _ _
3 невоплощенным невоплощенный ADJ _ Case=Ins|Degree=Pos|Gender=Masc|Number=Sing 5 amod _ _
4 лучший лучший ADJ _ Case=Nom|Degree=Pos|Gender=Masc|Number=Sing 5 amod _ _
5 роман роман NOUN _ Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing 2 nsubj _ _
6 Федора федор PROPN _ Animacy=Anim|Case=Gen|Gender=Masc|Number=Sing 5 nmod _ _
7 Михайловича Михайлович PROPN _ Animacy=Anim|Case=Gen|Gender=Masc|Number=Sing 6 flat:name _ _
8 Достоевского достоевский PROPN _ Animacy=Anim|Case=Gen|Gender=Masc|Number=Sing 6 flat:name _ SpaceAfter=No
9 , , PUNCT _ _ 8 punct _ _
10 царство царство NOUN _ Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing 2 nsubj _ _
11 ему он PRON _ Case=Dat|Gender=Masc|Number=Sing|Person=3 12 iobj _ _
12 небесное небесный ADJ _ Case=Nom|Degree=Pos|Gender=Neut|Number=Sing 10 amod _ SpaceAfter=No
13 , , PUNCT _ _ 12 punct _ _
14 " " PUNCT _ _ 15 punct _ SpaceAfter=No
15 Бедное бедный ADJ _ Case=Nom|Degree=Pos|Gender=Neut|Number=Sing 16 amod _ _
16 животное животное NOUN _ Animacy=Anim|Case=Nom|Gender=Neut|Number=Sing 10 nmod _ SpaceAfter=No
17 " " PUNCT _ _ 16 punct _ SpaceAfter=No
18 . . PUNCT _ _ 16 punct _ _

# sent_id = 7
# text = Про котов.
1 Про про ADP _ _ 2 case _ _
2 котов кот NOUN _ Animacy=Anim|Case=Gen|Gender=Masc|Number=Plur 0 root _ SpaceAfter=No
3 . . PUNCT _ _ 2 punct _ SpacesAfter=\n

Loading