Skip to content

分词后的结果组合不成分词前的内容,修改了下面的地方好了,作者请看下修改的是否正确,以及原因。 #8

@GoogleCodeExporter

Description

@GoogleCodeExporter
"干脆就把那部蒙人的闲法给废了 拉倒!RT @laoship ukong : 
27日,全国人大常 委会第三次审议侵 
权责任法草案,删除了有关 医疗损害责任“举证 
倒置”的规定。在医患纠纷中本已处于弱势地位的消费者由��
�将陷入万劫不复的境地。"
分词后的结果是:
"干脆 就把 那部 蒙人 的闲 闲法 法给 废了 拉倒 RT @laoship 
ukong 27 日 全国人大 常  委会 第三 次 审议 侵 权 责任 
法草案  删除 了 有关 医疗 损害 责任 举证 倒置 的 规定 在 
医患 纠纷 中 本已 处于 弱势 地位 的 消费者 由此 将 陷入 
万劫不复 的 境地"

可以看到 的闲 闲法 这地方有重复。

修改了下面两行:

http://code.google.com/p/smallseg/source/browse/trunk/smallseg.py#43

http://code.google.com/p/smallseg/source/browse/trunk/smallseg.py#44

改为:
for i in xrange(ln,0,-1):
    tmp = s[i-1:i]
    ...

Original issue reported on code.google.com by liutao...@gmail.com on 10 Aug 2012 at 10:01

Metadata

Metadata

Assignees

No one assigned

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions