sphinx(coreseek)导入搜狗词库

    来自官网的介绍:

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景。

    Coreseek安装配置:

    或者
2. Coreseek安装请参考官方文档:
    官方提供的文档写的很清晰,安装、配置、调试过程不再叙述。
    PS:安装之前请务必先装好 操作系统基础开发库及mysql依赖库以支持mysql数据源和xml数据源,否则后面的编译安装可能会失败。

    词库转换:

    Coreseek自带的词库大概1M多,词库量比较小,不能满足公司项目的需要,所以需要扩展词库。
    搜狗词库提供丰富的个性化词库,可以去下载你需要的词库包。
    下载地址:http://pinyin.sogou.com/dict/
搜狗包的格式为scel,不能直接读取,需用工具转换为txt格式。
    工具下载地址:
    用工具转换为“无拼音纯单词”格式的文本文件。如下图:
    20130531124906
    转换之后的文件内容格式如下
阿巴嘎旗政府

阿坝交通局
阿坝旅游局
阿坝人事局
阿坝县公安局
阿坝邮政局
阿坝州委
阿尔山市委

需要转换为mmseg需要的词典格式,如下

阿巴嘎旗政府 1
x:1
阿坝交通局 1
x:1
阿坝旅游局 1
x:1
阿坝人事局 1
x:1
阿坝县公安局 1
x:1
阿坝邮政局 1
x:1
 
    写了个在线转换工具放到SAE上了Coreseek/Sphinx词库转换
    PS:转换过程中新词库要和老词库合并,并排重。

    新生成的词库放到mmseg3/etc/目录下:
#/usr/local/mmseg3/etc/unigram.txt
生成索引
#/usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/unigram.txt
重命名为uni.lib
#mv unigram.txt.lib uni.lib
重启sphinx
# cd /usr/local/coreseek/
#./bin/searchd  -c etc/sphinx.conf –stop
#./bin/searchd  -c etc/sphinx.conf
完事…
ps:新词库生成后务必要重启sphinx,否则索引不生效。
    参考资料:无聊记
    转载请注明出处:怡然之乐 – FineYi

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注