来自官网的介绍:
Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景。
Coreseek安装配置:
或者
2. Coreseek安装请参考官方文档:
2. Coreseek安装请参考官方文档:
官方提供的文档写的很清晰,安装、配置、调试过程不再叙述。
PS:安装之前请务必先装好 操作系统基础开发库及mysql依赖库以支持mysql数据源和xml数据源,否则后面的编译安装可能会失败。
词库转换:
Coreseek自带的词库大概1M多,词库量比较小,不能满足公司项目的需要,所以需要扩展词库。
搜狗词库提供丰富的个性化词库,可以去下载你需要的词库包。
搜狗包的格式为scel,不能直接读取,需用工具转换为txt格式。
工具下载地址:
用工具转换为“无拼音纯单词”格式的文本文件。如下图:
阿巴嘎旗政府阿坝交通局
阿坝旅游局
阿坝人事局
阿坝县公安局
阿坝邮政局
阿坝州委
阿尔山市委
需要转换为mmseg需要的词典格式,如下
阿巴嘎旗政府 1x:1阿坝交通局 1x:1阿坝旅游局 1x:1阿坝人事局 1x:1阿坝县公安局 1x:1阿坝邮政局 1x:1
写了个在线转换工具放到SAE上了Coreseek/Sphinx词库转换
PS:转换过程中新词库要和老词库合并,并排重。
新生成的词库放到mmseg3/etc/目录下:
#/usr/local/mmseg3/etc/unigram.txt
生成索引
#/usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/unigram.txt
重命名为uni.lib
#mv unigram.txt.lib uni.lib
重启sphinx
# cd /usr/local/coreseek/
#./bin/searchd -c etc/sphinx.conf –stop
#./bin/searchd -c etc/sphinx.conf
完事…
ps:新词库生成后务必要重启sphinx,否则索引不生效。
新生成的词库放到mmseg3/etc/目录下:
#/usr/local/mmseg3/etc/unigram.txt
生成索引
#/usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/unigram.txt
重命名为uni.lib
#mv unigram.txt.lib uni.lib
重启sphinx
# cd /usr/local/coreseek/
#./bin/searchd -c etc/sphinx.conf –stop
#./bin/searchd -c etc/sphinx.conf
完事…
ps:新词库生成后务必要重启sphinx,否则索引不生效。
参考资料:无聊记
转载请注明出处:怡然之乐 – FineYi