
Mengyuan LIU
刘梦源
Msc | Coder
Msc | Coder
搜索引擎的内核代码在fenci.py中,只要下载安装了numpy、jieba即可运行。 代码里面文件地址都在F://下,所以如果你要运行,请将文档存入自己的路径。 Documents文件夹下就是我们爬取的文档,测试的结果只用了前1000个文件。score的话根据bmp25算法,现在的结果数据符合它的规则。
出于某种私密性原因,我的php的后台交互代码并没有开源,只有一个html的模板来给大家使用。
影响BM25公式的因数有:
1 idf,idf越高分数越高
2 tf tf越高分数越高
3 dl/avgdl 如果该文档长度在文档水平中越高则分数越低。
4 k1,b为分数的调节因子
________________________________________________________________
前端:html
后台:php
数据库:Mysql
云服务器:新浪云
Test: http://sdubaidu.applinzi.com/baidu/web/index.php(您访问的此时此刻,它或许已经因为云服务器余额不足而停止了服务)
![]()
![]()