国内首款完全由国人自主研发的可编程云平台 BDC 4.0 -- 新增了云索引、云检索、云中文分词
BDC 4.0下载地址: http://pan.baidu.com/share/link?shareid=579097387&uk=1614272889
BDC 4.0 云平台分布是云索引、云检索 云中文分词配置说明
一、索引检索配置
首先配置一些基本参数和路径
在配置节:<WebSystem.Framework.Key>
下配置以下配置项:
1、<KeyInfo Key="PhysicaPath" Value="E:\sousuo\"/>
表示中文分词所在的目录,将压缩文件中的App_Data 文件夹拷贝到 所配置的目录中
★注;没这个次库索引、检索都无法正常执行
2、<KeyInfo Key="SEARCHIDX" Value="E:\sousuo\index\"/>
表示全文索引存储的目录
3、<KeyInfo Key="SNAPSHOT" Value="E:\sousuo\snapshot\"/>
表示快照文件存储的目录
4、<KeyInfo Key="BuildIndexRate" Value="5"/>
表示索引频率(分钟整数),建议范围 3 - 10,Value越大索引周期越长,但是IO效率将越高,
(2G以下内存建议使用 5分钟以下,太大高并发将导致内存溢出)
5、<KeyInfo Key="StartDocId" Value="0"/>
表示索引文档编号起始值(整数), 在索引的时候会自动增长,每次服务停止会自动记录下最后的编号,
考虑到分布式索引和检索,建议每个节点的间隔编号以4000000 为间隔,比如:
此节点起始编号是 0,那么下一个节点是 4000000,再下一个节点是 8000000
也就是说,每个节点建议最多索引 400万网页,当然要是你机器足够好,也可以适当调整。
★注;单个节点机最多索引 10000000(1千万)网页
二、集群配置
BDC云平台在具体架设硬件集群的时候最好是将硬件划分逻辑层
如下图:
1号节点机 2号节点机 3号节点机
| | |
---------------- ---------------- ----------------
4 5 6 7 8 9 10 11 12
-------
13 14 15 ... ... ... ... ... ... ... ...
以此类推,这么做的好处就在于每个节点上下及不多,有效的减少了节点间的网络通信、有效的减少了上下层节点之间的Map - Reduce的计算时间和数据传输
在配置节:<WebSystem.Framework.Distributed 中进行配置
具体配置及参数说明请参见:
国内首款完全由国人自主研发的开源云平台 BDC 3.0 详解
http://blog.csdn.net/tengyunjiawu_com/article/details/8565766
★注;BDC 3.0在集群配置上与 BDC 4.0没有做改动
基于 BDC 4.0的分布式集群的云寻觅索引、检索范例代码 下载地址
http://pan.baidu.com/share/link?shareid=580846343&uk=1614272889
范例代码:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using WebSystem.Framework;
using System.Net;
using WebSystem.Framework.Distributed;
using System.Windows.Forms;
using System.IO;
using System.Reflection;
//using BoInterFace;
using Bo;
using System.Runtime.Remoting;
using System.Diagnostics;
using WebSystem.FrameWork.SearchEngine.Search;
using System.Threading;
using System.Collections;
using WebSystem.FrameWork.SearchEngine.Index;
using Business.Processing.Business.BO.Core;
using WebSystem.FrameWork.FenCi;
using System.Runtime.Serialization.Formatters.Binary;
using WebSystem.FrameWork.AlgorithmDataStructure.Sort;
using testbo;namespace Bwsyq.Distributed.Cluster.Demo
{class Program : ContextBoundObject{static void Main(string[] args){GInvertedIndex ii = new GInvertedIndex();var sw = Stopwatch.StartNew();int exectype = 0;RemoteFactory rf = new RemoteFactory();Thebegin:Console.WriteLine("请输入需执行的项:\n");Console.WriteLine("1:分发业务逻辑程序 \n");Console.WriteLine("2:由指定IP开始的节点及所有子节点中性能最优节点执行的BO对象的方法,\n如果IP是根IP那么就由整个集群中性能最优的节点执行BO对象的方法 \n");Console.WriteLine("3:获取某个目录下的指定扩展名的文件列表 \n");Console.WriteLine("4:获取CPU性能指标和内存可用指标 \n");Console.WriteLine("5:创建远程非透明代理对象,并调用其方法 \n");Console.WriteLine("6:分发普通文件 \n");Console.WriteLine("7:建立远程全文索引 \n");Console.WriteLine("8:执行远程全文检索 \n");Console.WriteLine("9:建立远程全文索引(无快照) \n");Console.WriteLine("10:执行远程全文检索(无快照) \n");Console.WriteLine("11:建立远程网页全文索引 \n");Console.WriteLine("12:执行远程网页全文检索 \n");Console.WriteLine("13:建立远程网页全文索引(无快照) \n");Console.WriteLine("14:执行远程网页全文检索(无快照) \n");Console.WriteLine("15:执行远程集群网页全文检索(无快照) \n");Console.WriteLine("16:执行远程指定IP节点的中文分词 \n");Console.WriteLine("17:执行指定IP开始的节点及所有子节点中性能最优节点的中文分词,\n如果IP是根IP那么就由整个集群中性能最优的节点执行中文分词方法 \n");Console.WriteLine("18:获取全局自增长流水号(整数) \n");Console.WriteLine("Other Key:退出 \n");try{exectype = Console.ReadLine().ToInt();}catch (Exception e) { return; }switch (exectype){case 1:rf = new RemoteFactory();//将业务逻辑程序 TestBo.dll 分发到 192.168.1.4 及其所有下层节点机中,并加载等待调用//注:分发之后可以随时更新覆盖rf.DistributionBoFile(@"D:\clienttest\TestBo.dll", "192.168.1.4");goto Thebegin;case 2:foreach (IPAddress ip in Api.LocalIps()){Console.Write(ip.ToString() + "\n");}Console.Write(Api.IsLocalIpAddress("192.168.1.4") + "\n");goto Thebegin;case 3:string[] fs = Api.GetDirectoryFiles(Application.StartupPath + Path.DirectorySeparatorChar, "dll");string s = "";if (fs != null){foreach (string f in fs){Assembly asm = Assembly.LoadFrom(f);string assemblyName = asm.FullName;foreach (Type t in asm.GetTypes()){if (t.IsClass){if (Api.IsInherit(t, typeof(ContextBoundObject))){string typeName = t.FullName;s = s + typeName + "|" + assemblyName + "|" + typeName + "Service" + "\n";}}}Console.Write(f + "\n");}}goto Thebegin;case 4:Console.Write(Api.GetCPUIndex() + "|" + Api.GetMemoryIndex());goto Thebegin;case 5:TestBo TestBo = (TestBo)rf.CreateTheBestRemoteObject(typeof(TestBo), "192.168.1.103");Console.WriteLine(TestBo.GetHttpContext(null, "", ""));goto Thebegin;case 6:rf = new RemoteFactory();rf.DistributionFile(@"D:\clienttest\Business.Processing.xml", "127.0.0.2");goto Thebegin;case 7://如果你的内容存储在数据库中,那么全文索引可以采用这种方案//这个索引的同时还会存储快照rf = new RemoteFactory();bool r = false;for (int i = 0; i < 100000; i++) //索引十万笔数据小试一下,大约10分钟{//参数说明:// 数据库名(必填)、表名(必填)、Key字段名(必填)、Key字段值(必填)、正文(必填)、希望真正执行索引的节点IPr = rf.DistributionDataBaseFullTextIndex("DB001", "T0001", "F0001", Api.uuid(false), "我是一个兵,来自老百姓", "127.0.0.2");}if (r)Console.WriteLine("远程索引成功!");elseConsole.WriteLine("远程索引失败!");goto Thebegin;case 8://如果你存储在数据库中的内容已经做了全文索引//这个检索出来的结果回包括:查询语句所在的库、表、Key字段名、Key字段值、索引内容、索引内容的动态摘要rf = new RemoteFactory();string queryString = Console.ReadLine();//参数说明:搜索语句、页号、每页条数、希望真正执行检索的节点IPDataBaseSearchResults dbsrs = rf.DistributionDataBaseFullTextSearch(queryString, 1, 10, "127.0.0.2");if (dbsrs.DataBaseSearchResultEntityList.Count > 0){Console.WriteLine("查询串:" + dbsrs.QueryString);Console.WriteLine("查询串分词结果:" + dbsrs.SearchWords.ToValue());Console.WriteLine("页号:" + dbsrs.PageNumber);Console.WriteLine("每页条数:" + dbsrs.PageSize);Console.WriteLine("总页数:" + dbsrs.PageCount);Console.WriteLine("总条数:" + dbsrs.SearchCount);Console.WriteLine("搜索总用时(豪秒):" + dbsrs.ElapsedMilliseconds);Console.WriteLine("搜索IO用时(豪秒):" + dbsrs.ioMilliseconds);Console.WriteLine("搜索排序用时(豪秒):" + dbsrs.SortMilliseconds);foreach (DataBaseSearchResultEntity dbsre in dbsrs.DataBaseSearchResultEntityList){Console.WriteLine("DataBaseName:" + dbsre.DataBaseName);Console.WriteLine("TableName:" + dbsre.TableName);Console.WriteLine("KeyFieldName:" + dbsre.KeyFieldName);Console.WriteLine("KeyFieldValue:" + dbsre.KeyFieldValue);Console.WriteLine("Context:" + dbsre.Context);Console.WriteLine("ContextDynamicSummary(动态摘要):" + dbsre.ContextDynamicSummary);}}goto Thebegin;case 9://如果你的内容存储在数据库中,那么全文索引可以采用这种方案//这个索引的同时不会存储快照//索引后返回一个唯一的IDrf = new RemoteFactory();long recordDocId = 0;for (int i = 0; i < 100000; i++) //索引十万笔数据小试一下,大约10分钟{//参数说明:// 数据库名(必填)、表名(必填)、Key字段名(必填)、Key字段值(必填)、正文(必填)、希望真正执行索引的节点IPrecordDocId = rf.DistributionDataBaseFullTextIndexNoSnapShot("DB001", "T0001", "F0001", Api.uuid(false), "我是一个兵,来自老百姓", "127.0.0.2");if (recordDocId == 0)Console.WriteLine("远程索引(无快照)失败!");elseConsole.WriteLine("远程索引(无快照)成功,全文索引编号:" + recordDocId);}goto Thebegin;case 10://如果你存储在数据库中的内容已经做了全文索引//这个检索出来的结果包括索引的时候生成的 ID列表rf = new RemoteFactory();queryString = Console.ReadLine();//参数说明:搜索语句、页号、每页条数、希望真正执行检索的节点IPDataBaseSearchResultsNoSnapShot dbsrsnss = rf.DistributionDataBaseFullTextSearchNoSnapShot(queryString, 10000, 10, "127.0.0.2");if (dbsrsnss.RecordDocIds.Count > 0){Console.WriteLine("查询串:" + dbsrsnss.QueryString);Console.WriteLine("查询串分词结果:" + dbsrsnss.SearchWords.ToValue());Console.WriteLine("页号:" + dbsrsnss.PageNumber);Console.WriteLine("每页条数:" + dbsrsnss.PageSize);Console.WriteLine("总页数:" + dbsrsnss.PageCount);Console.WriteLine("总条数:" + dbsrsnss.SearchCount);Console.WriteLine("搜索总用时(豪秒):" + dbsrsnss.ElapsedMilliseconds);Console.WriteLine("搜索IO用时(豪秒):" + dbsrsnss.ioMilliseconds);Console.WriteLine("搜索排序用时(豪秒):" + dbsrsnss.SortMilliseconds);foreach (long RecordDocId in dbsrsnss.RecordDocIds){Console.WriteLine("全文索引编号:" + RecordDocId);}}goto Thebegin;case 11://如果你的内容是抓取后的网页或文本,那么全文索引可以采用这种方案//这个索引的同时会存储快照rf = new RemoteFactory();r = false;for (int i = 0; i < 1000000; i++) //索引100万笔数据小试一下,大约2小时{//参数说明:// 链接(必填)、网页Html内容、网站的IP地址、网站web服务器类型、标题(必填)、正文(必填)、// 时间(必填)、网页的权重(0-100)、希望真正执行索引的节点IP// ★网页的权重 一旦指定所对应的网页所有的关键词都会增加相应的权重r = rf.DistributionWebFullTextIndex("http://www.yunxunmi.com/" + i + ".html", "<body>云寻觅搜索引擎</body>", "127.0.0.1", "IIS", "云寻觅搜索引擎官网", "云寻觅搜索引擎", DateTime.Now, 100, "127.0.0.2");}if (r)Console.WriteLine("远程索引网页成功!");elseConsole.WriteLine("远程索引网页失败!");goto Thebegin;case 12://如果你的网页或文本已经做了全文索引//这个检索出来的结果回包括:链接、网页Html内容、标题、正文、网站的IP地址、//网站web服务器类型、网页权重、标题动态摘要、正文动态摘要rf = new RemoteFactory();queryString = Console.ReadLine();//参数说明:搜索语句、页号、每页条数、希望真正执行检索的节点IPWebSearchResults wsrs = rf.DistributionWebFullTextSearch(queryString, 1, 10, "127.0.0.2");if (wsrs.WebSearchResultEntityList.Count > 0){Console.WriteLine("查询串:" + wsrs.QueryString);Console.WriteLine("查询串分词结果:" + wsrs.SearchWords.ToValue());Console.WriteLine("页号:" + wsrs.PageNumber);Console.WriteLine("每页条数:" + wsrs.PageSize);Console.WriteLine("总页数:" + wsrs.PageCount);Console.WriteLine("总条数:" + wsrs.SearchCount);Console.WriteLine("搜索总用时(豪秒):" + wsrs.ElapsedMilliseconds);Console.WriteLine("搜索IO用时(豪秒):" + wsrs.ioMilliseconds);Console.WriteLine("搜索排序用时(豪秒):" + wsrs.SortMilliseconds);foreach (WebSearchResultEntity wsre in wsrs.WebSearchResultEntityList){Console.WriteLine("Url:" + wsre.Url);Console.WriteLine("Html:" + wsre.Html);Console.WriteLine("Title:" + wsre.Title);Console.WriteLine("Context:" + wsre.Context);Console.WriteLine("WebSiteIpAddress:" + wsre.WebSiteIpAddress);Console.WriteLine("WebServer:" + wsre.WebServer);Console.WriteLine("WebPageWeights(网页权重):" + wsre.WebPageWeights);Console.WriteLine("TitleDynamicSummary(标题动态摘要):" + wsre.TitleDynamicSummary);Console.WriteLine("ContextDynamicSummary(正文动态摘要):" + wsre.ContextDynamicSummary);}}goto Thebegin;case 13://如果你的内容是抓取后的网页或文本,那么全文索引可以采用这种方案//这个索引的同时不会存储快照//索引后返回一个唯一的文档IDrf = new RemoteFactory();long WebDocId = 0;for (int i = 0; i < 2000000; i++) //索引200万笔数据小试一下,大约4小时{//参数说明:// 链接(必填)、标题(必填)、正文(必填)、网页的权重(0-100)、希望真正执行索引的节点IP// ★网页的权重 一旦指定所对应的网页所有的关键词都会增加相应的权重WebDocId = rf.DistributionWebFullTextIndexNoSnapShot("http://www.yunxunmi.com/" + i + ".html","云寻觅搜索引擎官网", "云寻觅搜索引擎", 10, "127.0.0.2");if (WebDocId == 0)Console.WriteLine("远程索引网页(无快照)失败!");elseConsole.WriteLine("远程索引网页(无快照)成功,全文索引编号:" + WebDocId);}goto Thebegin;case 14://如果你的网页或文本已经做了全文索引//无快照//这个检索出来的结果包括索引的时候生成的文挡ID列表queryString = Console.ReadLine();queryString = string.IsNullOrEmpty(queryString) ? "云寻觅搜索引擎" : queryString;for (int j = 0; j < 100; j++){rf = new RemoteFactory();//参数说明:搜索语句、页号、每页条数、希望真正执行检索的节点IPWebSearchResultsNoSnapShot wsrsnss = rf.DistributionWebFullTextSearchNoSnapShot(queryString, 10, 10, "192.168.1.6");Console.WriteLine("查询串:" + wsrsnss.QueryString);Console.WriteLine("查询串分词结果:" + wsrsnss.SearchWords.ToValue());Console.WriteLine("页号:" + wsrsnss.PageNumber);Console.WriteLine("每页条数:" + wsrsnss.PageSize);Console.WriteLine("总页数:" + wsrsnss.PageCount);Console.WriteLine("总条数:" + wsrsnss.SearchCount);Console.WriteLine("搜索总用时(豪秒):" + wsrsnss.ElapsedMilliseconds);Console.WriteLine("搜索IO用时(豪秒):" + wsrsnss.ioMilliseconds);Console.WriteLine("搜索排序用时(豪秒):" + wsrsnss.SortMilliseconds);foreach (long webDocId in wsrsnss.WebDocIds){Console.WriteLine("网页全文索引编号:" + webDocId);}}goto Thebegin;case 15://★★★★★★★★★★★★★★★★★// 这里是集群搜索//搜索指定IP以及其下层所有节点(并行)//★★★★★★★★★★★★★★★★★//如果你的网页或文本已经做了全文索引//这个检索出来的结果包括索引的时候生成的文挡ID列表 //★注;无论搜索结果有多少,只返回最多1000条数据 queryString = Console.ReadLine();queryString = string.IsNullOrEmpty(queryString) ? "云寻觅搜索引擎" : queryString;for (int j = 0; j < 100; j++) //执行100次搜索检测一下看内存是否溢出{rf = new RemoteFactory();//参数说明:搜索语句、页号、每页条数、希望真正执行检索的节点IPWebSearchResultsNoSnapShot cwsrsnss = rf.DistributionClustersWebFullTextSearchNoSnapShot(queryString, 2, 10, "192.168.1.4");if (cwsrsnss.WebDocIds.Count > 0){Console.WriteLine("查询串:" + cwsrsnss.QueryString);Console.WriteLine("查询串分词结果:" + cwsrsnss.SearchWords.ToValue());Console.WriteLine("页号:" + cwsrsnss.PageNumber);Console.WriteLine("每页条数:" + cwsrsnss.PageSize);Console.WriteLine("总页数:" + cwsrsnss.PageCount);Console.WriteLine("总条数:" + cwsrsnss.SearchCount);Console.WriteLine("搜索总用时(豪秒):" + cwsrsnss.ElapsedMilliseconds);Console.WriteLine("搜索平均IO用时(豪秒):" + cwsrsnss.ioMilliseconds);Console.WriteLine("搜索平均排序用时(豪秒):" + cwsrsnss.SortMilliseconds);foreach (long webDocId in cwsrsnss.WebDocIds){Console.WriteLine("集群网页全文索引编号:" + webDocId);}}}goto Thebegin;case 16://由指定IP的节点来执行中文分词string mContext = Console.ReadLine();rf = new RemoteFactory();try{if (String.IsNullOrEmpty(mContext))goto Thebegin;List<string> ls = new List<string>();//参数说明:// 要分词的正文内容、分词类型(CutType.Max:最大分词、CutType.Min最小分词、CutType.MinAndMax最小+最大分词、CutType.MinAndMaxAndMiddle最小+中间+最大分词)、// 正文是否 html内容如果 true 程序会自动对 html进行解析提取正文后在分词、// 希望真正执行中文分词的节点IPforeach (DictionaryEntry de in rf.SpecifyIpRemoteFenCi(mContext, CutType.Max, false, "127.0.0.2")){ls.Add(de.Key.ToString());Console.WriteLine("分词结果->词汇:" + de.Key.ToString() + " 权重:" + de.Value.ToString());}Console.WriteLine("分词结果:" + ls.ToValue());}catch { goto Thebegin; }goto Thebegin;case 17://由指定IP的节点及其下层所有节点中性能最优的节点机来执行中文分词mContext = Console.ReadLine();rf = new RemoteFactory();try{if (String.IsNullOrEmpty(mContext))goto Thebegin;List<string> ls = new List<string>();//参数说明:// 要分词的正文内容、分词类型(CutType.Max:最大分词、CutType.Min最小分词、CutType.MinAndMax最小+最大分词、CutType.MinAndMaxAndMiddle最小+中间+最大分词)、// 正文是否 html内容如果 true 程序会自动对 html进行解析提取正文后在分词、// 希望真正执行中文分词的节点IPforeach (DictionaryEntry de in rf.TheBestRemoteFenCi(mContext, CutType.Max, false, "127.0.0.2")){ls.Add(de.Key.ToString());Console.Write("分词结果->词汇:" + de.Key.ToString() + " 权重:" + de.Value.ToString() + "\n");}Console.Write("分词结果:" + ls.ToValue() + "\n");}catch { goto Thebegin; }goto Thebegin;case 18://全局自增长流水号(整数), 每次调用就会返回指定IP节点的下一个流水号,这个完全是系统额外提供的函数,系统本身并不使用。//这个是线程安全的,支持大规模并发。服务停止后系统会保存最后的流水号,作为下次的起始值。rf = new RemoteFactory();int iSerialNumber = 0;try{iSerialNumber = rf.OverallSituationSinceTheGrowthSerialNumber("127.0.0.2");}catch{Console.WriteLine("远程调用全局自增长流水号失败!");}goto Thebegin;default:break;}}}
}
参考范例网站: http://sousuo.yunxunmi.com/当然目前的版本即便是单机性能也比测试网站性能强至少 10倍!
在30台PC上做了一周时间的测试,每台机器索引了200万的数据,共6000万模拟网页数据。
任意检索不超过 1秒, 发现目前在云检索的性能、相关性等方面上还有很多值得进一步优化的,因此希望大家多提宝贵意见,谢谢!
有任何疑问或建议请联系QQ群: 204725117