带有类聚功能的引擎,比如:Vivisimo很早就开始出现了:
但是为什么一直没有推广开呢?原因很简单:速度。Vivisimo是META引擎:就是利用其他搜索引擎的搜索结果进行再加工。其速度当然受到非常多的限制,是不可能在大并发用户访问压力下保持足够快的响应速度。
但是这次MSN不同了:MSN搜索是自有技术的后台引擎,看到下面的“@2005 Microsoft Corporation. All rights reserved.”了吗?微软有足够的资源(可能暂时还没有投入)将各种搜索结果预先缓存处理好并更快的进行类聚,但这次发布在 directtaps.net是MSN首先在另外注册的域名上进行的试验:也可能能是独立的搜索门户的尝试。
Registrant:
Microsoft Corporation
1 Microsoft Way
Redmond, WA 98052
US
Domain name: DIRECTTAPS.NET
Administrative Contact:
Administrator, Domain domains@microsoft.com
One Microsoft Way
Redmond, WA 98052
US
+1.4258828080
Technical Contact:
Hostmaster, MSN msnhst@microsoft.com
One Microsoft Way
Redmond, WA 98052
US
+1.4258828080
Registration Service Provider:
DBMS VeriSign, dbms-support@verisign.com
800-579-2848 x4
Please contact DBMS VeriSign for domain updates, DNS/Nameserver
changes, and general domain support questions.
Registrar of Record: TUCOWS, INC.
Record last updated on 27-May-2004.
Record expires on 30-Apr-2006.
Record created on 30-Apr-2001.
Domain servers in listed order:
DNS1.DIRECTTAPS.NET 131.107.1.7
DNS2.DIRECTTAPS.NET 131.107.1.240
Domain status: REGISTRAR-LOCK
其实对于自动类聚:一般的META引擎只能根据其他引擎返回的内容摘要进行类聚,MSN有自己的引擎,应该可以做更多的优化和控制。
而就类聚速度问题的改善:我觉得搜索引擎不一定每次搜索都实时出类聚结果,而是后台每天将最常用的查询预先缓存好。毕竟需要类聚的一般都是比较模糊的查询词和搜索结果数量过大的时候才用的到。不一定在用户搜索目标很明确的时候还进行过多的类聚。
关于自动类聚的实现,可以参考一下简并算法:文本自动聚类算法的实现:卢亮当时很聪明地想到了使用Yahoo!目录完成了一个中文相关分类语料库,自动类聚(匹配)技术同时也应用在上下文广告(比如:AdSense)等方面。