独家专访酷讯网CEO陈华

作者:      来源:Chinaok       [2007-08-09]


在前两期本报进行了“我眼中的搜索引擎”读者调查活动,得到了很多读者的支持。从我们统计的结果看,绝大多数的读者都经常使用百度、Google这类网页搜索引擎,因为在这类搜索引擎中,只需要在搜索框中输入所需要的字段,就会返回与其相关的各类信息。然而这种方式的搜索在某些特定条件下有所不足,比如你想搜到最新最近的租房信息,或者想在逢年过节的时候看看网上的火车票、飞机票的行情,肯定不愿意从搜索结果中一个网站一个网站地去点击。基于这种需求,便产生了很多垂直搜索网站。

何谓“垂直搜索”?我们可以简单地将其理解为专业性搜索,也就是专做某一类信息的搜索引擎。如有名的百度MP3搜索,北大天网的FTP下载搜索等,就属于此类搜索引擎。而本期我们采访的,便是一位在搜索引擎开发中浸淫多年的高手——现任酷讯网CEO的陈华。

在第8期中我们曾采访了Lucene中文团队的葛帅,通过他的介绍,我们了解到网络搜索引擎背后的强大技术后盾,用一句话形容,就是“搜索引擎涵盖了计算机历史上几乎所有的技术”。而通过陈华的访谈,我们可以了解到垂直搜索最吸引人的地方所在。

高手榜:

陈华:毕业于北京大学计算机软件专业,从1998年开始他设计并开发“天网文件搜索引擎”,后参与了微软MSN Search项目(现在的Live Product Search和Academic Search便是他的作品)。现在他主持的酷讯网,便是个典型的垂直搜索网站。

垂直搜索的开发高人陈华

酷讯网:网址为http://www.kooxoo.com,是一个涵盖了招聘、住房、汽车、火车票、机票等方面的垂直搜索引擎,其最大特征是可搜索“离用户最近,最近更新的网络信息”。

垂直搜索是要解决Google们解决不了的问题

家用电脑:陈华你好!很高兴认识你这样的专做垂直搜索的“高人”,那么首先就请你向我们的读者介绍一下,垂直搜索是怎样发展起来的吧。

陈华:这两年垂直搜索的发展很快,有人说今年就是“垂直搜索年”。要说垂直搜索,那就要先说说百度、Google这类通用搜索的不足。它们的搜索方式,我们叫One Box,意思就是所有的东西只需要在一个输入框里就可以解决。这样的操作方式是很方便,用户上手很快,但是也造成了一个比较麻烦的状况。举个例子,比如我想在北京中关村附近租个房子,那么在框里敲上“中关村”三个字,结果出来的信息会有很多,包括卖IT产品的、楼盘介绍的、公交路线的,很多很杂。那么你会说,在后面加上“租房”两个字不就行了?可是这样出来的结果,很可能都是别人几个月前,甚至一两年前发布的了。针对这种需求,垂直搜索就应运而生了。比如在酷讯中输入你的租房需求,那么将返回离你需求的地方最近的信息,并且我们要求实现的是能搜索到“一分钟之前”的信息。

在酷讯网中搜索租房需求很方便

垂直搜索能大大方便我们的生活

家用电脑:就你前面所说,垂直搜索的涉及方面其实有很多。那么你是怎么定位自己的产品的呢?

陈华:其实做酷讯是源于我本身遇到的事情,就是一次我想在网上买张火车票,但是怎么都找不到准确的信息,于是我和朋友就开始自己来做一个火车票搜索的网站,结果一不小心就发现了一个大市场。因为火车票有以下几个特征:地域性很强(不可能在北京买上海的火车票)、时效性很高(往往刚贴出来的信息要不了多久就被人要了)、需求巨大(大家都知道春运时有多少人要买火车票)。因此以这三个特点,我们很快找到了其他同类的对象,包括:租房、求职、机票、餐馆、交友等等,也就专注这几个方面的开发了。

和通用搜索引擎相比,垂直搜索引擎可以更大的方便我们的生活,比如我刚才提到的租房,还有定机票等等。可以说,现在人们对搜索的要求已经在从娱乐向生活过渡了。以前我们上网搜MP3下载,FTP下载,都是满足我们的娱乐需求,而现在,越来越多的网站提供了诸如搜房子、搜餐饮的功能,解决我们遇到的方方面面的问题。

技术实力是搜索网站的坚实后盾

家用电脑:我们都知道,开发搜索引擎是工程浩大。那么在你们的开发过程中,有没有遇到什么难题,觉得哪些是比较重要的呢?

陈华:的确是难度很高,我们的开发团队很多都是来自百度、天网等搜索引擎公司,大家也是非常有激情将垂直搜索做好。就我看来觉得以下几个方面值得开发搜索引擎的朋友们注意:

1、要解决网络信息的庞大数量和用户使用的庞大访问量的问题,这也是个很高的技术壁垒,因为网站做大了压力很大,而且我们要做即时性强的搜索,那用户也会经常留在你的搜索结果页面上不停地按F5(刷新),这种带来的资源消耗是很大的;

2、就是很多乱七八糟的问题了,比如很多网页中都有Javascript脚本,那么怎么让程序自动去理解这些东西,也是个开发难点;

3、将非结构化转化为结构化的问题。比如同样是一个“我有后天北京到上海的火车票要转让”的信息,不同人的叙述方法是不同的,如何理解这些自然语言,将其转化为我们的格式,同样是个开发上的难题。

[关闭窗口]