(一)優(yōu)化采集策略和數(shù)據(jù)來源
對于垂直搜索引擎的采集策略來說,必須不同于通用搜索引擎的采集策略。從互聯(lián)網(wǎng)中準確快速提取出本行業(yè)的數(shù)據(jù),關(guān)鍵詞是一個很關(guān)鍵的因素,所以必須和該行業(yè)的專業(yè)人士進行溝通,由他們提供基于本行業(yè)的關(guān)鍵詞。另外,用戶也可以向搜索引擎提交關(guān)鍵詞,在管理員審核通過的情況下,也添加進入關(guān)鍵詞序列,定期對關(guān)鍵詞整理,去除使用頻率低的關(guān)鍵詞,并添加新近出來的新詞。在有一個維護良好的新詞表的基礎(chǔ)上,優(yōu)化策略就有了一個好的開始。由于現(xiàn)在網(wǎng)頁html語言越來越規(guī)范化,這也給采集帶來了方便。根據(jù)研究發(fā)現(xiàn),一個網(wǎng)頁的主題決定了一個網(wǎng)頁的內(nèi)容,也就是在之間的部分,只要通過網(wǎng)絡(luò)蜘蛛先抓部分的內(nèi)容,之后再將抓取的部分和關(guān)鍵詞列表進行對比,如果主題里含有關(guān)鍵詞超過規(guī)定的閾值,就繼續(xù)抓取,否則,就放棄抓取。這種改進的抓取策略可以有效地改善抓取的效率和準確度。
(二)搜索排名與搜索結(jié)果的用戶滿意度不一致
垂直搜索引擎廣告收入是其收入的巨大來源,而競價排名方案是其廣告的主要模式,但是競價排名模式是根據(jù)廣告客戶購買關(guān)鍵詞的出價多少來決定該關(guān)鍵詞的查詢結(jié)果的排列順序,這就帶來了一系列問題。出價高的網(wǎng)頁就排列在前,出價少或沒有出價的網(wǎng)頁就必然會被排列在后。根據(jù)統(tǒng)計研究表明,一般用戶使用搜索引擎的習(xí)慣是只看到第三頁,后面的搜索結(jié)果對用戶來說是沒有意義的,這就可能導(dǎo)致用戶搜索后無法得到他想要的結(jié)果,或者要經(jīng)過更多次的翻頁才能找到需要的網(wǎng)頁,而排列在前面的那些出價很高的網(wǎng)頁對他的價值不一定高于那些出價少排列在后的網(wǎng)頁。這就極大地破壞了用戶體驗,干擾了用戶的信息獲取。如果無法在廣告和信息準確度做出均衡,一味地根據(jù)廣告費用來決定頁面的排列方式,這將會帶來用戶的不信任,進而用戶會大量流失,失去用戶的互聯(lián)網(wǎng)企業(yè),是沒有生存空間的,但是沒有廣告收入,對垂直搜索行業(yè)也是無法承受的。所以,如何對廣告和用戶體驗綜合調(diào)整,盡可能讓廣告客戶獲得廣告效益,又使得用戶獲得滿意的搜索結(jié)果是亟待解決的問題。
(三)與相關(guān)行業(yè)聯(lián)系度低
垂直搜索引擎發(fā)展至今,對通用搜索引擎的模式進行了大量克隆。但是,因為通用搜索引擎面向的是所有行業(yè),各種行業(yè)在通用搜索引擎看來,沒有高下之分,而對于垂直搜索引擎,這方面就完全不同于通用搜索引擎。如果垂直搜索引擎不能和所面向的行業(yè)進行緊密結(jié)合,就無法獲得與通用搜索引擎的差異化優(yōu)勢。目前垂直搜索引擎的數(shù)據(jù)采集還是通過網(wǎng)絡(luò)蜘蛛在互聯(lián)網(wǎng)上進行爬行,抓取頁面,進而分析關(guān)鍵詞,獲取行業(yè)數(shù)據(jù),還是停留在傳統(tǒng)的搜索引擎抓取數(shù)據(jù)的方式,這就導(dǎo)致最后的用戶查詢和在通用搜索引擎上的查詢效果并無二致,這種情況肯定無法吸引用戶,也無法發(fā)揮自己專業(yè)查詢的優(yōu)勢。而且由于對該行業(yè)的了解無法深入,和該行業(yè)的從業(yè)人員也不能進行有效的溝通,自然無法了解該行業(yè)的真正需求。雖然表面看來有模有樣,但只是一個披著行業(yè)外皮的通用搜索引擎,無法設(shè)計出行業(yè)需求的功能模塊,自然無法吸引行業(yè)客戶投入廣告或者分享數(shù)據(jù)?!?br />
促進垂直搜索引擎發(fā)展的對策
聲明:本站所有文章資源內(nèi)容,如無特殊說明或標注,均為采集網(wǎng)絡(luò)資源。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系本站刪除。