視索引第用戶(hù)輸入的查詢(xún)請求非常問(wèn)短, 查詢(xún)的平均長(cháng)度是 2.7個(gè)單調。如何從如此知的查詢(xún)請求里供知隱藏兒的真實(shí)用廣需求7這是搜索引擎首需要解決的非常原要的問(wèn)題。如果不能在取用戶(hù)真正的搜索意圖,搜索的準確性無(wú)從談起,即使續內容匹配算法再精巧也無(wú)濟于事,
從另外,個(gè)角度看,即使是同個(gè)查詢(xún)詞,不同用戶(hù)的搜索目的是不同的,如何識別這種差異7如果更進(jìn)步, 即使是間個(gè)用戶(hù)發(fā)出的網(wǎng) 個(gè)查詢(xún)詞 也可能因為用戶(hù)所處場(chǎng)景不同,其目的存在差異,義如何識別?所有這些把是搜索引繁需要解決的核心問(wèn)題,即用戶(hù)在此時(shí)此地發(fā)出某個(gè)查詢(xún),他的真實(shí)搜索意圖到是什么。
哪些信息是和用戶(hù)需求真正相關(guān)的?
上述第個(gè)核心問(wèn)題是從用戶(hù)需求角度出發(fā)的,另外兩個(gè)核心問(wèn)題則是從數據角度考慮的。搜索引擎本質(zhì)上是個(gè)匹配過(guò)程, 即從海量數據里面找到能夠匹配用戶(hù)需求的內容。 所以,在明確用戶(hù)真實(shí)意圖這個(gè)前提條件做到,如何找到能夠滿(mǎn)足用戶(hù)需求的信息則成為關(guān)鍵因素。
判斷內容和用戶(hù)查詢(xún)關(guān)鍵詞的相關(guān)性,直是信息檢索領(lǐng)域的核心研究課題,不斷提出的信息檢索模型即在試圖解決這個(gè)問(wèn)題。相關(guān)研究歷時(shí)近60年,盡管不斷有方法提出,檢效果總體而言也在逐步改進(jìn),但是這個(gè)領(lǐng)域的基本指導思想還是基于關(guān)鍵詞的匹配,包括現在所有搜索引擎的相關(guān)性計算部分,其基本計算思路和幾十年前相比并無(wú)本質(zhì)差異。
如何能夠在這個(gè)核心問(wèn)題上有所突破?這個(gè)問(wèn)題將會(huì )越來(lái)越重要,而從關(guān)鍵詞匹配到讓機器真正理解信息所代表的含義是解決這個(gè)問(wèn)題必須邁過(guò)的門(mén)檻。從目前來(lái)看,盡管包括人I工智能在內的很多相關(guān)研究領(lǐng)域對此有所進(jìn)展,但是短期內還未能看到解決這問(wèn)題的清晰技術(shù)思路。
哪些信息是用戶(hù)可以信賴(lài)的?
搜索本質(zhì)上是找到能夠滿(mǎn)足用戶(hù)需求的信息,盡管相關(guān)性是衡量信息是否滿(mǎn)足用戶(hù)需求的個(gè)重要方面,但并非全部,信息是否值得信賴(lài)是另個(gè)重要的衡量標準。