序
大約十年前的某一天,我正徜徉在網際網路的世界裡,忽然一個名叫"TinEye" 的影像搜尋引擎網站映入我的眼簾。我滿懷憧憬地在那個網站中上傳了一幅圖片,它很快搜索並傳回了許多這幅圖片在網際網路中不同URL 上的結果。我接著嘗試上傳了另一幅圖片,一會兒它又傳回了許多近似這幅圖片的結果,很顯然,結果中的很多圖片是在同一幅影像上修改的。面對如此準確和令人驚豔的結果,我不禁腦洞大開、浮想聯翩,構思著一個個可以運用該技術實現的奇思妙想。猛然間,我覺得心中產生了一股強大的力量 -- 我要弄清楚它背後的技術原理。
為了徹底弄清楚這種別圖像搜尋引擎的技術原理,我反覆尋找和閱讀當時網際網路上甚為缺乏的相關資料,但收效甚微。直到後來,我遇到了一個叫作LIRE 的開放原始碼專案,它讓我初步了解影像搜尋引擎的技術原理。但是在實際應用中,LIRE 的效果並不是太好。為了解決這個問題,我又找到「深度學習」這個強有力的幫手。在探索原理的過程中,我發現幾乎找不到一本介紹影像搜尋引擎基本原理和實現的中文書,這也成了本書誕生的緣由。
以內容為基礎的影像檢索技術自20 世紀90 年代提出以來,獲得了迅速的發展。研究人員提出了不同的理論和方法,其中具有代表性的是SIFT、詞袋模型、向量量化、倒排索引、局部敏感雜湊、旋積神經網路,等等。與此同時,產業界也推出了許多實用的影像搜尋引擎,例如TinEye、Google 影像搜索、百度影像搜索和以淘寶為代表的垂直領域影像搜尋引擎。但是到目前為止,此項技術還遠未完全成熟,還有許多問題需要解決,改進和加強的空間還很大。搜索的結果和使用者的期望還有一些距離,存在一定的影像語義鴻溝。這也是從事這項技術研究與開發的人員不斷進步的源動力。
希望本書的出版能夠在某種程度上緩解影像搜尋引擎資料稀少的現狀,並能夠吸引和幫助更多的技術人員關注並研究影像檢索技術。
明恒毅