chinese, ferret, index, java, lucene, rails, ruby, search at May 21st, 2007 by 小影
搜尋器改變了人們的習慣。當有能力在互聯網上用 0.01 秒的搜尋就找到想要的資料時,如果我們的軟件要花個幾秒甚至幾分鐘才找到資料,用家就會覺得這個軟件很差勁了。怎樣去做搜尋?最近單的方法莫過於 SELECT * FROM MYTABLE WHERE CONTENT LIKE '%KEYWORD1%' OR '%KEYWORD2%' 。我們的專案就是用這個方法搜尋用戶地址。這個方法完全沒有問題 -- 起碼 -- 在這一年多的開發、測試環境也沒有問題。直到在實際環境中 -- 有上百萬條記錄的資料庫 -- 這種搜尋對資料庫的壓力太大了。試想著每次也由頭到尾由「黃頁」找一個人吧。每條查詢花上2秒以上的時間,我們的系統可是有 3000 個同時的用家啊!全文搜索全文搜索是另一個方法。它的原理是把文件每一個字也加進索引中,就如查「黃頁」可以直接打開相關的頁數一樣,效率比傳統方法快上一個數量級。Lucene 是一個 Java 的全文搜索工具,利用它任何 Java 軟件也可以為任何文件作全文搜索。它分成兩部份:索引和搜尋。前者把文件經整理和分詞化成可以搜尋的索引;後者則由用者的查詢返回相關結果。Lucene 的擴展性很高,開發者可以編寫不同的 document parser 讓 lucene 支援任何文檔,擴展 Analyzer 以支援不同的語言,也可以自定 query parser 改變搜尋的特性。Lucene 的發展相當成熟,我可不用班門弄斧寫教學了,初學者請讀 IBM developerWorks 实战 Lucene,第 1 部分: 初识 Lucene 。Ruby ...
Posted in Tech | No Comments »
google, search at February 6th, 2007 by 小影
Google最近在它的Blog宣佈,在使用了改良的算法後,他們成功解決了Google Bomb的問題。
Google Bomb又被稱為Google Wash,是一種試圖影響特定站點在Google中查詢結果排序的做法。Google炸彈 , Wikipedia Google搜尋的結果比其他的搜尋器成功,很大程度在於其運用了反向連結的算法。然而互聯網上一些人發現一個被很多相同關鍵字連結到的網站將在Google中得到一個較高的頁面評價 -- 即使被連結的網頁和那些連結的關鍵字毫無關系。其中一個著名的 Google Bomb 讓 Google 搜尋「Miserable Failure」時返回白宮的喬治布殊網站。BBC NEWS | Americas | 'Miserable failure' links to Bush
Google 一直都不認為Google Bomb是一個大問題,因為以比例來說,Google Bomb可作的影響很少。然而大眾對Google Bomb的看法不同,一些奇怪的搜尋結果總讓人以為問題在於 Google 。終於他們一些開發人員決定坐下來討論,一起研究了一個可以減低 Google Bomb 影響的算法。
雖然Google沒有公開那個算法是怎樣,但由結果看一些以往的Google Bomb的確不見了。值得一提的是 Google 說他們不會用人手移除 Google Bomb 結果的方法:在解決搜尋問題時,我們總會直覺地使用自動化的方法。因為算法可以適應不同程度的問題:電腦可以很快地處理很多的資料,而且好的算法可以應付不同語言的問題。A quick word about Googlebombs
相關連結:
Google Bomb @苦牢之最後一年
Googlebombs Defused?
A quick word about ...
Posted in Tech | No Comments »
google, ps3, search, wii, xbox360 at June 5th, 2006 by 小影
Xbox 360 vs Nintendo Revolution vs ps3. Xbox 360 wins.
許久之前己有人想到Google Fight,比較兩個關鍵字的搜尋結果。現在的Google Trend走得更前,把這種比較加上時間這個dimension,還會highlight重要的新聞!加上時間的比較很有趣,例如這個:new years, easter, halloween, thanksgiving, christmas
See Also: Google has the Answer to the Ultimate Question in Photography
Posted in Tech | 2 Comments »
chinese, search at March 12th, 2006 by 小影
從來也不喜歡「百度」這公司,因為它雖自稱是最大的中文搜尋器,但實際上是只是google的copycat,再配合「國情需要」發展一些人家不會做的業務而矣。不過最近讀到的一篇文章讓我有至少一個欣賞它的理由 -- 他的名字。百度之名源於辛棄疾《清玉案 元夕》「眾裡尋他千百度,驀然迴首,那人卻在燈火欄珊處。」,一個優美又有意思的名字 ,比起好些古怪名字的大網站好多了。
《清玉案 元夕》 -- 宋辛棄疾 東風夜放花千樹,更吹落,星如雨。寶馬雕車香滿路,風簫聲動,玉壺光轉,一夜魚龍舞。娥而雪柳黃金縷,笑語盈盈暗香去。眾裡尋他千百度,驀然迴首,那人卻在燈火欄珊處。
Posted in Tech | 5 Comments »
hong_kong, search, security at March 12th, 2006 by 小影
著名股評人David Webb在網路搜尋資料時,偶然發現警監會的投訴人資料庫竟被公開放在網路上。由於他懷疑資料可能由警方外泄,他把事情向廉署報告。後來發現約2萬名曾經投訴警察的市民的個人資料,包括姓名、地址、身分證號碼,甚至刑事紀錄,都己在網路上流傳。
雖然放置該檔案的伺服器在事件曝光後己經停下來,但在google的網頁快取中仍都可找到有關資料。事件引起了傳媒、議員以至警方的高度關注,究竟資料如何外泄仍有待調查,不過這事再一次顯示出強大搜尋器的可怕!
我們不能排除黑客固意把資料放在網站上的可能性,但更可能是存放資料的人根本沒有想過收藏得如此隱密的檔案居然被人找到了。這也正是網路的「超文本」(網頁)和傳統文件的最大分別:所有的網頁和其他的網頁可以只是一頁之隔。只要有公開的網頁連結到另一個網頁,Google就有本事把文件索引得清清楚楚,就如作者同把它放在頭版一樣。事實上無數人或公司把私人資料放在互聯網上,在google中搜尋個人資料易如反掌,保安專家在數年前己經大聲疾呼這種危機了。
如果用戶自行外泄資料自然怪不了人,但如果是被信任的第三方(如這次的警監會)又如何?很惟憾答案很可能是「無能為力」。由Google Search History到Google Desktop Search我們一直用私隱換取方便,然而這些方便其實有更多我們看不到的代價。不久之前還聽到google想把用戶一切資料放在google伺服器中的計劃 (這個計劃也是由搜尋器中意外地外泄的!),我們實要更小心決定「方便」和「安全」的底線要定在那裏。
相關連結
警監資料泄網上 2萬投訴人曝光 姓名 地址 身分證號碼被公開 - Yahoo! 新聞
喃喃自娛 » 互聯網保安
Posted in Tech, times | 3 Comments »