免费一级淫片,91 中文字幕,可以免费看的毛片

采訪IK Analyzer 中文分詞器開源項目作者林良益（十三）

2010-01-14 23:28:07 作者: 來源:

眾所周知，全文搜索幾乎已經(jīng)成為每個網(wǎng)站的必須提供的基本功能之一，用Lucene構造一個“索引－查詢”的應用是常見的java解決方案，目前由linliangyi2007創(chuàng)立的IK Analyzer是最好的Lucene 中文分詞器之一。

首先介紹一下IKAnalyzer：IKAnalyzer是一個開源的，基于java語言開發(fā)的輕量級的中文分詞工具包。從2006年12月推出1.0版開始，IKAnalyzer 已經(jīng)推出了3個大版本。最初，它是以開源項目Luence為應用主體的，結合詞典分詞和文法分析算法的中文分詞組件。最近剛剛發(fā)布了 3.1.1Stable穩(wěn)定版本，新版本的IKAnalyzer 則發(fā)展為面向Java的公用分詞組件，獨立于Lucene項目，同時提供了對Lucene的默認優(yōu)化實現(xiàn)。

linliangyi2007 (林良益) 是一位資深的Java開發(fā)者和優(yōu)秀開源開發(fā)者, JavaEye非常榮幸的采訪了他。

linliangyi2007 (林良益) 博客：http://linliangyi2007.javaeye.com/

歡迎大家推薦更多開源項目給我們，支持中國的開源項目發(fā)展，發(fā)站內短信給JavaEye管理員或者發(fā)信到webmaster@javaeye.com，謝謝。

采訪IK Analyzer 中文分詞器開源項目作者linliangyi2007

JavaEye：1. hi，linliangyi2007 你好，非常榮幸能夠采訪你。你能介紹一下IK Analyzer 中文分詞器開源項目是如何創(chuàng)立的嗎？

linliangyi2007：好的，這個要從和lucene的結緣開始說起了，大概05年左右，開始是為了完成一個電信的信息管理系統(tǒng)，里面需要用到全文檢索的。后來發(fā)現(xiàn)對中文搜索，lucene沒有很好的分詞支持。當時我發(fā)現(xiàn)最棒的就是車東的CJK了，應該說，他的blog文章對我的IK Analyzer 誕生起了很大的影響。后來，我們公司開始做一個基于web gis的本地信息搜索網(wǎng)站的互聯(lián)網(wǎng)應用，這就促使我萌生了自己寫一個中文分詞器的想法。最開始是基于對詞典的匹配，后來對詞典中未出現(xiàn)的詞語就有了進一步處理的想法，IK Analyzer 的設計理念也是一步一步形成的。這期間也結合了很多互聯(lián)網(wǎng)用戶的搜索體驗的反饋。

有趣的是，我的兩位好朋友，也就是paoding分詞器的作者和JE-MMAnalyzer分詞器的作者，都在基本相同的時期開始了各自的分詞器研究。三個人也就熱火朝天的討論開了，有交流，也有比較。因為有了這樣一個圈子和氛圍，也使的IK分詞器一直從06年底開始，不斷的更新到現(xiàn)在。大家的處理速度，算法的優(yōu)化，還有詞典的整理一直在持續(xù)。當然，由于大家都有自己的工作（吃飯問題很實際啊），期間都有一段時間，暫停了項目的發(fā)展，IK2.0是在07年初發(fā)布的，3.0則到了09年，最近剛剛發(fā)布了 3.1.1Stable穩(wěn)定版本。

JavaEye：2. IK Analyzer 中文分詞器項目的特點和應用的主要方面是哪些？新版本做了哪些修正？

linliangyi2007：IK Analyzer 是更多的考慮了互聯(lián)網(wǎng)用戶在產品及名址信息搜索這塊的應用，IK特別適用于搜索商家，產品，名址，如商品交易，美食，娛樂，電子地圖等，因為它是基于這樣的應用誕生的。IK在一開始的設計的時候，它有一個隱形的目標，是對數(shù)詞，量詞，專有名詞的增強處理，這是由于它的基于web gis搜索的需求定位決定的。如果持續(xù)使用IK的用戶，應該會發(fā)現(xiàn)，IK的早期版本對數(shù)量詞，專有名詞的切分，是整體輸出的，舉個例子：“2009年12月”，在IK1.x版本的時候，是作為一個詞元輸出的，對未知的路名，人名，商店，公司名稱都是如此，因此很多用戶說，IK早先版本的分詞效果“看起來”特別好，注意，我這里說的是“看起來", 但搜索起來就未必了。

由于lucene搜索的倒排搜索結構，決定了lucene搜索的速度優(yōu)勢在于“全詞匹配”而非like匹配，這就造成了過于粗粒度的輸出分詞結果好看，但用戶經(jīng)常搜索不到東西，在飽受公司客戶“無情的”打擊之后，IK后續(xù)的版本對此做了很大的改進。后期版本的切分越來越細碎，越來越不“漂亮”了，這點在3.0尤其明顯，但保證了用戶在分詞搜索中的召回率。問題是，這點的改進會帶來另一方面的負面影響，詞打得太散，搜索的準確度下降了，為此IK3.0從問題的另一角度來提供了相對的解決方案。

JavaEye：3. 能否詳細介紹一下這個解決方案？

linliangyi2007：好的，使用lucene搜索的開發(fā)者應該注意到，分詞器在其中扮演著兩個角色：一個是在lucene建立索引庫時候，對文檔進行切分。這時候，細粒度的切分，保證信息能盡可能的被“查找到”；另一個使用分詞器的過程，實在用戶輸入搜索關鍵字的過程。分詞器要多關鍵字進行分詞，而后同索引匹配。 IK3.0就在這個地方為用戶提供了一個相對優(yōu)化的搜索方式，一個是IKQueryParser，這個也是我在blog中吐血推薦的，呵呵。對于大多普通的搜索應用，它能為用戶提供不錯的搜索關鍵字組合。

舉個例子，用戶搜索“永和服裝飾品”，對于分詞器而言，它會切分出“永和”“和服”“服裝”“裝飾”“飾品”等。但分詞器沒有判斷的能力（實際上，目前所有的分詞器，即便有部分排除歧義的功能，也不完善），如果強制分詞器進行排歧義處理，則可能會得出完全錯誤的結果。IK則是嘗試給出所有可能的方案，在IKQueryparser 中，它不是簡單的返回所有分詞結果的組合，而是建立起一個分詞樹，將有可能的組合放在一起，它的輸出會類似于這樣：(“永和” && “服裝” && “飾品”) || (“和服”&& “裝飾”)，通過這個搜索邏輯去索引中進行匹配，在現(xiàn)實中，我們完全可以假設只有合理的詞元會搭配在一起，那么，不合理的搭配，它的就可能不會出現(xiàn)，或者即使出現(xiàn)，但匹配度較低。因此，IK3.0又給出了一個IKSimilarity的相似度評估器，來提高多詞匹配的優(yōu)先度，這樣的搜索，就能形成高匹配度的文檔，出現(xiàn)在前面，低匹配度的在后面，不合理的匹配就不出現(xiàn)的結果。這個也是自己的項目實戰(zhàn)經(jīng)歷了。

IKSimilarity是實現(xiàn)了lucene Similarity的接口的，在進行搜索前，使用IndexSearch的API進行設置就好，這個在IK3.0的DEMO中有詳細的例子說明，至此，IK3.0在盡可能保證文檔召回率的前提下，實現(xiàn)了相關文檔搜索匹配度的優(yōu)先。當然，這不能絕對意義上杜絕不正確信息被搜索出來（PS：就目前各大主要搜索引擎的實現(xiàn)也是這樣的）。在分詞器的設計中，應該說不盡是IK，其他分詞器的作者也是絞盡腦汁的想了很多，但目前還沒有特別完美的方案。對IK而言，我也收到了來至各方面用戶的反饋，有用在互聯(lián)網(wǎng)搜索領域的，有用于企業(yè)內部搜索的，還有做語言分析的，但就我個人的感覺而言，目前很難在一個分詞器中，實現(xiàn)多種目標。因此，我很贊同paoding的作者說的一句話，沒有最好的分詞器，只有最適合于某個領域的分詞器。

JavaEye：4. 你能分析和比較一下類似的其他中文分詞器項目嗎？

linliangyi2007：簡單說一下吧：

JE-MManalyzer：它的算法具有歧義分析，比較適合做垂直搜索和信息挖掘。他的中文名稱是“極易”，開發(fā)者的理念是-簡單即是美。

中科院的分詞器：中科院的分詞器很牛，其切分結果明顯基于語義分析。

paoding：paoding的結構設計的非常靈活，適合于對其進行開源改造。

mmseg4j：單從mmseg4j 的項目介紹上看，它是一個很純粹的基于詞典分詞的實現(xiàn)，既有細粒度的切分，也有最大長度的切分。應該說，是一個學習詞典分詞的很好的典范。

JavaEye：5. IK Analyzer 未來的roadmap是什么？你對 IK Analyzer的規(guī)劃和目標是什么？

linliangyi2007：就IK后期的roadmap而言，主要致力于兩點，一個是詞典的整理優(yōu)化，這塊工作量是巨大的，且是枯燥的，呵呵。3.1.版本后詞條是27萬，但其中有不少的“不合格”詞語，需要被剔除。第二是，有可能引入詞頻和字頻的統(tǒng)計算法，來優(yōu)化對未知詞語的處理，這個還處于理論階段。

后期的想法，可能會考慮犧牲一定的性能，來換取分詞效果，從企業(yè)應用和中小型互聯(lián)網(wǎng)應用而言，10萬漢字/秒以上的處理速度，應該都能夠滿足需求了。

JavaEye：6. 你對整個lucene搜索領域怎么看？能推薦幾個你覺得比較關注的搜索領域熱點嗎？

linliangyi2007：lucene是一個相當優(yōu)秀的全文檢索核心框架，基于它的應用是很多的。就lucene自己而言，已經(jīng)發(fā)展出了nutch（面向互聯(lián)網(wǎng)），solr（面向企業(yè)集群）等多種應用，這些也都是全文索引領域最經(jīng)常用到的。而實際上，lucene的索引特性還可以用在更多方面，比如，你可以用它了做web gis的地圖引擎，這是一個已經(jīng)成功實現(xiàn)的商用項目。

因此，對lucene的關注，我覺得應該開放自己的思維。因為索引在計算機應用中，領域是非常廣泛的，大家應該不拘一格。這點要歸功于google對數(shù)據(jù)搜索應用概念的推廣，深入人心。

JavaEye：7. 未來搜索引擎的發(fā)展方向會有哪些呢？

linliangyi2007：大型互聯(lián)網(wǎng)應用，比如google，他們的應該不僅是分詞器了，應該是一個自然語言處理系統(tǒng)了，包括了自我學習能力。

先說搜索的內容形式，會多元化，實際上已經(jīng)有國外的公司在研發(fā)了，基于音頻的，圖像的搜索，如通過歌詞搜索音頻內容，從搜索的用戶體驗上，會結合用戶的使用習慣給出搜索結果。也就是說，在未來，有可能你和我在google上搜索相同的詞語，出來的結果會有不同。

還有，就是搜索形式可能會更多，有針對特定類型信息的垂直搜索，信息挖掘，也可能是針對SNS方式的人際網(wǎng)絡搜索。其實搜索的本質就是按照用戶的視角將紛繁的數(shù)據(jù)進行合理的組織，再呈現(xiàn)在用面前；從最早的MIS系統(tǒng)的sql搜索，到現(xiàn)在，一直如此。至于搜索領域google這樣的大公司，基于新的搜索技術的公司未來有可能有機會超過他們，我想，最終的網(wǎng)絡世界一定是大一統(tǒng)的。大家以后應該是買數(shù)據(jù)賺錢，而不是服務了。服務的方式是有限的，服務的內容（數(shù)據(jù)）是無限的，是需要人們創(chuàng)造和提供的。

JavaEye：8. 目前IK Analyzer 是你一個人開發(fā)？還是有其他合作開發(fā)者？現(xiàn)在你平均每天花在IK Analyzer 上的時間大概是多久呢？

linliangyi2007：IK目前就我一人，我也一直在尋找合作者。(JavaEye: 希望什么樣的合作者？)最關鍵的是興趣和恒心吧。我基本上每天都會花至少30分鐘來解答網(wǎng)友的問題，然后如果需要，就進行修訂。平時有了新想法，就會進行試驗，如果可行，就會發(fā)布新版本。有時候一天會有20多封郵件咨詢問題，當然有時候一周才一封，呵呵。

JavaEye：9. 目前大概有多少用戶在使用IK Analyzer？

linliangyi2007：初步估計從06年底到現(xiàn)在，應該有1萬多用戶。(JavaEye：很厲害

) 主要都是國內的，畢竟是中文的。

JavaEye：10. 為什么給這個項目起IK Analyzer 這個名字呢？

linliangyi2007：呵呵，這個問題問的好，我很喜歡Diablo，尤其是Diablo II，我玩暗黑7年了。暗黑中有個角色，野蠻人哦，它的終極套裝就是“不朽之王Immortal King”，IK誕生的那一天，剛好是我打出一整套套裝的那一天，于是就用這個套裝的名字做紀念了，呵呵，感謝暴雪，感謝JavaEye，感謝CCAV。。。

聽說java也是這么命名的，當時的設計人員正在喝java咖啡來著……

JavaEye：11. 你的開發(fā)環(huán)境是什么？使用什么操作系統(tǒng)，和IDE？

linliangyi2007：我用Eclipse，操作系統(tǒng)多是windows，偶爾用linux，客戶多使用unix。

JavaEye：12. 通過開發(fā)IK Analyzer ，你對中國的軟件開發(fā)人員做開源項目有什么感受和想法嗎？

linliangyi2007：現(xiàn)在大家日常用的開發(fā)平臺，95%以上都是國外的組織貢獻的，中國在這塊，是需要趕上的。中國的開源比前幾年有了明顯的發(fā)展，但還需要大家一起來參與。希望大家能逐步型成貢獻代碼的習慣，其實開源不一定每個人都有做一個項目，參與其中就好，哪怕就一小段的代碼。linux能成功，它的很多核心代碼都被閱讀過，并通過網(wǎng)友們進行了補充和修訂。中國的開源氛圍薄弱，我覺得更多的是中國傳統(tǒng)思想中，對知識保守的因素，師傅對徒弟都要留一手，何況是同業(yè)者呢。但我要說，思想的交互是互利的，知識在開放的氛圍中增長的速度要遠超過封閉的開發(fā)，我經(jīng)常跟我的同事進行頭腦風暴，大家都很有收獲的，碰撞后的思想，往往能產生意料之外的好結果。

JavaEye：13. 作為一個JavaEye老會員，你對JavaEye網(wǎng)站有什么建議和意見嗎？

linliangyi2007：希望javaeye更專業(yè)更有深度。對新人創(chuàng)造更包容，更寬松的咨詢空間，對老人們則是思想碰撞，溫故知新的場所。

安徽新華電腦學校專業(yè)職業(yè)規(guī)劃師為你提供更多幫助【在線咨詢】

上一篇：采訪LightURL開源項目作者downpour（十二） 下一篇：采訪分布式數(shù)據(jù)訪問層(Data Access Layer)

相關熱詞搜索：中文項目作者

亚洲成人一区在线观看_天堂网www_国产精品久久9_中文在线播放_伊人天天_久久精品久久久精品美女

目 錄 [ - ]

采訪IK Analyzer 中文分詞器開源項目作者linliangyi2007

目錄 [ - ]