項目總結筆記系列 Autonomy IDOL Server KT Session1

2019-11-14 23:27:19

字體：大中小

來源：轉載

供稿：網友

項目總結筆記系列 Autonomy IDOL Server KT session1

在說上面這個圖之前，先說一下背景知識。

Autonomy地址：

http://www.autonomy.com.cn

http://www.autonomy.com.cn/content/home/index.zh.html

　　先說說我的理解：我們利用Autonomy可以做什么。比如在一個電商網站中，我們在某個電商網站中搜索了蘋果6，Autonomy會迅速地在返回的頁面中，給用戶提供產品的配件以及輔助產品的信息。比如，蘋果6的手機殼、充電器、耳機線；相關其他的蘋果產品，如ipad等。又或者當用戶查找iphone 6，但是電商的庫存為零了。這時候，Autonomy會自動選擇替代的產品并返回給用戶。并且，Autonomy會分析大量的用戶購物數據及購物興趣，各種隱性顯性的關聯因素，來引導用戶來瀏覽其他的商品。這樣，為電商引入了流量，增加了交叉促銷，為促成交易貢獻了自己的力量。Autonomy同時可以根據用戶的喜好對銷售需求做出迅速反應。最后，Autonomy 的情緒分析技術還能夠使電商對其客戶服務情況進行監控(包括各種facebook twitter weibo QQ)，以提供最高標準的服務。你也許會想，這些操作其實在淘寶，天貓等中已經對它做了應用。其實，電商平臺只是Autonomy使用的冰山一角，它對各種類型(結構化非結構化)數據的整合，處理，過濾，模式匹配，情感分析，在金融、制造業、媒體、電商、醫藥等行業都有成功過的使用案例。這個可以在官網中，參考看到它的案例介紹及其其中的一些牛逼的技術的介紹。

1.Autonomy：autonomy，提供了一種能夠理解任何文件格式的全面軟件基礎架構解決方案。無論數據是文字還是語音，是結構化還是非結構化，采用何種創建和存儲手段，相關的應用程序為何，Autonomy 都能進行處理。這樣無需人工建立復雜的連接器或使用元數據，也可實現應用程序之間的通訊。Autonomy的技術使企業應用系統獨立于數據類型而運作，同時借助將手工操作自動化而提升了效率。

2.IDOL Server：智能數據操作層 (Intelligent Data Operating LayerTM，IDOL) 服務器位于 Autonomy軟件的核心地位。IDOL Server 收集來自各連接器的數據，并以其能夠實現快速處理和檢索的獨特結構儲存它們。在處理信息時，IDOL 能夠聯系概念和語境來理解企業中所有的內容，對超過一千種不同格式的信息乃至使用者的興趣進行自動的分析。IDOL 允許對數據資源進行超過 500種操作，包括超鏈接、代理、摘要、分類、聚類、結構化信息抽取、檔案建立、個性化信息提醒以及檢索。“安全性是 IDOL 體現出自己獨到之處的一個重要方面。它提供了映射式的安全架構以及幾乎實時的安全權限同步功能，因此，非常適用于對安全性要求較高的搜索應用場合”。

更多的文檔參考：http://c0049920.itcs.hp.com:9000/action=help

3.ASOA：Autonomy 的基礎架構產品在設計時尤其重視重復利用性、模塊化、組件化、互用性以及性能等原則。而 Autonomy面向服務的架構 (ASOA) 則是這些設計原則的延伸。Autonomy 的所有模塊都屬于可選用的服務，并使用標準的 SOAP 作為其接口，這樣大量基于語義的功能都能作為服務提供給用戶。

4.Autonomy的實踐：兩家投資銀行合并后不久，決定建立一個統一的研究系統平臺，以便其客戶可以即時訪問合并后的銀行的所有與研究資料。這包括全球范圍內的 PDF 文件、Lotus Domino 服務器站點，以及存儲在文檔管理系統和網絡上的大量 Microsoft Office 格式文檔，形式參雜混合。要將所有這些數據合并到一個系統的前端，傳統上需要開發多個接口，每個接口連接一個不同的數據源。相反，如果新合并的銀行部署 IDOL 整合所有的數據源，IDOL 可簡單為每個數據源配置相應的數據采集器。當各種類型的信息導入到 IDOL 后，一個單一的 jsp 前端就能夠提供所有數據的檢索、自動超鏈接（相似文檔自動推送） - 無論數據格式是什么，也不管它存儲在哪里。

　　我們的Social Hub項目的底層是基于Autonomy的，Autonomy從各個平臺上搜索到了各種各樣的數據(通過連接器connector)，Autonomy提供了各種基于.xml .htm .jsp .mp3 .rmvb .sql .war等等的connector，他們用于抓數據，Connector Framework Server則接受從connector傳送過來的數據，然后將它們導向IDOLServer。(我們的conncector也許只是返回了一個file的address，CFS則要extracts文件，并且從文件中提取出metadata and file content把它們加到CFS的document中，你想，這樣我們的IDOL server到時候可以直接搜索分析數據，而不需要再從原文件格式中取數據?？梢?，我們增加了CFS這一層，是將所需要的數據提供了一個統一的入口)相當于，你需要水，我從各種管道接來了水，放在一個水甕中，供你來用?；蛘吣阈枰X，我從各個地方弄到了錢，放在了保險柜中，等你來用。

Autonomy的技術優勢總結：

1.關鍵詞和布爾表達式搜索

　　當處理大量數據并且用戶也完全明了其需要尋找的特定信息時，關鍵詞和布爾值搜索的準確性是可以保證的。Autonomy 對這種方法也提供完全的支持。但是，盡管關鍵詞搜索能夠找出文檔中匹配的字詞，它卻不能告訴我們整篇文檔與所關注的主題之間有多大的相關程度。

　　如“那晚我走在一條街上。這條街又長又黑。等我走到街的盡頭時，有個搶劫犯跳出來襲擊了我”，雖然句中多次出現“街”，但整段內容描述的卻是一起犯罪事件。用關鍵詞和布爾值方法搜索“街”時，該段內容很可能會被返回到搜索結果中，因此，這些方法有時并不準確。針對這一點，關鍵詞搜索方法常采用權重來對搜索結果進行排列。當對比關鍵詞出現在不同位置的兩篇文檔，其中一篇關鍵詞出現在文檔中的顯著位置，例如標題，另一篇關鍵詞出現在文檔末尾，搜索方法會認為前者的重要性比后者高，并給予其較高的權重值。此外關鍵詞出現多次的文檔得到的權重值也會比較高。　　對于格式規范一致的數據，例如醫學報告來說，權重關鍵詞搜索技術表現會有所改善，當然Autonomy對此亦提供全面支持。但從另一個角度說，這種方法依然沒有考慮字詞的所處的語境以及文字所論述的主題，它排序的依據是：如果字詞位于標題中或是常常被提到，那么整個文檔的相關度必然較高。而Autonomy則通過精密的模式匹配技術來從語境上理解文檔并提供概念類似的文檔，無需依賴于關鍵詞，從而避免了這一問題。

　　人工調節，“有的關鍵詞搜索引擎提供了人工調節結果的方法，包括復雜的布爾值表達式、關鍵詞標記、關鍵詞關聯及/或類別。同樣，Autonomy 也支持這些廣為使用的技術。但是無論關鍵詞搜索引擎如何復雜，它的本質也只是查找匹配字詞。這需要人工管理關鍵詞的關聯或類別。舉例而言：關鍵詞方法需要最終用戶能夠以復雜的特定表述方式（亦稱為布爾表達式）來編寫查詢內容。這意味著用戶需要掌握晦澀的搜索“規則”。一開始的規則可能是這樣的： <以色列AND 巴基斯坦> <以色列AND 巴基斯坦> OR <以色列 OR 巴基斯坦> <以色列 OR 巴基斯坦> 這看上去好像足夠了。但是如果用戶特別關注以色列和巴勒斯坦之間沖突的升級，那么上述規則返回的文檔有可能與這個關注內容無關，例如：以色列：20世紀初居住在巴基斯坦的猶太人數量很少；該數字在1845年為12,000，到1914年增長了85,000。此外，有些文章在編寫時都假設讀者已經了解一些背景資料，因此，可能并不包含上面的關鍵詞“以色列”或“巴勒斯坦”，例如：針對這次自殺式攻擊，阿拉法特先生宣布在加沙和西岸各地實行緊急狀態，并且逮捕了75名激進分子。為了在搜索結果中包含這些文檔，必須對規則進行修改：<阿拉法特 OR "自殺式攻擊" OR "緊急狀態" OR "西岸">但是，根據這種規則搜索，其結果也會返回其它自殺性襲擊信息，因此，可能會導致遺漏與主體直接相關的有價值的文檔，例如：相關團體對此的反應（如美國政府）。因此，必須對規則進行多次修改，確保搜索之返回相關結果。<("阿拉法特" OR "沙龍" OR "布什") AND ("自殺式攻擊" OR "緊急狀態" OR "炸彈攻擊") AND ("以色列" OR "巴勒斯坦" OR "西岸" OR "耶路撒冷")>這只是最初的規則。如果我們再考慮需要對各種類別進行的持續不斷的維護，那么情況將更加復雜。上面的例子需要文檔包含全部三個類別（姓名、暴力事件以及位置）中的匹配內容。如果文檔并未包含全部三種內容，那么查詢就會忽略這些文檔。因此，這種方法需要詳盡深入的人工勞動，而得出結果的準確性仍然無法保證。相反，Autonomy 可以自動了解文檔的主題，在無需用戶進行任何手動輸入的情況下為他們提供相關材料。關鍵詞搜索引擎不能隨著使用進行“學習”。您也很難通過提供示例來查找內容。如用戶在使用“與這個類似”功能時，在搜索框中提供一段示例文檔，想要找到與這段文檔描述的概念類似的文檔——這樣將增加查詢關鍵詞的個數，因為它是根據示例文檔中最經常出現的術語而確定搜索關鍵詞的。然后再根據該關鍵詞進行匹配，將含有該關鍵詞的文檔反饋給用戶。Autonomy 在支持這種方法的同時，其技術能夠根據示例文檔的概念找出匹配文檔，因此，更為有益。舉例而言，某用戶關心曼聯足球俱樂部的經濟狀況。那么如果使用傳統的“與這個類似...”功能，他可能會得到有關其他運動項目的文章，例如高爾夫球、網球甚至橄欖球。但 Autonomy 能夠了解用戶關心的是某個特定俱樂部的經濟狀況，從而提供相應的文檔。

　　Autonomy 能夠理解任何頁面的內容，并在語境上建立不同頁面、文檔以及查詢之間建立聯系。這樣保證了用戶得以找到最適合他們的信息。Autonomy 無需依賴關鍵詞搜索，也不靠鏈接表來判定哪些頁面是否與查詢相關。