Web集成信息檢索在數字圖書館中的應用研究論文

摘要：本文針對數字圖書館領域的特點，提出了一種實現數字圖書館Web集成信息檢索及知識庫的建立管理機制，以RDF作爲信息和知識的表示模型，採用中介器和包裝器框架來實現對異構數據源的集成信息檢索，並在此基礎上建立基於RDF的知識庫，實現全局查詢，在知識服務方面做了初步的實現。最後，本文介紹了基於該機制實現的一個原型系統，並以此原型系統爲例，分析了系統性能。

關鍵詞：數字圖書館；Web集成信息檢索；RDF；說明式查詢語言

0引言

數字圖書館是海量電子資源的集合，它所提供的功能涵蓋並遠遠超過了傳統的數據庫、信息檢索系統。數字圖書館已經成爲世界範圍內、日益重要的基於Web的應用框架體系。其基本目的是實現信息的集成共享，給用戶提供統一資源查詢服務，保障數字資源的最大可用性、系統之間的互操作性和集成性。

但是，如果數字圖書館像現有的Web一樣僅僅提供簡單的信息瀏覽功能，則同樣會讓用戶陷入“信息過載”的困境，不能共享經驗知識，無法滿足用戶對信息、知識的需求。因此，需要針對數字圖書館異構信息源的特點，採取一種適用的集成信息檢索框架，同時要求系統能夠積累交互運行中的知識，建立知識庫，從而給用戶提供智能的、主動的、動態的知識服務。

1RDF查詢語言——RQuery

RDF查詢語言RQuery與XML相比，RDF支持語義信息，然後，XML的設計動機是關心文檔的結構，目的在於提供多元的文檔表示結構，關注的焦點不是文檔中數據所代表的語義信息。通過比較得知，RDF查詢語言可以根據實際需要，使用多元的機制，同時可以定製應用領域內資源、語義信息、知識的表達規則。因此，採用RDF查詢語言作爲信息表示標準，更方便實現數字圖書館領域異構、半結構化數據源IIR的語義相互操作。

RQuery的作用有兩個，實現對RDF數據和RDFS的查詢，爲了給用戶提供超出普通信息查詢更多的知識，系統將上述查詢方法結合起來。

設計的RQuery解析器是一個簡單的語法分析器，針對RQuery的上下文無關文法的特點，採用了自上而下的語法分析方法。顧名思義，自上而下就是從文法的開始符號出發，向下推導，推出句子。其主旨是：對任何輸入串，試圖用一切可能的辦法，從文法開始符號（根節點）出發，爲輸入串獲取確定的最左推導。

提出的RDF查詢語言RQuery，是一種融合了謂詞邏輯的說明式查詢語言，它的設計基於數字圖書館IIR需求，與其它RDF查詢語言相比，具有如下特點：支持語義映射、可邏輯解析、模式查詢和數據查詢相融合。

2數字圖書館集成信息檢索框架

基於中介器，包裝器的數字圖書館集成信息檢索（DLIIR）系統結構如圖1所示。系統採用RDF作爲中間信息表示規範：即系統各組件間交換的數據皆爲符合RDF規範和RDFS定義的信息。因此組件之間以計算機可理解的語義信息進行通訊，提高了處理信息的效率和準確度，適合海量數據的查詢。

DLIIR系統包含用戶接口和中介器2個模塊：包裝器生成組件（WrapperDispatcher，WD）：包裝器（Wrapper）；知識獲取器（KnowledgeAcquireAgent，KAA）：知識庫搜索器（KBSearchAgent，KBSA）。它們彼此通信，相互協作，共同完成檢索功能。同時，在DLIIR系統中增加了RDF知識庫。RDF知識庫包含一個知識獲取（KAA）組件，將來自中介器的RDF文檔轉換成RDF知識庫中的記錄。

3組件間通訊規則

DLIIR系統包含若干個共同協作、彼此獨立的單元模塊，這樣的目的'在於增加系統的可擴展性。爲了進一步實現組件之間的通訊和數據交換，提高系統性能、查詢準確率以及工作效率。整個系統的數據流如圖2所示。

採用RDF作爲統一的數據格式，完成彼此的數據交換和通信，協同工作，從而實現整個系統的功能，爲用戶提供查詢服務。

4用戶接口Agent

用戶接口Agent的主要功能是協助用戶明確、細化查詢請求。同時，將MA返回的查詢結果以友好、清晰的格式顯示給用戶。

UIA的功能包括：①協助用戶明確、細化查詢請求，將查詢請求提交給MA；②接收MA返回的查詢結果，以普通HTML頁面形式將結果顯示給用戶；③爲用戶提供查詢RDF知識庫的導航服務。UIA主要和MA進行通信，完成和用戶交互的功能，這就是主體和其它主體協作共同實現系統功能的過程。從主體的運行週期來看，UIA的狀態週期如圖3所示。

DLIIR系統中，主體之間的通信數據均以RDF表示，MA接收到該消息之後，把該查詢請求轉換成RQuel查詢語句。DLIIR提供給用戶基於Web的查詢界面，當用戶提交查詢請求時，激活UIA，開始響應用戶的請求。DLIIR給用戶提供了兩種查詢方式：基於關鍵詞的查詢和基於語義的查詢。基於語義的查詢僅僅限於對RDF知識庫進行查詢，由於知識庫中存放的是經過處理的、以RDF格式表示的知識，它們之間存在可處理的語義關聯，可以根據語義聯繫查找用戶所需要的信息。

5中介器的實現機制

中介器依靠包裝器完成信息集成。在DLIIR系統中，中介器（MediatorAgent，MA）需要和其它五種組件通信，協調各個組件彼此協作，共同完成查詢任務。從MA的內部結果來看，MA就是一個查詢映射、結果集成的模塊。

DLIIR系統中，所有組件之間傳遞的信息均以RDF格式表示，採用提出的RQuery來實現對這些數據的查詢。在MA中，對查詢請求的轉換，其實質就是將RDF格式描述的查詢請求，轉換成RQuery語句。

爲了更清楚地給用戶提供查詢結果，往往需要HTML文檔具有一定的格式，如不同數據以不同顏色顯示，採用表格、鏈接給用戶提供更友好的界面等。此外，考慮到系統的靈活性，便於將來修改結果顯示的形式，在設立了一個系統文件——顯示模式（DisplaySchema）文檔。MA在進行查詢結果到轉換時，根據提前定義的顯示模式，將RDF文檔轉換成具有一定格式的HTML文檔，然後提交給UIA，以供在用戶端的Web瀏覽器上顯示。

6包裝器自動構造及知識庫框架

包裝器（Wrapper）具體工作流程如下：首先該Wrapper將全局查詢請求轉換成對該數據源進行檢索的命令格式，按照接口協議和數據源通信，獲得檢索結果。然後該包裝器將結果遵循全局RDFSchema構造成RDF文檔，返回給MA。完成此次查詢任務後，Wrapper進入空閒狀態，等待下次檢索任務。

DLIIR中的RDF知識庫以關係數據庫形式存儲的知識記錄，採用兩個組件實現對關係數據庫的操作：知識獲取器和知識庫搜索器。圖4給出了RDF知識庫的框架結構。

以RDF圖模型表示的知識按照類和屬性的關係，以關係型數據庫格式存儲在MicrosonSQLServer數據庫中。因此，KAA和KBSA組件需要更新、訪問關係數據庫，實現對知識庫的維護和查詢。這個過程涉及到RDF的解析與RDF圖的恢復。

7性能評估

傳統的應用程序往往由程序員手工爲每個信息源編制包裝器代碼，採用包裝器自動生成機制避免了程序員手工編寫代碼。傳統方式中手工開發包裝器代碼耗費的開發代價最大，而DLIIR中建立數據源接口描述文檔的開發代價遠遠小於它。

DLIIR系統在實現對異構數據源檢索的基礎上，同時從檢索結果中獲取知識，構造了以RDF進行知識表示的知識庫。利用本文提出的RQuery語言對知識庫進行檢索。因此，衡量DLIIR系統的知識庫檢索性能（P-RKBIR）也就是衡量RQuery語言的檢索性能。採用知識庫檢索時間作爲P_RKBIR的衡量標準。

在數據量很小時（10萬條記錄以下），數據量的變化對查詢時間的影Ⅱ向無法衡量出來，查詢時間相等。在數據量在百萬級別以上時，才體現出查詢時間隨着數據量的增大而增加的趨勢。此外，查詢時間與記錄數是線性關係的。

基於結果，DLIIR系統符合設計要求，滿足了對數字圖書館領域異構數據源集成檢索的需要，而系統的RDF知識庫通過設計的專用查詢語言RQuery進行檢索時性能良好。

8結論

數字圖書館已經成爲國家信息化水平的標誌，是社會信息知識共享的框架平臺。因此，實現對該領域內異構信息源的互操作，給用戶提供智能的、主動的知識服務是數字圖書館的發展方向。本文提出了一種實現異構信息源集成信息檢索的互操作框架，並對知識庫的建立和檢索進行了初步研究。