跨媒體技術的發展和挑戰論文

隨着移動智能終端設備的廣泛應用和普及,大量的視頻、音頻、文本以及各種傳感數據構成了目前移動互聯網領域中信息共享的主體內容。移動化帶來的改變是信息的激增,人們正在藉助移動智能終端上的各種傳感器———時間、位置、麥克風、攝像頭、溫度傳感和NFC(近場通訊)採集信息並重新繪製這個世界。然而,信息的爆炸式增長給知識的獲取帶來了極大的難度,也因此造成了知識的相對匱乏。在此過程中,用戶對信息的採集和分享與傳統方式有着顯著的不同:首先,信息的採集帶有顯著的時間特徵和空間特徵;其次,在數據分享過程中攜帶了用戶偏好信息;最後,完整分享這些數據對網絡帶寬和數據存儲服務提出了巨大的挑戰。目前,人們從移動互聯網領域獲得知識的渠道主要還依賴於信息搜索,一種是以百度和谷歌爲代表的傳統文本搜索的服務,另一種是以蘋果的Siri爲代表的新型跨媒體(聲音和文本)移動搜索體驗。

跨媒體技術的發展和挑戰論文

跨媒體技術發展現狀

目前,爲了實現同時對多種媒體類型的信息檢索,國內外學者的研究工作主要集中在以下幾個領域:1)基於“詞袋”模型建立多媒體對象知識庫此類方法大多通過對多媒體對象的語義信息進行人工標註得到先驗知識,結合“詞袋”模型等爲海量多媒體信息建立知識庫,從而藉助知識庫的橋樑作用實現跨媒體檢索。顯然,此種方法很大程度上還是一種變相的基於關鍵字的檢索,需要人工標註大量的關鍵字訓練樣本集,雖然它在一定程度上避開了特徵向量異構和語義鴻溝的問題,但是人工標註耗時耗力且缺乏統一性與客觀性,多媒體對象的語義信息往往不能夠得到恰當描述,因而檢索的準確性往往不盡如人意。2)基於文檔鏈接關係或Web鏈接關係建立多媒體對象之間的語義關係。此類方法通過分析多媒體文檔之間的鏈接關係或者Web網頁中的鏈接跳轉關係建立多媒體對象之間的語義關係網(跨媒體關聯圖、交叉參照圖模型等)從而實現多媒體對象之間的相互檢索。該方法有效地避免了媒體對象之間的語義鴻溝,但是對鏈接關係的依賴性太強,不具有一般性。3)建立輔助空間解決特徵向量異構問題。此類方法爲解決不同類型媒體對象之間特徵向量異構的問題,在計算特徵向量和相似性的度量時,一些方法是基於數據集中所有數據間的距離度量的,但是在實際跨媒體數據集中:一方面,計算和存儲所有對象間的距離尺度是不現實的;另一方面,距離度量不能有效解決現實生活中的問題。因此,一些學者提出採用典型相關性分析(CCA)、主成分分析(PCA)、獨立成分分析(ICA)等技術對特徵向量進行降維處理,使得異構的特徵向量在一個輔助空間中具有可比性,從而進行多媒體對象之間的相似性度量。此種方法往往在對特徵向量進行降維處理的過程中產生“維度災難”。4)基於機器學習、神經網絡等方法獲取多媒體對象間的語義關係。此類方法主要是通過機器學習或神經網絡領域的融合分析、流形學習、線性迭代與映射、概率模型、支持向量機、監督分類、非監督分類等方式對異構數據之間的關聯關係進行挖掘,進而實現不同模態多媒體數據之間的相互檢索。總的說來,該類方法檢索效果不錯,但往往計算量比較大,實現過程比較複雜。5)索引。此類方法一般是通過對多媒體數據進行一定預處理得到相互之間的相似關係,進而根據相似關係爲海量多媒體對象建立索引,以提高檢索時的效率。這是一種輔助型的方法,更多的是關注如何有效地減少檢索所需要的時間,提高跨媒體檢索的效率,對多媒體對象之間的相似度度量未關注。6)基於Ontology的檢索。此類方法是建立在基於內容檢索的基礎上,用Ontology存儲多媒體對象語義信息的新型檢索模式。檢索過程中結合多媒體對象的底層特徵與On-tology表達的語義信息進行跨媒體檢索。該方法對多媒體對象的語義信息及空間關係表達與處理具有強大的優勢,同時,Ontology模型能使檢索系統更加智能化與人性化。然而,現有的跨媒體信息檢索技術的研究對象主要是已採集好的各種媒體數據,較少考慮多用戶分享中的數據冗餘、網絡帶寬約束等移動互聯網環境下面臨的新問題和挑戰。

用戶標註和地理本體在跨媒體中的應用

移動終端能夠幫助人們以各種方式記錄現實世界,同時也造成了數據的異構性、語義的異質性以及存儲、傳輸這些數據對網絡和硬件的挑戰。隨着智能終端處理能力的不斷加強,目前已可以實現在智能終端上對採集的圖像和影音數據進行編輯和特徵提取。採用本地提取特徵再進行網絡分享的方法將大大降低網絡帶寬的使用。另一方面,由於不同用戶在對相同內容進行記錄時可以選擇不同的`媒體類型作爲載體,上傳並分享這些內容特別是影音圖像資源會佔用較多的服務器存儲空間。因此,提取資源中的語義信息並通過簡單推理進行信息聚合,能夠較好地降低移動互聯網環境下信息分享的數據冗餘問題。本體論作爲語義模型的新方法,主要用於知識的共享、交互和重用方面,它具有良好的概念層次結構和邏輯推理。通過對領域知識的理解、描述和推理,能夠更好地實現信息共享和重用的目的。當運用到信息檢索領域時,具有以下4個優點[3]:(1)本體關於領域知識的共同理解和描述可以使得現代網絡中的信息組織形式從傳統的基於語法逐步轉向基於語義;(2)本體對於概念及其之間關係的精確描述可以極大地提高信息檢索時的查全率和查準率;(3)採用形式化的描述方式使其能被計算機所理解以及更好地滿足海量網絡信息組織的需要;(4)本體能夠很好地支持邏輯推理,使得信息檢索系統更加智能化和人性化。地理本體是將本體論引入到地理信息科學中,它除了具有本體所具有的優點外,在處理對象空間位置及空間關係方面具有無法取代的獨特優勢。隨着以Web2.0技術爲代表的社交網絡的發展,用戶的需求從簡單的、被動的信息獲取逐步升級爲主動參與到信息管理、信息交互的過程中。用戶期待一種不需要精確的預定義的集成框架甚至不需要原始信息的本地副本,實現多維、海量信息的快速、低代價的獲取。用戶標註方法在特徵提取和語義分析過程中藉助人的認知過程,提取源數據中的知識,對信息檢索的準確率提升有着至關重要的作用。而地理本體,作爲一種半自動化的語義推理模型,可以有效降低不同用戶標註帶來的差異性,同時更準確地描述移動互聯網環境下信息的時間和空間特徵。採用這2種方法相結合建立本地特徵索引副本,能夠有效降低數據傳輸對網絡帶寬的需求和存放數據對存儲空間的需要。

1用戶標註

受限於移動終端的大小、網絡通信能力有限,不適宜採用傳統的方式對採集的圖像、視頻等多媒體數據進行完整上傳和統一計算。實現在本地的特徵提取和用戶標註,可以大大減少網絡通信,節省用戶分享的代價。OpenCV作爲傳統的視頻、圖像處理工具,目前已被廣泛應用在iOS和Android爲代表的移動終端上,並能獲得較好的特徵提取速度和分析結果。另外,隨着攝像頭、麥克風、NFC等傳感器的發展,基於手機的增強現實技術也取得了長足的進步,爲用戶的信息標註提供了新的手段和方法。採用用戶標註和特徵提取等方法[4],結合移動終端對現實世界的時間、位置感知,提交較少的描述信息或特徵信息,降低了信息和內容分享的門檻。如圖1所示,採用增強現實和用戶標註[10]技術後,用戶僅需上傳簡單的標註、位置信息和提取的語義、圖像內容特徵即可實現內容的分享。對查詢用戶來說,需要檢索的信息仍然是充分的。

2地理本體

地理信息科學中的本體論研究是高度跨學科的交叉研究,與地理信息的認知、表達、互操作,尺度和不確定性密切相關,其最重要的一點是研究空間信息的語義理論。基於地理本體的語義檢索[5][6]是通過本體構建概念層次空間實現的檢索,它利用本體明確建立了研究對象的概念、屬性、空間位置等各種關係,並且可以通過邏輯推理髮掘隱含在概念之間的不明確、非直接的信息,從而可以實現語義的智能信息檢索。在跨終端、跨媒體環境中,地理本體模型提供了一個統一的語義管理平臺。在移動互聯網環境下,地理本體模型構建完成後,可以基於多種格式標準進行發佈,用戶本地採集的數據通過用戶標註、特徵提取等方式按照層次、概念和推理結果向現有的本體模型中進行映射,構建新的結點和數據內容。這樣,用戶採集的多媒體數據可以分佈式地存放在各自的終端上,通過更新本體模型建立快速、有效的索引,提供統一的跨媒體、跨終端的服務標準,有效降低分享和檢索帶來的網絡資源消耗和源數據的冗餘存放。爲了幫助本體開發人員和領域專家對領域知識進行建模,斯坦福大學主導開發了一個基於java的開源本體編輯工具Protégé[13]。該工具使得構建本體知識庫的過程易於操作和管理,降低了本體構建的高昂成本和維護代價。它不但支持複雜的知識表示,還支持簡單的邏輯推理。Protégé支持對多種推理引擎的調用,如Jena,Racer,FaCT,Pellet等,由於Protégé本身是在Jena的基礎上開發的,ProtégéOWLAPI相當於對Jena的包裝,爲了支持推理,Protégé接口中包含了Jena的開源開發包,將Jena推理功能嵌入到了Protégé的API中。Jena提供了可擴展的類包提供基於規則的推理機,包括RDF推理機,OWL推理機等,在基於規則的推理機中包含了一般的推理功能,這些方法都遵循W3C發佈的標準。

跨媒體技術的發展和挑戰

1多模態信息檢索系統

1)麻省理工學院“基於圖片的問答系統”。該系統作爲多模態、跨媒體檢索領域的先驅,支持用戶以更加直接的方式檢索不同類型媒體數據,以克服傳統搜索引擎依賴於文本匹配的檢索方式。整個系統通過3層架構實現對圖像和文本的交互檢索:(1)模版問答(templatebased),根據圖像的預分類信息進行檢索;(2)歷史庫問答(internalrepositorybased),根據內建的歷史問答庫進行檢索;(3)用戶指導問答(humanbased),當檢索內容過於複雜時採用用戶指導的交互方式進行檢索[7]。2)新加坡國立大學的“多媒體問答系統”(mul-timediaquestion-answering)。該系統解決了網絡跨媒體搜索中的三個主要問題:(1)大規模的可視化概念標註,用於區分一種媒體實體是否包含一個或多個預定義概念標籤的;(2)支持大規模KNN內容搜索的索引方法;(3)用戶反饋的交互檢索方法[8]。3)I-SEARCH項目。該項目有歐洲多個研究機構和包括Google,EMC2在內的多個IT領軍企業共同合作研發。該項目旨在研發一種針對多模態內容數據的通用框架提供索引、共享、查詢和檢索等功能。目前,該項目已經取得較好的成果,能夠結合現實世界信息有效管理和利用多種類型的媒體數據和多模態數據,包括文本、2D圖像、草圖、視頻、3D對象和音頻文件等。整個項目較好的解決了多媒體查詢和檢索、相關反饋、多模態交互、個性化設置和可視化分析等諸多方面的難題[11]。圖3爲I-SEARCH系統原理架構圖、整個系統主要包括三層:描述符提取層、檢索交互層和可視化表現層。

2跨媒體檢索麪臨的挑戰

多媒體檢索領域中面臨的挑戰可以歸結爲“7個千年問題”:語義鴻溝、機器學習、人機交互、多媒體水印、數據挖掘、性能評估以及基於互聯網的多媒體標註與檢索[12]。隨着網絡技術的發展和智能終端的普及,跨媒體在移動互聯網搜索領域將越來越重要。今後幾年值得關注的幾個問題如下:1)在多媒體的語義理解過程中,結合地理本體在處理空間和語義推理方面的優勢,提高語義理解的性能和檢索的精度。同時,用戶的反饋和交互知識仍然起着重要作用,是不可或缺的。2)實現移動互聯網環境下的個性化檢索,通過手機用戶偏好和情景信息感知用戶意圖,提高檢索精度,目前,個性化檢索技術已成爲下一代搜索引擎提供服務的突破所在[13]。3)多種媒體流的同步問題。每種模態的多媒體信息有其自身的粒度級別,如視頻的幀級別、剪輯級別,圖像的像素級別、區域級別等。不同模態的媒體以其自身的粒度等級作爲一個處理單元[14],因此在連續的跨媒體檢索中如何實現同步、同期化處理多模態數據而不丟失語義信息是一個新的研究領域。4)由於移動智能終端的計算能力和網絡傳輸能力有限,多媒體數據的源數據只能是分佈式的存放在不同用戶的終端上,能否建立快速、有效的索引,提供統一的跨媒體、跨終端的服務標準,將是制約移動互聯網環境下跨媒體信息共享服務發展的瓶頸。

結論

本文對現有跨媒體數據的智能處理和信息檢索研究中的若干問題進行了綜述,並針對移動互聯網環境這一典型應用領域進行了討論分析,討論了基於用戶標註和地理本體的實現方法。最後分析了目前的典型應用系統並指出了未來研究的發展方向。(本文作者:張旭、羅詩妍、金京培、裴海英 單位:韓國仁荷大學數據庫實驗室、重慶郵電大學計算機科學與技術學院)