電力企業文本數據挖掘技術探究教學論文

摘要：在國家電網公司信息化工程的建設過程中，積累了大量的文本數據。如何挖掘文本數據中蘊含的有價值信息將成爲電力企業大數據挖掘方向研究的重點對象。文章結合電力行業目前的數據現狀，使用文本挖掘的方法對電力設備檢修資金投入工作效能場景進行挖掘，對生產信息管理系統中報缺單數據進行文本聚類，實現對缺陷的細分。實踐表明，該方法可以得出各類別的缺陷特徵，從而證明了文本挖掘在電力行業的可用性。

關鍵詞：電力設備檢修；文本數據；文本挖掘；大數據挖掘

隨着信息化的快速發展，國家電網公司各專業積累的數據量越來越龐大。龐大數據的背後，由於數據結構和存儲方式的多樣化以及電力系統內部不同專業從業者的知識面層次不齊等，其中被利用的數據只佔少量的部分，造成大量的有價值數據被浪費。在被浪費的數據中，以文本形式存在的數據佔很大比重，如何從比較複雜的文本數據中獲得需要的數據受到國家電網公司的普遍關注。國家電網公司經過SG186、三集五大等大型信息化工程的建設，積累了海量的業務數據，其中包括大量的文本數據。目前，國家電網公司對業務數據的利用主要集中在結構化數據的統計和分析，這些方法無法直接應用在非結構化文本數據中，更無法對其中隱含的價值規律進行深度分析挖掘。針對非結構化文本數據量不斷增大、業務應用範圍不斷擴大這一現狀，爲了提升國家電網公司企業運營管理精益化水平，需要進一步挖掘非結構化數據中潛在的數據價值。因此，開展電力大數據文本數據挖掘技術應用場景和一般流程的研究顯得尤爲重要[1]。

1非結構化數據概述

與結構化數據（能夠用二維表結構遵循一定的邏輯語法進行體現的數據）相比，非結構化數據不能在數據庫中採用二維結構邏輯形式來表示，這些形式主要有Word文檔、文本、圖片、標準通用標記語言下的子集XML、HTML、Excel報表、PPT、Audio、Video、JPG、BMP等。半結構化數據處於完全結構化數據（邏輯型、關係型數據庫中的數據）和完全無結構化數據（BMP、JPG、Video文件）中間，它一般的功能是對系統文件的描述，如系統應用幫助模塊，有一定的邏輯結構，同時也包含數據格式，兩者相融在一起，比較均衡，沒有明顯的界限[2]。進入21世紀後，網絡技術飛速發展，特別是內聯網和因特網技術取得突飛猛進的發展，各類非結構數據類型格式日益增多，以往的數據庫主要用於管理結構化數據，對於非結構化數據的管理稍顯乏力，爲了適應非結構數據的迅猛發展，數據庫的革新勢在必行，在內聯網和因特網技術的基礎上，對數據庫的內在結構進行改進和創新，使其能夠兼容和處電力信息與通信技術2016年第14卷第1期8電力大數據技術理非結構數據形式。北京國信貝斯是我國非結構化數據庫開發和設計的領軍者，其旗下開發的IBase數據庫能夠兼容和處理目前市面上存在的各種文件名、格式、多媒體信息，能夠基於內聯網和互聯網對海量信息進行搜索、管理，技術已經達到全球領先水平。

2文本挖掘技術

2.1文本挖掘

文本挖掘的對象是用自然語言描述的語句、論文、Web頁面等非結構化文本信息，這類信息無法使用結構化數據的挖掘方法進行處理；文本挖掘指通過對單個詞語和語法的精準分析，通過分析結構在海量的非結構化數據中檢索意思相近的詞語、句子或者信息[3]。

2.2文本挖掘流程

挖掘流程如圖1所示。圖1挖掘流程Fig.1Miningprocedure1）文本預處理：把與任務直接關聯的信息文本轉化成可以讓文本挖掘工具處理的形式，這個過程分3步：分段；預讀文本，把文本特徵展現出來；特徵抽取。2）文本挖掘：完成文本特徵抽取後，通過智能機器檢索工具識別符合主題目標的文段信息，在海量信息或者用戶指定的數據域中搜索與文本預處理後得出的文本特徵相符或相近的數據信息，然後通過進一步識別和判斷，達到精確檢索的目的，這是一個非常複雜的過程，縱跨了多個學科，包括智能技術、信息技術、智能識別技術、非結構數據庫技術、可視化技術、預處理技術、讀碼技術等。3）模式評估：模式評估是用戶根據自己的需求主題設置符合自己需求主題或目標的模式，把挖掘到的文本或信息與自己設置的模式進行匹配，如果發現符合主題要求，則存儲該數據和模式以方便用戶調用，如果不符合，則跳轉回原來的環節進行重新檢索，然後進行下一個匹配過程的模式評估。

2.3文本挖掘技術分析

解決非結構化文本挖掘問題，現階段主要有2種方法：一是探索新型的數據挖掘算法以準確挖掘出相應的非結構化數據信息，基於數據本身所體現的複雜特性，使得算法的實施愈加困難；二是把非結構化問題直接轉換成結構化，通過實施相應的數據挖掘技術達到挖掘目的。而在語義關係方面，就要應用到特定的語言處理成果完成分析過程。下文是根據文本挖掘的大致流程來介紹其所用到的相關技術。

2.3.1數據預處理技術

文本數據預處理技術大致可分爲分詞技術、特徵表示以及特徵提取法。1）分詞技術主要有兩大類：一種爲針對詞庫的分詞算法；另一種爲針對無詞典的分詞技術。前者主要包含正向最大/小匹配和反向匹配等。而後者的基礎思路爲：在統計詞頻的基礎上，把原文中緊密相連的2個字當作一個詞來統計其出現的次數，若頻率較高，就有可能是一個詞，當該頻率達到了預設閾值，就可把其當作一個詞來進行索引。2）特徵表示通常是把對應的特徵項作爲本文的標示，在進行文本挖掘時只需要處理相對應的特徵項，就能完成非結構化的文本處理，直接實現結構化轉換目的。特徵表示的建立過程實際上就是挖掘模型的建立過程，其模型可分爲多種類型，如向量空間模型與概率型等[5]。3）特徵提取法通常是建立起特定的評價函數，以此評價完所有特徵，然後把這些特徵依照評價值的高低順序進行排列，將評價值最高項作爲優選項。在實際文本處理過程中所應用的評價函數主要包括信息增益、互信息以及詞頻等。

2.3.2挖掘常用技術

從文本挖掘技術的研究和應用情況來看，在現有的文本挖掘技術類別中應用較爲廣泛的主要包括文本分類、自動文摘以及文本聚類[4-5]。1）文本分類。文本分類是給機器添加相應的分類模型，當用戶閱讀文本時能夠更爲便捷，在搜索文本信息時，能夠在所設定的搜索範圍內快速和準確的獲取。用於文本分類的算法較多，主要有決策樹、貝葉斯分類、支持向量機（SVM）、向量空間模型（VectorSpaceModel，VSM）、邏輯迴歸（LogisticRegression，LR）以及神經網絡等。2）自動文摘。自動文摘是通過計算機技術智能的把原文的中心內容濃縮成簡短、連續的文字段落，以此來儘可能地降低用戶閱讀的文本信息量。3）文本聚類。文本聚類與文本分類的作用大抵相同，所實施的過程有所區別。文本聚類是將內容相近的文本歸到同個類別，儘可能地區分內容不同的文本。其標準通常可以依照文本屬性或者文本內容來進行聚類。聚類方法大致可分爲平面劃分法與層次聚類法。另外，除了上述常用的文本挖掘技術，許多研究還涉及關聯分析、分佈預測分析和結構分析等。

2.3.3文本挖掘系統模式評估方法

數據挖掘系統的評估是至關重要的，現在已有大量的研究來衡量這一標準，以下是公認的評估方法。1）查全率和查準率。查全率代表實際被檢出的文本的百分比；查準率是所檢索到的.實際文本與查詢相關文本的百分比。2）冗餘度和放射性。冗餘度表示信息抽取中冗餘的程度；放射性表示一個系統在抽取事實不斷增多時產生錯誤的趨勢。最低的冗餘度和放射性是系統追求的最終目標。3）雙盲測試。先用機器生成一組輸出結果，再由相關專家產生一組輸出結果，然後混合2組輸出結果，這種混合後的輸出集再交給另一些相關專家進行驗證，讓他們給予準確性方面的評估。

3電力行業文本挖掘可研究實例

文本挖掘技術在國內電力行業屬於新興的前沿領域，對從業人員的素質要求相對比較高。由於現階段知識和技術層面上匱乏，國家電網幾乎沒有關於此方面的項目實施。本節通過2個電力運營監測業務的應用需求，初步探討文本挖掘的建模過程。

3.1電力運營監測業務應用需求

1）檢修資金投入工作效能分析場景分析。大檢修和技改是保障電網安全的重要工作。由於運檢業務系統的數據質量問題，通過對量化數據的統計，無法準確掌握大修、技改資金投入的工作效能情況。但設備的實際運行狀態可以通過文本類故障記錄、運行日誌等進行反映，因此，採用文本挖掘技術對檢修工作效能進行分析與可視化展現，同時結合傳統的統計方法，實現對大修技改資金投入工作效能的分析和監測。例如，可以通過分析歷年的故障記錄信息，反映出每年主要故障變化情況，進而結合每年大修技改資金投入情況，分析資金投入是否與預期目標相一致。2）家族缺陷識別分析。家族缺陷是指同一廠家生產的同一型號、同一批次的設備在運行過程中出現了相同或相似的缺陷。家族缺陷識別分析是通過對運行記錄、故障記錄等設備運行文本信息的挖掘和可視化分析，對設備家族缺陷進行識別。該場景既可以輔助基層業務人員對家族缺陷進行準確判斷，同時可以作爲一種輔助手段爲總部專家判定家族缺陷提供參考，從而實現對家族缺陷辨識方式的優化，並基於此爲檢修計劃制定、廠商評價、採購建議等提供決策支撐。

3.2文本分析建模過程

第1步：將原始的非結構化數據源轉換爲結構化數據，分析文本集合中各個文本之間共同出現的模式；彙總與家族缺陷相關的所有文檔，形成原始數據源的集合。第2步：對原始數據源的集合進行分詞處理，建立特徵集，使用詞頻/逆文檔頻率（TermFrequency-InverseDocumentFrequency，TF/IDF）權值計算方法得到各個點的維度權值，判斷關鍵字的詞頻，例如“主變1號”運行記錄中多次出現，但在故障記錄中很少出現，那麼認爲“主變1號”有很好的類別區分能力。第3步：對分詞後的文檔建立索引，彙總所有文檔的索引形成索引庫，並對索引庫排序。第4步：文檔向量化；構建向量空間模型，將文檔表達爲一個矢量，看作向量空間中的一個點；實際分析過程中對多維數據首先將其降低維度，降低維度後得到一個三維空間模型，文檔向量化生成文檔特徵詞對應表、文檔相似度表。第5步：結合業務實際，對相似度較高的表中出現的關鍵字進行比對，例如：“主變1號”、“停電故障”等關鍵字在多個日誌中頻繁出現，則該文檔所記錄的相關設備存在異常的可能性較大。

3.3文本分析應用及成效

對生產信息管理系統中報缺單數據中的報缺單名稱進行文本聚類，實現對缺陷的細分，進而對各類別在非聚類變量上進行分析，得出各類別的缺陷特徵。經過近一年以來在國網遼寧電力公司的逐步應用，科學的分析挖掘出缺陷主要集中在開關、主變、指示燈、直流、冷卻器、調速器等設備，主要出現啓呂旭明（1981–），男，河北保定人，高級工程師，從事電力企業信息化、智能電網及信息安全研究與應用工作；雷振江（1976–），男，遼寧瀋陽人，高級工程師，從事電力信息化項目計劃、重點項目建設、信息技術研究與創新應用、信息化深化應用等相關工作；趙永彬（1975–），男，遼寧朝陽人，高級工程師，從事電力信息通信系統調度、運行、客服及信息安全等相關工作；由廣浩（1983–），男，遼寧遼陽人，工程師，從事信息網絡建設、信息安全等工作。作者簡介：動、漏水、停機、滲水等缺陷現象。公司故障處理快速響應、及時維修、提高供電質量和服務效率得到了顯著的提升。電力設備故障缺陷特徵示意如圖2所示。

4結語

國家電網文本挖掘的目的是從海量數據中抽取隱含的、未知的、有價值的文本數據，利用數據挖掘技術處理電力公司文本數據，將會給企業帶來巨大的商業價值。本文提出的關於檢修資金投入工作效能分析和家族缺陷識別分析2個文本挖掘實例只是文本挖掘在電力行業應用的一角。如今，數據挖掘技術與電力行業正處於快速發展階段，文本挖掘的應用將越來越廣泛。下一階段的研究目標是探尋有效辦法將數據挖掘技術融入到文本挖掘領域的實際應用中，使得國家電網文本挖掘項目得以順利實施，並達到預期成效。

參考文獻：

[1]費爾德曼.文本挖掘(英文版)[M].北京:人民郵電出版社,2009.

[2]孫濤.面向半結構化的數據模型和數據挖掘方法研究[D].吉林:吉林大學,2010.

[3]胡健,楊炳儒,宋澤鋒,等.基於非結構化數據挖掘結構模型的Web文本聚類算法[J].北京科技大學學報,2008,30(2):an,YANGBing-ru,SONGZe-feng,extclusteringalgorithmbasedonnonstructuraldataminingmodel[J]nalofUniversityofScienceandTechnologyBeijing,2008,30(2):217-220.

[4]周昭濤.文本聚類分析效果評價及文本表示研究[D].北京:中國科學院研究生院(計算技術研究所),2005.

[5]TANPN,STEINBACHM,KUMARV.數據挖掘導論(英文版)[M].北京:人民郵電出版社,2006.