時間:2023-07-11 09:20:52
緒論:在尋找寫作靈感嗎?愛發表網為您精選了8篇數據分析的方法,愿這些內容能夠啟迪您的思維,激發您的創作熱情,歡迎您的閱讀與分享!
關鍵詞:函數性數據;修勻;函數性主成份分析;資產收益率
中圖分類號:F276.1
文獻標識碼:A
文章編號:1002―2848―2007(01)-0108―06
一、前 言
在經濟數據的傳統定量分析中,所分析的數據對象具有這樣的特征,即數據要么是時間序列數據,要么是橫截面數據。而實際中獲得的許多經濟數據,往往是在時間序列上取多個截面,再在這些截面上同時選取樣本觀測值所構成的樣本數據。計量經濟學中稱這樣的數據為“平行數據”(Panel Da―ta),也被翻譯成“面板數據”,或“縱向數據”(longitudinal data)。20多年來,許多學者研究分析了面板數據。事實上,關于面板數據的研究是計量經濟學理論方法的重要發展之一,它在解決數據樣本容量不足、估計難以度量的因素對經濟指標的影響,以及區分經濟變量的作用等方面,具有突出優點。但是,研究面板數據的計量模型,以線性結構描述變量之間的因果關系,且模型太過于依賴諸多的假設條件,使得方法的應用具有一定的局限性。為了彌補面板數據的計量模型分析方法及其它統計分析方法的缺陷,本文基于經濟數據的函數性特征,介紹一種從函數視角對經濟數據進行分析的全新方法一函數性數據分析(Functional Data Analysis,FDA)。
函數性數據分析的概念,始見于加拿大統計學家J.O.Ramsay和C.J.Dalzell于1991年發表的論文《函數性數據分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)將對函數性數據進行統計分析的已有理論和方法,總結在《函數性數據分析》一書中。但這本書偏重方法的理論介紹和數學推導,不利于統計基礎薄弱者使用。經過5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函數性數據案例,并將其具體的分析過程編入他們于2002年出版的專著中。雖然國外在這方面已經做了許多研究,也取得了許多有價值的結果,但是有關函數性數據的研究依然處于起步階段,還有很多問題需要研究或進一步完善。另外,從方法應用的具體領域來看,很少涉及對經濟函數性數據的分析。就目前研究文獻來看,我國在此方面的研究尚是一片空白。
為填補我國在這方面研究的空白,本文從思想、方法等方面,對函數性數據分析進行系統介紹,并通過編寫計算機程序,率先利用該方法分析實際的經濟函數性數據。本文共分六部分,以下內容的安排為:數據的函數性特征及經濟函數性數據實例、從數據的函數性視角研究數據的意義、函數性數據分析的目標和步驟、函數性數據分析方法的經濟應用,最后一部分是本文的結論。
二、數據的函數性特征及經濟函數性數據實例
一般地說,多元數據分析(Multivariate Data A-nalysis,MDA)處理的對象,是刻畫所研究問題的多個統計指標(變量)在多次觀察中呈現出的數據,樣本數據具有離散且有限的特征。但是,現代的數據收集技術所收集的信息,不但包括傳統統計方法所處理的數據,還包括具有函數形式的過程所產生的數據,例如,數據自動收集系統等,稱具有這種特征的數據為函數性數據。
函數性數據的表現形式多種多樣,但就其本質來說,它們由函數構成。這些函數的幾何圖形可能是光滑的曲線(如人體在成年前的身體高度變化等),也可能是不光滑的曲線(如股票綜合指數等)。許多研究領域的樣本資料往往表現為函數形式,如考古學家挖掘的骨塊的形狀、按時間記錄的經濟數據、手寫時筆尖的運動軌跡、溫度的變化等。函數性數據分析(Functional Data Analysis,FDA)的基本原理是把觀測到的數據函數看作一個整體,而不僅僅是一串數字。函數指的是數據的內在結構,而不是它們直觀的外在表現形式。
實際中,之所以要從函數的視角對數據進行分析,是因為:(1)實際中,獲得數據的方式和技術日新月異、多種多樣,例如,越來越多的研究者可以通過數據的自動收集系統獲得大量的數據信息。更重要的是,原本用于工程技術分析的修勻(smoothing)和插值(interpolation)技術,可以由有限組的觀測數據產生出相應的函數表示。(2)盡管只有有限次的觀測數據可供利用,但有一些建模問題,將其納入到函數版本下進行考慮,會使分析更加全面、深刻。(3)在有些情況下,如果想利用有限組的數據估計函數或其導數,則分析從本質上來看就具有函數性的特征。(4)將平滑性引入到一個函數過程所產生的多元數據的處理中,對分析具有重要的意義。
在經濟分析中,融合時間序列和橫截面兩者的數據很常見,例如,多個國家、地區、行業或企業的多年的年度經濟總量、多家商業銀行歷年的資本結構、能源(如電力、煤炭、石油等)多年按月的消耗量、不同時間上多個省市的失業數據等。這些經濟數據往往呈現函數性特征,即每個個體對應著一個函數或曲線。在對經濟函數性數據進行分析時,將觀測到的數據(函數)看作一個整體,而不是個體觀測值的順序排列,這是函數性數據分析不同于傳統統計分析之根本所在。例如,表1是工商銀行、農業銀行、中國銀行、建設銀行1995年到2004年期間的資產收益率(ROA)數據。
利用基于MATLAB編寫的程序,對數據進行平滑處理(smoothing),并繪出四家國有銀行的資產收益率(ROA)的修勻曲線(見圖1)。由曲線圖可以看出,每個個體(銀行)對應著一條曲線(其數學表達式為函數),這是將多家銀行的歷年ROA數據記錄看作函數的根本理由,也是函數性數據分析的出發點。
三、從數據的函數性視角研究數據的意義
從函數的視角,對具有函數特征的經濟數據進行研究,會挖掘出更多的信息。例如,對函數性數據的平滑曲線展示,不但能夠診斷出擬合數據的可能數學模型,還能夠通過對光滑曲線求一階、或更高階的導數,來進一步探索數據的個體(橫截面)差異和動態變化規律。
圖2是四家銀行資產收益率的速度(一階導數)曲線,觀察發現:在1995年至2004年期間,農業
銀行、中國銀行及建設銀行的資產收益率的變化率,呈現出較強的周期性,其中尤以建設銀行的表現最為突出。加速度曲線圖顯示,四家銀行資產收益率的變化率的波動狀況不相同,轉折變化的時間差異也較大。這些情況一定程度表明,各家銀行的內部管理與經營機制,對市場信息的反應快慢程度各不相同。
四、函數性數據分析的目標和步驟
函數性數據分析的目標與傳統統計學分析的目標基本一樣,具體情況如下:
(一)以對進一步分析有利的方法來描述數據;
(二)為突出不同特征而對數據進行展示;
(三)研究數據類型的重要來源和數據之間的變化;
(四)利用輸入(自變量信息)來解釋輸出(因變量)的變化情況;
(五)對兩組或更多的某種類型的變量數據進行比較分析。
典型的FDA主要包括以下步驟:
第一步,原始數據的收集、整理和組織。假設我們考慮的自變量是一維的,記為t,一個的函數僅在離散抽樣值 處被觀測,而且這些ti可能等間隔分布,也可能不是。在函數性數據分析中,將這些離散的觀測值看作一個整體。
第二步,將離散數據轉換為函數形式。這是利用各次觀察的原始數據定義出一個函數x(t),它在某一區間上所有t處的值都被估算了出來。解決這個問題的基本方法是選定一組基函數 (t),k=O,…,K,并用基函數的線性組合給出函數x(t)的估計
第三步,多種形式的初步展示與概括統計量。概括統計量包括均值和方差函數、協方差與相關函數、交叉協方差(cross―covafiance)與交叉相關(cross―correlation)函數等。
第四步,為了使每一條曲線的顯著特征都在大體相同的自變量處(如月份、年份等)顯現出來,可能需要對函數進行排齊(regigtration),其目的是能夠區別對待垂直方向的振幅變化與水平方向的相變化。
第五步,對排齊后的函數數據進行探索性分析,如函數性主成份分析(FPCA)、函數性典型相關份析(FCCA)等。
第六步,建立模型。建立的模型可能是函數性線性模型,也可能是微分方程。
第七步,模型估計。
五、函數性數據分析方法的經濟應用
為了說明函數性數據分析方法的具體應用,同時出于使所繪圖形簡單明了,本文再次利用四家國有銀行的數據,對資產收益率進行更深入的分析。雖然此實例中個體數少,但并不妨礙對方法應用的系統描述與理解。
在對實際問題的經濟數據進行分析時,通常需要依照研究的目標編寫計算機程序。就目前的研究現狀來看,基于MATLAB或SPLUS等編寫的程序,如繪圖或綜合計算函數等,完全可以滿足分析的需要。本文首先基于MATLAB編寫程序,然后對四家國有銀行的資產收益率數據進行分析。
關于四家銀行資產收益率數據的函數(曲線)展示與初步分析,本文在前面已進行了描述,具體結果見圖1和圖2。概括資產收益率特征的統計量(均值函數和標準差函數)的曲線見圖3。
為了進一步探討典型函數所呈現的特征,本文利用函數性主成份分析,對四家銀行的資產收益率數據進行分析。一般來說,在函數性數據分析中,與多元統計中的某個主成份的權向量相對應的是主成份權函數(principal component weight function),記為 ,其中t在一個區間 中變化。第i個樣品(個體) 的主成份得分值為 ,第一主成份就是在 的約束條件下,尋求使主成份得分 的方差達到最大的權函數 ,即它是下面數學模型的最優解: 類似地,可以求得第j個主成份,其權函數毛(t)是下面數學模型的解:
為了得到光滑的主成份,一種方法是對由上述方法求出的主成份進行修勻,另一種方法是將修勻處理過程,融入到主成份的求解過程中。具體作法是將描述主成份曲線波動程度的粗糙因子納入到約柬條件中,形成帶懲罰的約束條件。利用粗糙懲罰法求第j個主成份的數學模型是其中 稱為修勻參數,用它可對粗糙懲罰項進行調整。
利用上述方法和基于MATLAB編寫的程序,對四家銀行進行函數性主成份分析(FPCA)。具體結果見圖4。第一個主成份(PCI)的解釋能力為85.5%,第二個主成份(Pc2)的解釋能力為13.1%,前兩個主成份的綜合解釋能力為98.6%。
為了清晰地顯示主成份,并進行有意義的解釋,在同一圖中繪出三條曲線,一條是整體均值曲線,另兩條是對均值曲線分別加上和減去主成份的一個適當倍數而形成的曲線,具體結果見圖5(本文所選的倍數是0.12)。以上所述的三條曲線分別對應著圖5中的實心曲線、‘+’曲線和‘*’曲線。第一個主成份反映了資產收益率(ROA)的一般變化,尤其反映了資產收益率的“兩頭”變化情況(1999年以前和2003年以后)。第二個主成份反映了資產收益率(ROA)的中段變化。
六、結論
在經濟實踐中,越來越多的領域所得到的樣本觀察資料是曲線或圖像,即函數性數據。因此,對這種類型的經濟數據進行統計分析和描述,具有重要的現實意義。因篇幅所限,還有一些函數性數據的分析方法未予以介紹,如函數性方差分析、函數線性模型、函數性典型相關分析以及描述動態性的微分方程等。由于本文的主要目的,是通過對函數性數據分析方法和具體應用的介紹,傳述對數據進行分析的新思想,而不只是方法技術本身。因此,缺少的方法并不影響對思想的闡述。
另外,本文對四家銀行資產收益率的分析,例證了函數性數據的分析方法,具有傳統統計分析方法不可比擬的優越性,具體表現在:(1)通過對函數性數據的修勻,將一階或多階導數,如速度和加速度,引入到分析過程中。這一點在計量經濟學和多元統計的分析方法中未予以考慮。(2)函數性數據分析,用最少的假設來研究曲線間和曲線內部的結構變化。關于這一點它優于計量經濟學中處理“面板數據”的方法。事實上,面板數據只是函數性數據的一種類型,本文介紹的數據分析方法可用來處理許多領域的函數性數據,應用范圍相對寬廣,而且觀測時點也可以不等間隔選取。(3)將數據曲線的振幅變化與相位變化分開處理,是函數性數據分析的一個中心理念,但在以前的分析中卻被忽視了。
關鍵詞:粗糙集理論;數據分析方法;信息系統;決策表;屬性約簡
中圖分類號:TP18 文獻標識碼:A文章編號:1009-3044(2007)06-11651-01
1 引言
粗糙集(Rough Set)理論[1]是波蘭數學家Z.Pawlak于1982年提出的,它建立在完善的數學基礎之上,是一種新的處理含糊性和不確定性問題的數學工具。其主要思想是在保持分類能力不變的前提下,通過知識約簡,導出問題的決策或分類規則[2]。由于粗糙集理論不需要任何預備或額外的有關數據信息,使得粗糙集理論成為研究熱點之一,被廣泛應用與知識發現、機器學習、決策分析、模式識別、專家系統和數據挖掘等領域。
屬性約簡是粗糙集理論中核心研究內容之一[3]。在眾多的屬性約簡算法中,大致可以分為兩類:一類是基于信息熵的啟發式算法[4],這類算法往往不能得到系統的所有約簡.另一類是基于區分矩陣和區分函數構造的算法[5],這種算法直觀,易于理解,能夠計算出所有約簡。但在區分矩陣中會出現大量的重復元素,造成時間和空間的浪費,從而降低了屬性約簡算法的效率。
本文基于數據分析方法[6]的屬性簡約算法是在保持分類能力不變的前提下,逐個約去冗余的屬性,直到不再有冗余的屬性,此時得到的屬性集是最小屬性集,即為約簡。該算法簡單,能夠求出所有約簡,不會出現區分矩陣中大
量的重復元素,從而提高了屬性約簡的效率。
2 粗糙集概念
定義2.1設U為所討論對象的非空有限集合,稱為論域;R為建立在U上的一個等價關系族,稱二元有序組S=(U,R)為近似空間。
定義2.2令R為等價關系族,設P?哿R,且P≠?I,則P中所有等價關系的交集稱為P上的不可分辨關系,記作IND(P),即有:[x] IND(P)= ∩ [x]R,顯然IND(P)也是等價關系。
定義2.3稱4元有序組K=(U,A,V,f)為信息系統,其中U為所考慮對象的非空有限集合,稱為論域;A為屬性的非空有限集合;V=∪Va,Va為屬性a的值域;f:U×AV是一個信息函數,?坌x∈U,a∈A,f(x,a)∈Va。對于給定對象x,f(x,a)賦予對象x在屬性a下的屬性值。信息系統也可簡記為K=(U,A)。若A=C∪D且C∩D=?I,則S稱,為決策表,其中C為條件屬性集,D為決策屬性集。
顯然,信息系統中的屬性與近似空間中的等價關系相對應。
定義2.4設K=(U,A,V,f)為信息系統,P?哿A且P≠?I,定義由屬性子集P導出的二元關系如下:
IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}
則IND(P)也是等價關系,稱其為由屬性集P導出的不可分辨關系。
定義2.5稱決策表是一致的當且僅當D依賴于C,即IND(C)?哿IND(D),否則決策表是不一致的。一致決策表說明:在不同個體的條件屬性值相同時,他們的決策屬性值也相同。
定義2.6設K=(U,A)為一個信息系統。若P?哿A是滿足IND(P)=IND(A)的極小屬性子集,則稱P為A的一個約簡,或稱為信息系統的一個約簡。
定義2.7設K=(U,CUD)為一個決策表,其中C為條件屬性集,D為決策屬性,若P?哿C為滿足POSC(D)=POSP(D)的極小屬性子集,則稱P為決策表K的一個約簡。其中POSC(D)表示決策D關于屬性集C的正域。
定義2.8數據分析方法對于信息系統K=(U,A),逐個移去A中的屬性,每移去一個屬性即刻檢查新得到的屬性子集的不可分辨關系,如果等于IND(A),則該屬性可被約去,否則該屬性不可被約去;對于決策表K=(U,CUD),逐個移去C中的屬性,每移去一個屬性即刻檢其決策表,如果不出現新的不一致,則該屬性可被約去,否則該屬性不可被約去。
3 基于數據分析方法的屬性簡約算法
3.1 算法思路
利用函數的遞歸調用,逐個判定信息系K=(U,A)中屬性a(a∈A),若IND(A)=ND(A-{a}),則a可以約去,A‘=A-{a},否則a不可以約去,繼續檢查A‘中的每個屬性是否能被約去,此過程一直進行下去,直到出現某一屬性子集中的每個屬性都不可約去為止,此時該屬性子集即為所求的屬性簡約。對于決策表,每次檢查是否增加了不一致的決策規則,作為是否約去屬性的依據。
算法如下:
輸入:信息系統K=(U,A)。
輸出:K的屬性約簡。
Match(A') // A’=A-{a}//
begin
for i=1to|U|-1 //|U|表示U的基數//
for j=i+1to|U|
begin
r=|R|//|R|表示屬性個數//
if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))
then a不可被約去,return0
end
a可以被約去return1
end
Reduce (A)
begin
flag=1
for i=1 to |R|//|R|表示屬性個數//
begin
a=ai
A'=A-{ai}
if match(A')thenflag =0 , reduce (A’)
if (flag且A未被輸出)then
輸出A中所有元素//flag≠0,說明A中所有元素不可移去,且不會被重復輸出//
End
end
以上給出的函數是求解信息系統的屬性約簡算法;對于決策表,只要將Match(A’)函數中的if語句的條件換成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是條件屬性個數,ag是決策屬性。Reduce (A)函數中|R|換成|C|即可。該算法適用于一致決策表,對非一致決策表,算法類似,也就是逐個移去屬性并檢查決策表是否出現新的不一致,作為約去此屬性的依據。
4 舉例
文獻[7]中決策表1,a,b,c,d,e是條件屬性,g是決策屬性,求出的約簡是{a,b,d}
應用本算法,求得的屬性約簡為{a,e}和{a,b,d},得到決策簡化表2和表3。
表1 決策表表2簡化表表3簡化表
如果將決策表表1看作一信息系統,運用本算法,求得的屬性約簡有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}
5 結束語
本文通過數據分析方法討論了屬性約簡問題。該算法是基于不可分辨關系的,具有直觀、易于理解和完備性的特點。當屬性和對象都較少時,效率較高,但當屬性和對象較多時,計算的復雜度較高。實例表明,該算法是有效的。
參考文獻:
[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.
[2]張文修,吳偉志,梁吉業等.粗糙集理論與方法[M].北京:科學出版社,2001.
[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459
[4]王國胤,于洪,楊大春.基于條件信息熵的決策表約簡[J].計算機學報,2002(7):760―765.
[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.
[6]劉請.Rough集及Rough推理[M].北京:科學出版社,2001.
環境監測數據可以反映出某一區域內的環境質量狀況、污染物的排放情況以及環境受污染的程度。各項數據的不斷匯總并分析為各級環保主管部門以及相關機構做決策提供了技術依據。因此,采用健全的質量保證體系以及方法來保證數據的分析質量很有必要。首先,我們先來了解監測數據分析的方法。
(一)統計規律分析
就是采用數理統計方法、模糊數學方法以及適用于小同環境要素的數學和物理方程等方法,對所得的監測數據進行深度剖析,做出詳細的分析評價。這種數據分析方法主要適用于環境調查、環境規劃和環評等工作。
(二)合理性分析
實際的環境監測中,影響環境要素變化的因素錯綜復雜,而有效的能用于綜合分析的監測數據十分有限,所以我們需要考慮到各種環境要素之間的相互影響,以及監測項目之間的關系,理論結合實際全面分析數據的合理性,這樣才可能得到準確可靠的、合理的監測數據分析結果。
二、提高環境監測數據分析質量的方法
為了促進環境執法工作的嚴肅和公正,在科學化環境管理政策中,提高環境數據分析質量很有必要。在前人的研究工作基礎之上,我們提出了以下幾種方法來提高數據分析質量。
(一)加強審核
加強各項審核是提高環境監測數據分析質量的重要方法,它主要是指加強對現有數據的綜合審核。在進行例行監測或是年度監測計劃時,我們的工作一般都是連續性的展開的,一年或是好幾年,因此,我們可以建立一個動態的分析數據庫,錄入每次的監測數據,包括每個污染源的詳細信息(污染點的地理位置和排放口的排污狀況等),在以后的審核中,我們可以迅速地在數據審核中對于同一采樣點、同一分析項目進行新舊數據的分析對比。當數據分析結果出現異常時,可以及時的發現并找到原因,這可以對污染應急事故的發生起到提前警示的作用。另外,在數據審核中,也要密切注意到同一水樣、不同的分析項目之間的相關性,比如:同一水體中氟化物和總硬度、色度和pH的關系、氨氮和總氮之間的相關性等,這樣也能及時發現數據分析中出現的誤差。
(二)加強監督機制
通過調研我們發現,目前在傳統的監測數據質量控制系統中依舊存在許多不足,我們可以通過引入反饋和交流機制,加強監督機制來有效提高數據分析的質量。首先,通過強化平面控制,在系統內部全面優化管理的模式,提高工作人員的分析技術水平,盡可能的減少或消除數據誤差,以此來提高監測分析的準確性;其次,我們應該主動接受來自外界的監督,對于外界有異議的監測數據要進行反復的檢測;再次,我們也應該多舉辦技術交流會,讓技術人員可以與各級環境監測部門的人員溝通,學習他們的先進技術和方法,同時進行數據分析結果對比,找到自身的不足,發現問題并能及時更正。
(三)加強采樣及實驗室測量質量的控制
1.采樣控制
工作人員在每次采樣前,都應該根據實際環境情況來制定采樣技術細則,做好采樣控制,比如:需要校準儀器并確保儀器可以正常運轉;使用的采樣管和濾膜要正確安裝,采樣器干凈整潔沒有受到污染源的污染,其放置的位置也能滿足采樣要求等。采集好的樣品,要妥善存放避免污染。如果樣品不能及時進行檢測,考慮到樣品的穩定性,最好將樣品密封并存放在于冰箱中。
2.實驗室測量控制
在實驗室進行樣品測試之前,首先應該對所要用到的玻璃量器及分析測試儀器進行校驗。日常工作中,也應該根據各種儀器保養規定,對儀器定期進行維護和校驗,確保儀器可以正常運轉工作。其次,需要準確調配各種溶液,特別是標準溶液,配置時要使用合格的實驗用蒸餾水。測試數據時,先要測定標準樣品并繪制標準曲線。測定樣品時要檢查相關系數和計算回歸方程,并對實驗系統誤差進行測驗,每一步都不能少。
三、結束語
當剛涉足數據挖掘分析領域的分析師被問及,數據挖掘分析人員最重要的能力是什么時,他們給出了五花八門的答案。
其實我想告訴他們的是,數據挖掘分析領域最重要的能力是:能夠將數據轉化為非專業人士也能夠清楚理解的有意義的見解。
使用一些工具來幫助大家更好的理解數據分析在挖掘數據價值方面的重要性,是十分有必要的。其中的一個工具,叫做四維分析法。
簡單地來說,分析可被劃分為4種關鍵方法。
下面會詳細介紹這四種方法。
1.描述型分析:發生了什么?
這是最常見的分析方法。在業務中,這種方法向數據分析師提供了重要指標和業務的衡量方法。
例如,每月的營收和損失賬單。數據分析師可以通過這些賬單,獲取大量的客戶數據。了解客戶的地理信息,就是“描述型分析”方法之一。利用可視化工具,能夠有效的增強描述型分析所提供的信息。
2.診斷型分析:為什么會發生?
描述性數據分析的下一步就是診斷型數據分析。通過評估描述型數據,診斷分析工具能夠讓數據分析師深入地分析數據,鉆取到數據的核心。
良好設計的BI dashboard能夠整合:按照時間序列進行數據讀入、特征過濾和鉆取數據等功能,以便更好的分析數據。
3.預測型分析:可能發生什么?
預測型分析主要用于進行預測。事件未來發生的可能性、預測一個可量化的值,或者是預估事情發生的時間點,這些都可以通過預測模型來完成。
預測模型通常會使用各種可變數據來實現預測。數據成員的多樣化與預測結果密切相關。
在充滿不確定性的環境下,預測能夠幫助做出更好的決定。預測模型也是很多領域正在使用的重要方法。
4.指令型分析:需要做什么?
數據價值和復雜度分析的下一步就是指令型分析。指令模型基于對“發生了什么”、“為什么會發生”和“可能發生什么”的分析,來幫助用戶決定應該采取什么措施。通常情況下,指令型分析不是單獨使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。
例如,交通規劃分析考量了每條路線的距離、每條線路的行駛速度、以及目前的交通管制等方面因素,來幫助選擇最好的回家路線。
關鍵詞 自組織映射 組織特異性基因 管家基因 基因表達譜
一、SOM算法介紹
由Kohonen提出的自組織映射(SOM)的神經網絡是神經網絡中適合用于對數據進行分類的有效方法。SOM神經網絡包含一個輸入層和一個輸出層,組織成一個二維的網格結構(圖1.1)。該網絡能夠從任意一個隨機選擇輸入的結點開始最終形成一個拓撲結構的映射,這個映射反映了輸入模式的內在的關系。但是運用SOM有一些參數的限制,首先需要指定類別數目,對映射空間結點進行權值的初始化等。如(圖1.1)所示,SOM網絡是一個的映射,如果這個神經元被安排在一個平面網格上面的話,這個神經網絡就稱為二維神經網絡,因為這個網絡將一個高維的輸入向量映射到一個二維的平面上面。給定一個網絡,輸入向量是一個維的向量,相應的第個突觸向量的第個元素與輸入向量的第個元素相連,這樣,一個維的突觸向量就和第個神經元實行連接。
圖1.1 SOM網絡的基本結構
SOM算法描述如下:
(1)令網絡學習次數,賦予初始化權值向量一個小的隨機向量值,對拓撲鄰域()、學習率()進行初始化,設置網絡總的學習次數()。
(2)當學習次數()小于總的學習次數()時,重復步驟3至步驟6。
(3)隨機選一個輸入向量進入網絡進行訓練。
(4)確定獲勝神經元,相應的權值向量為與輸入向量距離最短的向量,成為獲勝神經元,輸入向量與獲勝神經元的最短距離為,定義如下:
(1.1)
(5)按照下式更新獲勝神經元及其鄰域內神經元權值向量:
(1.2)
與函數定義如下:(1.3)
(6)令,如果,回到第(3)步繼續訓練,否則結束訓練。
二、數值模擬計算
本文以HUGEindex數據庫中人7000多條基因在19個正常組織中的表達情況這19個組織中表達的基因為樣本對其進行分析。不同組織下的全基因表達數據構成了一個7070x59的數據矩陣,其中每一個元素表示第個基因在第個組織中的表達水平值,行向量代表基因在19個人組織中的表達水平,成為基因的表達譜,列向量代表某一組織的各基因的表達水平。
(1.4)
本文運用SOM方法對人基因19個組織的59個樣本進行聚類,SOM網絡的拓撲結構見(圖1.2)及參數選擇見表(表1.1)。
圖1.2 樣本聚類SOM網絡結構圖
上圖中,根據Genechip得到的人體19個組織的59個微陣列數據所得到的信息,我們采用4x5的二維拓撲結構的SOM網絡對人體組織樣本進行分類(其中第(4,5)個結點為空),圖中每個結點的位置(結點位置用與輸入模式維數相同的向權值向量表示,初始權值由系統自動產生)為各個結點權值尺度化之后所得到的位置。
三、結論
通過分類可以將芯片實驗的59個樣本按照人體組織類別分為19個類別,并且與采用層次聚類法所得結果進行比較,可以看出自組織映射的聚類方法與層次聚類方法比較,可以看出采用SOM網絡聚類方法比層次聚類得到的結果更為明確,其分類正確率達到了92.2%,證明了SOM方法是有效的。
參考文獻:
[1]孫嘯,陸祖宏,謝建明.生物信息學基礎[M].北京:清華大學出版社,2005:282-285.
[2]許東,吳錚.基于matlab6.x的神經網絡系統分析與設計[M].西安電了科技大學出版社,2002.
[3]閻凡平,張長水.人工神經網絡與模擬進化計算[M].北京:清華大學出版社,2005.:11-34,360-395.
作者簡介:
人們通常把分析學等同于儀表盤報告,但這太死板了,只能粗略地反映你的游戲表現。
這就是為什么行業越來越傾向于使用特定的玩家反饋和可執行的分析結果來指導游戲設計調整。
了解真實的玩家觀點并不容易。對發行商和開發者而言,玩家、平臺和設備類型多樣化導致分析學的數據追蹤成了一大挑戰。
那就是為什么我們最近發表了《Analytics Driven Game Design》白皮書,旨在使這個過程更加簡單和有效。
以下是一些重要的設計和執行建議:
1、提前收集數據
人們往往不會把執行分析學的數據標注當作優先任務。
這是錯誤的,因為數據收集一般要貫穿整個開發過程,需要的時間是執行的三到五倍。
2、盡早收集事件數據
當事件及其參數定義好時,開發者就可以確定什么時候需要什么數據了。
一開始就把這樣的數據結構結合到代碼中,可以保證當代碼需要這些數據時就能有現成的數據。
如果把事件收集放在開發過程的末尾,通常只能收集到60%有價值的數據,這說明沒有充分利用分析學。
3、統一視角
復雜的游戲通常涉及多個系統。例如,登錄系統可能不同于支付系統,這意味著數據來源通常有兩個:服務器和游戲客戶端。
因此,有必統一視角,即使戶ID與登錄活動保持一致。
這樣,分析時就可以忽略數據來源,把所有信息放在一起。
4、同步時間標記
類似地,因為事件數據來自多個來源、時區和應用商店,有必要使用同步時間標記,以確保觀察玩家行為的視角能夠保持一致。
發送客戶端數據時通常使用本地時間標記,而服務器數據記錄的通常是保存數據的時間。
如果兩個時間標記不一樣,就會很難知道真正的事件順序,從而不利于建立玩家行為檔案。
5、創建單一登錄ID
將這個獨特的ID與一次登錄中發生的所有事件聯系在一起,對高效分析特別重要。
如果事件發生后才關聯數據,必然會導致誤差和錯誤。
考慮到大量初次玩家留存分析學專注于第一次游戲,統一而準確地定義你的登錄活動是很重要的。
6、總是記錄結果
事件的目標應該是記錄結果而不是變化。
換句話說,記錄任務的結果比記錄任務中的各種變化更好。例如,記錄當玩家完成任務時獲得了什么,即得到多少經驗點或殺敵數,比記錄每一次射擊更實用。
7、數據完整性vs.數據優先級
關鍵詞:大數據 大數據分析方法 情報研究 適用性
中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2014)05-0013-07
Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies
Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.
Key words big data; big data analytics; intelligence studies; adaptability
大數據分析(Big Data Analytics,BDA)是以“深度的發現分析、引領行動”作為目標的工作[1-2],它包括由多個任務組成的高度重復執行的步驟[3-4]。BDA通常要集成多種分析技術與軟件工具,以便讓海量數據的處理及分析變得更加容易,從數據中提取有用信息并形成結論,用來驗證、指導及規范組織或個人的決策行動;BDA的執行過程一般包括問題需求及假設提出、數據獲取及記錄、信息抽取及清洗、數據整合及表示、選擇建模及分析方法、結果詮釋、評測結果有效性及監控等幾個階段。從以上BDA的定義及過程來看,BDA與情報學領域中的情報研究(也稱情報分析)在本質上是一致的,兩者至少在方法與技術(以下簡稱方法)上可以相互借鑒或補充。本文基于情報學的視角,關注哪些BDA方法可以為情報研究提供借鑒,并解決情報研究的相關問題。因此,本文首先概略總結BDA的方法體系,然后探討BDA方法在情報研究中的適用性。
1 大數據分析的方法分類
到目前為止,尚沒有公認的BDA方法的分類體系,甚至對BDA包括哪些方法,也有不同的認識。本文首先綜述現有的相關研究,并以此為基礎提出我們的分類體系。
1.1 相關研究
不同學者對BDA方法的看法各有差異,概括起來,主要有三種分類體系,分別是面向數據視角的分類、面向流程視角的分類以及面向信息技術視角的分類。
(1)面向數據視角的BDA方法分類。這類研究主要是以BDA處理的對象“數據”作為分類依據,從數據的類型、數據量、數據能夠解決的問題、處理數據的方式等角度對BDA方法進行分類。
Power[5]依據分析需求將數值型數據的分析方法劃分為三類:①若是模式理解及對未來做出推論,可采取歷史數據及定量工具進行“回顧性數據分析”;②若要進行前瞻及預測分析,可采取歷史數據及仿真模型進行“預測性數據分析”;③若要觸發事件,可采取實時數據及定量工具進行“規范性數據分析”。美國國家研究委員會在2013年公布的《海量數據分析前沿》研究報告中提出了七種基本統計數據分析方法[6],包括:①基本統計(如一般統計及多維數分析等);②N體問題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數計算(Linear Algebraic Computations);⑤優化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數據匹配(如隱馬爾可夫模型等)。
針對非純粹的數值型數據,Li、Han[7]梳理了面向“時空數據”(Spatiotemporal Data)的BDA方法,通過對動態數據挖掘出主體的預測性,如運用物理工程領域的傅立葉變換(Fourier Transform)及自相關匹配(Autocorrelation)偵查某一時間區段的信號、發生的事件或生物基因中的周期性節律,也可運用時間序列方法預測地點位置的變化;魏順平[8]以教育領域為例,梳理了面向學生與學習環境的“學習分析方法”(Learning Analytics),此方法集成了內容分析、話語分析、社會網絡分析、統計分析、數據挖掘等多種方法,從中挖掘學習的各種語義關系,并回答“誰在學、學什么、怎么學、學的結果如何”等問題,為教學與優化學習提供參考。
Mohanty等人[3]從數據獲取(Data Ingestion)角度,依照處理的數據量從小至大的順序,區分出八種分析方法:①流分析(Streaming Analytics),以預定模式及時處理數據流;②高速的數據采集(High Velocity Data Ingestion),不轉換任何格式,可稍晚處理; ③鏈結分析(Linkage Analysis),構建不同數據源的關系與鏈接;④罕見事件偵查(Rare-Event Detection),從龐大數據集中尋找特定模式;⑤數據聚合(Data Mash-Ups),需要對數據屬性發展故事線或鏈接關系進行分析;⑥文本分析(Text Analytics),如觀點挖掘或社會網絡分析等;⑦時間序列分析(Time-Series Analysis),通過模式偵測及事件發生概率來處理時空數據;⑧數據辯論(Data Forensic),用于數據科學家探索大規模數據集。
Chen等人[9]認為,在商業智能分析發展的過程中,商業智能分析經歷了從處理結構化程度較高的數據、到處理網絡上半結構化數據、再到處理移動數據的發展,涵蓋了五類核心的分析方法:①數據分析,涉及數據倉儲、ETL、聯機分析及數據挖掘等分析技術,可應用在時間序列挖掘、網站挖掘、空間數據挖掘等;②文本分析,涉及信息檢索、查詢處理、相關反饋等分析技術,可應用在QA系統、觀點挖掘、多語義分析、可視化分析等;③網站分析,涉及信息檢索、網絡爬蟲、日志分析等分析技術,可應用在云計算、社會網絡分析、網站可視化等;④網絡分析,涉及信息計量、引用網絡、數學網絡模式等分析技術,可應用在鏈結分析、社區發現、社會影響力及擴散模式等;⑤移動分析,可應用在移動通訊服務、個性化分析、游戲營銷分析等。
(2)面向流程視角的BDA方法分類。這類研究主要是依據BDA的步驟和階段對BDA方法進行分類。
美國計算社區協會出版的《大數據的機會與挑戰》白皮書指出BDA是一個多階段任務循環執行過程[4],從整體看,其分析的過程包括了五個階段,每一個階段都包含該階段需要使用的方法:①數據獲取及記錄,從各種感知工具中獲取的數據通常與空間時空相關,需要及時分析技術處理數據并過濾無用數據;②信息抽取及清洗,從異構數據源抽取有用信息,并轉換為結構化的格式;③數據整合及表示,將數據結構與語義關系轉換為機器可讀取、自動解析的格式;④數據建模及分析,從數據中挖掘出潛在規律及知識,涉及可擴展的挖掘算法或知識發現等方法;⑤詮釋,為了讓用戶容易解讀分析結果,可視化分析技術變得十分重要。此外,嚴霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數據的關鍵技術,包括:遺傳算法、神經網絡、數據挖掘、回歸分析、分類、聚類、關聯規則、數據融合、機器學習、自然語言處理、情感分析、網絡分析、空間分析、時間序列分析等多種方法。
(3)面向信息技術視角的BDA方法分類。這類研究強調大數據技術本身涉及到的新型信息技術,將大數據處理架構、大數據計算模式、大數據系統等作為BDA方法分類的依據。
孟小峰、慈祥[11]著眼于大數據處理框架,梳理了數據抽取與集成、數據分析及數據解釋所使用的分析方法,在數據抽取與集成方面,可區分為基于物化(Materialization)或ETL的方法、基于聯邦數據庫或中間件的方法、基于數據流的方法以及基于搜索引擎的方法等四類;在數據分析方面,傳統的數據挖掘、機器學習或統計分析面臨數據規模、算法調整等困難,需進一步發展;在數據解釋方面,引入可視化技術或交互式的數據分析過程,有助于用戶理解分析結果。覃雄派等人[12]認為,非關系數據管理(如MapReduce)擴展了數據分析的多維視角,使數據分析的生態系統從“大量數據的移動”轉向“直接對數據進行分析”。
2012~2013年在印度召開了兩次BDA國際研討會[13-14],會上分別就BDA中的機器學習面臨數據規模與多維度問題、可擴展的機器學習算法(如隨機映射、隨機梯度下降等)、機器學習在MapReduce的應用、社交媒體數據挖掘(如話題檢測與跟蹤、地點推理、語義連接等)、高維數據降維分析(如主成分分析、因子分析、經典相關分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對分析(如特征提取、Iterative Methods)等進行了探討。2013年IEEE計算機協會在美國召開大數據國際研討會,BDA結合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。
1.2 BDA方法的分類――面向層次的BDA方法框架
上述三種視角的BDA分類各有特點,都有一定的道理。從面向數據的視角來看,BDA方法正從統計(Statistics)轉向挖掘(Mining),并提升到發現(Discovery)和預測(Prediction)。基于流程的BDA分類則更能反映BDA過程的集成性(Integration),也就是說,在完成一項分析任務時,需要綜合使用多種方法。從面向信息技術的BDA分類中可以看出,這種分類方式強調使用新技術對傳統數據處理方法進行改進和創新,同時更重視新型系統架構與分析方法的集成,例如,各種數據挖掘算法的MapReduce化,就是這方面的典型實例。
本文認為,如果綜合上述三種分類體系中體現的層次性,將可以更準確描述BDA方法。在此,本文提出一個面向層次的BDA分類框架,將BDA方法分為統計、挖掘、發現、預測及集成五個層次,并初步歸納出17種BDA相關方法(見表1)。
2 BDA方法在情報研究中的適用性探討
如前所述,BDA與情報研究在本質上有共同之處,BDA方法可為情報研究提供借鑒,因此,探討BDA方法對情報研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報研究的分析對象特征、方法的可移植性[15]等因素,對本文所列舉的17種面向層次的BDA方法在情報研究中的適用性進行分析。
2.1 可直接移植的方法
可直接移植方法是指這些方法的原理、流程、算法等可以直接應用于情報研究,用來對情報研究的數據源(如科技文獻、網絡資源等)進行處理,解決情報研究過程中的一個或幾個步驟中要解決的問題。在本文所列舉的17種面向層次的BDA方法中,數據挖掘、文本挖掘、知識發現、觀點挖掘、話題演化分析、多元統計分析、時間序列分析、海量數據的基本統計方法、高維數據降維分析方法、多源數據融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報研究中已經有多年的應用歷史。
(1)數據挖掘與文本挖掘。數據挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發現技術,文本挖掘屬于基于計算機語言學及統計方法的發現技術,用來揭示文本中的詞與句法特征;數據挖掘以數據庫中的大量結構化的數據挖掘為基礎,用來揭示數據中潛在的、可能的數據模式及關聯規律[16]。在情報學領域的實踐應用中,數據挖掘多應用在圖書館自動化技術與服務方面,例如,館藏采購決策、個性化服務、信息檢索、讀者管理、館藏布局等。文本挖掘在情報研究的價值在于彌補了情報學專門分析方法對科技文獻內在知識挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無法揭示論文的研究內容這個問題,提出引文內容分析,先建立基于規則的引文內容抽取來識別引用句,再通過基于C-value多詞術語識別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語義信息與文獻之間的語義關系。
(2)知識發現。情報研究中所說的知識發現,主要是指基于文獻的知識發現,例如,張樹良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎上,提出了“基于文獻的知識發現”,包括:基于相關文獻、基于非相關文獻及基于全文獻三種條件下的知識發現,完整揭示文獻的知識結構與演化情況。在網絡環境下,李楠、張學福[19]認為關聯數據的RDF數據模型、數據訪問機制、URIs及自描述數據等規范所形成的數據共享環境,為知識發現提供了新的研究潛力,包括知識發現的范圍被擴展成全球數據空間、高效率理解及處理數據間的語義關系等。簡言之,知識發現從不同數據源之間的復雜關系中獲得隱含的知識或規律,甚至可對未來進行預測。
(3)觀點挖掘與話題演化分析。觀點挖掘與話題演化分析兩種方法實際上是數據挖掘及文本挖掘的具體及深化應用。觀點挖掘主要有三種挖掘任務:情感分類、基于特征的觀點挖掘、比較語句和關系挖掘[20],例如,黃曉斌、趙超[21]通過對網絡輿情信息的文本挖掘,找出不同民眾對某一社會事件的情緒、態度及觀點,再通過關聯分析找出網絡輿情信息的各種關聯性。趙潔、溫潤[22]認為微博情感分析的關鍵是觀點句識別,并根據文本特征的差異性,提出了基于新詞擴充和特征選擇的觀點句識別方法,即先擴充情感詞典來提高分詞準確率,再結合微博特征進行句子選取。話題演化分析方法是近年文本挖掘的研究熱點,借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語,表示為某一話題的集合,再引入時間信息模擬該話題隨著時間推移所表現的受關注程度及關注點的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻中的話題(即主題詞),再計算話題的強度與內容演化,從而區分熱門與冷門話題及其歷年特征詞的演化趨勢。
(4)多元統計分析與時間序列分析。多元統計分析與時間序列分析兩種方法也是情報研究常見的定量分析方法[25],前者研究客觀事物中多個變量(或多個因素)之間相互依賴的統計規律,后者則是基于隨機過程理論和數理統計學方法,研究動態數據序列的規律性。這兩種分析方法的一個重要特點在于能基于歷史數據的變化,評價事物現狀或預測事物未來的發展。
(5)海量數據的基本統計分析方法。海量數據的七種基本統計分析方法適用于情報研究的原因是,專家們普遍認為,在現有硬件技術條件下要開發一個海量數據分析系統的難度過高,且高性能計算領域也面臨許多困難,因而轉向尋找共通的基礎性計算方法來幫助運算[6],同時這些統計方法也經常應用于數據挖掘或文本挖掘。對情報研究來說,處理的數據量不及高性能計算領域的海量數據,因此可以容易地應用這些基本統計分析方法。盡管如此,隨著情報研究處理的文本量增加,包括文獻計量或信息計量方法在內的定量分析方法,仍然要經常借鑒基礎性的計算方法,并進行公式改進。
(6)高維數據降維分析方法。高維數據降維分析方法反映了海量的數值型數據在數據縮減的重要性,常見的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關分析、獨立成分分析、投影尋蹤等[26]。高維數據經常存在大量的弱相關內容或噪音,通過線性(如主成分分析、典型相關分析等)或非線性(如投影尋蹤、核方法等)映射可以將數據樣本從高維空間映射到低維空間,從而提高機器學習的效率[27-28]。情報研究在處理文本語料時,廣泛使用基于向量空間模型來表示文本,形成的高維特征集會對文本分類或機器學習的效果產生很大影響,通過特征選擇(如特征頻率、互信息等)進行特征抽取(如PCA、LSI、NMF等),轉換成一個低維的特征集來提高訓練效果,是非常必要的[29]。
(7)多源數據融合方法。多源數據融合方法是解決大數據環境下異構數據整合而提出的方法,例如,為了解決不同研究階段產生的各類科學數據集成問題,白如江、冷伏海[30]認為解決關鍵在于中間件構建,例如,通過基于XML模型將異構數據源的元數據映射到全局視圖,解決了不同數據源的關系描述問題,并提供用戶可靈活訂制查詢規則;但基于XML模型只能提供語法層次的整合,為了提供數據在語義層次的整合,可通過基于語義模型對XML的對象進行分類,在對象模型的基礎上生成邏輯規則,揭示隱含在科學數據中的語義信息。此外,也可以通過基于物化或ETL方法、基于數據流方法或其他方法對異構數據源中的數據抽取出實體與關系,再進行數據集成或數據清洗[11]。多源數據融合方法是進入數據分析之前的重要任務,對情報研究來說,需要多種來源支持情報分析工作,包括同型異源信息、異質異構信息、多語種信息等,都需要通過異源信息字段的映射、拆分、濾重、加權等進行融合分析[31]。
2.2 調整后移植的方法
調整后移植的方法是指其在原本的領域已經成功應用,但由于該方法最早或成功應用的領域在任務需求、數據處理、分析過程有自身的特點,若移植到情報研究時,需要根據情報研究自身的特征進行調整。數據可用處理及分析方法、時空數據分析等兩種分析方法就屬于這類情況。
(1)數據可用處理及分析方法。大數據環境中容易產生許多劣質數據來降低數據可用性,為了提高數據可用性及數據質量,李建中及劉顯敏[32]梳理了數種數據可用性的相關方法,包括高質量數據獲取與整合、數據錯誤自動檢測與修復、弱可用數據處理與分析等,分別解決了大規模數據集預處理階段常見的一致性、精確性、完整性、時效性及實體同一性等問題。對情報研究來說,情報素材、產品形式及工作任務分解的質量控制是情報工作的核心[33],其中,情報素材的質量對后續的情報分析成敗存在著至關重要的作用,當數據或信息是錯誤或不完整時,提煉出來的情報勢必會存在缺陷或錯誤。過去對情報研究的質量控制取決于人,如果能引入數據可用處理及分析方法解決數據或信息源可能存在的不一致、不精確、遺漏、滯后或重復等問題,有助于提高情報分析素材的可用性與正確性。
(2)時空數據分析。時空數據分析是地球信息科學相關領域的研究熱點,其中最常使用“周期”(Periodic Behavior)分析,例如天氣預報、環境監控、地理信息系統、城市交通網絡管理等都是常見的應用實例[7]。現有研究的多數做法是采取基于時間序列的方法進行周期建模,但建模過程容易出現對象可能沒有周期、時間點分布不一定呈現周期性等問題,為了解決這些問題,王閱等人[34]提出基于ERP的周期檢測方法解決周期長度定義問題,孟志青等人[35]提出多粒度時間文本下的周期模式挖掘算法解決時態文本數據挖掘問題。對情報研究來說,時間是文本中一個重要的屬性,如文獻發表規律、輿情監控、科研人員的研究主題周期等。在原有數據基礎上增加時間維度進行長時段分析是多數研究的常見做法,但并沒有呈現出其中的周期性規律,特別是文本中的規律特征較難發現,如果能引入此類方法,將有助于找出情報演化的周期模式。
2.3 不適用的方法
考慮學科領域差異,本文認為 “翻譯生物信息學分析”及“學習分析方法”兩種專門研究方法不適合情報研究。
(1)翻譯生物信息學分析。翻譯生物信息學分析是生物信息學的專門分析方法,這種方法是依據特定目的整合多數據源及促進領域知識的有效利用,其結果可應用在生物醫學研究、產生支持醫療人員在治療點中的“可操作的決策”(Actionable Decision),同時能對人類與疾病的關聯關系提供更好的理解。生物信息學為了找出更多基因與疾病的關系,通過翻譯生物信息學分析,可以將分析方法與工具開發從系統層面橫跨到分子、個人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉向新基因或遺傳性狀組合與預測研究[36]。從分析方法的操作過程來說,考慮到數據源的特殊性(如DNA編碼數據、蛋白質結構等)、分析視角、工具構建及使用等因素,并不符合情報學的學科研究特色。
(2)學習分析方法。學習分析方法是搜集、分析及評測學習者及其學習語境的分析方法,目的在于理解與優化學習及其學習環境[8]。從UNESCO IITE機構在2012年11月出版的學習分析方法政策簡報可知,學習分析方法的數據分析功能是基于數據挖掘從而開展相關分析內容,包括行為分析、學習資源瀏覽分析、各種關聯分析與影響因素分析等。雖然數據挖掘是情報研究的常見方法,但學習分析方法的結果意義在于解釋學習者的學習語境,為教師或管理者提供決策支持,從而改善學習者的學習習慣及促進學習效果。由于這種方法有其特定的含義和應用環境,離開了學習語境,方法的內涵和外延可能就會產生變化,因此,難以移植到情報研究。
2.4 需要繼續關注的方法
基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務智能分析,是近年研究探討較多的方法,但目前尚未形成一個成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續發展中,本身也存在不斷的改進空間,它們與各種分析方法的集成缺乏公認的標準和規范,同樣地,對于關注圖像與事物之間關聯的圖模型分析與挖掘也尚沒有發展出固定的技術,又例如,商務智能分析被定義為由數據倉庫、ETL、聯機分析、數據挖掘、客戶關系管理、知識管理等多種技術融合的一組系統,通過BI系統管理組織內部及個人相關的商業數據、專家信息及知識,涉及數據的融合、取用及分析等方法與工具[37-38],目前也沒有標準化的體系架構。
因此,本文還無法明確回答上述三種方法將如何應用于情報研究、在應用過程中需要做哪些調整、這些方法與現有的情報研究方法的關系如何等相關問題,但可以肯定的是,這些方法對未來的情報研究具有借鑒價值,例如,一旦情報研究的處理對象(即數據)積累到了一定程度,成為傳統關系數據庫處理不了的大數據,那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補充情報研究在圖像分析的不足,而商務智能分析可理解為一套集成系統,可應用在情報機構的知識庫或機構典藏,找出組織的知識缺口等方面。
3 結語
大數據時代就是一個數據分析的時代,學界和業界提出了很多大數據分析的方法與技術,這些方法與技術對情報研究產生了積極的借鑒作用,本文總結了大數據分析的方法,提出面向層次的BDA方法框架,歸納總結了其中的17種BDA方法,并從可直接移植、將調整后移植、不適用于情報研究以及需要繼續關注等四個方面對這些方法在情報研究中的適用性進行了分析,以期為情報研究借鑒或移植BDA相關方法提供參考,促進情報研究的理論與實踐發展。
參考文獻:
[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.
[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.
[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.
[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.
[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.
[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.
[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.
[8]魏順平. 學習分析技術:挖掘大數據時代下教育數據的價值[J]. 現代教育技術,2013, 23(2): 5-11.
[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.
[10]嚴霄鳳,張德馨. 大數據研究[J].計算機技術與發展, 2013, 23(4): 168-172.
[11]孟小峰,慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展,2013, 50(1): 146-169.
[12]覃雄派,王會舉,杜小勇,等. 大數據分析――RDBMS與MapReduce的競爭與共生[J].軟件學報,2012, 23(1): 32-45.
[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.
[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.
[15]王煉,武夷山. 方法移植對科學計量學研究的方法論啟示[J]. 科學學研究,2006, 24(4): 503-507.
[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.
[17]祝清松,冷伏海. 基于引文內容分析的高被引論文主題識別研究[J]. 中國圖書館學報,2014,(1):39-49.
[18]張樹良,冷伏海. 基于文獻的知識發現的應用進展研究[J]. 情報學報,2006, 25(6): 700-712.
[19]李楠,張學福. 基于關聯數據的知識發現應用體系研究[J]. 圖書情報工作,2013,(6):127-133.
[20]王輝,王暉昱,左萬利. 觀點挖掘綜述[J]. 計算機應用研究,2009,26(1):25-29.
[21]黃曉斌,趙超. 文本挖掘在網絡輿情信息分析中的應用[J]. 情報科學,2009:(1): 94-99.
[22]趙潔,溫潤. 基于新詞擴充和特征選擇的微博觀點句識別方法[J]. 情報學報,2013,32(9): 945-951.
[23]單斌,李芳.基于LDA話題演化研究方法綜述[J]. 中文信息學報,2010, 24(6): 43-49.
[24]賀亮,李芳. 科技文獻話題演化研究[J]. 現代圖書情報技術,2012,(4): 61-67.
[25]查先進.信息分析[M].武漢:武漢大學出版社,2011.
[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.
[27]胡潔. 高維數據特征降維研究綜述[J]. 計算機應用研究,2008,(9): 2601-2606.
[28]吳曉婷,閆德勤. 數據降維方法分析與研究[J]. 計算機應用研究,2009,(8):2832-2835.
[29]陳濤,謝陽群. 文本分類中的特征降維方法綜述[J]. 情報學報,2005,24(6): 690-695.
[30]白如江,冷伏海. “大數據”時代科學數據整合研究[J]. 情報理論與實踐,2014, 37(1): 94-99.
[31]化柏林. 多源信息融合方法研究[J]. 情報理論與實踐,2013,(11): 16-19.
[32]李建中,劉顯敏. 大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013,50(6):1147-1162.
[33]王延飛,王林蘭. 論情報研究質量[J].圖書情報工作,2010,54(10):35-39.
[34]王閱,高學東,武森,等. 時間序列周期模式挖掘的周期檢測方法[J]. 計算機工程,2009, 35(22): 32-34.
[35]孟志青,樓婷淵,胡強.多粒度時間文本數據的周期模式挖掘算法[J]. 計算機科學,2013,(S2): 251-254.
[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.
[37]Negash S. Business intelligence[J]. Communications of the Association for Information Systems,2004,13(1):177-195.
【關鍵詞】大數據分析;電網調度能力;方法;應用
0.引言
為了評測區域內電網調度能力,根據調度能力評測結果,調整輸變電調度方案,提高變壓器等主要設備的可靠運行,合理利用電網中各項資源和設備。本發明的目的是提供一種基于計算機實現的評測電網調度能力的方法,該方法通過對電壓、有功功率、無功功率的分析,保持各個變壓器都處于最佳工作狀態,提高設備使用壽命,降低設備故障率,降低設備運行的電能損耗,提高電網運行的可靠性,提升電網調度水平。
1.大數據分析評測電網的現狀
隨著我國城市化的發展逐漸加快,我國對電力的需求也在逐漸的增多,未來十幾甚至幾十年,電力需求的增長主要集中在城市地區。這也就對我國的電網帶來很大的挑戰,城市電網是城市的重要基礎設施,也是電力網的重要組成部分。建設好城市電網對滿足城市經濟發展、人民生活水平提高具有重大意義。但是,由于我國長期以來收著“重主網、輕配網”的思想,導致我國很長一段時間內,對電網的投資非常的少,城市的電網發展普遍落后于高壓電網[1]。導致我國在很長一段時間內,處于用電不平衡的情況,很多的地方在年前或者重大節日之前就會出現的停電的現象。
2.大數據分析評測電網調度能力的具體方法
2.1獲取兩卷變或三卷變高低壓側的監控數據
該方法主要是用根據變壓器端的終端設備,來獲取的,首先通過各地市部署的調度EMS系統,將變電站中各變壓器的運行情況準確的監控,通過變壓器內的監控元件,對變壓器的的運行情況、采集電壓、有功負荷、無功負荷等檢測數據,按指定頻率采集。然后將采集的數據通過生產區的專用網絡進行傳輸,通過生產區的安全交換機制放置到電力系統信息內網,開始清洗、篩選,去除設備檢測的異常數據,保留有效數據用于負載率分析該評測電網調度能力工具通過在信息內網中載入電網運行的監控數據[2]。
2.2得到變壓器實際功率與額定功率的比值
通過對變壓器內高低壓側的檢測數據,計算變壓器實際功率與額定功率的比值,負責率分析,接下來對采集的調度EMS系統的電網運行數據進行計算,負載率有兩種計算方法,一是根據選定的地區、時間段,使用公式二“有功負荷與無功負荷平方根/容量”計算每個時點該地區各個變壓器的負載率;二是根據選定的地區、時間段,使用公式“有功負荷/(容量*0.95)”計算每個時點該地區各個變壓器的負載率[3]。
2.3計算各個變壓器的平均負載率以及平均負載率的平均值
首先要通過選定的地區、時間段,得到該地區在本時間段內各個變壓器的平均負載率以及平均負載率的平均值。然后再計算各個變壓器平均負載率的均方差,由變壓器的均方差,判斷選定區域在該時間段的調度運行能力。主變不均衡度分析,根據選定地區和時間段,統計負載率分析結果,得出平均負載率[4]。根據平均負載率計算各個變壓器平均負載率的均方差,作為變壓器的不均衡度,將結果逐級放大,能夠得出變壓器、變電站、縣公司、市公司乃至網省公司在該時間段的調度健康情況,從而有效的調整調度策略和計劃,改善電網運行情況。
3.大數據分析評測電網調度能力的應用
3.1調度EMS數據采集
要對EMS數據采集,首先要制定EMS系統監控數據的格式,然后加載指定格式的調度數據,其中指定數據額格式要求主要為:(1)按“變電站+地區+變電站電壓等級+主變名稱+時間”的順序排序,每小時記錄一次,主要記錄每個整點、時點的有功、無功負荷該數據容量的單位是MVA,負荷的單位是MW。(2)時間,變電站,地區,變電站電壓等級,主變名稱,繞組電壓,容量,有功負荷值,無功負荷值。(3)變電站的數據采集按照一定的順序進行,不可以同時多個變電站的數據進行采集。
在這個過程中還要對數據進行“清洗”。清洗的流程為:(1)使用8個逗號作為數據的分隔符,分別隔開不同字段的數據。如果有多余逗號或缺逗號或兩個逗號中間為空的行,則該行數據無效。(2)在計算的過程中除了容量、有功負荷值及無功負荷值外,其他各字段如數據超長,則頁面拋出提示錯誤,結束導入。(3)廠站電壓等級為110kV的變壓器容量小于等于100MVA(系統用戶可以在管理端修改此值大小),否則該行數據無效。
3.2負載率計算
負載率計算有兩種情況,分別是近似計算和精確計算,其中近似計算效率高,能夠很快得到近似結果。但是在常規檢查時可使用本公式計算;精確計算算法相對復雜、比較耗時,但是計算準確,通常用于分析調度情況時使用。
簡便公式為:
計算要求:
1、選定地區、場站或主變和時間段;
2、根據選定的地區、時間段,使用公式計算每個時點該地區各個變壓器的負載率;
3、使用意義在于根據負載率大小得出各變壓器負載率的最高或最低時點,從而判斷當前電網的負荷情況。
精確公式:
計算方法:
1、選定地區、場站或主變和時間段;
2、根據選定的地區、時間段,使用公式二計算每個時點該地區各個變壓器的負載率;
3、使用意義在于根據負載率大小得出各變壓器負載率的最高或最低時點,從而判斷當前電網的負荷情況。
4.結語
該發明可及時調整調度方案,從而均衡電網的運行負荷,保持各個變壓器都處于最佳工作狀態,提高設備使用壽命,降低設備故障率,降低設備運行的電能損耗,提高電網運行的可靠性,提升電網調度水平,對提高大數據分析電網調度能力具有顯著的作用。
參考文獻
[1]李庚銀,羅艷,周明,等.基于數學形態學和網格分形的電能質量擾動檢測及定位[J].中國電機工程學報,2012,26(03):25-30.
[2]賀仁睦,王衛國,蔣德斌,等.廣東電網動態負荷實測建模及模型有效性研究[J].中國電機工程學報,2015,22(03):78-82.