數據挖掘技術研究8篇

時間:2023-01-14 09:17:20

緒論:在尋找寫作靈感嗎?愛發表網為您精選了8篇數據挖掘技術研究,愿這些內容能夠啟迪您的思維,激發您的創作熱情,歡迎您的閱讀與分享!

篇1

關鍵詞:Web應用;數據挖掘技術;互聯網;研究

中圖分類號:TP393.09

隨著互聯網的產生,其網絡上各種不同服務也正在快速產生而得到發展,很多公司急切需要通過利用互聯網巨大的信息源對客戶行為進行分析,搜尋最佳商機。Web數據挖掘技術就是從該種商業角度進行考慮,它是在二十世紀八十年代末的時候被研發出來,該數據挖掘技術是在Web網絡原有的基礎上納入挖掘數據的方法與思想。在Web網絡中通過該方法解決遇到出現的問題,以此形成Web的數據挖掘,基于Web網絡的數據挖掘,它是數據挖掘中的一個全新的研究領域與方向,能夠滿足對未來電子商務的發展趨勢的需求。

1 Web數據庫及數據挖掘的特點

在對大量的網絡信息進行認真分析研究的基礎上,我們才可以進行Web數據的挖掘活動,在這個過程中一定要注意使用最佳的方式來進行,在具體的模式可使用過程中,必須要進行數據信息的提煉、信息選擇、信息調整、數據挖掘和模式分析,然后再進行歸納總結,對使用者的習慣以及細化哦進行推測,以實現合理地信息數據管理,將可能存在的安全性問題的發現進行防御。Web數據挖掘所包含的內容及其寬泛,除了對信息數據進行的處理,還涉及計算機胡網絡、數據庫與數據倉儲、人工智能、信息檢索、可視化、自然語言理解等多方面的內容。

從海量的信息中找到一個有意思的模式就是信息數據的挖掘,這些數據可以存放在數據庫、數據倉庫或其它信息存儲中,從學科方面來說它已經具有了跨學科的性質,比方說數據庫體系、信息儲備中心、統計、機器學習、數據可視化、信息提取和高性能計算。

2 Web數據挖掘技術的概念與類型

所謂的Web數據挖掘技術,它是在挖掘數據技術的基礎之上,針對網絡數據中的服務日志文件與Web文檔進行分析數據、歸納與匯總,并且在當中發掘與索取有用潛在的知識及信息的技術。應用Web挖掘技術能夠發現更多的隱藏信息資源或者其他潛在的有趣應用模式,同時在信息過濾技術的協助下使客戶獲取層次更高的知識和規律。按照有關技術原理,可把Web數據挖掘技術分如下幾大類:

2.1 Web的結構挖掘

結構挖掘是指在Web挖掘中運用Web構造組織之間的鏈接關聯,從而對網頁系統里具有實用價值的形式進行計算。在海量的Web超鏈接數據中,為Web網頁面創造出足夠的合適的數據信息資料,它可以對文檔當中的引用、從屬及包含關系聚集地反映出來,同時經由對Web文檔當中信息資料體系進行分析,能夠有效地處理掉存在的任何問題,以有便于搜尋到權威性的網頁面。

在Web結構挖掘范圍內,HITS和PageRank算法是應用最多的算法,這兩個方面都是通過固定的計算手段進行測算的,在這種情況下可以對網頁超鏈接的質量進行有效保護,比方說:在百度中搜索方式的使用可以提高計算水平。

2.2 Web的內容挖掘

內容挖掘主要是在Web挖掘中搜集有利的Web資源信息(例如:內容、數據及文檔等)。Web包括許多不同種類的資源信息,現在絕大部分網絡資源信息基本上均都是從www資源信息當中獲得,這除了這些可以個體可以直接檢索得到并加以使用達到目標的信息資源以外,還有一些信息數據是通過加密的普通個體是無法檢索得到的,要向獲得這些信息數據必須對其采取Web挖掘的手段來進行。

2.3 Web的使用挖掘

使用挖掘是在Web挖掘中實施挖掘網頁面中的對應站點信息數據與日志文件,從而去對相應的站點進行有效地訪問。這是因為在網頁面的信息訪問中,質量具有很重要的作用、復雜的信息,而每個資源信息在服務器的上面,都存在一個形式化的日志訪問頁面,當用戶提出了訪問頁面的要求以后,訪問服務器會自覺地將所需的數據進行記錄。因此對Web不同的使用的日志訪問進行分析,有助于掌控Web結構與客戶的動態行為,更加有利于使網站的工作效率得到有效提升。

3 數據挖掘工作流程

3.1 定義問題

先對信息挖掘體系的主要目的進行評論,明確其具備的具體價值以及將會帶來的實際效果進行分析。

3.2 形成數據挖掘庫

對于數據挖掘來說數據挖掘體系是最重要的一個關鍵點,我們可以通過相關信息資料的搜集來證實,對數據體系的行程內容進行研究,生成“數據表述報告”,將信息資料庫中所有的信息進行合理地整合,把來自不同數據源的數據并到同一個數據庫中,讓沖突的以及不一致的數據統一化。建好數據挖掘庫以后應該安排專門的人員對它進行定期的檢查管理,防止任何安全隱患的存在,在對它的安全性進行維護的過程中,需要定期備份,監視它的性能,還需要根據實際的需要不斷地擴大它的存放空間,對那些專門用來存放復雜數據的系統中心,必須要將這項工作交給專業的工作人員來完成。

3.3 清理分析數據挖掘庫

不正確的信息數據都是廣泛地存在的,所以說對于很大的信息數據儲存中心來說保證數據的正確性。所以,一定要采取有效的措施對其進行合理的管理,將數據保存與使用中可能會出現的機械性錯誤率降到最低,處理好模型與整個數據體系的完整性。

3.4 探索分析數據挖掘庫

這樣做主要是為了對信息數據的模型進行管理。主要包括選擇變量、選擇記錄、創建新變量、轉換變量、探索分析。

3.5 創立數據挖掘模型

做好這項工作對于信息數據的高效保存有很重要的作用,為了讓模型更加合理,具有正確性與穩定性,我們必須要從宏觀上來對這個模型所需的材料進行處理,讓模型能為后續的數據保存工作提供一個依據與參考標準。

4 基于Web的數據挖掘應用

4.1 數據控掘在高校教學中的應用

使用該種體系有利于對學生學習生活的實際狀況進行客觀有效地分析,掌握學生的實際學習狀況,為教師的教學活動提供詳細的信息,提高教學效率的同時提高學生的學習效率,幫助學生在最短的時間內提高學習成績;端正學生的學習態度,提高學習方法。

4.2 數據控掘在電子商冬中的應用

對于現代市場營銷來說,網絡方式引進就是其信息化的最有利的證明,隨著我們的商務活動的不斷完善,網絡營銷將會成為營銷業的全新發展趨勢。因此我們可以看到,將這一技術充分地應用到電子商務活動中,能夠幫助企業進行客觀的市場發展狀況的分析,確定有效的發展目標,找到最佳發展方式。

5 結束語

總而言之,Web數據挖掘技術的應用有利于企業編制具有遠見性的營銷戰略,促使企業可以在市場激烈競爭中掌控更加有利的發展時機。隨著迅速發展的電子商務,Web數據挖掘技術在未來的發展空間將變得更加廣闊及前途無量。

參考文獻:

[1]柴文光,周寧.網絡信息安全防范與Web數據挖掘技術的整合研究[J].情報理論與實踐,2009(03):97-101.

[2]范建中,王福慶.基于Web的數據挖掘技術研究與應用[J].電腦編程技巧與維護,2009(12):32-33+42.

[3]居曉琴,周學全.Web數據挖掘技術探索與應用[J].山東紡織經濟,2009(06):144-147.

篇2

    關鍵詞:空間數據挖掘;地理信息系統;研究分析

    隨著數據采集技術的成熟和普及,大量的空間數據通過遙感、地理信息系統、多媒體系統、醫學和衛星圖像等多種形式匯集成龐大而豐富的信息源。面對龐雜、繁多的數據類型,空間數據挖掘技術應運而生,并在地理信息系統、遙感勘測、圖像處理、交通管理、環境研究等領域得到廣泛應用。

    1 空間數據挖掘研究概述

    空間數據挖掘(spatial Data Mining,簡稱SDM),是指從空間數據庫中提取用戶感興趣的空間模式、普遍關系、數據特征的過程??臻g數據挖掘技術綜合數據挖掘技術與空間數據庫技術,可用于對空間數據的理解、空間關系和空間與非空間關系的發現、空間知識庫的構造以及空間數據庫的重組和查詢的優化等,其根本目標是把大量的原始數據轉換成有價值的知識,發現大量的地學信息中所隱含的規則。

    空間數據挖掘是計算機技術、數據庫應用技術和管理決策支持技術等多學科交叉發展的新興邊緣學科,一般來說,空間數據挖掘可分成空間分類、空間聚類、空間趨勢分析和空間關聯規則四類??臻g分類的目的是在空間數據庫對象的空間屬性和非空間屬性之間發現分類規則,是近年來空間數據挖掘領域中比較活躍的一個方向,常用的方法是決策樹??臻g聚類是在一個比較大的多維數據集中根據距離的度量找出簇或稠密區域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法。空間趨勢分析指離開一個給定的起始對象時非空間屬性的變化情況,例如,當離城市中心越來越遠時經濟形勢的變化趨勢,空間趨勢分析需要使用回歸和相關的分析方法??臻g關聯規則是指空間鄰接圖中對象之間的關聯,空間關聯挖掘多采用逐步求精的優化思想,即首先用一種快速的算法粗略地對初始空間數據庫進行一次挖掘,然后再在裁剪過的數據庫上用代價高的算法進行進一步精化挖掘。

    空間數據挖掘過程一般可分為數據篩選(消除原始數據的噪聲或不一致數據)、數據集成(將多種數據源組合在一起)、數據選擇(根據用戶的要求從空間數據庫中提取與空間數據挖掘相關的數據)、數據變換(將數據統一成適合挖掘的形式)、空間數據挖掘(運用選定的知識發現算法,從數據中提取用戶所需的知識)、模式評估(根據某種興趣度度量并識別表示知識的真正有趣的模式),知識表示(使用可視化技術和知識表示技術,向用戶提供挖掘的知識)等階段(見圖1)??臻g數據挖掘實際上是一個“人引導機器,機器幫助人”的交互理解數據的過程。

    2 空間數據挖掘在GIS中的應用

    空間數據挖掘技術與地理信息系統(GIS)的結合具有非常廣泛的應用空間。數據挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱外部空間數據挖掘模式,這種模式基本上將GIS當作一個空間數據庫看待,在G IS環境外部借助其它軟件或計算機語言進行空間數據挖掘,與GIS之間采用數據通訊的方式聯系。其二為嵌入式,又稱內部空間數據挖掘模式,即在GIs中將空間數據挖掘技術融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開發的工作量和難度,又可以保持外部空間數據挖掘模式的靈活性。

    利用空間數據挖掘技術可以從空間數據庫中發現如下幾種主要類型的知識:普遍的幾何知識、空間分布規律、空間關聯規律、空間聚類規則、空間特征規則、空間區分規則,空間演變規則、面向對象的知識。目前,這些知識已比較成熟地應用于軍事、土地、電力、電信、石油和天然氣、城市規劃、交通運輸、環境監測和保護、110和1 20快速反應系統等資源管理和城市管理領域。在市場分析、企業客戶關系管理、銀行保險、人口統計、房地產開發、個人位置服務等領域也正得到廣泛關注與應用,實際上,它正在深入到人們工作和生活的各個方面。

    3 空間數據挖掘面臨的問題

    (1) 多數空間數據挖掘算法是由一般的數據挖掘算法移植而來,并沒有考慮空間數據存儲、 處理及空間數據本身的特點。空間數據不同于關系數據庫中的數據,它有其特有的空間數據訪問方法,因而傳統的數據挖掘技術往往不能很好地分析復雜的空間現象和空間對象。

    (2) 空間數據挖掘算法的效率不高,發現模式不精練。面對海量的數據庫系統,在空間數據挖掘過程中出現不確定性、錯誤模式的可能性和待解決問題的維數都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領域知識發現、去除與任務無關的數據,有效地降低問題的維數,設計出更有效的知識發現算法。

    (3) 沒有公認的標準化空間數據挖掘查詢語言。數據庫技術飛速發展的原因之一就是數據庫查詢語言的不斷完善和發展,因此,要不斷完善和發展空間數據挖掘就必須發展空間數據挖掘查詢語言。為高效的空間數據挖掘奠定基礎。

    (4) 空間數據挖掘知識發現系統交互性不強,在知識發現過程中很難充分有效地利用領域專家知識,用戶不能很好掌控空間數據挖掘過程。

    (5) 空間數據挖掘方法和任務單一,基本上都是針對某個特定的問題,因而能夠發現的知識有限。

    (6) 空間數據挖掘與其他系統的集成不夠,忽視了GIS在空間知識發現過程中的作用。一個方法和功能單一的空間數據挖掘系統的適用范圍必然受到很多限制,目前開發的知識系統僅局限于數據庫領域,如果要在更廣闊的領域發現知識,知識發現系統就應該是數據庫、知識庫、專家系統、決策支持系統、可視化工具、網絡等多項技術集成的系統。

    上述問題使得從空間數據庫中提取知識比從傳統的關系數據庫中提取知識更為困難,這給空間數據挖掘研究帶來了挑戰。因此,空間數據挖掘在未來的發展中,還有很多理論和方法有待深入研究。

    4 空間數據挖掘的發展趨勢

    (1)空間數據挖掘算法和技術的研究。空間關聯規則挖掘算法、時間序列挖掘技術、空間同位算法、空間分類技術、空間離群算法等是空間數據挖掘研究的熱點,同時提高空間數據挖掘算法的效率也很重要。

    (2) 多源空間數據的預處理??臻g數據內容包括數字線劃數據、影像數據、數字高程模型和地物的屬性數據,由于其本身的復雜性與數據采集的困難,空間數據中不可避免地存在著空缺值、噪聲數據及不一致數據,多源空間數據的預處理就顯得格外重要。

    (3)其他各種空間數據挖掘及其相關技術研究。如網絡環境下的空間數據挖掘、可視化數據挖掘、柵格矢量-體化空間數據挖掘、背景知識概念樹的自動生成、基于空間不確定性(位置、屬性、時問等) 的數據挖掘、遞增式數據挖掘、多分辨率及多層次數據挖掘、并行數據挖掘、遙感圖像數據庫的數據挖掘、多媒體空間數據庫的知識發現等。

篇3

關鍵詞:人工智能;數據挖掘;發展前景

當今社會已經進入了人工智能時代,人工智能的應用,大大改善了我們的生活。大數據時代已經來臨,不論是從數據的使用,挖掘,處理等方面,都為人工智能的應用起到了基礎和保障。

1人工智能

1.1人工智能的定義。人工智能(ArtificialIntelligence),簡稱AI。屬于計算機學科下的分支,顧名思義,它是一門專門研究類人化的智能機器學科,即利用現階段科學的研究方法和技術,研制出具有模仿、延伸和擴展人類智能的機器或智能系統,從而實現利用機器模仿人類智能的一切行為。1.2人工智能的研究背景。在1956年的達特矛斯會議上,“人工智能”這一術語正式由麥卡錫提議并采用了,隨后人工智能的研究取得了許多引人注目的成就。在這之后,科研人員進行了許多的研究和開發,人工智能這個話題也取得了飛速的發展。人工智能是一門極具挑戰性的科學,從事這項工作的人必須了解計算機知識、心理學和哲學理念。人工智能的研究包涵廣泛的科學知識,以及其他領域的知識,如機器學習、計算機視覺等。一般來說,人工智能研究的主要目標是使機器能夠做一些通常需要人工智能完成復雜工作的機器。1.3人工智能的研發歷程。早期研究領域:人工智能專家系統,機器學習,模式識別,自然語言理解,自動定理證明,自動編程,機器人,游戲,人工神經網絡等,現在涉及以下研究領域:數據挖掘,智能決策系統,知識工程,分布式人工智能等。數據挖掘的出現使得人工智能的研究在應用領域得到廣泛的發展。以下簡要介紹其中的幾個重要部分:(1)專家系統。所謂專家系統就是控制計算的智能化程序系統,通過研發人員總結歸納了專業學科知識和日常經驗,能夠知道計算機完成某個領域內的專業性活動或者解決某些專業級別的問題。人工智能技術可以合理利用已知的經驗體系在復雜環境中,解決和處理復雜問題。(2)機器系統。機器系統簡單說就是機器人通過人造神經系統,借助于網絡或者存儲系統汲取系統的知識進行開發研究。(3)感知仿生。感知仿生系統通過模擬人類的感官,感知生物學特征,通過人工智能機器的感部件對外界外部環境進行感知,識別,判斷,分析的能力。能夠更好的適應環境,做出判斷。(4)數據重組和發掘。是指通過人工智能系統,結合當前先進的理念,對大數據的總結歸納,識別存儲,調取等應用。通過數據的加工處理,能夠主動做出判斷和分析。(5)人工智能模式。分布式人工智能是模式之一,該系統利用系統有效的規避和克服系統資源在某段時間內的局限性,并能有效地改善因資源造成的時間和空間不均衡問題。它具備,模式自動轉換,并行處理,開放啟發方式,冗余且容錯糾錯的能力。

2數據挖掘

2.1數據挖掘的定義。數據挖掘(DataMining,DM)是揭示數據中存在的模式和數據關系的學科,強調處理大型可觀察數據庫。數據挖掘的出現使得人工智能的研究在應用領域得到了廣泛的發展。這里包括數據挖掘和智能信息提取過程,前者從大量復雜的現實世界數據中挖掘出未知和有價值的模式或規則,后者是知識的比較,選擇和總結出來的原則和規則,形成一個智能系統。2.2數據挖掘的研究現狀。當前數據挖掘應用主要集中在電信、零售、農業、網絡日志、銀行、電力、生物、天體、化工、醫藥等方面??此茝V泛,實際應用還遠沒有普及。而據Gartner的報告也指出,數據挖掘會成為未來10年內重要的技術之一。而數據挖掘,也已經開始成為一門獨立的專業學科。2.3數據挖掘的研究發展。具體發展趨勢和應用方向主要有:性能方面:數據挖掘設計的數據量會更大,處理的效率會更高,結果也會更精確。工具方面:挖掘工具越來越強大,算法收斂越來越多,預測算法將吸收新穎性算法(支持向量機(SVM),粗糙集,云模型,遺傳算法等),并實現自動化的實現算法,選擇和自動調諧參數。應用:數據挖掘的應用除了應用于大型專門問題外,還將走向嵌入式,更加智能化。例如進一步研究知識發現方法,對貝葉斯定理和Boosting方法的研究和改進,以及對商業工具軟件不斷的生成和改進,著重建立整體系統來解決問題,如Weka等軟件。在先進理論的指導下,按照國內形態發展,至少需要20年的時間,才能改進數據挖掘的發展。

3數據挖掘與人工智能技術的聯系

數據挖掘屬于人工智能中獨立系統。它于人工智能的存在關系屬于,并存聯系,且獨立運行,互不從屬。此設計體系一方面可以有效促進人工智能提升學習能力,增進分析能力,另一方面還對分析,統計,OLSP,以及決策支持系統模塊等起到推動作用。在收挖掘應用領域,處理可以對WEB挖掘,還能夠有效進行文本,數據庫,知識庫,不同領域不同學科的信息進行序列矩陣模式挖掘。基于數據本身的分類,辨識,關聯規則,聚類算法更加博大精深。因此,獨立于人工智能的數據挖掘,更加便于科研團體或者領域對數據的使用和分析。數據挖掘是人工智能領域的一部分。首先,高智能是數據挖掘和人工智能的最終目標,正是由于這個目標,人工智能和數據挖掘有很多關聯。其次,數據挖掘和人工智能是各種技術的整合。數據挖掘和人工智能是許多學科的跨學科學科。最后,數據挖掘的出現逐漸發展壯大,加強了人工智能,因此可以說,它們兩者是不可分割的。

4人工智能和數據挖掘技術的發展前景

在當前環境下,人工智能和數據挖掘技術具有以下發展前景:(1)在大數據互聯網中的應用。將人工智能的技術應用于互聯網中將會使網絡技術帶上智能的特性,可以為人們的生活提供智能化的幫助,給人們的生活帶來便利。還可以提高網絡運行效率、增加網絡安全性等。(2)智能化服務的研究。人工智能和數據挖掘都很注重對智能化服務的研究,例如很多智能機器人便應運而生,它們已經能勝任許多簡單的工作,可以為人們提供人性化的服務。高度的智能化是數據挖掘和人工智能研究最終追求的目標,也是二者最終合而為一的標志。(3)使知識產生經濟化。在現階段的知識經濟時代,人工智能和數據挖掘勢必受到經濟的影響,這決定了人工智能和數據挖掘將具有經濟特征。人工智能和數據挖掘技術作為無形資產可以直接帶來經濟效益,通過交流,教育,生產和創新的無形資產將成為知識經濟時代的主要資本。可以預期未來的人工智能和數據挖掘技術將更加經濟實用。(4)交叉學科的技術融合。各行各業的理論和方法都已經開始融入了人工智能和數據挖掘之中。未來的人工智能和數據挖掘技術必將是一個融合眾多領的復合學科。當今,我們已經在逐漸使用人工智能與數據挖掘技術,去攻克更多難題,解決更多問題,造福人類,改善生活,近在眼前。

作者:喻正夫 單位:漢江師范學院

參考文獻:

[1]萬璞,王麗莎.數據挖掘與人工智能技術研究[J].無線互聯科技,2016(10):113-114.

[2]王翔.試論如何利用大數據挖掘技術推動人工智能繼續發展[J/OL].科技創新報,2017,14(01).

[3]秦益文.微博數據挖掘中人工智能推理引擎的應用[J].中小企業管理與科技(中旬刊),2017(02).

[4]蒲東齊.數據挖掘在人工智能上的應用[J].信息與電腦(理論版),2016(19).

[5]李丹丹.數據挖掘技術及其發展趨勢[J].電腦應用技術,2007(02):38-40.

篇4

關鍵詞:數據挖掘;數據庫;預處理技術

中圖分類號:TP311.131

隨著計算機和互聯網的普及應用,由于其能夠提高工作的效率,非常受到人們的重視,一些企業甚至在計算機應用的基礎上,提出了無紙化辦公的理念,在實際應用的過程中,計算機需要存儲大量的數據,對于企業用戶來說,很多數據具有私密性,如果這些數據泄露出去,將會給企業的發展帶來嚴重的影響,甚至造成巨大的經濟損失。受到特殊的歷史因素影響,我國的經濟和科技起步較晚,與西方發達國家相比,存在較大的差距,雖然經過了多年改革開放的發展,我國已經成為了世界第二大經濟體,計算機的應用水平也有了很大的提高,但是在尖端的數據挖掘等領域中,研究的還比較少,而數據挖掘等技術,能夠在很大程度上影響數據的利用效率,對于實際的工作來說,具有非常重要的作用。

1 數據挖掘的預處理技術簡析

1.1 數據挖掘預處理技術的概念

數據挖掘技術是隨著數據庫的發展,逐漸形成的一門學科,在計算機出現的早期,受到其性能和體積的限制,能夠存儲的數據很少,不需要考慮數據的利用效率,但是隨著晶體管和集成電路的使用,計算機的性能得到了極大的提高,相應的存儲設備也有了很大的進步,計算機能夠處理的任務越來越復雜,存儲的數據越來越多,現在我國建成了多個大型數據存儲中心,存儲的數據量非常巨大。對于如此多的數據,如何篩選出自己想要的,成為了很大專家和學者研究的問題,在傳統的數據應用中,通常都是利用檢索技術,根據輸入的關鍵詞,在數據庫中進行逐個的匹配,如果數據庫的存儲量較小,檢索的效率就比較高,而對于現在的海量存儲來說,逐個匹配顯然需要很長的等待時間。數據挖掘的預處理技術,正是在這種背景下出現的,所謂預處理技術,就是在數據挖掘之前,對數據進行一定的整理,通常情況下,數據挖掘主要面對現有的數據庫或者互聯網上海量的數據,如果在數據庫中進行挖掘,那么可以對數據庫進行一定的修改,如完善數據分類的方式等,而在互聯網上進行數據挖掘,顯然就需要優化挖掘的方式,或者縮小數據挖掘的范圍等。

1.2 數據挖掘預處理技術的特點

與正常的數據挖掘技術相比,如何增加相應的預處理環節,無疑可以極大的提高數據挖掘的效率,如在數據庫中進行數據的挖掘,傳統的挖掘方式下,通常都是利用檢索技術,輸入指定的關鍵詞后,與數據庫中的信息進行對比,這樣逐條的進行檢索,就可以找到自己想要的數據,如果數據庫存儲的信息量較大,那么利用這樣的挖掘方式,顯然需要很長的等待時間。如果增加相應的預處理環節,如在數據庫中添加索引,對數據庫中的數據進行分類,那么在輸入相應的關鍵詞后,首先與索引進行匹配,然后在指定類別的數據中進行對比,這樣的方式,顯然極大的提高了數據挖掘的效率,目前使用的數據庫中,大多采用了這樣的預處理技術,取得了很好的應用效果。受到特殊歷史因素的影響,我國數據庫相關技術水平較低,目前我國建設的大型數據庫,都是與國外的技術公司合建的,通過實際的調查發現,現在我國還無法自主生產外部存儲設備,市面上的存儲設備,都是從外國引進的,但是在實際數據庫的建設中,在外國存儲設備的基礎上,我國也進行了大量數據挖掘等技術的研究。

1.3 數據挖掘預處理技術的發展

從某種意義上來說,數據挖掘技術是隨著互聯網和數據庫的應用,根據實際使用的需要,逐漸形成的一門技術,在互聯網發展的初期,網絡上的資源有限,而且受到計算機性能的限制,沒有太多的娛樂項目,只能瀏覽一些商業網站等,隨著計算機的普及應用,互聯網有了很大的發展,現在已經建成了覆蓋世界范圍的因特網。據最新的統計調查表明,我國的網民數量已經超過了6億,如果龐大的用戶群體,為我國互聯網的發展,提供了堅實的基礎,但是通過實際的調查發現,我國的實際網絡帶寬,還沒有達到世界平均水平,即使實際使用的網絡帶寬較低,我國互聯網內容的發展速度依然很快,現在網絡上出現了各種各樣的網站,極大的提高了網絡建設水平。在實際的網絡瀏覽中,面對如此大的信息量,如何找到自己想要的信息,成為了一個實際問題,為了解決這個問題,出現了搜索引擎,只要輸入相應的關鍵詞,搜索引擎就可以很快的找到大量相關內容,然后進行必要的篩選,就能夠得到相應的數據,但是隨著互聯網內容的豐富,除了傳統的文字信息外,還有視頻和音頻等數據,如何在這些數據中,進行相應的挖掘工作,具有較大的難度。

2 影響數據挖掘預處理技術的因素

2.1 預處理的方式

在實際的數據挖掘過程中,能夠影響挖掘效果的因素有很多,如數據量的大小、挖掘方式等,從某種意義上來說,數據挖掘就是數據的查找,從指定范圍或者未知范圍內,找到指定的數據,通常情況下,數據挖掘都具有很強的目的性,但是對于找到數據的量,并沒有明確的要求,尤其是隨著互聯網內容的增加,現在的數據挖掘中,都會附帶大量的相關信息。對于數據挖掘的預處理技術來說,預處理的方式,能夠在很大程度上影響挖掘的效率,例如在一個一百條數據庫中進行挖掘,為了提高實際的效率,通常情況下會采用檢索的方式,根據輸入的關鍵詞,逐條的與數據庫的信息進行比對,這樣挖掘的效率具有很大的不確定性,如果要查找的數據排列比較考前,那么就需要很短的檢索時間,如果要查找的數據剛好在第一百條的位置,顯然就需要進行一百次匹配。如果采用索引的方式進行預處理,將這一百條數據根據自身的特點,分成十個類別,每個類別建立一個索引,那么在實際的匹配中,無論要查找的數據處于哪個位置,最多只需要十次匹配,就可以找到相應的數據,由此可以看出,預處理方式對于數據挖掘效率具有非常重要的影響。

2.2 數據量的大小

計算機經過了多年的發展,其自身的性能有了很大的提高,在實際的數據挖掘中,如果檢索的數據較少,即使不經過任何的預處理,仍然可以具有很高的挖掘效率,但是隨著數據庫自身的發展,企業用戶的數據庫容量越來越大,在數據庫中查找指定的數據,需要較長的時間,要想很好的解決這個問題,必須對數據挖掘的方式等,進行相應的優化。通過實際的調查發現,目前我國使用的數據庫,大多都是國外的技術公司設計的,為了方便數據庫的使用,大多采用了整體的外包,即軟件和硬件都是由同一家公司提供,采用這樣的方式,不但能夠很好的解決軟件和硬件之間不兼容的問題,同時可以提供優質的軟件服務。目前市面上的數據庫,大多對數據挖掘技術進行一定的優化,如增加索引環節等,通過這些技術的使用,很好的提高了實際的挖掘效率,但是這些預處理技術,并沒有考慮到數據量的大小,如一些大型的數據庫中,要想建立索引機制,本身就需要很長的時間,雖然在建立索引后,就可以直接的使用,即使數據庫中發生變化,也不需要重新建立,只要根據數據的情況,將其存儲到指定的分類中即可。

2.3 操作人員自身的素質

對于實際的數據挖掘工作來說,操作人員自身的素質,也可以在很大程度上影響挖掘的效率,經過了多年的完善,數據挖掘技術已經成為了一門單獨的學科,計算機專業的學生,要進行相應知識的學習,但是通過實際的調查發現,現在的數據挖掘主要針對互聯網上的內容,而互聯網日新月異的發展,給數據挖掘帶來了很大的難度。在這種背景下,如果沒有足夠的工作經驗,顯然很難完成相應的數據挖掘工作,因此剛畢業的大學生,數據挖掘的效果較差,即使能夠完成相應的工作,也需要較長的時間,雖然這些學生在學校中,能夠學習到大量的數據挖掘知識,為了提高教學的效果,老師還會講解一些數據挖掘的實例,但是實際挖掘中,具有很多的不可控因素。如果操作人員具有豐富的數據挖掘經驗,在實際的工作中,必然會總結一些相應的技巧,這些技巧的使用,可以在一定程度上縮短挖掘的時間,提高數據挖掘的準確性,對于數據挖掘工作來說,具有非常重要的作用,從某種意義上來說,數據挖掘的預處理技術,指的就是這些從實踐中總結出來的技巧,然后進行科學、系統的分析,應用到實際的挖掘中。

3 我國數據挖掘預處理技術應用中存在的問題

3.1 沒有意識到預處理技術的重要性

在傳統的數據挖掘中,由于數據庫自身的容量較少,采用檢索的方式,就可以輕松的找到想要的數據,因此不需要預處理技術,隨著數據庫自身的發展,計算機的性能也有了很大的提高,在很長一段時間內,硬件的發展速度都要領先于軟件,因此數據檢索具有很高的效率,近些年互聯網的普及應用,在很大程度上改變了這種現象,尤其是云計算等理念的出現。在互聯網海量數據中進行挖掘,依靠單獨的計算機,很難具有較高的效率,在這種背景下,如何優化數據挖掘技術,成為了很多專家和學者研究的問題,預處理技術就是根據實際工作的需要出現的,受到特殊的歷史因素影響,在數據庫的建設等方面,我國要落后西方國家很多,雖然近年來我國投入了大量的人力和物力,研究數據挖掘等技術,但是并沒有取得明顯的效果。正是受到自身技術水平的限制,使得我國數據建設中,對數據挖掘的預處理技術,沒有足夠的重視,導致很大數據庫中,還采用傳統的檢索等方式,沒有任何的預處理技術,在很大程度上影響了數據挖掘的效率,雖然一些數據庫中集成了相應的功能,但是通過實際的調查發現,在實際使用的過程中,并沒有啟用相應的功能。

3.2 沒有針對性的預處理方式

由于現在的數據挖掘,主要針對互聯網上海量的數據,而互聯網上的數據非常復雜,尤其是近些年網絡的發展,出現了文本、視頻、音頻等各種各樣的信息,在這些信息中進行數據的挖掘,顯然具有較大的難度,而且互聯網的數據量較大,即使借助相應的搜索引擎,依然需要很長的挖掘時間,對于現在使用的一些數據挖掘預處理技術,只有在一些特定的情況下,才能夠發揮出一定的作用。數據挖掘預處理技術出現的時間較短,目前還沒有形成統一的認識,不同學者根據實際工作的需要,提出了不同的預處理方式,通過實際的調查發現,這些預處理方式的應用,都具有一定的局限性,在特定的數據挖掘中,可以明顯的提高挖掘的效率,但是對于其他數據的挖掘,就無法起到相應的作用。受到我國數據挖掘技術水平的限制,并沒有意識到這點,在實際數據挖掘的工作中,通常都是隨意的采用預處理方式,這樣顯然無法最大成都上提高數據挖掘的效率,有時候反而會降低工作的效率,目前西方發達國家的數據挖掘預處理中,都會根據每次工作的實際情況,針對性的設計一個預處理的方式。

4 數據挖掘的預處理技術應用措施

4.1 重視數據挖掘的預處理技術

考慮到我國的數據庫建設中,很多都沒有采用相應的預處理技術,在很大程度上影響了數據挖掘的效率,要想很好的解決這個問題,必須對預處理技術給予足夠的重視,在數據庫的設計時,就對預處理的方式等進行考慮,如果是購買的數據庫服務,那么就要根據自身的實際情況,對預處理技術提供一定的要求,這樣可以極大的提高挖掘的效率。通過實際的調查發現,西方國家的預處理技術水平之所以比較高,主要就是由于其重視,在實際的挖掘工作中,對于能夠提高工作效率的所有細節進行完善,并總結相關的經驗,方便下次的使用,正是這種供求雙方的重視,使得西方發達國家的預處理技術快速的發展。我國要想提高自身的數據挖掘預處理技術,必須根據自身的實際情況,借鑒外國一些先進的經驗,最大程度上完善預處理技術,要想達到這個目的,首先應該提高對預處理技術的重視程度,無論是實際的操作人員,還是管理人員和開發人員,都應該重視預處理技術的應用,然后從自身的工作角度出發,對其進行一定的完善。

4.2 提高工作人員自身的素質

數據挖掘預處理技術的應用,需要實際的操作人員,而不同工作人員,由于自身經驗等不同,工作的效率會有一定的差距,如剛畢業的大學生,即使在學校中的成績較好,掌握了足夠的預處理知識,還是無法很好的完成相應的工作,尤其是近些年信息技術的發展,互聯網上海量數據的挖掘,具有很大的難度。而且不同數據的挖掘,預處理方式等也應該具有一定的差異,通過實際的調查發現,目前我國的數據挖掘工作人員自身的素質普遍較低,無法根據實際的工作情況,針對性的選擇一種預處理方式,在很大程度上影響了挖掘的效率,要想很好的解決這個問題,必須提高工作人員自身的素質,在實際的招聘過程中,盡量聘請一些具有豐富經驗的人員。對于現有的工作人員,可以通過定期培訓等方式,讓其了解到最新的數據挖掘理念,以及預處理技術的重要性等,如果條件允許,還可以與一些先進的企業進行交流,學習先進的預處理技術,這樣在提高預處理技術水平的同時,還可以對數據庫的其他的技術,進行一定的優化。

4.3 采用針對性的預處理方式

經過了多年的發展和完善,數據挖掘的預處理技術已經非常普遍,目前的很大數據庫建設中,都會采用預處理技術,甚至在日常的數據搜索中,也開始使用預處理技術,但是通過實際的調查發現,根據實際需要數據的不同,數據挖掘的環境、方式等會具有較大的差異,而這些條件的變化,必然需要不同的預處理方式。而目前我國的數據挖掘中,顯然還沒有意識到這點,為了提高實際的工作效率,雖然會采用一定的預處理方式,但是預處理的方式,并不會根據數據挖掘的不同,進行針對性的變化,沒有真正的達到預處理的目的,在一些特殊的數據挖掘中,由于預處理方式的不當,甚至會降低工作的效率。由此可以看出,在實際的數據挖掘中,預處理方式的重要性,要想最大程度上提高工作的效率,必須采用針對性的預處理方式,對目前已有的預處理方式進行總結、分類,根據需要數據的情況,針對性的選擇,如果人員的自身素質較高,還可以設計一個新的預處理方式,以此來最大程度上提高數據挖掘的效率。

5 結束語

通過全文的分析可以知道,隨著近些年計算機和互聯網的普及應用,數據的挖掘、存儲、調用等技術越來越重要,受到特殊的歷史因素影響,我國科技起步較晚,與西方發達國家相比,在數據挖掘等領域中,具有明顯的差異,雖然經過了多年改革開放的發展,這種差距在逐漸的減小,但是很難在短時間內趕上發達國家的技術水平,在這種背景下,要想快速的提高我國數據挖掘預處理技術,必須結合我國數據挖掘的實際情況,借鑒西方國家先進的經驗,完善目前的預處理技術。

參考文獻:

[1]鄭繼剛,謝芳.多媒體圖像挖掘的關聯規則挖掘[J].紅河學院學報,2009(05):44-47.

[2]謝邦昌,李揚.數據挖掘與商業智能的現況及未來發展[J].統計與信息論壇,2008(05):94-96.

[3]林建勤.數據挖掘主要問題的對策研究[J].貴陽學院學報(自然科學版),2007(02):1-4.

[4]陳娜.數據挖掘技術的研究現狀及發展方向[J].電腦與信息技術,2006(01):46-49.

[5]李菁菁,邵培基,黃亦瀟.數據挖掘在中國的現狀和發展研究[J].管理工程學報,2004(03):10-15.

[6]鄭斌祥,杜秀華,席裕庚.一種時序數據的離群數據挖掘新算法[J].控制與決策,2002(03):324-327.

[7]臧洌.人工神經網絡在混沌觀測時序數據處理中的應用[J].數據采集與處理,2001(04):486-489.

篇5

【關鍵詞】數據挖掘;電子商務系統

1.前言

數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學科,融合了人工智能、數據庫技術、模式識別、機器學習、統計學和數據可視化等多個領域的理論和技術,數據挖掘是一個包含多個處理步驟的知識發現過程,其主要內容包括數據清洗、數據集成、數據選擇、數據轉換、數據挖掘、模式評估和知識表達輸出等。

把數據挖掘技術應用到電子商務系統中,開發出基于數據挖掘技術的電子商務系統能夠加深和加強對電子商務系統數據的分析功能,為電子商務企業管理人員提供電子商務的預期信息,從而能很好的保證電子商務網站的運行效果。

現在電子商務系統主要形式B2C,涉及的數據不僅包括客戶在電子商務網站上的交易數據,還包括客戶的注冊信息數據和商品信息等數據。電子商務系統的數據有如下特點:

(1)數據量大;

(2)數據質量差;

(3)數據種類多。

2.電子商務系統功能模塊結構設計

根據B2C電子商務系統設計的目標,管理業務流程,將這個B2C電子商務系統分為:會員注冊管理、會員帳戶管理、商品購買管理、會員管理、商品類別管理、商品管理、優惠券管理、訂單管理、留言板管理、商品評論管理、庫存管理、網站管理和數據挖掘管理等功能模塊(如圖1所示)。

3.數據挖掘管理模塊的設計

B2C電子商務數據挖掘管理模塊主要通過對電子商務企業當前的和歷史的交易數據進行分析。挖掘出其中隱含的知識和從中發現隱含的趨勢和規律。它主要包括數據預處理模塊、數據挖掘模塊和數據挖掘結果顯示模塊。B2C電子商務數據挖掘系統從電子商務運行商品數據庫、客戶信息數據庫和交易數據庫中獲取數據,根據數據挖掘算法的需要進行數據預處理,并建立數據挖掘模型,供電子商務企業的用戶挖掘時使用。用戶只需要輸入簡單的一些參數,系統就會自動的根據已建立的模型輸出預測結果。電子商務挖掘系統體系結構如圖2所示。

3.1 數據預處理模塊

數據挖掘的處理對象是大量的數據,這些數據一般存儲在數據庫系統中,是長期積累的結果。但往往不適合直接在這些數據上面進行挖掘,需要做數據預處理工作,其一般包括數據的選擇、數據清理、數據集成和轉換。數據預處理是否做好將影響數據挖掘的效率和準確度以及最終模式的有效性。這些處理技術在數據挖掘之前使用可以大大提高數據挖掘模式的質量,降低實際挖掘所需要的時間。原始數據通過數據選擇、清理、集成和轉換后生成數據挖掘庫,為下一步的數據挖掘做好準備。

3.2 數據挖掘模塊

數據挖掘的目的是生成可以據其所示的含義采取行動的知識,也就是建立一個現實世界的模型。數據挖掘的本質就是數學建模。在數據挖掘中,可以使用許多不同的模型,如分類模型、回歸模型、時間序列模型、聚類模型和關聯規則模型。針對同一模型,可以使用不同的算法進行數據挖掘。算法的目的就是找到適合于數據的模型。數據挖掘涉及到多步驟、各系統間的交互、特殊解決方案及各步驟間的反復過程。

B2C電子商務網站中商品介紹頁面的擺放就好比商店里的貨架,商品介紹的擺放位置也會影響客戶對商品的購買率。而商品之間的關聯性一般不是很容易看出來的,一般人很難聯想到商品之間的關聯性,只有實際上通過對大量的交易歷史數據的分析,才可以挖掘出它們之間的關聯性。在數據挖掘過程中對關聯產品和服務進行深入挖掘,可以發現其中的關聯規則,利用關聯規則模型進行數據挖掘可以了解客戶的購買行為,這對于改進B2C電子商務商業活動的決策很有幫助。例如,可以通過改進商品介紹位置的擺放(把顧客經常同時買的商品擺放在一起),幫助如何規劃市場(互相搭配進貨)等。而作為B2C電子商務網站。可以針對不同客戶特點動態調整網站結構,使客戶訪問的有關聯的網頁文件的鏈接更加直接,讓客戶更容易訪問到自己想要的東西。這樣的網站更能吸引客戶,提高客戶的忠誠度,提高網站的效益。

B2C電子商務網站網頁主要為顧客展示商品名稱或圖片,為顧客推薦與當前感興趣商品更詳細或相關的網頁是個性化推薦的關鍵。根據客戶的注冊信息和訂單信息,通過回歸模型挖掘可以為不同的用戶提供個性化服務,例如系統可以向客戶顯示那些可能引起客戶感興趣的新商品。

隨著“以客戶為中心”的經營理念不斷深入人心,分析客戶、了解客戶并引導客戶的需求已成為企業經營的重要課題。通過對B2C電子商務系統收集的客戶的交易數據進行聚類模型挖掘,可以確定不同類萬方數據型客戶的行為模式,電子商務企業便可以采取相應的營銷措施,促使企業利潤的最大化。

3.3 數據挖掘結果顯示模塊

數據挖掘結果的顯示模塊是將數據挖掘后得到的知識和結果用可視化形式表示出來,例如采用圖形化界面把挖掘結果顯示給電子商務企業的管理人員。在建立好相關數學模型后,把實際數據作為輸入信息,通過挖掘模型的計算獲得預測結果。B2C電子商務企業要根據不同的挖掘結果做出不同的反應。采取不同的措施,給顧客提供不同的服務,在為顧客服務的同時也為自己的B2C電子商務企業獲取更多的利潤。

4.結論

本文討論了把數據挖掘技術應用于B2C電子商務系統中,并采用J2EE的B/S架構將其實現,系統采用客戶端、中間服務器和后臺數據庫三層架構。利用數據挖掘技術可以提高B2C電子商務企業現代化管理水平方面發揮著積極的作用,它能夠提高B2C電子商務企業對客戶管理和商品管理方面信息的準確性和及時性,可以幫助B2C電子商務企業網站的開發人員及時、全面了解B2C電子商務企業網站運營情況和合理安排網頁的頁面布局,為不同瀏覽習慣的顧客提供個性化服務,為各項具體工作提供技術、信息支持;有效地減少各種失誤并保證B2C電子商務企業網站的各項任務保質保量、按計劃完成,從而提高電子商務企業網站的運作效率。

參考文獻

[1]朱明.數據挖掘[M].合肥:中國科學技術大學出版杜(第2版),2008.

[2]寰方,王煜,等.PaoloGiudici.實用數據挖掘[M].北京:電子工業出版,2004.

[3]廖芹,郝志峰.數據挖掘與數學建模[M].北京:國防工業出版社,2010.

篇6

1.1數據電子化

要讓數據電子化,首先要搭建適用的網絡平臺,網絡平臺的搭建分為2個過程。如果需要收集數據,則需要搭建一個面向對象的網絡平臺。在對大學生社會體系和人際關系的研究中,采用的是在WEB上自動收集量表數據,首先將量表轉換為匯編語言編寫的網頁,再采用將量表轉換后的電子版網頁與數據庫中的表相連接,這樣,只要被試登錄指定網站,就可以在網上完成量表的填寫,數據則直接存入數據庫中。數據庫管理系統使用的是SQLServer2000,在網絡成癮和注意關系偏向的研究中,也采用了同樣的方法。如果對現有的數據進行分析,則可以略過數據收集這個步驟,直接將數據輸入數據處理軟件中。在對于青少年同伴關系的研究中,創建了一個數據倉庫來存放現有數據,選用SQLServer2000作為數據倉庫的構建平臺。由于青少年同伴關系的研究中的維度不是太多,維度層次也不復雜,出于對查詢效率和使用者是否容易理解的角度考慮,決定使用星型結構來創建數據倉庫,青少年同伴關系研究的星型結構。最后一種方法是直接將數據輸入SPSS中,這種方法這樣需要大量人力物力,而且效率難以提高,存在誤錄的可能。

1.2數據挖掘分析

將數據轉換為需要的電子文本格式以后,進行簡單的數據處理。在剔除了部分缺失或者明顯錯誤的數據后,就可以進行數據挖掘工作了。數據挖掘的常用算法為關聯規則挖掘、決策樹算法和聚類挖掘算法。在此選用關聯規則挖掘算法做詳細說明,在大學生社會網絡和人際關系研究中,選取被試人際關系滿意度為例進行關聯規則挖掘。表1被試人際關系滿意度關聯規則挖掘關聯規則挖掘的步驟如下:

①選擇數據根據關聯規則挖掘的目標,選擇如上表所示的屬性,通過下面的sql語句選擇數據,并將jibenxinxi表和zongjie表通過學號連接起來。select性別,是否獨生子女,你對自己的人際關系滿意嗎,你對自己與父母的關系滿意嗎,你對自己與同伴的關系滿意嗎,你對自己與老師的關系滿意嗎,你認為比較了解你的人會對你的人際關系給出一個怎樣的評價,你對自己人際關系的關注程度fromjibenxinxia,zongjiebwherea.學號=b.學號;

②保存選擇的數據:首先將第一步選擇的數據插入到一張表中,sql語句如下:insertintoguanlianguize1select性別,是否獨生子女,你對自己的人際關系滿意嗎,你對自己與父母的關系滿意嗎,你對自己與同伴的關系滿意嗎,你對自己與老師的關系滿意嗎,你認為比較了解你的人會對你的人際關系給出一個怎樣的評價,你對自己人際關系的關注程度fromjibenxinxia,zongjiebwherea.學號=b.學號;

③構造滿足關聯規則挖掘的事務數據庫在guanlianguize1表中增加一個屬性item,通過下面的sql語句給item賦值。注意各屬性的數據挖掘映射代碼如上表所示。新建表social_guanlian_1作為數據挖掘的事務數據庫,導入item。Insertintosocial_guanlian_1(item)selectitemfromguanlianguize1以上關聯規則挖掘的結果,結果表明:對自己圖人際關系評價較高的大學生,同時對自己人際關系的滿意度也較高。對自己人際關系評價較低的大學生,同時對自己人際關系的滿意度也較低。對人際關系關注程度較低的同學,人際關系滿意度也較低。這些數據之間是互相有關聯的,因此呼吁大學生多關注人際關系和人際交往的法則,有利于他們及早的認識到自己在人際交往方面的不足,為以后步入社會,創造更大的社會價值打好基礎。除此以外,對于教育學中的很多課題,例如青少年同伴關系的研究,網絡成癮與注意偏向關系的研究,學生成績的分析等等都可以用數據挖掘來進行科學的數據分析,數據挖掘技術在教育學領域正發揮著越來越大的作用。

2結束語

篇7

關鍵詞:數據挖掘;計算智能;應用領域

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)03-0016-03

數據挖掘技術在當前是人工智能和數據庫研究的熱點問題,它是一門涉及面比較廣的學科,應用范圍非常廣泛。通常大家都比較清楚的是,人們可以用數據庫進行數據的存儲,還能夠借助計算機等工具進行數據的分析以及從大量數據中搜尋有用的知識,正是基于二者的結合才促成了數據挖掘技術的誕生。在當前日益激增的信息量中,傳統的搜索技術顯然不能滿足,通過數據挖掘技術,在海量的數據庫中提取有用的信息,以供人們使用,更加符合現實的需求。此外,數據挖掘技術能夠被廣泛應用于銷售、金融等多個領域,極大地推動了信息技術的發展以及現代化進程。

1 數據挖掘技術概述

1.1數據挖掘技術的產生

隨著科技的進步以及網絡技術的發展,計算機從硬件到軟件都有著極大的進步。隨著數據信息的迅猛增加,數據庫技術現在被廣泛用于各行各業之中,但是如果利用數據庫中的信息,利用其隱藏的信息價值,獲取更大的收益,成為技術工作者不斷探究的新課題。雖然信息數據迅猛增長,但是現有的數據分析工具卻無法實現在海量的數據中搜尋有用的信息,為決策者提供有價值的數據作出正確的決策和發展預測。為了解決此問題,數據挖掘技術便開始發展起來。在當前全球海量的數據資源以及各行各業巨大的需求,再加上技術工作者的不斷努力,數據挖掘技術的發展取得了巨大的成就,并被廣泛應用于商業管理、控制、分析、設計等領域。

20世紀60年代,數據庫技術從基本的文件處理發展為數據庫系統;70年代,關系數據庫系統、數據建模工具等迅速發展起來;80年代中期開始,關系數據庫被普遍采用,促進了新型數據庫系統等發展。但是,隨著數據庫系統等不斷發展,海量的數據成為數據庫的負累,如何從其中搜尋有用的數據已經成為非常困難的事,在不借助任何工具等情況下,人類已經無法進行數據的處理和分析,這樣不斷地存儲數據就像“墓地”,不能被人們利用,決策者不能從中提取有價值的數據進行決策的制定和發展的預測[1]。在此種背景下,數據挖掘技術便開始發展起來,并取得巨大的成就,現在人們已經能夠利用數據挖掘技術挖掘數據庫中有用的信息,幫助人們實現信息的利用和財富的轉化。

1.2 數據挖掘技術的概念

當前,隨著科技的發展和互聯網技術的發展,數據庫中各種信息不斷增多,數據庫技術也隨之進步。雖然數據庫管理系統被運用于各個行業,但因信息量的劇增,使得數據庫管理系統從中提取信息的難度非常大。許多重要的信息都包含在海量的數據里面,需要我們將它們從中提取出來,利用這些數據發揮更大的作用,創造出更多的價值,獲取更大的利益。而將這些信息從海量的數據庫中提取出來的技術,通常叫做數據挖掘技術[2]。

數據挖掘技術是從海量數據庫中搜索并挖掘有用信息的一種技術,幫助企業或個人通過數據之間的聯系和不容易引起注意的信息,作出正確的決策,并且通過挖掘的信息進行預測發展趨勢。數據挖掘技術能夠利用信息發現未知的東西,與先假設再驗證的數據處理技術不同,數據挖掘技術顯然更加真實準備,更加能夠被廣泛采用。目前,數據挖掘技術越來越被各行各業重視并運用,在未來也有巨大的發展前景。

1.3 數據挖掘技術的功能

數據挖掘技術的功能非常強大,能夠使用此技術在數據挖掘任務中尋找需要的信息。一般數據挖掘的任務分為描述和預測:簡單在數據庫中搜尋數據反映數據的一般特性即為描述;利用數據信息進行推算,進行預測即為預測。當前,數據挖掘技術的功能有以下幾種:

1)概念或者類描述

數據一般是與概念或者類聯系著的。能夠用總結的、簡單的、正確的方法進行概念或者類的描述就被稱為概念或類描述。通過此種描述方法能夠知道:一是任務數據的特征或者整體數據的特征,二是能夠將任務數據的特征與其他數據進行特征的對比,三是能夠利用前述二者進行概念或者類描述。

2)關聯分析

數據挖掘技術通過關聯分析能夠發現數據之間的關聯規則。這些規則比較固定地展示了數據之間的聯系。數據挖掘技術的這項功能在事務數據分析中應用較多。

3)分類和預測

分類是指在任務數據中找出不同類或者概念的數據,而后利用分類進行預測還沒有被發現的信息。預測是給建立一個模型來對不知道的數據進行預測或者給定一個數值區間,進行任務數據的預測。分類與預測的不同之處為:分類是利用分散的數值進行預測;而預測是利用連續數值進行預測。

4)聚類分析

聚類就是將任務數據進行同類的聚集,這些任務數據中有著非常高的相同點,但是不同聚類之間的差異非常大。與分類大區別在于,聚類是進行未知數據的類別。通過聚類,而后進行數據的分析預測。

5)孤立點分析

孤立點一般是度量或者系統執行失誤造成的,也有固定數值突變產生的孤立點。目前,很多數據挖掘技術希望通過孤立點分析將其影響變為最小。不過,一單操作很容易使重要信息損壞或者丟失,畢竟孤立點是非常重要的。

6)演變分析

數據不是固定不變的,而是會不斷地進行變化,利用數據挖掘技術進行任務數據演變分析,對其規律或者趨勢進行預測。演變分析包括對數據的時間序列、周期進行分析或者類似性地數據分析。

2 數據挖掘技術的分類

數據挖掘技術的分類能夠根據發現知識的種類、挖掘的數據庫種類、采用的技術等方法進行分類。根據采用的技術進行分類,則主要有七種。

2.1規則歸納

規則歸納就是利用設定的統計方法進行歸納對挖掘者有用的規則,關聯規則挖掘就是其中的一種。

2.2決策樹方法

所謂決策樹方法就是建立樹狀模型進行決策集合。利用已有信息挖掘數據庫中重要的有價值的信息,構建支點,再根據數據的不同取值進行分支構造,最后通過分析形成整個的決策樹。決策者可以根據此決策樹進行決策的制定或者預測發展趨勢。

2.3人工神經網絡

人工神經網絡的應用比較多,主要是模擬人腦進行數據的分析,建立非線性預測模型,從而完成分類、聚類等多種任務。

2.4遺傳算法

遺傳算法是模擬生物進化過程的算法。它是通過將一個問題分解為多個個體,然后在每個個體上進行取值,從而完成信息搜索、任務挖掘。

2.5模糊技術

顧名思義,模糊技術即是利用模糊集合理論對實際問題進行預測、推斷等。一般來說,數據庫數據具有模糊性,通過大概的數值估計,利用期望值、隨機值進行組合,使得信息挖掘能夠定性定量的轉換。

2.6粗集方法

1982年,Pawlak(波蘭)提出的數據分析方法。粗集方法是利用等價思想將數據分散,然后利用屬性的等價進行集合,形成決策集合。

2.7可視化技術

可視化技術即是利用最直觀的圖形方法把數據庫信息、數據的關聯等呈現出來,決策者能夠直觀地通過圖形進行發展趨勢的預測,作出正確的決策。

3基于計算智能的數據挖掘技術的具體技術探究

3.1關聯規則的挖掘

關聯規則挖掘是關聯分析中的一種數據挖掘技術,利用數據庫中海量的數據進行有用信息間的聯系的挖掘。當前關聯規則的挖掘已經取得巨大的成就,當前,關聯規則的挖掘技術有:1)多循環方式多挖掘算法,它是基本算法,包括AIS、DHP算法、分割算法等;2)并行挖掘算法,包括CD 算法、CaD算法、DD算法等;3)增量式更新算法,主要是在數據庫增加紀錄后關聯規則的挖掘算法,包括FUP、IUA、PIUA、NEWIUA算法等;4)基于約束條件的關聯規則挖掘,就是為了發現更多、有用、特別的關聯規則;5)挖掘多值屬性關聯規則,包括擴展布爾屬性的關聯規則算法、K度完全方法等 [3]。

3.2分類規則的挖掘

分類規則的挖掘就是在已有數據的基礎上建立分類模型,利用該模型將數據庫中的數據映射到分類中,從而進行數據預測。分類模型的構造方法有許多種,通常有決策樹法、神經網絡算法等。由于分類模型等正確率與數據、屬性等因素有關,因此在進行分類評估時需要采用以下方法:一是保留方法,將數據庫中的一部分數據保留,其他的用于數據分析評估;二是交叉糾錯方法,即是將分類中有重復的數據進行提取,而后進行測試,提高評估正確率[4]。

3.3聚類分析

聚類分析就是將特征相似的數據進行歸類,建立成一個集合。再聚類之時要保證數據相似性最大,而不同類別的數據相似性要最小。這些數據的特性在事前并不清楚,聚類分析就是要通過將數據進行歸類在進行分析,發現有價值的信息。聚類算法一般包括基于概率的聚類算法以及基于距離的聚類算法兩種。在實際應用中,基于概率的聚類算法因效率低下而采用較少,基于距離的聚類算法因效率高被廣泛采用。通過聚類分析,對數據進行挖掘分析,能夠更加準確地獲得更多地具有價值的信息,為決策者作出決策或者作出發展預測提供更加有力的數據支持。

3.4離群數據挖掘

離群數據就是指那些明顯跟其他數據不同的數據類型。離群數據的挖掘時數據挖掘技術中非常重要的內容,它通過發現離群數據與其他數據的區別,獲取比一般數據更有價值的信息。一般離群數據主要有以下發現方法:一是基于統計,即在已知的數據上進行離群數據的挖掘;二是基于距離,即通過計算數據間的距離進行離群數據的挖掘;三是基于偏離,即在事前知道數據的特性前提下對數據進行檢測發現離群數據;四是基于規則,即是根據已有規則發現明顯不同規則的離群數據;五是離群數據發現的多策略方法,即是對數據進行聚類,進行子集的劃分,再根據觀察發現明顯不同的離群數據。

4數據挖掘技術的應用領域

隨著數據挖掘技術的不斷發展,各行各業越來越意識到數據挖掘技術的巨大優勢,因此其應用前景非常廣泛。數據挖掘技術的應用主要在以下領域:

4.1科學研究領域

科學技術領域需要運用各種最新技術,利用最新技術進行科學領域的研究。隨著科學數據收集工具的運用,各種科學研究收集到了海量的數據,但是顯然依靠人力或者傳統的數據分析工具是不能夠應付的,因此必須要使用一種能夠從海量數據中自動搜尋分析提取的工具。正是科學技術領域的需求,推動了數據挖掘技術的發展以及在科學技術領域的應用,并為科學研究領域作出了巨大的貢獻。比如,在遺傳研究領域,涉及DNA的數據非常多,而且DNA的組合、順序等更不相同,如果想要從中找出致人疾病的基因組,依靠人力進行數據的排練組合顯然是不可能的,所以必須采用數據挖掘工具,對不同的基因組進行分析,剔除無害的基因組,選擇出有害的基因組,然后工作人員再根據提取的數據進行分析[5]。此外,數據挖掘技術還能運用于對歷史發展規律的預測、對人類行為規律的預測等等。

4.2商業零售業

眾所周知,零售業有著大量的數據,從進貨到銷售,都有大量的數據,尤其是隨著電子商業的發展,數據量也劇增,而處理這些數據就需要依靠數據挖掘技術。通過數據挖掘技術,對銷售數據進行分析,就能夠知道什么商品受到顧客喜愛,銷售得最快,而后有針對性地進貨[6]。利用數據挖掘技術進行分析,就能夠通過數據分析,制定有效銷售措施,獲取最大的利益。

篇8

關鍵詞:網絡安全;入侵檢測;數據挖掘

中圖分類號:TP311 文獻標識碼:A文章編號:1007-9599 (2011) 08-0000-01

Research of Intrusion Detection Technology Based on Data Mining

Zhao Nan,Feng Jianlin

(College of Computer and Information Engineering,Lishui University,Lishui323000,China)

Abstract:Based on the characteristics of intrusion detection system(IDS)and the IDS data mining technology,the design of data mining-based IDS model,is to overcome high rate of a general intrusion detection system false alarm.First of all,the model training data extract from the rules,and then use these rules to detect new incursions.The experimental results show that the use of data mining to intrusion detection system is effective,rules updating and system updating faster and cheaper,detection rate higher.

Keywords:Network security;Intrusion detection;Data mining

目前大部分入侵檢測采用特征檢測的方法,它們由安全專家預先定義出一系列特征模式(此處的特征模

式含義比較窄,如表達式、字節匹配或“特征字符串”,與后面提到的規則不同),用來識別入侵,同時,入侵檢測系統需要不斷更新自己的模式庫以跟上入侵技術發展的步伐,僅僅采用這種入侵檢測方法將會帶來很多缺陷。

基于數據挖掘的入侵檢測技術可以自動地從訓練數據中提取出可用于入侵檢測的知識和模式經過綜合地分析比較,基于數據挖掘的入侵檢測系統有以下幾點優勢:智能性好、檢測效率高、自適應能力強和誤警率低。

一、入侵檢測技術簡介

入侵檢測是對網絡系統的運行狀態進行監視,發現各種攻擊企圖、攻擊行為或者攻擊結果,以保證系統資源的機密性、完整性與可用性。入侵檢測系統是從多種計算機系統及網絡中搜集信息,再從這些信息中分析入侵及誤用特征。入侵是由系統外部發起的攻擊。誤用是由系統內部發起的攻擊。所有的IDS的本質都是基于分析一系列離散的、按先后順序發生的事件,這些事件用于誤用模式進行匹配,入侵檢測源都是連續的紀錄,他們反映了特定的操作,間接反映了運轉狀態。IDS一般包括三部分:信息的搜集和預處理、入侵檢測分析引擎以及響應和恢復系統[1]。

絕大多數入侵檢測系統的處理效率低下,不能滿足大規模和高帶寬網絡的安全防護要求。目前使用的主要檢測方法是將審計事件同特征庫中的特征匹配,但現在的特征庫組織簡單。導致的漏報率和誤報率較高,很難實現對分布式、協同式攻擊等復雜攻擊手段的準確檢測;此外,預測能力嚴重受限于攻擊特征庫,缺乏對未知入侵的預測能力。

二、數據挖掘技術簡介

數據挖掘是從海量的數據中提取或“挖掘”知識,這些數據可以存放在數據庫、數據倉庫或其他信息存儲中[2]。于數據挖掘是一門受到來自各種不同領域的研究者關注的交叉性學科,因此導致了很多不同的術語名稱。數據挖掘是針對特定應用的數據分析處理過程,如何選擇輸入數據、變換數據集對應的挖掘算法,取決于具體的數據挖掘目標,即期望從數據中發掘出什么知識。數據挖掘可粗略地理解為三步:數據準備、數據挖掘,以及結果的解釋評估。

三、基于數據挖掘的入侵檢測系統

數據挖掘是從海量數據中提取隱含的、以前不知道的、有潛在作用的信息。它利用統計與可視化技術以易于理解的形式發現并表現信息。在入侵檢測中,數據挖掘被定義為處理大量在中央位置收集得到的數據,從而察看其規則模式?;跀祿诰虻娜肭謾z測系統(DMIDS)是從訓練數據中得到規則模式,用于實時的入侵檢測系統中的入侵檢測。

基于數據挖掘的入侵檢測技術可以自動地從訓練數據中提取出可用于入侵檢測的知識和模式經過綜合地分析比較,基于數據挖掘的入侵檢測系統有以下幾點優勢:智能性好、檢測效率高、自適應能力強、誤警率低[3]。

基于數據挖掘的入侵檢測系統原理,DMIDS總體分為兩部分:

第一部分是數據挖掘部分,主要采用數據挖掘技術來得出規則庫,為后續的檢測提供依據;其中包括:訓練數據,數據挖掘模塊和規則庫,

第二部分為入侵檢測部分,實時采集數據,處理數據,然后和規則庫進行比較,判斷當前用戶的操作是否合法,并相應的作為響應或恢復機制。該部分主要擁有以下模塊:

數據挖掘模塊。數據挖掘技術是一種決策支持過程,它主要基于AI,機器學習統計等技術,它能高度自動化地分析原有的數據,做出歸納性的推理,從中挖掘出潛在的模式,預測出客戶的行為。

數據挖掘模塊的主要作用就是從訓練數據中挖掘正常和異常行為規則,構建規則庫,對于不同性質的數據源,這里要求采用不同的數據挖掘算法來發現其中的隱含規律。

DM的技術基礎是人工智能,它利用了人工智能的一些已經成熟的算法和技術,例如:人工神經網絡、遺傳算法。決策樹、鄰近搜索算法、規則推理、模糊邏輯等DM系統問題利用的技術越多,得出的結果精確性就越高。這主要取決于問題的類型以及數據的類型和規模。

四、結論

由于入侵檢測系統本身應用的特殊性,要求它具有準確性、全局性、可擴展性、可伸縮性以及環境適應性和本身的健壯性。本文對基于數據挖掘的入侵檢測系統的信息提取技術作了較全面的研究和介紹,重點研究了啟發式的聚類數據挖掘算法,并對其中涉及到的概化分層和聚類算法和關聯算法,分類算法等進行了介紹。

參考文獻:

[1]孫鑫鴿,趙躍龍.基于數據挖掘的分布式入侵檢測系統[J].電子技術應用,2008,3:126-130

推薦期刊
九九热国产视频精品,免费国产不卡一级αⅴ片,欧美日韩蜜桃在线播放,精品国内自产拍99在线观看
亚洲中文字幕乱码专区 | 中文字幕日产乱码一区 | 亚洲欧美日韩国产综合网 | 日韩在线精品一二三区 | 在线看片国产的免费的 | 欧洲一区二区免费视频在线观看网站 |