時間:2022-10-04 17:03:28
緒論:在尋找寫作靈感嗎?愛發(fā)表網(wǎng)為您精選了8篇關(guān)系數(shù)據(jù)庫,愿這些內(nèi)容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!
(白城師范學院計算機科學學院,吉林白城137000)
【摘要】關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是作為三種獨立的信息技術(shù)出現(xiàn)的,是數(shù)據(jù)庫研究、開發(fā)和應(yīng)用最活躍的分支之一,通過對三種技術(shù)的內(nèi)在聯(lián)系性和互補性分析,從而更好的使用數(shù)據(jù)庫技術(shù)處理各種信息需求,建立更加完善的數(shù)據(jù)庫應(yīng)用系統(tǒng)或新的決策系統(tǒng)。
關(guān)鍵詞 關(guān)系數(shù)據(jù)庫;數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;關(guān)
0引言
關(guān)系數(shù)據(jù)庫是20世紀70年代初提出來,經(jīng)過數(shù)據(jù)庫專家?guī)资甑呐Γ碚摵蛯嵺`都取得了顯著成果,標志著數(shù)據(jù)庫技術(shù)的日益成熟。但它仍然難以實現(xiàn)對關(guān)系數(shù)據(jù)庫中數(shù)據(jù)的分析,不能很好地支持決策,因此在80年代,產(chǎn)生了數(shù)據(jù)倉庫的思想,90年代,數(shù)據(jù)倉庫的基本原理、架構(gòu)形式和使用原則都已確定。主要技術(shù)包括對數(shù)據(jù)庫中數(shù)據(jù)訪問、網(wǎng)絡(luò)、C/S結(jié)構(gòu)和圖形界面,一些大公司已經(jīng)開始構(gòu)建數(shù)據(jù)倉庫。針對數(shù)據(jù)倉庫中迅速增長的海量數(shù)據(jù)的收集、存放,用人力已經(jīng)不能解決,那么數(shù)據(jù)倉庫中有用的知識的提取就需要數(shù)據(jù)挖掘來實現(xiàn)。數(shù)據(jù)挖掘與統(tǒng)計學子領(lǐng)域“試探性數(shù)據(jù)分析”及人工智能子領(lǐng)域“知識發(fā)現(xiàn)”和機器學有關(guān),是一門綜合性的技術(shù)學科。了解關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘三者之間的區(qū)別與聯(lián)系,使之更好的使用這3種技術(shù),處理各種信息需求是非常必要和重要的。
1關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘之間的關(guān)系
1.1關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫之間的聯(lián)系與區(qū)別
關(guān)系數(shù)據(jù)庫是面向事務(wù)的設(shè)計,數(shù)據(jù)倉庫是一個面向主題的設(shè)計;關(guān)系數(shù)據(jù)庫存儲在線事務(wù)數(shù)據(jù),數(shù)據(jù)倉庫通常存儲歷史數(shù)據(jù),關(guān)系數(shù)據(jù)庫的設(shè)計將盡量避免冗余,但數(shù)據(jù)倉庫是傾向于引入冗余;關(guān)系數(shù)據(jù)庫設(shè)計用于捕獲數(shù)據(jù),數(shù)據(jù)倉庫設(shè)計用于分析數(shù)據(jù)。傳統(tǒng)的關(guān)系數(shù)據(jù)庫面向以事務(wù)處理為主的系統(tǒng)應(yīng)用,所以它無法滿足決策支持系統(tǒng)的分析要求。事務(wù)處理和分析處理有非常不同的性質(zhì),他們有不同的需求數(shù)據(jù)。
1.2數(shù)據(jù)倉庫與數(shù)據(jù)挖掘之間的聯(lián)系與區(qū)別
數(shù)據(jù)挖掘是基于數(shù)據(jù)倉庫和多維數(shù)據(jù)庫中的數(shù)據(jù),找到數(shù)據(jù)的潛在模式進行預測,它可以對數(shù)據(jù)進行復雜處理。大多數(shù)情況下,數(shù)據(jù)挖掘是讓數(shù)據(jù)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)庫中。從數(shù)據(jù)倉庫中直接得到進行數(shù)據(jù)挖掘的數(shù)據(jù)有許多優(yōu)點,因為數(shù)據(jù)倉庫中數(shù)據(jù)的清理和數(shù)據(jù)挖掘中幾乎是相同的,如果數(shù)據(jù)在數(shù)據(jù)倉庫中已被清除,數(shù)據(jù)挖掘中不再被清除,并且數(shù)據(jù)不一致也得到了解決。數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的先期步驟,通過數(shù)據(jù)倉庫的構(gòu)建,提高了數(shù)據(jù)挖掘的效率和能力,保證了數(shù)據(jù)挖掘中的數(shù)據(jù)的寬廣性和完整性。
1.3關(guān)系數(shù)據(jù)庫與數(shù)據(jù)挖掘之間的聯(lián)系與區(qū)別
數(shù)據(jù)挖掘的數(shù)據(jù)源不一定是數(shù)據(jù)倉庫。也可以是一個關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),但要事先進行數(shù)據(jù)預處理,才能用于數(shù)據(jù)挖掘。數(shù)據(jù)預處理是數(shù)據(jù)挖掘的關(guān)鍵步驟,并且是數(shù)據(jù)挖掘過程中的主要工作部分。因此,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘沒有必然的聯(lián)系,有些人簡單地認為,數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的準備,這種理解是不全面的,也可以使用關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)作為數(shù)據(jù)挖掘的數(shù)據(jù)源。
2三種技術(shù)的應(yīng)用
2.1應(yīng)用價值
2.1.1關(guān)系數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫的主要價值體現(xiàn)在事務(wù)處理。關(guān)系數(shù)據(jù)庫已經(jīng)滲透到各行各業(yè)的日常事務(wù),該事務(wù)管理離不開關(guān)系數(shù)據(jù)庫的應(yīng)用系統(tǒng),這是對傳統(tǒng)事務(wù)管理的一個重大突破,是社會甚至家庭不可或缺的工具,它對社會的應(yīng)用價值是100%。
2.1.2數(shù)據(jù)倉庫
數(shù)據(jù)倉庫的主要價值體現(xiàn)在為決策分析提供數(shù)據(jù)源。一方面,在一個事務(wù)中,用戶要求高效的訪問系統(tǒng)和數(shù)據(jù)庫,操作時間應(yīng)該短。在一個決策分析中,決策問題的一些請求可能會導致系統(tǒng)的操作,解決這一問題的決策分析需要遍歷大多數(shù)數(shù)據(jù)庫中的數(shù)據(jù),這對一般日常事務(wù)處理系統(tǒng)是困難的,所以操作數(shù)據(jù)和決策分析數(shù)據(jù)應(yīng)該分開。另一方面,決策數(shù)據(jù)需求問題。在決策分析時,由于不同的應(yīng)用系統(tǒng)中,實體、字段存在數(shù)據(jù)類型、名稱和格式的不符,需要在集成時進行轉(zhuǎn)換,這個轉(zhuǎn)換必須在決策之前完成;一些決策數(shù)據(jù)需要動態(tài)更新,需要經(jīng)常進行匯總和總結(jié),這些需求用事務(wù)處理系統(tǒng)解決比較繁瑣。三是數(shù)據(jù)的操作模式問題。決策分析人員要以專業(yè)用戶身份,使用各種工具以各種形式來操作數(shù)據(jù),對數(shù)據(jù)操作的結(jié)果以商業(yè)智能的方式表達出來。事務(wù)處理系統(tǒng)不能滿足這一要求,只有數(shù)據(jù)倉庫系統(tǒng)能夠滿足數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)環(huán)境的要求,所以使用數(shù)據(jù)倉庫中的數(shù)據(jù)省去了對數(shù)據(jù)預處理的步驟。
2.1.3數(shù)據(jù)挖掘
面對日益激烈的市場競爭,客戶對迅速應(yīng)答各種業(yè)務(wù)問題的能力要求越來越高,對過量數(shù)據(jù)的及時處理要求越來越高,帶來的挑戰(zhàn)一方面大規(guī)模、復雜數(shù)據(jù)系統(tǒng)讓用戶感覺漫無頭緒,無法開始;另一方面,這些大量數(shù)據(jù)背后隱藏很多有意義的有價值的決策信息。如計算機界都熟知的“啤酒與尿布”的故事,就是零售業(yè)巨頭“沃爾瑪”從大量銷售數(shù)據(jù)中分析出來的規(guī)律:美國的男士在下班要去超市買嬰兒尿布,同時他們還會買啤酒。“沃爾瑪”就把這兩種“毫不相干”的商品擺放在靠近的貨架上,并且還擺放一些下灑小菜,使這些商品銷量大增。所以應(yīng)用數(shù)據(jù)挖掘從大量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,具有具體的指導意義。
2.2應(yīng)用領(lǐng)域
2.2.1關(guān)系數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫應(yīng)用領(lǐng)域非常廣泛,如:證券行業(yè)、醫(yī)院、銀行、銷售部門、公司或企業(yè),以及政府、國防工業(yè),科學和技術(shù)發(fā)展領(lǐng)域等等,這些領(lǐng)域都需要使用數(shù)據(jù)庫來存儲數(shù)據(jù)。例如:人事管理系統(tǒng)、工資管理系統(tǒng),xxx部門信息管理系統(tǒng),手機話費管理系統(tǒng)等,都需要關(guān)系數(shù)據(jù)庫作為后臺提供數(shù)據(jù)源。
2.2.2數(shù)據(jù)倉庫
數(shù)據(jù)倉庫應(yīng)用領(lǐng)域主要有兩個方面:一是全局應(yīng)用。因為數(shù)據(jù)倉庫獲得來自多方面的數(shù)據(jù),所以在把數(shù)據(jù)向數(shù)據(jù)倉庫輸入時,要進行轉(zhuǎn)換、計算和綜合等集成處理。通過處理把來自不同地方的數(shù)據(jù)源轉(zhuǎn)換成統(tǒng)一的格式,以促進全局應(yīng)用。二是復雜系統(tǒng)。信息處理的要求越來越復雜,除了數(shù)據(jù)處理操作,如添加、刪除、修改、和統(tǒng)計匯總,高級管理層也希望對歷史的和現(xiàn)在的數(shù)據(jù)進行各種復雜性分析,以支持決策。數(shù)據(jù)倉庫中就是存儲了舊的歷史數(shù)據(jù),方便復雜分析、應(yīng)用,為高層決策服務(wù)。
2.2.3數(shù)據(jù)挖掘
數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域主要表現(xiàn)在特定應(yīng)用問題和應(yīng)用背景。數(shù)據(jù)挖掘技術(shù)已經(jīng)應(yīng)用于各行各業(yè),如電信,保險,交通,學校、銀行、超級市場等。例如:數(shù)據(jù)挖掘技術(shù)應(yīng)用在大學。高校擴招,學生增加到幾萬人,但是學生的學習積極性不高,成績不好,因此引入數(shù)據(jù)挖掘技術(shù)找出影響學生學習積極性和學習成績的原因,制定措施,提高教育和教學質(zhì)量。分析的數(shù)據(jù)源是考試成績和成績之外的影響因素,分析的方法是采用關(guān)聯(lián)規(guī)則、模型庫、去“噪”處理、粗糙集等進行數(shù)據(jù)挖掘,得出的結(jié)論是:傳統(tǒng)的學習方法不能完全滿足需要,改進教學方法和教學模式,從而調(diào)動學生學習的積極性,提高教學質(zhì)量。
3關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的融合
日常事務(wù)處理需要關(guān)系數(shù)據(jù)庫,構(gòu)建分析處理(下轉(zhuǎn)第318頁)(上接第59頁)環(huán)境需要數(shù)據(jù)倉庫,幫助決策者尋找數(shù)據(jù)之間的潛在的關(guān)聯(lián)需要數(shù)據(jù)挖掘。他們之間是相互聯(lián)系又有區(qū)別的,不能互相取代的,又需要相互融合。數(shù)據(jù)倉庫中的數(shù)據(jù)并不是最新的,專有的,而是來源于其他關(guān)系數(shù)據(jù)庫,它是建立在一個更全面和完善的信息應(yīng)用的基礎(chǔ)上,用于支持高層決策分析的數(shù)據(jù)基地。數(shù)據(jù)倉庫是數(shù)據(jù)庫新技術(shù),到目前為止,數(shù)據(jù)倉庫仍用關(guān)系數(shù)據(jù)庫管理系統(tǒng)管理數(shù)據(jù)。數(shù)據(jù)挖掘是從大量存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中發(fā)現(xiàn)有趣知識的過程。只有這三個數(shù)據(jù)庫技術(shù)互相融合,取長補短,各盡其責,才能更好的為廣大用戶所使用,為社會各個領(lǐng)域所應(yīng)用。
參考文獻
[1]華冠萍.數(shù)據(jù)倉庫、數(shù)據(jù)挖掘及OLAP之兩兩關(guān)系[J].福建電腦,2007,8.
[2]牛承珍.馬季蘭.淺談數(shù)據(jù)挖掘應(yīng)用[J].山西科,2008.5.20.
【關(guān)鍵詞】關(guān)系數(shù)據(jù)庫;數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;關(guān)系
0 引言
關(guān)系數(shù)據(jù)庫是20世紀70年代初提出來,經(jīng)過數(shù)據(jù)庫專家?guī)资甑呐Γ碚摵蛯嵺`都取得了顯著成果,標志著數(shù)據(jù)庫技術(shù)的日益成熟。但它仍然難以實現(xiàn)對關(guān)系數(shù)據(jù)庫中數(shù)據(jù)的分析,不能很好地支持決策,因此在80年代,產(chǎn)生了數(shù)據(jù)倉庫的思想,90年代,數(shù)據(jù)倉庫的基本原理、架構(gòu)形式和使用原則都已確定。主要技術(shù)包括對數(shù)據(jù)庫中數(shù)據(jù)訪問、網(wǎng)絡(luò)、C / S結(jié)構(gòu)和圖形界面,一些大公司已經(jīng)開始構(gòu)建數(shù)據(jù)倉庫。針對數(shù)據(jù)倉庫中迅速增長的海量數(shù)據(jù)的收集、存放,用人力已經(jīng)不能解決,那么數(shù)據(jù)倉庫中有用的知識的提取就需要數(shù)據(jù)挖掘來實現(xiàn)。數(shù)據(jù)挖掘與統(tǒng)計學子領(lǐng)域“試探性數(shù)據(jù)分析”及人工智能子領(lǐng)域“知識發(fā)現(xiàn)”和機器學有關(guān),是一門綜合性的技術(shù)學科。了解關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘三者之間的區(qū)別與聯(lián)系,使之更好的使用這3種技術(shù),處理各種信息需求是非常必要和重要的。
1 關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘之間的關(guān)系
1.1 關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫之間的聯(lián)系與區(qū)別
關(guān)系數(shù)據(jù)庫是面向事務(wù)的設(shè)計,數(shù)據(jù)倉庫是一個面向主題的設(shè)計;關(guān)系數(shù)據(jù)庫存儲在線事務(wù)數(shù)據(jù),數(shù)據(jù)倉庫通常存儲歷史數(shù)據(jù),關(guān)系數(shù)據(jù)庫的設(shè)計將盡量避免冗余,但數(shù)據(jù)倉庫是傾向于引入冗余;關(guān)系數(shù)據(jù)庫設(shè)計用于捕獲數(shù)據(jù),數(shù)據(jù)倉庫設(shè)計用于分析數(shù)據(jù)。傳統(tǒng)的關(guān)系數(shù)據(jù)庫面向以事務(wù)處理為主的系統(tǒng)應(yīng)用,所以它無法滿足決策支持系統(tǒng)的分析要求。事務(wù)處理和分析處理有非常不同的性質(zhì),他們有不同的需求數(shù)據(jù)。
1.2 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘之間的聯(lián)系與區(qū)別
數(shù)據(jù)挖掘是基于數(shù)據(jù)倉庫和多維數(shù)據(jù)庫中的數(shù)據(jù),找到數(shù)據(jù)的潛在模式進行預測,它可以對數(shù)據(jù)進行復雜處理。大多數(shù)情況下,數(shù)據(jù)挖掘是讓數(shù)據(jù)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)庫中。從數(shù)據(jù)倉庫中直接得到進行數(shù)據(jù)挖掘的數(shù)據(jù)有許多優(yōu)點,因為數(shù)據(jù)倉庫中數(shù)據(jù)的清理和數(shù)據(jù)挖掘中幾乎是相同的,如果數(shù)據(jù)在數(shù)據(jù)倉庫中已被清除,數(shù)據(jù)挖掘中不再被清除,并且數(shù)據(jù)不一致也得到了解決。數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的先期步驟,通過數(shù)據(jù)倉庫的構(gòu)建,提高了數(shù)據(jù)挖掘的效率和能力,保證了數(shù)據(jù)挖掘中的數(shù)據(jù)的寬廣性和完整性。
1.3 關(guān)系數(shù)據(jù)庫與數(shù)據(jù)挖掘之間的聯(lián)系與區(qū)別
數(shù)據(jù)挖掘的數(shù)據(jù)源不一定是數(shù)據(jù)倉庫。也可以是一個關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),但要事先進行數(shù)據(jù)預處理,才能用于數(shù)據(jù)挖掘。數(shù)據(jù)預處理是數(shù)據(jù)挖掘的關(guān)鍵步驟,并且是數(shù)據(jù)挖掘過程中的主要工作部分。因此,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘沒有必然的聯(lián)系,有些人簡單地認為,數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的準備,這種理解是不全面的,也可以使用關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)作為數(shù)據(jù)挖掘的數(shù)據(jù)源。
2 三種技術(shù)的應(yīng)用
2.1 應(yīng)用價值
2.1.1 關(guān)系數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫的主要價值體現(xiàn)在事務(wù)處理。關(guān)系數(shù)據(jù)庫已經(jīng)滲透到各行各業(yè)的日常事務(wù),該事務(wù)管理離不開關(guān)系數(shù)據(jù)庫的應(yīng)用系統(tǒng),這是對傳統(tǒng)事務(wù)管理的一個重大突破,是社會甚至家庭不可或缺的工具,它對社會的應(yīng)用價值是100%。
2.1.2 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫的主要價值體現(xiàn)在為決策分析提供數(shù)據(jù)源。一方面,在一個事務(wù)中,用戶要求高效的訪問系統(tǒng)和數(shù)據(jù)庫,操作時間應(yīng)該短。在一個決策分析中,決策問題的一些請求可能會導致系統(tǒng)的操作,解決這一問題的決策分析需要遍歷大多數(shù)數(shù)據(jù)庫中的數(shù)據(jù),這對一般日常事務(wù)處理系統(tǒng)是困難的,所以操作數(shù)據(jù)和決策分析數(shù)據(jù)應(yīng)該分開。另一方面,決策數(shù)據(jù)需求問題。在決策分析時,由于不同的應(yīng)用系統(tǒng)中,實體、字段存在數(shù)據(jù)類型、名稱和格式的不符,需要在集成時進行轉(zhuǎn)換,這個轉(zhuǎn)換必須在決策之前完成;一些決策數(shù)據(jù)需要動態(tài)更新,需要經(jīng)常進行匯總和總結(jié),這些需求用事務(wù)處理系統(tǒng)解決比較繁瑣。三是數(shù)據(jù)的操作模式問題。決策分析人員要以專業(yè)用戶身份,使用各種工具以各種形式來操作數(shù)據(jù),對數(shù)據(jù)操作的結(jié)果以商業(yè)智能的方式表達出來。事務(wù)處理系統(tǒng)不能滿足這一要求,只有數(shù)據(jù)倉庫系統(tǒng)能夠滿足數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)環(huán)境的要求,所以使用數(shù)據(jù)倉庫中的數(shù)據(jù)省去了對數(shù)據(jù)預處理的步驟。
2.1.3 數(shù)據(jù)挖掘
面對日益激烈的市場競爭,客戶對迅速應(yīng)答各種業(yè)務(wù)問題的能力要求越來越高,對過量數(shù)據(jù)的及時處理要求越來越高,帶來的挑戰(zhàn)一方面大規(guī)模、復雜數(shù)據(jù)系統(tǒng)讓用戶感覺漫無頭緒,無法開始;另一方面,這些大量數(shù)據(jù)背后隱藏很多有意義的有價值的決策信息。如計算機界都熟知的“啤酒與尿布”的故事,就是零售業(yè)巨頭“沃爾瑪”從大量銷售數(shù)據(jù)中分析出來的規(guī)律:美國的男士在下班要去超市買嬰兒尿布,同時他們還會買啤酒。“沃爾瑪”就把這兩種“毫不相干”的商品擺放在靠近的貨架上,并且還擺放一些下灑小菜,使這些商品銷量大增。所以應(yīng)用數(shù)據(jù)挖掘從大量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,具有具體的指導意義。
2.2 應(yīng)用領(lǐng)域
2.2.1 關(guān)系數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫應(yīng)用領(lǐng)域非常廣泛,如:證券行業(yè)、醫(yī)院、銀行、銷售部門、公司或企業(yè),以及政府、國防工業(yè),科學和技術(shù)發(fā)展領(lǐng)域等等,這些領(lǐng)域都需要使用數(shù)據(jù)庫來存儲數(shù)據(jù)。例如:人事管理系統(tǒng)、工資管理系統(tǒng),xxx部門信息管理系統(tǒng),手機話費管理系統(tǒng)等,都需要關(guān)系數(shù)據(jù)庫作為后臺提供數(shù)據(jù)源。
2.2.2 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫應(yīng)用領(lǐng)域主要有兩個方面:一是全局應(yīng)用。因為數(shù)據(jù)倉庫獲得來自多方面的數(shù)據(jù),所以在把數(shù)據(jù)向數(shù)據(jù)倉庫輸入時,要進行轉(zhuǎn)換、計算和綜合等集成處理。通過處理把來自不同地方的數(shù)據(jù)源轉(zhuǎn)換成統(tǒng)一的格式,以促進全局應(yīng)用。二是復雜系統(tǒng)。信息處理的要求越來越復雜,除了數(shù)據(jù)處理操作,如添加、刪除、修改、和統(tǒng)計匯總,高級管理層也希望對歷史的和現(xiàn)在的數(shù)據(jù)進行各種復雜性分析,以支持決策。數(shù)據(jù)倉庫中就是存儲了舊的歷史數(shù)據(jù),方便復雜分析、應(yīng)用,為高層決策服務(wù)。
2.2.3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域主要表現(xiàn)在特定應(yīng)用問題和應(yīng)用背景。數(shù)據(jù)挖掘技術(shù)已經(jīng)應(yīng)用于各行各業(yè),如電信,保險,交通,學校、銀行、超級市場等。例如:數(shù)據(jù)挖掘技術(shù)應(yīng)用在大學。高校擴招,學生增加到幾萬人,但是學生的學習積極性不高,成績不好,因此引入數(shù)據(jù)挖掘技術(shù)找出影響學生學習積極性和學習成績的原因,制定措施,提高教育和教學質(zhì)量。分析的數(shù)據(jù)源是考試成績和成績之外的影響因素,分析的方法是采用關(guān)聯(lián)規(guī)則、模型庫、去“噪”處理、粗糙集等進行數(shù)據(jù)挖掘,得出的結(jié)論是:傳統(tǒng)的學習方法不能完全滿足需要,改進教學方法和教學模式,從而調(diào)動學生學習的積極性,提高教學質(zhì)量。
3 關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的融合
日常事務(wù)處理需要關(guān)系數(shù)據(jù)庫,構(gòu)建分析處理環(huán)境需要數(shù)據(jù)倉庫,幫助決策者尋找數(shù)據(jù)之間的潛在的關(guān)聯(lián)需要數(shù)據(jù)挖掘。他們之間是相互聯(lián)系又有區(qū)別的,不能互相取代的,又需要相互融合。數(shù)據(jù)倉庫中的數(shù)據(jù)并不是最新的,專有的,而是來源于其他關(guān)系數(shù)據(jù)庫,它是建立在一個更全面和完善的信息應(yīng)用的基礎(chǔ)上,用于支持高層決策分析的數(shù)據(jù)基地。數(shù)據(jù)倉庫是數(shù)據(jù)庫新技術(shù),到目前為止,數(shù)據(jù)倉庫仍用關(guān)系數(shù)據(jù)庫管理系統(tǒng)管理數(shù)據(jù)。數(shù)據(jù)挖掘是從大量存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中發(fā)現(xiàn)有趣知識的過程。只有這三個數(shù)據(jù)庫技術(shù)互相融合,取長補短,各盡其責,才能更好的為廣大用戶所使用,為社會各個領(lǐng)域所應(yīng)用。
【參考文獻】
[1]華冠萍.數(shù)據(jù)倉庫、數(shù)據(jù)挖掘及OLAP之兩兩關(guān)系[J].福建電腦,2007,8.
摘要:XML可以用于實現(xiàn)異構(gòu)數(shù)據(jù)庫,同時也是一種中間件和數(shù)據(jù)承
>> XML文檔與關(guān)系數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換的研究 基于DOM的XML文檔到關(guān)系數(shù)據(jù)庫的數(shù)據(jù)轉(zhuǎn)換方法 基于關(guān)系數(shù)據(jù)庫的XML存儲技術(shù) 淺談數(shù)據(jù)庫記錄與XML數(shù)據(jù)的轉(zhuǎn)換 論XML文檔數(shù)據(jù)庫數(shù)據(jù)之間的轉(zhuǎn)換原理及轉(zhuǎn)換對象 基于.NET平臺的關(guān)系數(shù)據(jù)庫轉(zhuǎn)換 WebService在LDAP與關(guān)系數(shù)據(jù)庫之間數(shù)據(jù)同步的研究 基于XSD模式的XML文檔與關(guān)系數(shù)據(jù)庫的轉(zhuǎn)換 一種模仿XML的靈活的關(guān)系數(shù)據(jù)庫設(shè)計 基于關(guān)系數(shù)據(jù)庫的時態(tài)XML存取研究 運用XML實現(xiàn)異構(gòu)數(shù)據(jù)庫的數(shù)據(jù)轉(zhuǎn)換 淺析Notes數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫的關(guān)系 關(guān)系數(shù)據(jù)庫的設(shè)計與測試 基于架構(gòu)的關(guān)系數(shù)據(jù)庫與云端數(shù)據(jù)庫比較分析 XML文檔與數(shù)據(jù)庫表信息互相轉(zhuǎn)換的方法研究與實踐 關(guān)系數(shù)據(jù)庫與非關(guān)系數(shù)據(jù)庫 淺析關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系 淺談關(guān)系數(shù)據(jù)庫的數(shù)據(jù)保護策略 關(guān)系數(shù)據(jù)庫查詢優(yōu)化策略與研究 關(guān)系數(shù)據(jù)庫二進制存儲圖像數(shù)據(jù)的研究與應(yīng)用 常見問題解答 當前所在位置:,1994.
[2]陳志煒.一種基于語義的將關(guān)系數(shù)據(jù)轉(zhuǎn)換為XML數(shù)據(jù)的方法[D].南京:東南大學碩士學位論文,2004.
[3]薩師煊,王珊.數(shù)據(jù)庫系統(tǒng)概論[M].第三版.北京:高等教育出版社,2005.
收稿日期:2016-11-25
目前世界上許多跨國信息技術(shù)行業(yè)的公司都在開發(fā)基于SaaS的產(chǎn)品和服務(wù),為未來互聯(lián)網(wǎng)的發(fā)展提供技術(shù)平臺,而電子商務(wù)是近年來互聯(lián)網(wǎng)應(yīng)用最受矚目的領(lǐng)域。因此SaaS模式的普及必將對電子商務(wù)的發(fā)展產(chǎn)生深刻的影響。
正如10Gen工程副總裁Geir Magnusson所指出那樣,在未來我們將很難找到關(guān)系數(shù)據(jù)庫的影子,這是因為關(guān)系數(shù)據(jù)庫不適用于分布式環(huán)境。SaaS的普及要求我們必須重新審視我們做事的方式。
時下的許多新型數(shù)據(jù)庫,包括Google的Bigtable,Amazon的SimpleDB,10Gen的Mongo,AppJet的AppJet數(shù)據(jù)庫以及甲骨文開源BerkelyDB。這些數(shù)據(jù)庫沒有一個是關(guān)系型的。而這些數(shù)據(jù)庫具有一些共同特征,就是都特別適用于服務(wù)云計算式的應(yīng)用。它們中的大多數(shù)可以在分布式環(huán)境中運行,這意味著他們可以分布在多個地點的多臺服務(wù)器上。它們本質(zhì)上都不是事務(wù)性的,并且都犧牲了一些高級查詢能力以換取更好的性能。在很多情況下,這些數(shù)據(jù)庫可以通過對象調(diào)用來檢索,而不用SQL。
盡管大型關(guān)系數(shù)據(jù)庫已經(jīng)被應(yīng)用在很多數(shù)據(jù)處理中心,但SaaS需要一種不同的設(shè)置來充分發(fā)揮其潛力。試想,在跨越地理空間距離之間執(zhí)行復雜查詢以便減少響應(yīng)時間、設(shè)計和維護支持不同位置的相關(guān)數(shù)據(jù)備份、在一個點癱瘓時能保證該數(shù)據(jù)同步、維護和運行這樣的體系并非易事。因此,數(shù)據(jù)庫組成部分在不同位置的分散對SaaS很必要,這也是SaaS產(chǎn)生的原因。更重要的是SaaS體系結(jié)構(gòu)具有不同于目前使用的關(guān)系型結(jié)構(gòu)的屬性,在SaaS體系結(jié)構(gòu)里,關(guān)系不復存在,人們以群集形式看待數(shù)據(jù)。
關(guān)鍵詞:關(guān)系數(shù)據(jù)庫;云端數(shù)據(jù)庫;Bigtable;時間戳
中圖分類號:TP399文獻標識碼:A文章編號:1009-3044(2009)25-7090-03
Comparison and Analysis for Relational Database and Cloud Database Based on Architecture
ZHANG Zhen-yong, WEN Jing-hua
(Guizhou College of Finance and Economics, Guiyang 550004,China)
Abstract: Aiming at the shortcoming that relational database processes a large number of video,audio,images and complex data types, this thesis compared and analyzed relational database and Bigtable representing cloud database and based on architecture. The results showed that cloud database was more advantageous than relational database in precessing a great mass of data and complex data types. With the development of the cloud database technology,cloud database will be superseding the relational database as the mainstream of the database.
Key words: ralational database; cloud database; bigtable; timestamp
關(guān)系數(shù)據(jù)庫從1970年發(fā)展至今,雖功能日趨完善,但對數(shù)據(jù)類型的處理大多采用數(shù)字、字符等基本數(shù)據(jù)類型,對多媒體信息的處理只是停留在簡單的二進制代碼文件的存儲。隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上數(shù)據(jù)量高速增長,非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用日趨擴大,再加上用戶應(yīng)用需求的提高、硬件技術(shù)的發(fā)展和Web2.0提供的多彩的多媒體交流方式,用戶對多媒體處理的要求從簡單的存儲上升為識別、檢索和深入加工等高級應(yīng)用。關(guān)系數(shù)據(jù)庫在處理這類數(shù)據(jù)時,逐漸暴露出了一些缺陷。
如何來高效處理占數(shù)據(jù)總量70%的聲音、圖像和視頻等復雜數(shù)據(jù)類型是目前互聯(lián)網(wǎng)界亟待解決的問題。正是在這種狀態(tài)下,云端數(shù)據(jù)庫便應(yīng)運而生并開始發(fā)展起來。目前云端數(shù)據(jù)庫技術(shù)在云計算中的應(yīng)用有Google的Bigtable系統(tǒng)[1]、Amazon公司的Dynamo系統(tǒng)、Hadoop的一個子項目Hbase、微軟的Live Mesh系統(tǒng)等等。無論是Bigtable還是Hbase都是采用通用的云端數(shù)據(jù)庫架構(gòu),只是核心技術(shù)不同。所以本文就以Google的Bigtable架構(gòu)為代表與傳統(tǒng)的關(guān)系數(shù)據(jù)庫架構(gòu)進行比較和分析。
1關(guān)系數(shù)據(jù)庫
1.1關(guān)系數(shù)據(jù)庫概念及特點
關(guān)系數(shù)據(jù)庫在一個給定的應(yīng)用領(lǐng)域中,所有實體及實體之間聯(lián)系的關(guān)系的集合。它是建立在集合代數(shù)基礎(chǔ)上,應(yīng)用數(shù)學方法來處理數(shù)據(jù)庫中的數(shù)據(jù),現(xiàn)實世界中的各種實體以及實體之間的各種聯(lián)系均用關(guān)系模型來表示,也就是說關(guān)系數(shù)據(jù)庫是建立在關(guān)系模型基礎(chǔ)上的數(shù)據(jù)庫[2]。
關(guān)系數(shù)據(jù)庫具有數(shù)據(jù)結(jié)構(gòu)化、最低冗余度、較高的程序與數(shù)據(jù)獨立性、易于擴充、易于編制應(yīng)用程序等優(yōu)點,目前較大的應(yīng)用軟件系統(tǒng)都是建立在結(jié)構(gòu)化數(shù)據(jù)庫設(shè)計之上的。
1.2關(guān)系數(shù)據(jù)庫系統(tǒng)的架構(gòu)
關(guān)系數(shù)據(jù)庫的架構(gòu)包括六個部分[3]:
1) 查詢語言接口
查詢語言接口通過使用SQL語言對數(shù)據(jù)庫進行特設(shè)查詢數(shù)據(jù)。
2)交互式查詢工具
交互式查詢工具是用于訪問,修改以及更新一個或多個關(guān)聯(lián)的數(shù)據(jù)表,并以視圖的方式返回給用戶。
3) 核心軟件
該核心軟件用于控制查詢處理,存取數(shù)據(jù)路徑,用戶訪問管理,存儲管理,索引,交易處理和讀取/更新信息。
4) 公用機制
公用機制主要用于輸入/輸出/備份調(diào)整工具及參數(shù)/報告撰寫。
5) 存儲機制
存儲機制主要進行數(shù)據(jù)庫寫入,歸檔,用戶管理器,服務(wù)器管理,重做日志文件。
6) 數(shù)據(jù)庫
數(shù)據(jù)庫的特點是以數(shù)據(jù)文件的方式對數(shù)據(jù)對象進行物理存儲,包含了系統(tǒng)目錄即數(shù)據(jù)目錄,一個或多個數(shù)據(jù)文件以結(jié)構(gòu)化形式存儲組成集合即二維表,并將不同數(shù)據(jù)集通過主鍵和外鍵進行關(guān)聯(lián)。
關(guān)系數(shù)據(jù)庫的架構(gòu)如圖1所示。
1.3關(guān)系數(shù)據(jù)庫的缺陷
通過對關(guān)系數(shù)據(jù)庫架構(gòu)的分析,可以發(fā)現(xiàn)關(guān)系數(shù)據(jù)庫的一些不足,概括如下四點:
1) 數(shù)據(jù)類型表達能力差
因為關(guān)系數(shù)據(jù)庫所處理的是結(jié)構(gòu)化的數(shù)據(jù),所以關(guān)系數(shù)據(jù)庫缺乏直接構(gòu)造與現(xiàn)代軟件應(yīng)用有關(guān)的信息的類型表達能力。隨著信息技術(shù)的飛速發(fā)展,圖像、視頻、音頻以及文檔等非結(jié)構(gòu)化的數(shù)據(jù)已被應(yīng)用到人們的日常生活當中,利用關(guān)系數(shù)據(jù)庫來處理這些非結(jié)構(gòu)化的數(shù)據(jù)已經(jīng)顯得有點力不從心了。因此目前大多數(shù)RDBMS產(chǎn)品所采用的簡單類型在重構(gòu)復雜數(shù)據(jù)的過程中將會出現(xiàn)性能問題;數(shù)據(jù)庫設(shè)計過程中的額外復雜性;RDBMS產(chǎn)品和編程語言在數(shù)據(jù)類型方面的不協(xié)調(diào),需要通過較復雜的程序化進行數(shù)據(jù)類型之間的轉(zhuǎn)換來達到數(shù)據(jù)類型的一致性。
對于工程應(yīng)用來說,關(guān)系數(shù)據(jù)庫不能支持復雜數(shù)據(jù)類型的典型結(jié)果就是需要額外地分解數(shù)據(jù)結(jié)構(gòu)工作,這些被分解的結(jié)構(gòu)不能直接表示應(yīng)用數(shù)據(jù),且從基本成分重構(gòu)時也非常繁瑣和費時間。
2) 復雜查詢功能比較差
在關(guān)系數(shù)據(jù)庫中,利用SQL語言進行查詢數(shù)據(jù)。雖然SQL語言為數(shù)據(jù)查詢提供了很好的定義方法,但是當用于復雜信息的查詢時可能會非常繁瑣。這是由于在工程應(yīng)用時規(guī)范化的過程通常會產(chǎn)生大量的簡單表,從而降低數(shù)據(jù)的冗余度。那么在這種環(huán)境下由存取信息產(chǎn)生的查詢必須處理大量的表和復雜主鍵和外鍵之間的聯(lián)系以及連接運算,會影響系統(tǒng)的查詢效率。
3) 支持長事務(wù)能力差
由于RDBMS記錄鎖機制的顆粒度限制,對于支持多種記錄類型的大段數(shù)據(jù)的登記和檢查來說,簡單的記錄級的鎖機制是不夠的,但基于鍵值關(guān)系的較復雜的鎖機制來說卻很難推廣也難以實現(xiàn)。
4) 環(huán)境應(yīng)變能力差
在要求系統(tǒng)改變的環(huán)境下,關(guān)系數(shù)據(jù)庫從一種系統(tǒng)移植到另一個系統(tǒng)上的成本高且修改困難。再加上,關(guān)系數(shù)據(jù)庫和編程語言所提供的數(shù)據(jù)類型的不一致,使得從一個環(huán)境轉(zhuǎn)換到另一個環(huán)境時需要多至30%的附加代碼。
正是由于關(guān)系數(shù)據(jù)庫的這些缺陷,才推動了數(shù)據(jù)庫技術(shù)的發(fā)展,產(chǎn)生了云端數(shù)據(jù)庫技術(shù),進而彌補了關(guān)系數(shù)據(jù)庫的不足。
2 云端數(shù)據(jù)庫
2.1 Bigtable的介紹
Google在 2004 年初就開始研發(fā)了BigTable,到了2005年大概有100個左右的服務(wù)使用BigTable。BigTable 讓Google在提供新服務(wù)時的運行成本降低,最大限度地利用了計算能力。
Bigtable是一個大型,容錯,自我管理的分布式存儲系統(tǒng),并用于管理分布在成千上萬臺服務(wù)器上的結(jié)構(gòu)化數(shù)據(jù)[4]。它是建立在GFS分布式文件系統(tǒng)[5]、Scheduler分布式集群調(diào)度、Lock Service分布式的鎖服務(wù)[6]和 MapReduce編程模式[7]基礎(chǔ)之上的系統(tǒng)。
2.2 Bigtable的架構(gòu)
1) Bigtable的數(shù)據(jù)模型
一個Bigtable(大表)是一個稀疏的,分布的,持續(xù)的以及多維的排序的數(shù)據(jù)映射。這個映射由行主鍵,列主鍵和時間戳進行索引[4]。每一項值在映射中是一系列不被解釋的字節(jié)元組即(row:string,column:string,timestamp:int64)string。
在Bigtable的數(shù)據(jù)模型中,所有的數(shù)據(jù)都存放在表格單元中,每一行表示一個事物的數(shù)據(jù)內(nèi)容,其所在列表示這個事物的唯一標志,其所對應(yīng)的時間戳表示這個事物在某個時間上的狀態(tài)即具體的數(shù)據(jù)內(nèi)容。關(guān)系數(shù)據(jù)庫只能反映當前時間上事物所處的狀態(tài),而Bigtable不僅能顯示事物當前所處的狀態(tài),而且還可以記錄某個事物的過去某個時間所處狀態(tài)。Bigtable的數(shù)據(jù)模型如圖2所示。
2) Bigtable的架構(gòu)
與目前的關(guān)系數(shù)據(jù)庫類似,BigTable也是客戶端和服務(wù)器端的聯(lián)合設(shè)計,使得性能能夠最大程度地符合應(yīng)用的需求。
BigTable系統(tǒng)依賴于集群系統(tǒng)的底層結(jié)構(gòu),一個是 Google的分布式文件系統(tǒng)(GFS),一個是分布式的集群任務(wù)調(diào)度(scheduler),還有一個分布式的鎖服務(wù)(Lock Service)。BigTable使用Lock Service來保存根數(shù)據(jù)表格的指針,即客戶端用戶可以首先從Lock Service鎖服務(wù)器中獲得根表的位置,進而對數(shù)據(jù)進行訪問。BigTable使用一臺服務(wù)器作為主服務(wù)器,用來保存和操作元數(shù)據(jù)。主服務(wù)器除了管理元數(shù)據(jù)之外,還負責對tablet服務(wù)器(即一般意義上的數(shù)據(jù)服務(wù)器)進行遠程管理與負載調(diào)配。客戶端通過編程接口與主服務(wù)器進行元數(shù)據(jù)通信,與tablet服務(wù)器進行數(shù)據(jù)通信[8]。
Bigtable的架構(gòu)由Bigtable master、Bigtable tablet servers和Bigtable client library三部分組成,如圖3所示。
Bigtable master存儲了許多由大量的tablets組成的表。主要負責指派tablet到tablet的各個服務(wù)器上,并檢測tablet服務(wù)器的增減和服務(wù)程序裝載滿與否,進行實時的分配任務(wù),使tablet服務(wù)器負載均衡并回收GFS文件系統(tǒng)中的垃圾文件。此外,它還處理模式更改,如表和列簇的創(chuàng)建。
每一個tablet服務(wù)器用于管理一部分tablets,通常有10-1000個tablet和處理客戶端用戶的讀/寫請求。tablet是由大表以行為單位分隔而成的。每個tablet保存了連續(xù)的行,然后別分配到各個tablet服務(wù)器上。
Bigtable client library是客戶端用戶和Bigtable服務(wù)器通信的接口。用戶通過Bigtable client library接口來讀數(shù)據(jù)和寫數(shù)據(jù)等操作。
3 關(guān)系數(shù)據(jù)庫與云端數(shù)據(jù)庫的比較
3.1 兩者架構(gòu)的區(qū)別
關(guān)系數(shù)據(jù)庫架構(gòu)與云端數(shù)據(jù)庫中的Bigtable架構(gòu)主要區(qū)別如表1所示。
3.2 基于架構(gòu)的比較分析
通過對關(guān)系數(shù)據(jù)庫架構(gòu)和云端數(shù)據(jù)庫中的Bigtable架構(gòu)的分析,可以從以下幾個方面對兩者進行比較:
1) 數(shù)據(jù)模型
在關(guān)系數(shù)據(jù)庫中創(chuàng)建的表是一張二維表包括行和列,使用簡單的數(shù)據(jù)類型對結(jié)構(gòu)化的數(shù)據(jù)進行存儲。但對于非結(jié)構(gòu)化的數(shù)據(jù)的存儲,因為關(guān)系數(shù)據(jù)庫要保持數(shù)據(jù)冗余度低這一優(yōu)點,所以關(guān)系數(shù)據(jù)庫的設(shè)計會比較復雜且困難。而Bigtable創(chuàng)建的類似于二維表,但事實上不是二維表,它是由行主鍵、列主鍵、時間戳三個域組成的多維map。雖然Bigtable存儲數(shù)據(jù)的冗余度比較高,但是Bigtable比關(guān)系數(shù)據(jù)庫的二維表多了一個域――時間戳域,時間戳域可以記錄事物的不同時間時的狀態(tài)。另外Bigtable是以一條記錄為原子對數(shù)據(jù)進行操作的,所以Bigtable不僅可以對事物的當前狀態(tài)進行更新,還可以對事物的過去狀態(tài)進行查詢。在這一點上,關(guān)系數(shù)據(jù)庫是不支持歷史查詢的。
2) 數(shù)據(jù)的存取方式
在關(guān)系數(shù)據(jù)庫中用戶對數(shù)據(jù)進行查詢、添加、修改及刪除等的操作是使用SQL語言。對于處理海量及復雜數(shù)據(jù)時,使用SQL語言對多個關(guān)聯(lián)表進行操作就可能會顯得非常繁瑣。Bigtable并非支持SQL語言的數(shù)據(jù)庫,而是以map 函數(shù)方式的,以列導向的數(shù)據(jù)庫。Bigtable對數(shù)據(jù)的存取是以一行記錄為原子進行的,不必關(guān)聯(lián)其他的表,那么數(shù)據(jù)存取的速率要比關(guān)系數(shù)據(jù)庫要高。
3) 數(shù)據(jù)遷移能力
關(guān)系數(shù)據(jù)庫提供了一些簡單的數(shù)據(jù)類型,在環(huán)境發(fā)生變化比如應(yīng)用平臺或者是編程語言所提供的數(shù)據(jù)類型與關(guān)系數(shù)據(jù)庫所提供的不一致時,那么數(shù)據(jù)之間的轉(zhuǎn)化過程將會相當復雜而且還會增加成本。而Bigtable所提供的數(shù)據(jù)類型只有字符串類型,所有數(shù)據(jù)都是以字符串的形式進行處理,因此Bigtable在進行數(shù)據(jù)遷移時相比關(guān)系數(shù)據(jù)庫要容易并且成本也要比關(guān)系數(shù)據(jù)庫要低得多。
4) 支持事務(wù)
關(guān)系數(shù)據(jù)庫為了保持數(shù)據(jù)的完整性和一致性,提供了事務(wù)處理功能。關(guān)系數(shù)據(jù)庫在處理簡單事務(wù)方面,顯現(xiàn)出了關(guān)系數(shù)據(jù)庫的優(yōu)勢。但是在處理繁瑣的事務(wù)方面,比如執(zhí)行了n條SQL語句來對多個關(guān)聯(lián)的數(shù)據(jù)表進行處理,執(zhí)行效率就會顯得比較低。目前,Bigtable還不支持事務(wù)處理功能,但是Google已經(jīng)考慮到了該功能,一旦Bigtable支持了多行數(shù)據(jù)的事務(wù)支持,執(zhí)行效率將會大大提高。
總之,云端數(shù)據(jù)庫在處理非結(jié)構(gòu)化數(shù)據(jù)時要比關(guān)系數(shù)據(jù)庫的效率高,更適宜在多節(jié)點的服務(wù)器集群上工作,比關(guān)系數(shù)據(jù)庫更適應(yīng)環(huán)境的變化,最大的優(yōu)點是使用成本比關(guān)系數(shù)據(jù)庫要低得多。
4 結(jié)束語
本文通過對關(guān)系數(shù)據(jù)庫架構(gòu)和云端數(shù)據(jù)庫架構(gòu)的比較分析,可以得出云端數(shù)據(jù)庫在許多方面要比關(guān)系數(shù)據(jù)庫占優(yōu)勢,也就是說云端數(shù)據(jù)庫技術(shù)具有很大的發(fā)展前景。雖然云端數(shù)據(jù)庫技術(shù)還不夠成熟,再加上各大關(guān)系數(shù)據(jù)庫供應(yīng)商對關(guān)系數(shù)據(jù)庫技術(shù)的不斷改進以及對查詢算法進行優(yōu)化,但是隨著云端數(shù)據(jù)庫技術(shù)的不斷成熟,將會得到廣泛的應(yīng)用,進而逐步會取代關(guān)系數(shù)據(jù)庫成為數(shù)據(jù)庫中的主流。
參考文獻:
[1] Chang F,Dean J,Ghemawat S,Hsieh WC,Wallach DA,Burrows M,Chandra T,Fikes A,Gruber RE.Bigtable:A distributed storage system for structured data.In:Proc.of the 7th USENIX Symp.on Operating Systems Design and Implementation.Berkeley:USENIX Association,2006:205-218.
[2] 瞿裕忠 胡偉 鄭東棟 仲新宇. 關(guān)系數(shù)據(jù)庫模式和本體間映射的研究綜述[J].計算機研究與發(fā)展,2008,45(2):300-309.
[3] Fay Chang,Jeffrey Dean,Sanjay Ghemawat,Wilson C.Hsieh,Deborah A.Wallach Mike Burrows, Tushar Chandra, Andrew Fikes,Robert E.Gruber.Bigtable: A Distributed Storage System for Structured Data,OSDI,2006:1-5.
[4] Ghemawat S,Gobioff H,Leung ST.The Google file system.In:Proc.of the 19th ACM Symp.on Operating Systems Principles.New York:ACM Press,2003.29-43.
[5] Dean J,Ghemawat S.MapReduce:Simplified data processing on large clusters.In:
關(guān)鍵字:優(yōu)化查詢;SQL查詢;關(guān)系數(shù)據(jù)庫
數(shù)據(jù)庫查詢操作是數(shù)據(jù)庫操作的核心操作,對數(shù)據(jù)的查詢效率及處理速度已成為衡量數(shù)據(jù)庫性能的一個重要指標。數(shù)據(jù)庫查詢技術(shù)也是學生對《數(shù)據(jù)庫原理與應(yīng)用》這門課程所必須掌握的知識和技能,數(shù)據(jù)庫查詢技術(shù)的精通也為以后課程的學習(如:C#.NET程序設(shè)計)中的數(shù)據(jù)庫應(yīng)用程序的設(shè)計打下良好的基礎(chǔ)。
為了優(yōu)化數(shù)據(jù)庫的性能,簡單、有效的方法就是優(yōu)化查詢。
1優(yōu)化原理和實質(zhì)
數(shù)據(jù)查詢處理的代價通常取決于對磁盤的訪問,因為磁盤比內(nèi)存的訪問速度要慢。對于一個給定的查詢,有許多可能的處理策略,復雜查詢更是如此[1]。查詢優(yōu)化的實質(zhì)是在結(jié)果正確的前提下,找出與已有表達式等價,但查詢效率更高的表達式。
2在教學中要注重的幾種典型的優(yōu)化方法
2.1建立視圖
視圖可簡化用戶操作數(shù)據(jù)的方式,使用戶能著重于所感興趣的特定數(shù)據(jù)和所負責的特定任務(wù)。如果該視圖數(shù)據(jù)規(guī)模小于定義的基本表,則基于視圖的查詢比原查詢的速度會快得多。
例:要查詢每門課程成績最高的學生的學號
SELECT 學號,課程號,成績
FROM 成績表 A
WHERE 成績=(SELECT MAX(成績)
FROM 成績表B
WHERE A..課程號=B.課程號)
語句缺點:這屬嵌套查詢,子查詢的結(jié)果集將作為外層查詢的條件,查詢效率不高。
解決方案:可先建立視圖,求得每門課程的最高分,再與成績表中比較,獲取與視圖中最高分數(shù)據(jù)相等的記錄,這就減少了內(nèi)層連接的數(shù)據(jù)量,從而提高了檢索速度。
用SQL語句優(yōu)化的步驟為:
首先,創(chuàng)建視圖
GREATE VIEW V_max_cnoscore AS
SELECT 課程號,Max(成績) AS 最高分數(shù)
FROM 成績表 GROUP BY 課程號
其次,利用視圖檢索數(shù)據(jù)
SELECT 學號,A.課程號,A.成績
FROM 成績表A,V_max_cnoscore B
WHERE A.成績=B.最高分數(shù) AND A.課程號=B.課程號
2.2查詢條件Where子句的優(yōu)化
2.2.1合理設(shè)置WHERE條件的先后順序。多數(shù)數(shù)據(jù)庫都是按從左到右的順序處理條件,把能過濾更多數(shù)據(jù)的條件放在前面,過濾少的放后面,便可提高檢索速度。
例:SELECT * FROM student
WHERE ssex=’女’ --條件1過濾的數(shù)據(jù)較少
AND sdept=’計算機系’ --條件2過濾數(shù)據(jù)比條件1多
上面的SQL就不符合上述原則,可改為:
SELECT * FROM student
WHERE sdept=’計算機系’
AND ssex=’女’
對同一表格進行多個選擇運算,選擇條件的排序?qū)π阅苡休^大影響,不僅影響索引的選取,而且關(guān)系到臨時表的大小[2]。因此,要提高查詢速度,可將較嚴格的條件寫在前面,較弱的放在后面。
2.2.2避免使用“< >”或“NOT”操作符。“< >”或“NOT”均屬于排斥性操作符,不是包括性操作符,這會使系統(tǒng)在搜索數(shù)據(jù)時無法使用索引,只能直接搜索表中的數(shù)據(jù),例:
(1)SELECT 學號 FROM 成績表 WHERE 成績< >80
(2)SELECT 學號 FROM 成績表 WHERE NOT(成績80)
(3)SELECT 學號 FROM 成績表 WHERE成績< 80 OR 成績>80
比較以上三條語句,可知第3條可使用索引查詢,它的查詢速度最快。
2.2.3恰當運用“OR擴展”技術(shù)。該技術(shù)是把在Where子句中帶有OR的查詢轉(zhuǎn)換成包含多個UNION ALL的查詢。
例:查詢計算機系縣年齡不大于20歲的學生。
常規(guī)的SQL語句:
SELECT 學號,姓名 FROM 學生表 WHERE 系名=’計算機系’ OR 年齡
假定表中“系名”和“年齡”兩個字段上創(chuàng)建了索引,以上的查詢可能不會使查詢優(yōu)化器使用索引,從而查詢效率降低,可改進為:
SELECT 學號,姓名 FROM 學生表 WHERE 系名='計算機系'
UNION ALL SELECT 學號,姓名 FROM 學生表 WHERE 年齡
2.2.4合理減少LIKE條件的使用。在SQL查詢中,LIKE條件使用的神奇之處在于其與通配符匹配所提供的模糊查詢功能。但在字符串的比較中,有時大量字符的逐個比較,也會大大降低查找效率。
例:圖書按26個英文字母分為26類,查找所有屬于‘A’類圖書的銷售金額。
SELECT 圖書類號, SUM (數(shù)量*單價) FROM 銷售
WHERE 圖書類號LIKE′A%′GROUP BY圖書類號
優(yōu)化為精確查詢:
SELECT 圖書類號,SUM(數(shù)量*單價) FROM銷售
WHERE 圖書類號>=′A′AND圖書類號
GROUP BY圖書類號
2.3正確使用子查詢“展平”技術(shù)子查詢“展平”技術(shù)就是指將子查詢轉(zhuǎn)變?yōu)榘脒B接,連接或者反連接,從而將查詢優(yōu)化。
例:找出成績大于等于90分的學生的姓名。
SELECT 姓名 FROM 學生表 WHERE 學號IN
(SELECT 學號FROM 成績表WHERE 成績>=90)
語句缺點:需要搜索學生表的每一行,來查找所有滿足子查詢條件的記錄。
解決方案:將學生表作為連接的內(nèi)表,查詢將作為通常的連接來執(zhí)行。
優(yōu)化后的SQL語句:
SELECT 姓名FROM (SELECT 學號 FROM 成績表
WHERE成績>=90) A,學生表 B WHERE A.學號=B.學號
2.4善于使用存儲過程
存儲過程是SQL語句和可選控制流語句的預編譯集合,一個名稱存儲并作為一個單元處理。善于使用存儲過程,將使SQL變得更加靈活和高效。
例:查詢某個學生某門課程的考試成績,列出學生的姓名、課程名及成績
CREATE PROC pro_student_degree
@stu_name char(12),@course_name char(18) AS
SELECT sname,cname,degree
FROM student A INNER JOIN sc B ON A.sno=B.省略o=o
WHERE sname=@stu_name AND cname=@course_name
以上是一個帶有兩個輸入?yún)?shù)的簡單存儲過程,只需執(zhí)行一個簡單的SQL語句――“EXEC pro_student_degree‘劉娜’,’數(shù)據(jù)庫原理’”就可完成查詢。
編寫性能優(yōu)化的SQL語句是提高數(shù)據(jù)庫系統(tǒng)的重要因素,隨著數(shù)據(jù)庫管理系統(tǒng)中數(shù)據(jù)量的增大,如何提高查詢速度與效率也是計算機軟件開發(fā)的一個時代要求。實現(xiàn)優(yōu)化查詢的方法很多,在使用中,要根據(jù)具體情況權(quán)衡利弊,使數(shù)據(jù)庫查詢性能最優(yōu)。在學生的教學中要注重培養(yǎng)學生的動手能力,使學生養(yǎng)成編寫優(yōu)化的SQL語句的習慣。
參考文獻:
[1]王振輝,吳廣茂.SQL查詢語句優(yōu)化研究[J].計算機應(yīng)用,2005,(12):208.
[2]SQL查詢優(yōu)化注意where條件的順序.. 2009-06-18.
關(guān)鍵詞:對象關(guān)系數(shù)據(jù)庫;面向?qū)ο螅籄MOS II
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)34-2016-02
A New Generation of Object-Relational Database: AMOSII
LIU Yan-hong1,2
(1.Nanjing Institute of Industry Technology Information Engineering, Nanjing 210046, China; 2.Nanjing University of Aeronautics and AstronauticsCollege of Information Science and Technology,Nanjing210016,China)
Abstract: Object-relational database can be combined with a single relational database system and a single object-oriented database system. It overcomes their limitations and is a new direction for research and discussion. AMOS II is the latest generation of object-relational database and has powerful object-oriented features. It provides the features and functions that a large number of next-generation database should have. The case of AMOS II fully reflects the advanced nature of the relational database.
Key words: object-relational database; object oriented; AMOS II
1 引言
隨著數(shù)據(jù)庫技術(shù)的發(fā)展,原有的數(shù)據(jù)庫系統(tǒng)很難適應(yīng)新的應(yīng)用領(lǐng)域中的復雜對象和這些對象的復雜行為的需求。新的應(yīng)用需求推動了數(shù)據(jù)庫技術(shù)的研究, 其中最重要的研究方向之一就是使用一種與人們認識客觀事物的過程一致的方法, 這就是面向?qū)ο蟮姆椒ā_@種方法大大提高軟件開發(fā)的效率。對象關(guān)系數(shù)據(jù)庫是面向?qū)ο蠹夹g(shù)與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物。
2 對象-關(guān)系數(shù)據(jù)庫
對象關(guān)系數(shù)據(jù)庫兼有關(guān)系數(shù)據(jù)庫和面向?qū)ο蟮臄?shù)據(jù)庫兩方面的特征。即它除了具有原來關(guān)系數(shù)據(jù)庫的種種特點外,還應(yīng)該提供以下特點:
1) 允許用戶擴充基本數(shù)據(jù)類型。即允許用戶根據(jù)應(yīng)用需求自己定義數(shù)據(jù)類型、函數(shù)和操作符,而且一經(jīng)定義,這些新的數(shù)據(jù)類型、函數(shù)和操作符將存放在數(shù)據(jù)庫管理系統(tǒng)核心中,可供所有用戶公用。
2) 能夠在SQL中支持復雜對象。由多種基本類型或用戶定義的類型構(gòu)成的對象。能夠支持子類對超類的各種特性的繼承,支持數(shù)據(jù)繼承和函數(shù)繼承,支持多重繼承,支持函數(shù)重載。能夠提供功能強大的通用規(guī)則系統(tǒng),而且規(guī)則系統(tǒng)與其他的對象-關(guān)系能力是集成為一體的。
3 新一代對象關(guān)系數(shù)據(jù)庫的優(yōu)勢
3.1 傳統(tǒng)的關(guān)系數(shù)據(jù)庫的缺陷
傳統(tǒng)的關(guān)系數(shù)據(jù)庫局限性為:
1) 面向機器的語法數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)模型單一,數(shù)據(jù)類型簡單、固定。
2) 不能依據(jù)某一類型的數(shù)據(jù)類型來擴展數(shù)據(jù)類型。
3) 結(jié)構(gòu)與行為完全分離。
4) 存儲管理的對象有限,事物處理能力較差。
3.2 新一代對象關(guān)系數(shù)據(jù)庫的特征和功能
1) 數(shù)據(jù)庫應(yīng)支持復雜的數(shù)據(jù)類型,并能存儲和處理復雜對象。還要具備支持用戶自定類型和可擴展能力。
2) 數(shù)據(jù)庫必須對其它系統(tǒng)開放。
3) 系統(tǒng)必須具有可移植性,可連接性,可擴展性和可互操作性。實現(xiàn)程序設(shè)計語言和數(shù)據(jù)庫語言的無縫的集成。
4 AMOS II應(yīng)用案例分析
AMOS II是最新一代的對象關(guān)系數(shù)據(jù)庫,它充分體現(xiàn)了對象關(guān)系數(shù)據(jù)庫的強大功能。
4.1 學生課程成績查詢案例
有若干學生,學生信息包括學號,姓名,班級。有若干選修課程,課程信息包括課程號,課程名,成績。實現(xiàn)功能:1、通過查詢語句,可以查看所有的學生信息和課程信息。2、輸入學生信息如姓名,可以查看到他所選課程的相關(guān)內(nèi)容。3、輸入課程名稱可以查看到選這門課的學生姓名。4、輸入學生姓名,可以統(tǒng)計出該生選的所有課程名稱和課程數(shù)。
4.2 案例設(shè)計與分析
1) AMOS II具有面向?qū)ο髷?shù)據(jù)庫的特點。
在OODB中, 用類來描述對象的結(jié)構(gòu)特征和行為特征。它有下面的定義形式:
class < 類名> [ (參數(shù)表) ]properties
{類的特征}
在本案例中課程和學生類設(shè)計如下:
create type kecheng properties(
sid charstring,//課程號//
sname charstring,//課程名//
scoreinteger //期末成績//
);
create type student properties(
tidcharstring,//學生號//
tname charstring,//學生姓名//
banjicharstring //班級//
);
創(chuàng)建kecheng的對象并且賦值用以下命令:
create kecheng(sid, sname,score) instances
:s1("01","Chinese",91),:s2("02","English",90),
…;
創(chuàng)建student的對象并且賦值用以下命令:
create student (tid, tname, banji) instances
:t1("08001","zhangsan","3ban"),
:t2("08002","lisi", "4ban"),
…;
函數(shù)設(shè)計舉例如下:
create function o_derect(student nonkey)-> as stored;
//輸入?yún)?shù)student類,返回該學生所選課程的元組//
create function sname(kecheng nonkey)->charstring as stored;
create function tname(student nonkey)->charstring as stored;
create function tid(student nonkey)->charstring as stored;
…;
以上定義的源代碼保存在文件lyh.amosql中。AMOSQL類似于SQL語言。例如用下面命令對學生信息進行查詢:
select tin (x), tname(x), from student (x);
在AMOS II中運行并得出結(jié)果,如圖1。
這些類、對象、屬性和函數(shù)的設(shè)計,充分體現(xiàn)了面向?qū)ο蠹夹g(shù)的特點。
2) AMOS II具有強大的可擴充功能。
AMOS II提供的Java函數(shù)的接口。在AMOS II中可以調(diào)用用戶自定義的Java函數(shù)。
本案例用Java語言定義函數(shù)tongji()并保存在名為lyh.java的文件中。該函數(shù)的功能是接受輸入?yún)?shù)為學生名,輸出該學生所選擇的課程名并統(tǒng)計出課程個數(shù)。
為了能在AMOS II調(diào)用該函數(shù),需要在javademo.osql文件中添加下面的語句:
create function tongji(charstring)->charstring as foreign "JAVA:lyh/tongji";
運行后如圖2所示。
這充分體現(xiàn)了AMOS II允許用戶根據(jù)應(yīng)用需求自己定義數(shù)據(jù)類型、函數(shù),具有強大的可擴展功能。
5 總結(jié)和展望
綜上,對象―關(guān)系數(shù)據(jù)庫是面向?qū)ο蠹夹g(shù)與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物。AMOS II是最新的一代對象關(guān)系數(shù)據(jù)庫,具有強大的面向?qū)ο蟮墓δ堋膶W生課程成績查詢案例,可以看到AMOS II具有面向?qū)ο髷?shù)據(jù)庫的特點,允許用戶根據(jù)應(yīng)用需求自己定義數(shù)據(jù)類型、函數(shù)和操作符,具有強大的可擴展功能,體現(xiàn)了對象關(guān)系數(shù)據(jù)庫的先進性。本文用具體案例介紹了在AMOS II中如何定義類,對象和函數(shù),和如何調(diào)用Java自定義函數(shù),實現(xiàn)統(tǒng)計函數(shù)的功能。
對象―關(guān)系數(shù)據(jù)庫技術(shù)還處于研究發(fā)展階段,在很多方面它還面臨很多的挑戰(zhàn),例如對象―關(guān)系數(shù)據(jù)庫還可以從面向?qū)ο髷?shù)據(jù)庫那里吸收養(yǎng)分和研究成果,如路徑索引、對象聚集等。相信對象―關(guān)系數(shù)據(jù)庫有著美好的發(fā)展前景。
參考文獻:
[1] 趙志升,許素文,楊小姝.對象――關(guān)系數(shù)據(jù)庫管理系統(tǒng)及其特性與實現(xiàn)[J].電腦開發(fā)與應(yīng)用,2002,15(8):47-48.
[2] 王治.對象―關(guān)系數(shù)據(jù)庫技術(shù)及其發(fā)展[J].九江師專學報:自然科學版,2003,22(5):86-88.
>> 基于關(guān)系數(shù)據(jù)庫的本體構(gòu)建方法研究 面向關(guān)系數(shù)據(jù)庫的裝備領(lǐng)域本體構(gòu)建研究 基于對象關(guān)系數(shù)據(jù)庫的移動對象數(shù)據(jù)庫管理系統(tǒng)的研究 基于UML模型的關(guān)系數(shù)據(jù)庫設(shè)計 基于關(guān)系數(shù)據(jù)庫的XML存儲技術(shù) 基于.NET平臺的關(guān)系數(shù)據(jù)庫轉(zhuǎn)換 基于架構(gòu)的關(guān)系數(shù)據(jù)庫與云端數(shù)據(jù)庫比較分析 基于關(guān)系數(shù)據(jù)庫的關(guān)鍵詞查詢研究 基于關(guān)系數(shù)據(jù)庫的時態(tài)XML存取研究 基于關(guān)系數(shù)據(jù)庫的動態(tài)工資管理系統(tǒng)研究 基于關(guān)系數(shù)據(jù)庫的文件樹存儲策略研究 基于關(guān)系數(shù)據(jù)庫的可適性系統(tǒng)研究 基于DOM的XML文檔到關(guān)系數(shù)據(jù)庫的數(shù)據(jù)轉(zhuǎn)換方法 基于關(guān)系數(shù)據(jù)庫的實時XML數(shù)據(jù)查詢處理 淺談關(guān)系數(shù)據(jù)庫的數(shù)據(jù)保護策略 一種基于依賴關(guān)系的關(guān)系數(shù)據(jù)庫語義模式提取方法 關(guān)系數(shù)據(jù)庫查詢優(yōu)化策略研究 關(guān)系數(shù)據(jù)庫查詢優(yōu)化策略與研究 XML文檔與關(guān)系數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換的研究 WebService在LDAP與關(guān)系數(shù)據(jù)庫之間數(shù)據(jù)同步的研究 常見問題解答 當前所在位置:),但該工具只能創(chuàng)建輕量級本體,映射簡單,不能完全地對關(guān)系數(shù)據(jù)庫中存在的概念進行建模。
2)德克薩斯大學的Sunitha Ramanujam提出了“Bi-directional Translation of Relational Data into Virtual RDF Stores”[5],即關(guān)系數(shù)據(jù)和RDF間的雙向轉(zhuǎn)換,并在D2R的基礎(chǔ)上開發(fā)了工具D2RQ++。
3)中科院國家科學圖書館成都分館的Shihan Yang等人提出“半自動化地從關(guān)系數(shù)據(jù)庫中構(gòu)建本體”,文中提出了利用中間件來實現(xiàn)關(guān)系數(shù)據(jù)庫到本體轉(zhuǎn)化的方法,并且提出了W-graph的中間件語言,W-graph映射語義使用與關(guān)系數(shù)據(jù)庫和本體都無關(guān)的雙向模擬等價圖表示。中間件模式是動態(tài)的,當數(shù)據(jù)庫模式或本體頻繁變化時,該方法因此有很好的適應(yīng)性。此方法不僅可以處理數(shù)據(jù)庫模式而且也可以處理數(shù)據(jù)庫中存儲的實例。圖形語義編輯工具的開發(fā),提高了方法的可用性。
4)許卓明提出 “一種從關(guān)系數(shù)據(jù)庫學習OWL本體的方法”,開發(fā)出了關(guān)系數(shù)據(jù)庫模式到OWL本體轉(zhuǎn)換原型工具DB2WO,并給出了實例驗證。該研究首先給出了關(guān)系數(shù)據(jù)庫模式和OWL本體的定義,其次定義了關(guān)系數(shù)據(jù)庫模式到OWL本體的一組映射規(guī)則,然后開發(fā)了轉(zhuǎn)換工具DB2WO。關(guān)系數(shù)據(jù)庫模式信息通過讀取關(guān)系數(shù)據(jù)庫字典來提取。
5)陳和平等人提出“基于關(guān)系數(shù)據(jù)庫的本體生成器的設(shè)計與實現(xiàn)”[6] 。該研究中首先指出需要解決的2個關(guān)鍵問題:(1)如何提取關(guān)系數(shù)據(jù)庫的ER模式(2)如何定義由ER模式到OWL本體的映射規(guī)則。然后給出ER模式的提取一般可以通過查詢該關(guān)系數(shù)據(jù)庫的數(shù)據(jù)字典或應(yīng)用數(shù)據(jù)庫的逆向工程工具,接著給出了ER模式到OWL本體的10多條轉(zhuǎn)化規(guī)則。最后,給出了本體生成器OWLFROMDB的功能模塊結(jié)構(gòu)圖,并給出了實例驗證。
6)中國人民理工大學的Peng Liu等人在2010第九屆國際網(wǎng)格和云計算會議提出“基于關(guān)系數(shù)據(jù)庫的本體自動構(gòu)建”[7]。其思想跟前述許卓明、陳和平等一致:通過分析關(guān)系數(shù)據(jù)庫模式,建立一系列的從關(guān)系數(shù)據(jù)模式到OWL的轉(zhuǎn)換規(guī)則,然后給出了算法和流程圖,最后給出了生成的本體的層次圖。
7)W3C成立了 RDB2RDF研究組,致力于提供一個從關(guān)系數(shù)據(jù)庫RDB到本體描述語言RDF的規(guī)范性的映射標準,到目前為止,該研究小組提出了幾個關(guān)于RDB到RDF映射語言的內(nèi)部草稿,還未成為標準。
3 研究瓶頸及建議
現(xiàn)在,基于關(guān)系數(shù)據(jù)庫生成本體的研究已經(jīng)引起越來越多研究者的興趣。基本思路無非是從關(guān)系數(shù)據(jù)庫中提取出數(shù)據(jù)模式,然后設(shè)定數(shù)據(jù)模式轉(zhuǎn)化為本體的規(guī)則,然后編程實現(xiàn)。每個研究人員都提出了自己的轉(zhuǎn)化規(guī)則,而并沒有人對規(guī)則的可行性給出評價結(jié)果。至今,尚未有研究者或機構(gòu)給出權(quán)威的轉(zhuǎn)換規(guī)則。轉(zhuǎn)換規(guī)則的可行性和合理性應(yīng)該是未來研究的重點。
4 結(jié)束語
利用關(guān)系數(shù)據(jù)庫中結(jié)構(gòu)化的數(shù)據(jù)作為數(shù)據(jù)源來構(gòu)建本體的方法,已經(jīng)引起了眾多研究人員的重視,而隨著W3C的介入, 必將使這種轉(zhuǎn)換規(guī)范化。
參考文獻:
[1] /RDF[EB/OL].
[2] /TR/owl-features[EB/OL].
[3] Du Xiaoyong, Li Man, Wang Shan. A Survey on Ontology Learning Research[J] .Journal of Software, 2006,17(9): 1837-1847.
[4] Sunitha Ramanujam ,VaibhavKhadilkar.Bi-directional Translation of Relational Data into Virtual RDF Stores[C].2010 IEEE Fourth International Conference on Semantic Computing,2010,61:268-276.
[5] Shihan Yang,Ying Zheng.Semi-Automatically Building Ontologies from Relational Databases[J].IEEE,2010:150-154.