時間:2023-03-22 17:36:43
緒論:在尋找寫作靈感嗎?愛發表網為您精選了8篇大數據分析論文,愿這些內容能夠啟迪您的思維,激發您的創作熱情,歡迎您的閱讀與分享!
大數據背景下的機器算法
專業
計算機科學與技術
學生姓名
楊宇瀟
學號
181719251864
一、 選題的背景、研究現狀與意義
為什么大數據分析很重要?大數據分析可幫助組織利用其數據并使用它來識別新的機會。反過來,這將導致更明智的業務移動,更有效的運營,更高的利潤和更快樂的客戶。
在許多早期的互聯網和技術公司的支持下,大數據在2000年代初的數據熱潮期間出現。有史以來第一次,軟件和硬件功能是消費者產生的大量非結構化信息。搜索引擎,移動設備和工業機械等新技術可提供公司可以處理并持續增長的數據。隨著可以收集的天文數據數量的增長,很明顯,傳統數據技術(例如數據倉庫和關系數據庫)不適合與大量非結構化數據一起使用。 Apache軟件基金會啟動了第一個大數據創新項目。最重要的貢獻來自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復雜數據準備和ETL的旗艦,可以為許多數據存儲或分析環境提供信息以進行深入分析。 Apache Spark(由加州大學伯克利分校開發)通常用于大容量計算任務。這些任務通常是批處理ETL和ML工作負載,但與Apache Kafka等技術結合使用。
隨著數據呈指數級增長,企業必須不斷擴展其基礎架構以最大化其數據的經濟價值。在大數據的早期(大約2008年),Hadoop被大公司首次認可時,維護有用的生產系統非常昂貴且效率低下。要使用大數據,您還需要適當的人員和軟件技能,以及用于處理數據和查詢速度的硬件。協調所有內容同時運行是一項艱巨的任務,許多大數據項目都將失敗。如今,云計算已成為市場瞬息萬變的趨勢。因為各種規模的公司都可以通過單擊幾下立即訪問復雜的基礎架構和技術。在這里,云提供了強大的基礎架構,使企業能夠勝過現有系統。
二、 擬研究的主要內容(提綱)和預期目標
隨著行業中數據量的爆炸性增長,大數據的概念越來越受到關注。 由于大數據的大,復雜和快速變化的性質,許多用于小數據的傳統機器學習算法不再適用于大數據環境中的應用程序問題。 因此,在大數據環境下研究機器學習算法已成為學術界和業界的普遍關注。 本文主要討論和總結用于處理大數據的機器學習算法的研究現狀。 另外,由于并行處理是處理大數據的主要方法,因此我們介紹了一些并行算法,介紹了大數據環境中機器學習研究所面臨的問題,最后介紹了機器學習的研究趨勢,我們的目標就是研究數據量大的情況下算法和模型的關系,同時也會探討大部分細分行業數據量不大不小的情況下算法的關系。
三、 擬采用的研究方法(思路、技術路線、可行性分析論證等)
1.視覺分析。大數據分析用戶包括大數據分析專業人士和一般用戶,但是大數據分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數據的特征,并像閱讀照片的讀者一樣容易接受。 2.數據挖掘算法。大數據分析的理論中心是數據挖掘算法。不同的數據挖掘算法依賴于不同的數據類型和格式來更科學地表征數據本身。由于它們被全世界的統計學家所公認,因此各種統計方法(稱為真值)可以深入到數據中并挖掘公認的值。另一方面是這些數據挖掘算法可以更快地處理大數據。如果該算法需要花費幾年時間才能得出結論,那么大數據的價值是未知的。 3.預測分析。大數據分析的最后一個應用領域是預測分析,發現大數據功能,科學地建立模型以及通過模型吸收新數據以預測未來數據。 4.語義引擎。非結構化數據的多樣化為數據分析提出了新的挑戰。您需要一套工具來分析和調整數據。語義引擎必須設計有足夠的人工智能,以主動從數據中提取信息。 5.數據質量和數據管理。大數據分析是數據質量和數據管理的組成部分。高質量的數據和有效的數據管理確保了分析結果在學術研究和商業應用中的可靠性和價值。大數據分析的基礎是前五個方面。當然,如果您更深入地研究大數據分析,則還有更多特征,更深入,更專業的大數據分析方法。
四、 論文(設計)的工作進度安排
2020.03.18-2020.03.20 明確論文內容,進行相關論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報告 。
2020.04.28-2020.04.30 :設計實驗。
2020.05.01-2020.05.07 :開展實驗。
2020.05.08-2020.05.15 :準備中期檢查。
2020.05.16-2020.05.23:根據中期檢查的問題,進一步完善實驗2020.05.24-2020.05.28 :完成論文初稿。
2020.05.29-2020.06.26 :論文修改完善。
五、 參考文獻(不少于5篇)
1 . 王偉,王珊,杜小勇,覃雄派,王會舉.大數據分析——rdbms與mapreduce的競爭與共生 .計算機光盤軟件與應用,2012.被引量:273.
2 . 喻國明. 大數據分析下的中國社會輿情:總體態勢與結構性特征——基于百度熱搜詞(2009—2 012)的輿情模型構建.中國人民大學學報,2013.被引量:9. 3 . 李廣建,化柏林.大數據分析與情報分析關系辨析.中國圖書館學報,2014.被引量:16.
4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數據分析的分布式molap技術 .軟件學報,2014.被引量:6.
5 . 王德文,孫志偉.電力用戶側大數據分析與并行負荷預測 .中國電機工程學報,2015.被引量:19.
6 . 江秀臣,杜修明,嚴英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數據分析的輸變電設備狀態數據異常檢測方法 .中國電機工程學報,2015.被引量:8.
7 . 喻國明. 呼喚“社會最大公約數”:2012年社會輿情運行態勢研究——基于百度熱搜詞的大 數據分析.編輯之友,2013.被引量:4.
六、指導教師意見
簽字: 年 月 日
七、學院院長意見及簽字
關于移動通信論文參考文獻:
[1]謝顯忠等,基于TDD的第四代移動通信技術[M].電子工業出版社,2005.
[2]解梅,移動通信技術及發展[J].電子科技大學學報,2003,02.
[3]宋文濤、羅漢文,移動通信[M].上海交通大學出版社,1996.
[4]何林娜,數字移動通信技術[M].機械工業出版社,2004.
[5]呂昌春,李林園.移動互聯網產業鏈平臺競爭與電信運營商增值業務發展策略研究[J].郵電設計技術,2012(11):16-20.
[6]張潔.影響中國移動通信產業發展競爭力的因素分析[J].經濟視角(下),2011(01):52-53.
關于移動通信論文參考文獻:
[1]張潔.影響中國移動通信產業發展競爭力的因素分析[J].經濟視角(下),2011(01):52-53.
[2]呂昌春,李林園.移動互聯網產業鏈平臺競爭與電信運營商增值業務發展策略研究[J].郵電設計技術,2012(11):16-20.
[3]劉文婷.以運營商為主導的移動互聯網業務商業模式研究[J].中國工業經濟,2012(08):66-74.
[4]馮文高.我國移動通信產業的競爭均衡分析[J].現代經濟信息.2009(16)
[5]張潔.影響中國移動通信產業發展競爭力的因素分析[J].經濟視角(下).2011(01)
[6]馬云澤.我國移動通信產業的市場結構與規制改革[J].經濟問題.2009(01)
[7]張平王衛東陶小峰《WCDMA移動通信系統》人民郵電出版社
[8]詹炳根,《工程建設監理》,中國建設工業出版社,1997
[9]謝堅勛淺談工程監理與項目管理接軌建設監理2004(2)
關于移動通信論文參考文獻:
[1]趙剛.大數據:技術與應用實踐指南[M].北京:電子工業出版社,2013.
[2]漆晨犧.電信企業大數據分析、應用及管理發展策略[J].電信科學,2013(3):12-16.
[3]劉潔,王哲.基于大數據的電信運營商業務精確運營平臺的構建化[J].電信科學,2015,29(3):22-26.
[4]張俊.移動通信網絡中大數據處理的關鍵技術研究[J].電信網技術,2014(4):10-12.
[5]康波,劉勝強.基于大數據分析的互聯網業務用戶體驗管理[J].電信科學,2013,29(3):32-35.
[6]謝華.大數據在移動通信中的應用探討[J].科技創業家,2014(1).
[7]夏磊.探巧大數據下的智能數據分析技術[J].科技創新導報,2014(10):21.
[8]侯優優,隋化嚴.網絡優化中的大數據應用[J].互聯網天地,2014(l):34-37.
[9]劉震,付俊輝,趙楠.基于移動通信數據的用戶移動軌跡預測方法[J].計算機應用與軟件,2015,30(2):10-13.
DSE雜志主編、哈爾濱工業大學李建中教授認為,現在大數據概念過熱,幾乎每個人都在談大數據,但真正了解大數據的人并不多。所以,對于大數據到底是什么,應該怎樣促進大數據的實際應用是學術界首先要探討的問題。DSE雜志希望成為全世界大數據研究者的交流平臺,讓我國大數據方面優秀的研究成果能夠發表在國際學術期刊上,推動我國的學術界走向世界。另外它也為全世界的企業界和學術界搭建了一個橋梁,促進大數據的研究成果向實際應用的轉化。
在很多技術領域,中國的發展都是在跟隨國外的腳步,但發展到今天,我們需要在一些領域做出創新,數據分析就是其中的一個突破口。現在國內很多領域、尤其銀行領域用的數據分析軟件都是國外產品。
對于此次合作,中新賽克CEO凌東勝說道,作為軟件開發供應商,中新賽克希望通過這次合作能夠把學術界的研究成果轉化到產品的實際解決方案中去,提升產品的核心競爭力,開發出領先的數據分析軟件,讓國內企業在大數據領域真正做強、做大。在2015年,中新賽克將把信息安全領域和銀行領域作為大數據產品的主要研發方向,努力推出優秀的產品解決方案。
對于大數據從學術研究到實際產品的應用,清華大學計算機系博士生導師、計算機系學術委員會主任周立柱教授認為還存在一些問題需要克服。首先就是要保證數據質量,目前數據噪聲、數據不一等問題還有待通過研究來解決;其次是數據大了以后,如何利用合適的數據模型從復雜性的數據中篩選出目標數據;再次是數據分析得出的結果如何向用戶解釋,背后的基礎是什么。
[關鍵詞]Hadoop;大數據;分布式計算;HDFS;MapReduce
doi:10.3969/j.issn.1673 - 0194.2015.20.032
[中圖分類號]TP308;TP311.13 [文獻標識碼]A [文章編號]1673-0194(2015)20-0041-01
1 大數據
大數據需要新處理模式才具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據的核心是預測,它把數學算法應用到海量數據上來預測事件發生的可能性。大數據同時意味著思維的變革:①小數據分析的是隨機樣本,而大數據分析的是全體數據,全面展示樣本無法表達的細節信息;②小數據分析追求精確性,而大數據分析具有混雜性,這意味著大數據的簡單算法比采樣數據的復雜算法更有效;③小數據分析關注因果關系,而大數據分析更關注相關關系,通過分析事物之間的關聯性,來預測事件的發展趨勢。
2 Hadoop大數據平臺
Hadoop是Apache的開源分布式計算平臺。受Google大數據論文的啟發,Doug Cutting用JAVA實現了以MapReduce和HDFS為核心的Hadoop,并將源代碼完全貢獻出來。Hadoop充分發揮集群的計算和存儲能力,快速完成海量數據的處理。Hadoop采用分布式存儲來提高讀寫速度和擴大存儲容量;采用MapReduce整合分布式文件系統上的數據,實現數據高速處理;采用存儲冗余數據來保證數據的安全性。
2.1 HDFS
HDFS是基于流模式訪問和處理超大文件的需求而開發的,它可以運行于廉價的商用服務器上,HDFS的主要特點有以下3個方面。①處理超大文件:在實際應用中,HDFS已經能夠用來存儲管理PB級的數據了。②流式訪問數據:請求讀取整個數據集要比讀取一條記錄更加高效。③運行于廉價的商用機器集群上:HDFS對硬件要求較低,無需昂貴的高可用性機器。
HDFS體系結構中有兩類節點:NameNode和DataNode,NameNode負責管理集群中的執行調度,DataNode是具體任務的執行節點。當執行任務時,客戶端訪問NameNode獲取文件數據信息,與DataNode進行交互以訪問整個文件系統。HDFS向用戶提供類似POSIX的文件接口,開發者在編程時無需考慮NameNode和DataNode的實現細節。
2.2 MapReduce
MapReduce是Google公司的核心計算模型。在Hadoop中,用于執行MapReduce任務的機器有兩種角色:JobTracker和TaskTracker,一個Hadoop集群中只有一個JobTracker,用于任務管理和調度。一般來說,為了減輕網絡傳輸的壓力,數據存儲在哪個節點上,就由哪個節點進行這部分數據的計算。JobTracker監控任務運行情況,當一個TaskTracker出現故障時,JobTracker會將其承擔的任務轉交到另一個空閑的TaskTracker重新運行。TaskTracker用于執行具體的工作。
3 大數據在智能電網中的應用構想
通過Hadoop大數據平臺,技術人員可實時觀察到全網范圍內的電能流動狀態、電能負載熱區、設備故障高發區和客戶集中區等數據,實現更加智能化的電網。具體包括以下4個方面。
3.1 電網數據可視化
在未來智能電網中,通過大數據分析融合調度、配電、輸電、發電和用電客戶數據,實現實時和非實時數據的高度信息化集成,通過實時可視化運算分析,全面展示完整和精細的電網運行狀態圖,為管理層提供輔助決策支持和依據。
3.2 電網負載趨勢預測
在未來智能電網中,通過大數據分析電網負載的歷史數據和實時數據,展示全網實時負載狀態,預測電網負載變化趨勢,通過現代化管理技術的綜合應用,提高設備的使用效率,降低電能損耗,使電網運行更加經濟和高效。
3.3 設備故障趨勢預測
在未來智能電網中,通過大數據分析電網中部分故障設備的故障類型、歷史狀態和運行參數之間的相關性,預測電網故障發生的規律,評估電網運行風險,開展實時預警,提前做好設備巡檢和消缺工作,為電網安全穩定運行保駕護航。
3.4 客戶電力需求預測
在未來智能電網中,通過大數據分析電網客戶的用電數據,預測區域用電和大客戶用電需求變化趨勢,針對客戶需求提前制訂高質量的服務計劃,提升社會滿意度。
4 結 語
Hadoop充分發揮集群的計算和存儲能力,完成海量數據的實時處理。在未來的智能電網中,大數據分析可以應用到電網運行全景可視化、電網負載預測、設備故障趨勢預測和客戶需求趨勢預測等需求,充分挖掘海量數據的價值,為智能電網提供技術參考。
關鍵詞:技術創新;大數據;雙螺旋模型
一、引言
自2013年被確定為“大數據元年”以來,大數據應用已廣泛滲透到各行各業。伴隨著數據規模和類型的劇變、數據存儲成本的迅速下降、數據采集更加密集和廣泛,學術界和企業界開始站在戰略的高度重新審視大數據的價值。2008年9月,《自然》雜志推出了名為“大數據”的封面專刊,隨后IDC(2011)描述了大數據的“3V”:規模性(Volume)、多樣性(Variety)、實時性(Velocity),之后又加入價值性(Value)來描述大數據特征,稱之為“4V”[1]。麥肯錫(2011)將大數據定義為無法用常規軟件收集、儲存、處理、分析的龐大數據集。Forrester突破了以往單一對數據本身描述的局限,通過數據價值實現的角度將大數據定義為數據存儲、處理和訪問的流程與業務目標的集成。國內學者涂子沛在其專著《大數據》(2012)、《數據之巔》(2014)中反復表達“尊重事實,用數據說話”[2]以及“推崇知識和理性,用數據創新”的觀點,并描述了未來對于建設“SmartCity”的構想[3]。孟小峰(2013)指出大數據研究的火熱,并不能代表研究的深入,相反大數據的研究還處于一個非常起步的階段,還有諸如關鍵技術、利用方式等很多基礎性的問題需要解決[4]。大數據的發展和進步是以數字信息技術的發展和應用為主線的。數據分析、數據挖掘、數據存儲是拉動大數據發展的“三駕馬車”,這三項數據技術需要不斷進行創新才能進一步發掘大數據的價值潛力。由于大數據具備準確預測趨勢的能力、從海量數據中萃取有應用價值信息與知識的能力以及對市場技術需求方向突出的把控等能力,使得技術創新的效率有較大幅度的提升。同時,數據分析、挖掘和存儲本身作為技術手段也需要進行創新。因此,大數據與技術創新之間存在著密切的聯系。朱東華等(2013)提出了大數據環境下面向技術創新管理的雙向決策模型,以期提升我國技術創新管理研究在大數據環境下提取知識與觀點的能力[5]。趙亮等(2015)通過大數據的收集和預處理、大數據存儲、創新源數據可視化以及創新應用子項目的實施,實現對技術創新評估預測、風險把控能力的提升[6]。針對大數據與技術創新有關文獻的梳理,不難看出,在大數據時代下,大數據對于各類技術創新具有較大的提升作用,而“大數據”概念下作為技術支撐的數據技術同樣需要創新,同時也需要對數據技術的創新進行管理。對于大數據和技術創新這種“你中有我,我中有你”的相互作用關系,論文嘗試以雙螺旋結構模型為研究工具,提出大數據———技術創新雙螺旋模型,從而厘清在大數據與技術創新作用關系中的動力因素,以達到大數據與技術創新共同發展進步的目的。
二、雙螺旋結構理論
雙螺旋結構模型起源于生物學中的DNA雙螺旋結構,生物學家為了研究人類的遺產規律,從人類遺傳密碼———“基因”的角度出發,提出并繪制了DNA雙螺旋結構模型。1953年,沃森和克里克首次提出了DNA雙螺旋結構模型,該模型開啟了分子生物學時代。利用該模型,人類直觀地認識到遺傳信息的構成和傳遞路徑,并對人類遺傳信息復制上升的互融聯動關系有了初步的了解。在生物分子學領域,DNA雙螺旋結構模型是由兩條主鏈和堿基對組成,兩條主鏈相互盤旋形成類似于“麻花”狀的螺旋結構,而堿基對位于螺旋內部,兩兩對應。堿基對的排列順序就決定了生物體的不同性狀,而在DNA雙螺旋進行發展進化之時,堿基對的不同組合以及排列順序就確定了未來生物的發展走向。隨著管理科學的發展,在管理科學領域中有許多互相影響、互相促進、互相融合的二元關系,為了清晰地描述這種關系,管理學中引入分子生物學的DNA雙螺旋結構模型進行描述,從而形成了管理科學中的雙螺旋結構模型。質量管理學家戴明通過對計劃———執行———檢查的研究,提出這三個步驟不是原地循環往復的,而是一種螺旋式上升。于渤(2008)將知識創新雙螺旋作為企業知識創新過程,指出創新的過程需要經歷一套復雜的過程,最終實現自我超越的知識螺旋轉化[7]。管理科學與分子生物學的結合提煉出螺旋式系統方法論,又稱作螺旋式方法論。該方法論指導雙螺旋結構模型在管理領域的應用,而其基本的解決問題的精神是,按照事物發展的規律和演變的過程,通過螺旋內部重大影響因素的互相作用,循環使用不同的方法,推進事物有序的發展,最終達到事物發展的某種目標。
三、大數據與技術創新雙螺旋模型及分析
1.大數據與技術創新雙螺旋模型對于各類技術創新,大數據提供了龐大的樣本數據分析預測、精細的市場技術需求定位、詳盡的技術創新需求對象畫像刻畫等服務,使得技術創新的效率大幅度提升。而數據分析、挖掘和存儲是推動大數據自身發展的核心技術,這些技術的創新也將直接影響到大數據對其他技術創新的拉動作用。利用雙螺旋結構模型研究大數據與技術創新相互作用關系具有積極的現實意義,論文提出大數據———技術創新雙螺旋結構模型(BigData--Tech-nologyInnovation雙螺旋結構模型;BT雙螺旋結構模型)。依據BT雙螺旋結構模型,本文將大數據與技術創新視為兩條主鏈,即“大數據鏈”和“技術創新鏈”。這兩條主鏈的相互作用是依靠堿基對進行鏈接的,為了推動“大數據鏈”與“技術創新鏈”的發展增長,堿基對的不同搭配,相互作用,促進BT雙螺旋模型的不斷發展。數據挖掘、數據分析、數據存儲是推動大數據發展的技術核心,技術創新的發展需要技術創新管理理論的指導,以技術創新管理理論指導數據技術的創新,從而實現BT雙螺旋模型的發展。故將數據挖掘、數據分析、數據存儲和技術創新管理理論作為堿基,進行兩兩配對。圖1BT2.大數據———技術創新雙螺旋模型分析BT雙螺旋結構模型中將大數據與技術創新作為研究的主要對象,將其作為兩條主鏈進行分析。各類技術的創新需要在大數據以及大數據相關技術的支持下進行。同樣的,大數據自身數據技術的創新又歸屬于技術創新范疇,需要相關技術創新管理理論來給予指導和管理。BT雙螺旋結構模型需要向縱深發展,就必須要經歷雙螺旋結構的破裂———復制———重組———再破裂這樣的一個循環過程,從而循環往復,推動BT雙螺旋模型不斷發展。堿基一:數據挖掘技術,大數據需要通過從海量的數據中提取有效信息和知識,因此,數據挖掘技術是大數據未來發展的一項核心技術。憑借數據挖掘技術提煉出有價值的信息與知識,可以為技術現狀進行評估、技術創新未來趨勢進行預測、技術創新源進行匯總提供強大的信息支撐。堿基二:數據分析技術,數據分析技術是通過對現有數據進行分析,歸納、整理、總結并對所分析對象提供相應的預測。該技術是連接數據與結論的重要橋梁,通過分析技術可以順利地將“冷冰冰”的數據轉化成為有價值的結論成果,堿基三:數據存儲技術,存儲技術是數據挖掘技術與數據分析技術的基礎。信息時代的數據不僅僅是結構化的數據,更多的則是非結構化或是半結構化的數據,大量的數據需要有存儲空間,并且要做到隨用隨取,這樣才能使得數據的挖掘和分析更具時效性和針對性。堿基四:技術創新管理理論,數據技術的不斷革新需要從管理學的角度給出指導性的建議。大數據的三項核心數據技術本身作為一種技術手段,需要進行科學的發展,在數據技術的創新過程中,離不開技術創新管理理論的協助。大數據鏈與技術創新鏈作為BT雙螺旋模型的兩條主鏈擔負著不斷進步發展的使命,以數據挖掘技術、數據分析技術、數據存儲技術和技術創新管理理論為堿基對負責對兩條主鏈的發展進行指導。在DNA雙螺旋結構模型中,堿基對必須是A-T,G-C進行定位搭配互補,而在BT雙螺旋模型中,通過借鑒DNA雙螺旋結構模型的堿基對互補理論,從而進行多元輪回式的互補結合。BT雙螺旋模型中的堿基對不再像DNA雙螺旋模型那樣必須定位對象式的配對,當進入破裂階段,大數據鏈與技術創新鏈進行分離,兩主鏈破裂時連帶自己鏈條上所攜帶的堿基一并分離。進入到復制階段,各堿基進行復制,也即各項數據技術以及技術創新管理理論的推廣應用。而后,進入重組階段,堿基隨機兩兩結合,重新配對,在不同的空間、時間進行不斷的隨機結合,就會產生奇妙的化學反映。從而在不同隨機兩兩堿基結合的過程中,產生創新,發揮動力作用,就如同圖2所示地推動BT雙螺旋模型向縱深方向進行發展進步。
四、結論與展望
云計算、物聯網和互聯網的快速發展,使得數據量以極快的速度增長,大數據成為研究熱點。大數據的價值產生于分析過程,所以大數據挖掘與分析是整個大數據處理流程的核心。本文介紹了大數據數據體量巨大、數據類型繁多、價值密度低、處理速度快的4V特征、以及基于這些特征的大數據挖掘與分析需要解決的關鍵技術。
關鍵詞:
大數據大數據分析大數據挖掘可視分析
隨著云計算、物聯網和互聯網等技術的快速發展,各種移動設備、傳感網絡、電商網站、社交網絡時時刻刻都在生成各種各樣類型的數據,大數據時代已經到來。大數據即數據體量巨大、數據類型多樣、數據的質量低、處理速度迅速的數據。大數據分析的核心是從大量數據中獲取有價值的內容,更準確、更深層次的知識,而不是對數據簡單的統計和分析。
1大數據的定義與特征
大數據已經進入了我們每個人的生活,各行各業都在討論如何發展和運用大數據,那么什么是大數據,大數據的特征是什么?大數據是指所涉及的數據規模巨大到無法通過目前主流的軟件工具在合理時間內擷取、管理、處理、挖掘這些數據,并整理成為企業經營決策有用的信息。IBM提出大數據的4V特征,得到了業界的廣泛認可。第一,數量(Volume),即數據巨大,從TB級別躍升到PB級別;第二,多樣性(Variety),即數據類型繁多,不僅包括傳統的格式化數據,還包含來自互聯網的大量視頻、圖片、位置和日志等;第三,速度(Velocity),即處理速度快;第四,價值性(Veracity),即追求高質量的數據。大數據具有4V特征,給人們帶來了新的機遇與挑戰。
2大數據挖掘與分析的意義
在大數據處理的過程中,數據分析是核心,因為大數據的價值全部在數據分析過程中產生。互聯網、硬件等技術迅猛發展,加深了人們對數據分析的需求。如果大數據是一種產業,賺錢的重點在于如何提高數據的分析能力,通過分析發現數據的更多潛在的價值。在大數據時代,數據分析是數據價值發現的最重要環節,也是決策的決定性元素。傳統的數據分析主要針對結構化數據,且已經形成一整套非常有效果的分析體系。但是在大數據時代,半結構化和非結構化數據量的快速增長,給傳統的分析技術帶來了巨大的挑戰和沖擊。大數據分析于傳統數據分析有哪些區別呢?
3大數據挖掘與分析的關鍵技術
大數據挖掘與分析的關鍵技術一般包括:大數據采集、大數據預處理、大數據存儲及管理、大數據實時處理、大數據可視化和應用等。
3.1大數據采集技術大數據采集一般分為大數據智能感知層和基礎支撐層。智能感知層重點攻克針對大數據源的智能識別、感知、適配、傳輸、接入等技術。基礎支撐層重點攻克提供大數據服務平臺所需的虛擬服務器、數據庫及物聯網絡資源等處理技術。
3.2大數據預處理大數據預處理是指在大數據挖掘前期對大數據進行的一些提前處理。預處理包括數據清理、數據集成、數據變換和數據歸約等幾種方法(表1)。大數據的特點是數據量大,但并沒有增加數據價值,相反增多了數據噪音,有很多數據放在存儲器里就沒再用過。數據量的突然增加,各種媒體數據被任意碎片化。在應對處理大數據的技術挑戰中,大數據的降噪與清洗技術值得高度重視。早期主要是結構化數據的挖掘,可從數據庫中發現時序知識、關聯知識和分類知識等。在大數據時代,數據庫已經不能滿足人們的需求了。大數據中數據類型繁多,我們進入了一個非結構化數據挖掘時代。因此,非結構化數據模型是大數據預處理的重要研究方向。
3.3大數據管理大數據不斷地從復雜的應用系統中產生,并且將會以更多、更復雜、更多樣化的方式持續增長。多樣化的物聯網傳感設備不斷地感知著海量的具有不同格式的數據。物聯網系統中大數據的復雜化和格式多樣化,決定了物聯網系統中針對大數據的應用場景和服務類型的多樣化,從而要求物聯網大數據管理系統必須采用特定技術來處理各種格式的大數據,而現在針對特定數據類型和業務的系統已經無法滿足多樣化需求,因此,設計新的具有可擴展性的系統架構已經成為大數據管理的研究熱點。
3.4大數據實時處理根據大數據速度快的特點,時間越長,數據的價值也在不斷衰減,因此很多領域需要對數據進行實時處理。大數據時代,伴隨著各種應用場景的數據分析從離線轉向了在線,實時處理的需求不斷提高。大數據的實時處理面臨著一些新的挑戰,主要體現在數據處理模式和算法的選擇及改進。
3.5大數據可視分析大數據可視分析是指在大數據自動挖掘的同時,融合計算機的計算能力和人的認知能力,利用人機交互技術和可視化界面,獲得大規模復雜數據集的分析能力。在大數據時代,大數據可視化是必須盡快解決的關鍵問題,為大數據服務的研究指明了方向。
4結語
傳統數據處理方法已經不能滿足大數據挖掘與分析的需求。近年來,大數據挖掘與分析領域已經出現了很多新技術,并成為大數據采集、存儲、處理和呈現的堅實基礎。但是對大數據分析的價值尚缺少深入的理解,大數據分析中的很多重要技術還不成熟,還有很多其他關鍵技術難題需要去繼續研究。
參考文獻
[1]韓晶.大數據服務若干關鍵技術研究[D].北京郵電大學博士學位論文,2013.
[2]程學旗,靳小龍,王元卓等.大數據系統和分析技術綜述[J].軟件學報,2014,25(09):1889-1908.
[3]任磊,杜一,馬帥等.大數據可視分析綜述[J].軟件學報,2014,25(09):1909-1936.
[4]McKinseyGlobalInstitute。Bigdata:Thenextfrontierforinnovation,competition,andproductivity[J],2011.
(湖南城市學院圖書館,湖南 益陽413000)
【摘 要】在云計算、物聯網等技術的推動下,世界已經進入了一個“大數據”時代。本文旨在討論大數據時代下,圖書館與大數據相關的研究內容、發展存在的問題以及總體發展趨勢。在大數據時代下,圖書館應該進行服務模式創新與重構、服務內容創新與重構,從而解決發展瓶頸。
關鍵詞 大數據;圖書館;云計算
0 引言
在云計算、物聯網等技術的推動下,世界已經進入了一個“大數據”時代。如何有效地利用大數據成為政府公共管理和企業界共同關注的問題,但這些數據集的規模往往超出數據處理者的能力。圖書館主要工作為實踐,研究和教育。以最大限度地利用人類的知識,促進專業的交流為責任。圖書館職業無法離開專業知識和信息,影響人類社會的可持續發展。數據是圖書館藏書的重要組成部分。數據作為原始類的產品,可以加工、整理、分析,最后提煉成人與人之間的生產和生活中發揮更大作用的信息和知識。因此,大數據主題是圖書館行業內應當研究的問題,展示了圖書館界在信息社會求生存,謀發展能力的提升。本文旨在討論大數據時代下,圖書館與大數據相關的研究內容、發展存在的問題以及總體發展趨勢。
1 圖書館學研究教育與大數據現狀
圖書館已有的研究中有文獻計量學等和大數據有關。研究人員為了促進信息科學與社會科學的進步,通過大型網絡規模的收集獲得數據和分析數據得出相關結論來實現目標。由于大數據技術的應用,傳統的文獻計量學的研究從過去只有簡單的描述性研究擴展到評估和預測的研究。圖書館學研究人員參與了很多相關的項目,例如,新西蘭的奧塔哥大學的圖書館承擔了研究數據管理項目的任務,在麻省理工大學設立項目研究圖書館數據存儲、需求分析數據的管理,和傳播數據,并完成數據收集保存標準的制定工作。烏里韋和麥克唐納在認為數據監測工作將從傳統的信息技術受益。Huwe建議采取政治手段,以促進圖書館和數據中心的發展,他認為高等教育機構應該認可圖書館對學術研究的支持。通過分析2008非常流行的“數字化監控中心的生命周期模型”,希金斯提出,圖書館的“數據保留計劃”的生命周期可以被納入其數字機構庫文件管理實體。此外,美國學者對館員在大數據環境中的作用和專業知識進行了調查,他們一致認為圖書館可以在大數據時代承擔數據管理職責。謝菲爾德大學還安排了基礎的信息學專業課程。 2011年6月倫敦國際監護教育論壇投入使用的,也給數字監控領域的發展提供了一個機會。
國內目前的相關研究課題還處于剛起步的狀態,CNKI與該主題相關的文章也只有寥寥幾篇。相比之下,國內對“數據監護權”的關注度更高這,主要是針對大學圖書館在這個專業領域展開更多的研究。這方面的論文在2012年之后有一個井噴式的增長,但總體來說,國內相關文獻還相對較少,研究項目也幾乎沒有。
2 圖書館的大數據特征
在數字化時代,數據處理更容易、更快。圖書館的數據資源種類多、數量大、形式多樣。截至2008年底,CALS的文檔數據量達到180T,2010年底的國家圖書館數字資源總量達到480 T。目前,國家博物館進行維護之后,數字圖書館的非結構化數據的存儲容量將非常大。總數字資源工程也達到108TB。由此看來,圖書館的數字資源總量已聚集為一個大的數據集。再次,圖書館自動化服務水平已發展到了一個新的階段。此外,用戶服務信息每日激增,用戶對服務的要求越來越高,圖書館要根據用戶的服務信息,做出相應的調整。因此,根據各自限定的環境和條件,從大量的數據分析中挖掘出用戶當前和未來的需求都非常迫切。
3 大數據背景下圖書館發展趨勢
3.1 服務模式創新與重構
目前,隨著科學技術的不斷發展,傳統的紙質圖書館向電子、數字圖書館的轉變,因此圖書館服務的性質已經發生了很大的變化。傳統圖書館是點對點的服務,而目前數字圖書館已經成為綜合,服務的風格和方法等方面都發生了很大的變化。在服務理念上,數字圖書館是基于數據服務的基礎上,在大數據的基礎上,從數據采集,智能服務,提供綜合服務,創新了服務模式。在大數據時代,數據資源是豐富的,每個圖書館可以利用網絡來收集大量的數據資源,基于資源共享提供各種數據管理的資源之間的無縫連接。
3.2 服務內容創新與重構
在大數據時代背景下,競爭已經不再是一個簡單的數據資源所有權的競爭,而是在數據的結構以及類型上、數據的開發以及利用上的競爭。從圖書館的角度來看,它是在大數據背景下,為了避免自己被邊緣化,就必須分析數據,來進行相關的數據分析服務。分析數據庫業務有以下幾個方面:首先,圖書館需要建立自己的大數據分析,數據分析通常在現有的數據,如讀者愛好的書籍等。另外是對讀者的分析,這類似企業和其他客戶群體參考提供的數據分析、競爭情報分析,但也有很大的區別,不同之處在于數據分析對象、用于數據分析和數據分析的目的等。對于這樣的數據,可能不會被圖書館所擁有,所以它必然成為在這個行業發展的瓶頸限制,我們應該想辦法解決這些問題。
參考文獻
[1]劉瓊.大數據環境下圖書館面臨的影響與挑戰[J].理論觀察,2013(8):112-113.
[2]孫琳.大數據時代圖書館服務體系創新研究[J].理論觀察,2013(4):99-100.
[3]李立.大數據在數字圖書館中的應用分析[J].高校實驗室工作研究,2014(3): 35-37.
【關鍵詞】大數據;高等教育;大數據思維模式;教育改革
一、大數據與高校
伴隨著人類存儲信息量的增長,越來越多的領域開始加入大數據陣營,越來越多的行業開始利用大數據分析,大數據給我們帶來的影響已經悄然成為社會各行業運行的基礎。
高校作為社會培養人才的一個重要的組成部分,目前多數學校仍延續著傳統的教育范式,教學策略依賴教師的經驗,教師的學術嚴重落后于社會科技的發展,學校的評估機制存在很多漏洞等等。許多專家發現了高等教育存在的問題,卻沒有更好的解決辦法,以前我們常說“讓事實說話”,現在我們大聲呼吁“讓數據說話,用說話的數據”。
二、迎接大數據
迎接大數據的到來首先要做的就是思維模式的改變。大數據科學本身其實是許多學科例如統計學,數據挖掘技術,機器學習,計算機技術,方法論相結合的跨學科科技,以多種理論為基礎而誕生的新興科技,使用者必須要對自己原本的思維模式進行相應的變革。
大數據首先強調的是“大”,采集一切有關甚至表面上看似“無關”的數據,也就是以后用于分析的數據要是全體數據,我們稱之為“全數據”;其次,采集的數據講究的是模糊,而不是精確,數據的種類模糊,數據的分析模糊,而預測分析的準確度來源于數據量之大,正所謂“量變帶來質變”;最后,就是對于大數據分析的結果,我們要明確“是什么”,而不必在乎“為什么”。于是,大數據體系形成了思維的改變去采集數據,從而獲得“大數據”,利用數據分析技術和算法來得到更為有效更為精準的數據。
三、使用大數據
(一)大數據的來源。高校中其實蘊含著更加豐富的數據,從學生的角度來說,學生的消費,家庭情況,宿舍活動,選課信息,學習進度,作業完成進度,考試成績的比對,參與的社團,參加的競賽,參加的活動,已經畢業的學生就業情況,社會職業供求關系,就業的滿意度調查等等太多數據,從教師的角度,教學過程的監控,教學內容的整理,課程設計,,學生的成績變化,論文質量,參與活動,科研項目等等數據,還要從社會,從家長,從宿舍,從第三方機構采集數據。由此可以看到整個校園的數據其實是一個極度龐大的數據,這些數據的集合才是“大數據”。
(二)大數據不是單純的“數字化”。例如,某個教師采用計算機多媒體課件,或者使用在線視頻課程,或者加入MOOC的陣營,這僅僅是簡單的將原本文字的東西變成“0和1“而已,這是數字化,不是大數據,充其量算是實現“大數據”而使用的計算機技術。我們真正要做的是在這些計算機平臺中去采集我們需要的數據,甚至收集我們看似毫無關聯的數據。
(三)廣義量化的數據。建立大數據,需要將一切信息進行量化,把文字量化,把數字量化,把地理位置量化,把溝通語言量化,把一切可以量化的信息都變成數據,構建大數據平臺。
(四)大數據的作用。高校的大數據,要還原真實的教學質量,真實的就業情況,真實的師資力量,真實的管理決策成效,不能簡單的用問卷調查得出“好、不好”的結論。大數據發掘了時間價值,節約了時間,歷史數據的總結,實時數據的分析,以及對未來的預測。這一切都是建立在時間這個維度上的大數據成果。
四、小心大數據
(一)數據的隱私和安全。在高校中,學生的成績,學生的基本信息,學生在網站上發表的信息,對老師客觀的評價,學生參與的活動,教師的論文,就業信息等等一些相對可以公開的數據,但是經過分析和預測得到的評估結果,卻涉及到了個人隱私。這也就是非隱私數據經過大數據分析得到的隱私結論的現象。那么我們該如何保護這些隱私,是需要相應的規范去保護,對于數據的使用和加工者要有詳細的法律責任,以保護非隱私數據提供者的合法權益。
(二)永久存在的數據。高校對于學生在校期間或者對于教師在校期間所有發生的數據,比如大到一次獎學金,一次公開獲獎,小到每次活動記錄,一次出勤,一次缺勤,這些曾經否定我們進步的數據在大數據的時代變成了永久存在的數據,我們如何對待和處理這部分數據,是一個值得深思的問題。
(三)知“難”而“退”。高校利用大數據的分析得出對于某個學生的學習建議,讓該學生能夠輕松避開自己的弱項,選擇相對平坦的路線進行學習,那么這樣的結果是不是教育者希望看到的。我們一直崇尚學生學者要迎難而上,不要輕言放棄,要主動迎接挑戰,現在有了大數據分析,他們可以輕松避開困難,為學生創造一條平坦的道路。這樣的結果是我們作為教育者希望得到的嗎?
結 語
任何新的變革,都需要時代的磨練,大數據時代剛剛起步,他要走的路還很長很長,他需要完善的地方還很多很多。現在我們要做的就是接受大數據,然后忘記大數據,讓大數據這個理念變成“計算機”一樣的通俗,一樣的深入人心。我們需要關注大數據,使用大數據,我們也需要和大數據一起成長,更好的發揮它的作用。高校未來離不開大數據,大數據的發展也離不開高校,讓每個學生、每個教師都步入大數據時代,去體會其中的奧妙,去感受他給我們帶來一場劃時代的變革,每個高校建立大數據信息平臺勢在必行。
參考文獻: