淺談對(duì)歷史頻譜數(shù)據(jù)的數(shù)據(jù)挖掘
國(guó)家新聞出版廣電總局五五三臺(tái)自1955年建立伊始就承擔(dān)著我國(guó)廣播監(jiān)測(cè)的繁重任務(wù),60多年來(lái)頻譜負(fù)荷收測(cè)一直是我臺(tái)的主要工作之一,經(jīng)過(guò)臺(tái)內(nèi)幾代收測(cè)人員的辛勤勞動(dòng),我臺(tái)現(xiàn)存放著自上世紀(jì)50年代至今的海量頻譜原始數(shù)據(jù),包括國(guó)內(nèi)中央臺(tái)廣播數(shù)據(jù),以及大量我臺(tái)能夠收測(cè)到的海外對(duì)華廣播及途徑我臺(tái)的海外廣播,所涉電臺(tái)、語(yǔ)種數(shù)目都極其龐大。通過(guò)合理利用這些數(shù)據(jù),我們將能夠得以從中窺探出世界廣播發(fā)展、變革的軌跡,進(jìn)而對(duì)我國(guó)目前的頻譜資源管理提供有價(jià)值的信息和解決方案。然而,要達(dá)到這一目標(biāo),首先要解決如何從巨大體量的數(shù)據(jù)中挖掘有用信息和知識(shí)這一難題。
一、基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)
(一)大數(shù)據(jù)的定義
關(guān)于大數(shù)據(jù)的確切定義,目前尚無(wú)獲得統(tǒng)一公認(rèn)的說(shuō)法。IBM用4V特性來(lái)描述大數(shù)據(jù)所擁有的特點(diǎn):巨大的數(shù)據(jù)量(Volume);高速率(Velocity),體現(xiàn)了大數(shù)據(jù)產(chǎn)生效率的實(shí)時(shí)性;多結(jié)構(gòu)化數(shù)據(jù)(Variety)則從數(shù)據(jù)類型的角度體現(xiàn)了大數(shù)據(jù)的多元化,除了傳統(tǒng)的文本數(shù)據(jù)外,圖片、影視頻數(shù)據(jù)也成為先階段大數(shù)據(jù)技術(shù)的熱門(mén)存儲(chǔ)對(duì)象;價(jià)值密度低(Value),意味著要從低價(jià)值的原始海量數(shù)據(jù)中進(jìn)行深度挖掘和計(jì)算,總結(jié)出具備高價(jià)值的數(shù)據(jù)。
(二)基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘的目的是為了從大數(shù)據(jù)中獲得知識(shí),很多時(shí)候數(shù)據(jù)挖掘也被稱之為KDD,即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)。顯然,一個(gè)數(shù)據(jù)挖掘項(xiàng)目所需要的知識(shí)涉及到各個(gè)層面:決策層面需要知道數(shù)據(jù)挖掘能干什么;設(shè)計(jì)層面需要掌握行業(yè)相關(guān)知識(shí)和數(shù)據(jù)挖掘相關(guān)知識(shí);技術(shù)層面需要高等數(shù)學(xué)、概率學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)原理、分布計(jì)算、編程語(yǔ)言、具體算法原理等知識(shí);應(yīng)用層面則要知道數(shù)據(jù)挖掘怎樣結(jié)合行業(yè)領(lǐng)域的需求,以及如何應(yīng)用數(shù)據(jù)挖掘的結(jié)果來(lái)解決問(wèn)題等等。許多軟件公司及開(kāi)源機(jī)構(gòu)為了處理海量的信息,并對(duì)數(shù)據(jù)挖掘算法進(jìn)行普及,開(kāi)發(fā)了眾多數(shù)據(jù)挖掘工具軟件,而Hadoop生態(tài)圈則是目前主流的分布式海量數(shù)據(jù)挖掘平臺(tái)。
二、對(duì)歷史頻譜數(shù)據(jù)的數(shù)據(jù)挖掘
(一)頻譜資源和頻譜資源管理
無(wú)線電頻譜是一種非常寶貴且有限的自然資源,是屬于國(guó)家的重要戰(zhàn)略性資源。近年來(lái),無(wú)線電頻譜需求不斷增加,頻率沖突越來(lái)越嚴(yán)峻,給頻譜資源的監(jiān)測(cè)和管理帶來(lái)了新的困難與挑戰(zhàn),對(duì)無(wú)線電頻譜的監(jiān)測(cè)與管理是有效使用無(wú)線電資源的前提,因此,如何開(kāi)展對(duì)信道和頻段使用情況的有效監(jiān)測(cè),記錄全頻段和全時(shí)段內(nèi)所有信號(hào)的基礎(chǔ)數(shù)據(jù),掌握用頻變化,評(píng)估信道占用度和利用率,把握頻譜的整體使用情況,提高頻譜感知與管理能力成為亟需解決的問(wèn)題。
頻譜資源管理是指對(duì)無(wú)線電頻譜資源的使用進(jìn)行規(guī)劃與控制的活動(dòng),而無(wú)線電頻率管理是無(wú)線電頻譜管理的核心。為了對(duì)頻譜資源進(jìn)行合理的管理,我們不但必須掌握現(xiàn)階段的用頻情況,也需要對(duì)以往的頻譜數(shù)據(jù)進(jìn)行分析,掌握一段時(shí)期內(nèi)的用頻變化,以此來(lái)對(duì)下個(gè)階段的無(wú)線電頻率劃分進(jìn)行決策。
(二)歷史頻譜數(shù)據(jù)挖掘的過(guò)程模型
對(duì)于數(shù)據(jù)挖掘項(xiàng)目首先要建立過(guò)程模型,這里運(yùn)用美國(guó)SPSS公司提出的5A模型,即評(píng)價(jià)需求(Assess)、存取數(shù)據(jù)(Access)、完備分析(Analyze)、模型演示(Act)、結(jié)果展現(xiàn)(Automate),來(lái)對(duì)歷史頻譜數(shù)據(jù)挖掘進(jìn)行過(guò)程分析。
1.評(píng)價(jià)需求
通過(guò)對(duì)海量歷史頻譜監(jiān)測(cè)數(shù)據(jù)的深入挖掘與分析,采用形式多樣、豐富的統(tǒng)計(jì)方法,我們可以以文本、圖片等多種形式提供直觀、有效、全面的歷年頻譜資源展示,從而為目前的頻譜資源管理提供綜合性決策依據(jù)。我臺(tái)頻譜負(fù)荷收測(cè)主要涉及中短波廣播業(yè)務(wù),故此項(xiàng)目主要針對(duì)中短波廣播頻段頻譜數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。
2.存取數(shù)據(jù)
利用Hadoop數(shù)據(jù)挖掘構(gòu)架實(shí)現(xiàn)海量數(shù)據(jù)的快速存取,主要包括了大規(guī)模數(shù)據(jù)分析工具Pig、數(shù)據(jù)倉(cāng)庫(kù)工具Hive、分布式編程框架MapReduce、數(shù)據(jù)狀態(tài)存儲(chǔ)HCatalog、分布式數(shù)據(jù)庫(kù)Hbase以及分布式文件系統(tǒng)HDFS等。
3.對(duì)歷史頻譜數(shù)據(jù)的分析
(1)頻譜占用度分析
頻譜占用度分析是頻譜分析的一種主要方法,通過(guò)對(duì)頻道分的統(tǒng)計(jì)計(jì)算,能知曉一定頻段和時(shí)間范圍(一般是一個(gè)頻譜收測(cè)周期)內(nèi)廣播全頻段的頻譜占用情況,從而能夠幫助我們?cè)跈M向(同一年相比較)、縱向(在時(shí)間跨度上相比較)上了解收測(cè)點(diǎn)附近(上海寶山地區(qū))近60年的頻譜占用度變化情況。一般以柱狀圖顯示一定頻段和時(shí)間范圍內(nèi)的頻譜占用情況,占用度高低由不同顏色加以區(qū)分,頻道帶寬可設(shè)定,占用度可在時(shí)間和頻段二個(gè)不同維度進(jìn)行統(tǒng)計(jì)。
(2)已知電臺(tái)分析
已知電臺(tái)分析是以已知曉的各國(guó)際國(guó)內(nèi)電臺(tái)作為分類,在橫向、縱向上對(duì)該臺(tái)在我收測(cè)點(diǎn)附近的,可收測(cè)到的播音情況進(jìn)行統(tǒng)計(jì)分析。通過(guò)電臺(tái)分析,可以得知某一電臺(tái)的播音總體變化,包括用頻變化(點(diǎn)陣圖或柱狀圖顯示)、歷年頻時(shí)數(shù)變化(折線圖顯示)等等。同時(shí),按照國(guó)家、地區(qū)、使用語(yǔ)言(節(jié)目?jī)?nèi)容)等對(duì)電臺(tái)進(jìn)行分類。建立數(shù)據(jù)字典,將某一臺(tái)曾使用過(guò)的臺(tái)名、歸屬、發(fā)射地進(jìn)行統(tǒng)一錄入,方便在統(tǒng)計(jì)分析數(shù)據(jù)時(shí)保持完整性。
(3)使用語(yǔ)言分析
使用語(yǔ)言分析是對(duì)已知電臺(tái)所播的語(yǔ)言種類進(jìn)行統(tǒng)計(jì)分析。通過(guò)對(duì)各臺(tái)各頻率使用語(yǔ)言的統(tǒng)計(jì)篩選,可以對(duì)以我國(guó)作為主要播向區(qū)的電臺(tái)頻率做進(jìn)一步分析,包括用頻變化(點(diǎn)陣圖或柱狀圖顯示)、頻時(shí)總數(shù)變化(折線圖顯示)、發(fā)射方向圖展示等等,對(duì)我們把握此類電臺(tái)頻率的整體變化趨勢(shì)有著重要的作用。
(4)未知電臺(tái)、語(yǔ)言分析
我臺(tái)的歷年頻譜數(shù)據(jù)中,包括了一部分未知電臺(tái)以及未知語(yǔ)言的頻率。這一部分頻率在頻譜負(fù)荷表中以“?”表示,大多為能夠收聽(tīng)到播音但無(wú)法通過(guò)播音內(nèi)容或國(guó)際資料確定電臺(tái)歸屬或播音語(yǔ)言的頻率。對(duì)該類頻率,可以通過(guò)對(duì)已知電臺(tái)頻率的數(shù)據(jù)分析,判斷其可能的歸屬及播音語(yǔ)言。
4.頻譜資源挖掘模型
數(shù)據(jù)挖掘的任務(wù)模式按照功能類型可以分成描述型和預(yù)測(cè)型兩類,描述型任務(wù)一般用來(lái)刻畫(huà)數(shù)據(jù)的常用特征,預(yù)測(cè)型任務(wù)則通過(guò)分析目標(biāo)對(duì)象的模式和規(guī)律,對(duì)未來(lái)趨勢(shì)做出合理判斷。在頻譜數(shù)據(jù)任務(wù)中,對(duì)歷史頻譜數(shù)據(jù)的分析可以歸為描述型,而通過(guò)對(duì)未來(lái)頻譜資源分配走向的分析則應(yīng)歸為預(yù)測(cè)型。
將任務(wù)進(jìn)行分類后,需要將各個(gè)任務(wù)歸納入某一模型類型中。數(shù)據(jù)挖掘模型可以概括為三大類:聚類、分類、關(guān)聯(lián)。聚類分析旨在發(fā)現(xiàn)不同的簇間的差異性;分類是將歷史數(shù)據(jù)按照用戶的需求進(jìn)行區(qū)分;關(guān)聯(lián)分析則是重在挖掘兩個(gè)不同關(guān)鍵詞的內(nèi)在共性。對(duì)歷史頻譜數(shù)據(jù)的數(shù)據(jù)挖掘可以歸為分類模型。
5.數(shù)據(jù)結(jié)果可視化展現(xiàn)
項(xiàng)目最終能夠通過(guò)快捷全面的前端展示平臺(tái),快速顯示歷史頻譜數(shù)據(jù)挖掘結(jié)果,以及對(duì)未來(lái)各電臺(tái)頻率變化走勢(shì)的分析結(jié)果,讓數(shù)據(jù)以更為靈活、直觀、可視化的方式表達(dá)出來(lái)。展示平臺(tái)主要應(yīng)能實(shí)現(xiàn):3D頻譜、頻譜數(shù)據(jù)地域性展示、統(tǒng)計(jì)數(shù)據(jù)多樣化展示等。
三、結(jié)束語(yǔ)
無(wú)線廣播頻譜監(jiān)測(cè)與管理系統(tǒng)通過(guò)對(duì)大量實(shí)測(cè)數(shù)據(jù)的分析,能夠直觀的向用戶展示各項(xiàng)歷史數(shù)據(jù)、頻譜占用情況、非法電臺(tái)等大數(shù)據(jù)背后的信息,這些對(duì)頻譜資源的分析、合理利用正是我們搭建無(wú)線廣播頻譜監(jiān)測(cè)與管理系統(tǒng)的最終目標(biāo)。而如何在龐大的數(shù)據(jù)中更高效地進(jìn)行對(duì)數(shù)據(jù)的甄別、挖掘,從而向用戶提出有用、合理的頻譜資源問(wèn)題的解決方案,是我們亟待解決的問(wèn)題。
本文來(lái)源:《視聽(tīng)》:http://12-baidu.cn/w/qk/9501.html
欄目分類
- 1短視頻走紅的原因及影響——以“抖音”為例
- 2短視頻發(fā)展現(xiàn)狀、存在的問(wèn)題及意見(jiàn)
- 3以“李子柒”為例研究社會(huì)化創(chuàng)意下的內(nèi)容營(yíng)銷策略
- 4企業(yè)市場(chǎng)營(yíng)銷中存在的問(wèn)題及對(duì)策
- 5論樹(shù)洞傳播的匿名效應(yīng)
- 6總體國(guó)家安全觀對(duì)當(dāng)代大學(xué)生的要求
- 7全媒體時(shí)代,如何做好新聞選題策劃?
- 8 “抖音”APP優(yōu)劣勢(shì)分析與短視頻產(chǎn)業(yè)的發(fā)展思考
- 9《論語(yǔ)》中孔子的“孝”思想
- 10網(wǎng)易云音樂(lè)內(nèi)容營(yíng)銷的手段分析
- 機(jī)床精度提升技術(shù)在機(jī)械工程中的應(yīng)用
- 5G通信技術(shù)在智能交通系統(tǒng)中的應(yīng)用研究
- 再論AI對(duì)人的異化
- 人工智能時(shí)代算法傳播的倫理失范問(wèn)題及其治理對(duì)策研究
- 鋼鐵行業(yè)成本預(yù)算系統(tǒng)開(kāi)發(fā)應(yīng)用實(shí)踐
- 基于區(qū)塊鏈的零信任網(wǎng)絡(luò)安全架構(gòu)
- 新時(shí)期CDN帶寬預(yù)測(cè)及運(yùn)營(yíng)部署方案研究
- 電動(dòng)汽車充電站智能監(jiān)控系統(tǒng)的質(zhì)量控制標(biāo)準(zhǔn)和實(shí)施策略
- 裝載機(jī)怠速提升動(dòng)臂抖動(dòng)故障的分析與解決措施
- 測(cè)量技術(shù)與測(cè)繪技術(shù)在公路橋梁工程中的應(yīng)用分析
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說(shuō)明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問(wèn)題”。
- 重磅!CSSCI來(lái)源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫(xiě)作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫(xiě)規(guī)則
- 盤(pán)點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說(shuō)據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?