您的位置:網(wǎng)站首頁 > 優(yōu)秀論文 > 正文
web挖掘技術(shù)在競爭情報活動中的應(yīng)用淺析-科技論文
作者:馬奎林來源:原創(chuàng)日期:2012-07-16人氣:1048
web內(nèi)容挖掘。Web內(nèi)容挖掘是一種基于網(wǎng)頁內(nèi)容的web挖掘。是從大量的web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識的過程。這些數(shù)據(jù)既有文本數(shù)據(jù),也有圖像、聲頻、音頻等多媒體數(shù)據(jù),既有來自于數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),也有用HTML標(biāo)記的半結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)的自由文本。
(二)web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是從www的組織結(jié)構(gòu)和連接關(guān)系中推導(dǎo)知識。Web結(jié)構(gòu)挖掘通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象,建立web自身的連接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類,并且可以由此獲得不同網(wǎng)頁間相似度和關(guān)聯(lián)度的信息。Web結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn),并且可以指向眾多權(quán)威站點(diǎn)的相關(guān)主題站點(diǎn)。
(三)web使用挖掘。除了web內(nèi)容和web鏈接結(jié)構(gòu)以外,web挖掘的另一個重要任務(wù)是對web使用記錄進(jìn)行挖掘。Web內(nèi)容挖掘和web結(jié)構(gòu)挖掘的對象是網(wǎng)上的原始數(shù)據(jù),而web使用記錄的挖掘則與此不同,它面對的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù)。它通過挖掘web日志記錄和相關(guān)數(shù)據(jù),從而發(fā)現(xiàn)用戶訪問web頁面的模式。
三、Web挖掘技術(shù)研究
(一)Web內(nèi)容挖掘?qū)崿F(xiàn)技術(shù)。Web內(nèi)容挖掘主要體現(xiàn)為對web文本的挖掘,包括對文本內(nèi)容的總結(jié)、分類、聚類機(jī)關(guān)聯(lián)分析等。1.文本總結(jié)。其目的是對文本信息進(jìn)行濃縮,給出它的緊湊描述。文本總結(jié)是指從文檔中抽取關(guān)鍵信息,用簡潔的形式對文檔內(nèi)容進(jìn)行摘要或解釋。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內(nèi)容。2.文本分類。分類的概念是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會一個分類函數(shù)或構(gòu)造出一個分類模型,即通常所說的分類器。分類器一般分為訓(xùn)練和分類兩個階段。3.文本聚類。文本聚類是一種典型的無教師的機(jī)器學(xué)習(xí)問題。目前的文本聚類方法大致可以分為層次凝聚法和平面劃分法兩種類型。聚類是把一組個體按照相似性歸成若干類別,即“物以類聚”。4.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則模式數(shù)據(jù)描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則通常要經(jīng)過以下3個步驟:連接數(shù)據(jù),做數(shù)據(jù)準(zhǔn)備;給定最小支持度和最小可信度,利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;可視化顯示、理解、評估關(guān)聯(lián)規(guī)則。
(二)用戶使用記錄挖掘?qū)崿F(xiàn)技術(shù)。在挖掘Web用戶使用記錄時描述用戶訪問的數(shù)據(jù)包括:IP地址、參考頁面、訪問日期和時間、用戶Web站點(diǎn)及配置信息。這些數(shù)據(jù)可以來自于服務(wù)器端、客戶端、代理服務(wù)器端或者是公司的數(shù)據(jù)庫。
發(fā)現(xiàn)用戶使用記錄信息的方法有兩種。一種方法是通過對日志文件進(jìn)行分析,包含兩種方式,是訪問前先進(jìn)行預(yù)處理,即將日志數(shù)據(jù)映射為關(guān)系表并采用相應(yīng)的數(shù)據(jù)挖掘技術(shù),如關(guān)聯(lián)規(guī)則或聚類技術(shù)來訪問日志數(shù)據(jù);二是對日志數(shù)據(jù)進(jìn)行直接訪問以獲取用戶的導(dǎo)航信息。另一種方法是通過對用戶點(diǎn)擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為。
四、Web挖掘在競爭情報系統(tǒng)中的應(yīng)用
(一)利用Web挖掘獲取、開發(fā)和利用競爭對手和客戶的信息。從Web挖掘技術(shù)的實(shí)現(xiàn)流程來看,Web挖掘不僅僅是像網(wǎng)絡(luò)信息檢索那樣只是把符合查詢要求的記錄返回給用戶,這樣得到的結(jié)果集不僅數(shù)量龐大,而且包括很多不相關(guān)信息。正如前面所提到的,Web挖掘不僅能夠從WWW的大量的數(shù)據(jù)中發(fā)現(xiàn)信息,而且它還能發(fā)現(xiàn)權(quán)威站點(diǎn)、有重要價值的“隱藏”信息,并且能夠監(jiān)視和預(yù)測用戶的訪問習(xí)慣、購買行為,并能夠發(fā)現(xiàn)顧客購買模式趨勢。
(二)挖掘Web日志記錄來發(fā)現(xiàn)用戶訪問Web頁面的模式。通過分析和探究web日志記錄中的規(guī)律,可以識別電子商務(wù)的潛在客戶,增強(qiáng)對最終用戶的互聯(lián)網(wǎng)信息服務(wù)的質(zhì)量和交付,并改進(jìn)Web服務(wù)器系統(tǒng)的性能。挖掘Web日志訪問紀(jì)錄,有助于聚類用戶并將用戶分門別類,以便實(shí)現(xiàn)個性化的市場服務(wù).
(三)Web挖掘在反競爭情報活動中的應(yīng)用。反競爭情報是企業(yè)競爭情報活動的重要組成部分,忽視競爭對手的競爭情報活動、低估競爭對手搜集競爭情報的能力勢必導(dǎo)致企業(yè)失去已有的競爭優(yōu)勢?,F(xiàn)在,已有越來越多的企業(yè)建立了自己的Web站點(diǎn),企業(yè)上網(wǎng)已成為一股不可逆轉(zhuǎn)的潮流。因此,對它進(jìn)行監(jiān)控是企業(yè)了解競爭對手的競爭情報活動的重要途徑。在競爭情報計算機(jī)系統(tǒng)中,可以充分利用Web挖掘技術(shù),通過運(yùn)用分析訪問者的IP地址、客戶端歷屆域、信息訪問路徑等Web監(jiān)控技術(shù)、統(tǒng)計敏感信息訪問率等方法實(shí)現(xiàn)對競爭對手的防范,以達(dá)到識別競爭對手保護(hù)企業(yè)敏感性信息的目的。
總之,作為一種新型的信息處理與分析技術(shù),web挖掘的確在競爭情報活動中具有巨大的應(yīng)用潛力。充分運(yùn)用web挖掘來發(fā)掘蘊(yùn)藏在互聯(lián)網(wǎng)上的競爭情報資源,將會為企業(yè)競爭力的提升提供強(qiáng)大的支持與動力。
(二)web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是從www的組織結(jié)構(gòu)和連接關(guān)系中推導(dǎo)知識。Web結(jié)構(gòu)挖掘通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象,建立web自身的連接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類,并且可以由此獲得不同網(wǎng)頁間相似度和關(guān)聯(lián)度的信息。Web結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn),并且可以指向眾多權(quán)威站點(diǎn)的相關(guān)主題站點(diǎn)。
(三)web使用挖掘。除了web內(nèi)容和web鏈接結(jié)構(gòu)以外,web挖掘的另一個重要任務(wù)是對web使用記錄進(jìn)行挖掘。Web內(nèi)容挖掘和web結(jié)構(gòu)挖掘的對象是網(wǎng)上的原始數(shù)據(jù),而web使用記錄的挖掘則與此不同,它面對的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù)。它通過挖掘web日志記錄和相關(guān)數(shù)據(jù),從而發(fā)現(xiàn)用戶訪問web頁面的模式。
三、Web挖掘技術(shù)研究
(一)Web內(nèi)容挖掘?qū)崿F(xiàn)技術(shù)。Web內(nèi)容挖掘主要體現(xiàn)為對web文本的挖掘,包括對文本內(nèi)容的總結(jié)、分類、聚類機(jī)關(guān)聯(lián)分析等。1.文本總結(jié)。其目的是對文本信息進(jìn)行濃縮,給出它的緊湊描述。文本總結(jié)是指從文檔中抽取關(guān)鍵信息,用簡潔的形式對文檔內(nèi)容進(jìn)行摘要或解釋。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內(nèi)容。2.文本分類。分類的概念是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會一個分類函數(shù)或構(gòu)造出一個分類模型,即通常所說的分類器。分類器一般分為訓(xùn)練和分類兩個階段。3.文本聚類。文本聚類是一種典型的無教師的機(jī)器學(xué)習(xí)問題。目前的文本聚類方法大致可以分為層次凝聚法和平面劃分法兩種類型。聚類是把一組個體按照相似性歸成若干類別,即“物以類聚”。4.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則模式數(shù)據(jù)描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則通常要經(jīng)過以下3個步驟:連接數(shù)據(jù),做數(shù)據(jù)準(zhǔn)備;給定最小支持度和最小可信度,利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;可視化顯示、理解、評估關(guān)聯(lián)規(guī)則。
(二)用戶使用記錄挖掘?qū)崿F(xiàn)技術(shù)。在挖掘Web用戶使用記錄時描述用戶訪問的數(shù)據(jù)包括:IP地址、參考頁面、訪問日期和時間、用戶Web站點(diǎn)及配置信息。這些數(shù)據(jù)可以來自于服務(wù)器端、客戶端、代理服務(wù)器端或者是公司的數(shù)據(jù)庫。
發(fā)現(xiàn)用戶使用記錄信息的方法有兩種。一種方法是通過對日志文件進(jìn)行分析,包含兩種方式,是訪問前先進(jìn)行預(yù)處理,即將日志數(shù)據(jù)映射為關(guān)系表并采用相應(yīng)的數(shù)據(jù)挖掘技術(shù),如關(guān)聯(lián)規(guī)則或聚類技術(shù)來訪問日志數(shù)據(jù);二是對日志數(shù)據(jù)進(jìn)行直接訪問以獲取用戶的導(dǎo)航信息。另一種方法是通過對用戶點(diǎn)擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為。
四、Web挖掘在競爭情報系統(tǒng)中的應(yīng)用
(一)利用Web挖掘獲取、開發(fā)和利用競爭對手和客戶的信息。從Web挖掘技術(shù)的實(shí)現(xiàn)流程來看,Web挖掘不僅僅是像網(wǎng)絡(luò)信息檢索那樣只是把符合查詢要求的記錄返回給用戶,這樣得到的結(jié)果集不僅數(shù)量龐大,而且包括很多不相關(guān)信息。正如前面所提到的,Web挖掘不僅能夠從WWW的大量的數(shù)據(jù)中發(fā)現(xiàn)信息,而且它還能發(fā)現(xiàn)權(quán)威站點(diǎn)、有重要價值的“隱藏”信息,并且能夠監(jiān)視和預(yù)測用戶的訪問習(xí)慣、購買行為,并能夠發(fā)現(xiàn)顧客購買模式趨勢。
(二)挖掘Web日志記錄來發(fā)現(xiàn)用戶訪問Web頁面的模式。通過分析和探究web日志記錄中的規(guī)律,可以識別電子商務(wù)的潛在客戶,增強(qiáng)對最終用戶的互聯(lián)網(wǎng)信息服務(wù)的質(zhì)量和交付,并改進(jìn)Web服務(wù)器系統(tǒng)的性能。挖掘Web日志訪問紀(jì)錄,有助于聚類用戶并將用戶分門別類,以便實(shí)現(xiàn)個性化的市場服務(wù).
(三)Web挖掘在反競爭情報活動中的應(yīng)用。反競爭情報是企業(yè)競爭情報活動的重要組成部分,忽視競爭對手的競爭情報活動、低估競爭對手搜集競爭情報的能力勢必導(dǎo)致企業(yè)失去已有的競爭優(yōu)勢?,F(xiàn)在,已有越來越多的企業(yè)建立了自己的Web站點(diǎn),企業(yè)上網(wǎng)已成為一股不可逆轉(zhuǎn)的潮流。因此,對它進(jìn)行監(jiān)控是企業(yè)了解競爭對手的競爭情報活動的重要途徑。在競爭情報計算機(jī)系統(tǒng)中,可以充分利用Web挖掘技術(shù),通過運(yùn)用分析訪問者的IP地址、客戶端歷屆域、信息訪問路徑等Web監(jiān)控技術(shù)、統(tǒng)計敏感信息訪問率等方法實(shí)現(xiàn)對競爭對手的防范,以達(dá)到識別競爭對手保護(hù)企業(yè)敏感性信息的目的。
總之,作為一種新型的信息處理與分析技術(shù),web挖掘的確在競爭情報活動中具有巨大的應(yīng)用潛力。充分運(yùn)用web挖掘來發(fā)掘蘊(yùn)藏在互聯(lián)網(wǎng)上的競爭情報資源,將會為企業(yè)競爭力的提升提供強(qiáng)大的支持與動力。
欄目分類
熱門排行
推薦信息
- 工業(yè)機(jī)器人技術(shù)在自動化控制領(lǐng)域中的應(yīng)用
- 創(chuàng)造低碳舒適家居的追光導(dǎo)光儲能系統(tǒng)研究
- 靜電紡絲法制備納米復(fù)合纖維研究進(jìn)展
- 基于數(shù)字信號處理的無線傳輸系統(tǒng)優(yōu)化與技術(shù)突破
- 電氣工程推動的未來技術(shù)革命
- 機(jī)床精度提升技術(shù)在機(jī)械工程中的應(yīng)用
- 5G通信技術(shù)在智能交通系統(tǒng)中的應(yīng)用研究
- 再論AI對人的異化
- 人工智能時代算法傳播的倫理失范問題及其治理對策研究
- 鋼鐵行業(yè)成本預(yù)算系統(tǒng)開發(fā)應(yīng)用實(shí)踐
期刊知識
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個知識點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了