所屬欄目:計(jì)算機(jī)信息管理論文 發(fā)布日期:2011-01-20 08:42 熱度:
摘要:本文利用了標(biāo)準(zhǔn)的HTML技術(shù)來(lái)解決信息抽取問(wèn)題,提出一個(gè)Web信息抽取平臺(tái)。通過(guò)歸納學(xué)習(xí)算法,尋找感興趣的數(shù)據(jù)。抽取機(jī)制是利用歸納學(xué)習(xí)的方法,先選定樣本頁(yè)面和模式,生成模式信息和抽取規(guī)則,存入知識(shí)庫(kù);后利用知識(shí)庫(kù)對(duì)其他同類頁(yè)面自動(dòng)地抽取信息,將得到的信息按對(duì)象關(guān)系模型進(jìn)行重組后存放在數(shù)據(jù)庫(kù),以支持查詢及各種應(yīng)用。
關(guān)鍵詞:信息抽;歸納學(xué)習(xí);樣本頁(yè)面;模式
1.背景
Internet提供了海量數(shù)據(jù),但不便于處理查詢;關(guān)系數(shù)據(jù)庫(kù)提供了非常方便的SQL語(yǔ)句來(lái)處理數(shù)據(jù)但對(duì)數(shù)據(jù)的結(jié)構(gòu)限制過(guò)多。因此,結(jié)合兩者之間的優(yōu)點(diǎn),利用關(guān)系數(shù)據(jù)庫(kù)中的查詢語(yǔ)句對(duì)Web上異構(gòu)的、大量數(shù)據(jù)信息進(jìn)行查詢,就會(huì)顯露出巨大優(yōu)勢(shì)。它能完成搜索引擎所不能完成、同時(shí)基于多個(gè)站點(diǎn)的查詢。
這種新的技術(shù)就是信息抽取技術(shù)。它可以把散落在Internet中的信息以某種格式提取出來(lái),并把提取出的整齊的結(jié)果放入關(guān)系數(shù)據(jù)庫(kù)中,這樣獲得的數(shù)據(jù)集就可以方便地使用SQL語(yǔ)句進(jìn)行查詢,彌補(bǔ)了搜索引擎的不足。并且,由于獲得的信息格式整齊,便于計(jì)算機(jī)對(duì)其進(jìn)行加工處理。
2.基于歸納學(xué)習(xí)信息抽取模型的建立
2.1原理概述
同一Web站點(diǎn)的同類數(shù)據(jù)信息具有相似結(jié)構(gòu),尤其是對(duì)于大量的信息,通常都是采用某種模板或者基于某種動(dòng)態(tài)網(wǎng)頁(yè)技術(shù)生成的,這些同類信息通過(guò)HTML格式表現(xiàn)出來(lái),就具有一定相似性。而信息抽取的特點(diǎn)一般是:一次數(shù)據(jù)抽取通常是針對(duì)同類信息的,我們可以利用這種相似性來(lái)完成信息抽取。
可以將整個(gè)抽取過(guò)程分為2個(gè)階段:學(xué)習(xí)階段和抽取階段。同時(shí)將抽取階段分為2步:抽取部分和集成部分。
學(xué)習(xí)階段:以某一個(gè)信息塊為樣本,根據(jù)這個(gè)樣本生成抽取規(guī)則放入知識(shí)庫(kù)。知識(shí)庫(kù)中存放了系統(tǒng)每次抽取時(shí),對(duì)每種樣本生成的模式信息和特定的抽取規(guī)則,這種存放是以數(shù)據(jù)庫(kù)的形式實(shí)現(xiàn)的,模式信息作為表的字段名稱,而規(guī)則是由各個(gè)數(shù)據(jù)段的內(nèi)容即時(shí)生成的。
抽取階段:根據(jù)學(xué)習(xí)階段定義的模式信息,建立數(shù)據(jù)庫(kù),同時(shí)使用知識(shí)庫(kù)對(duì)所有信息塊進(jìn)行信息抽取,將抽取出來(lái)的信息以數(shù)據(jù)庫(kù)的形式存儲(chǔ)和管理。其中抽取部分從知識(shí)庫(kù)中獲得規(guī)則信息和模式信息,對(duì)所有的信息塊進(jìn)行抽取,獲得結(jié)果信息表。而抽取階段的集成部分將多次抽取獲得的結(jié)果表進(jìn)行整合,除去冗余信息,形成一個(gè)集成數(shù)據(jù)庫(kù)。
2.2確定樣本
樣本就是用于在學(xué)習(xí)階段生成抽取規(guī)則的示例信息塊。進(jìn)行信息抽取之前,我們先要分析樣本,以生成抽取規(guī)則。
假設(shè)某電子商務(wù)網(wǎng)站中介紹一款手機(jī)的頁(yè)面HTML代碼如下,這就是樣本。
<dt>蘋果iPhone(8G)</dt>
<dd><strong>參考價(jià)格:</strong><spanclass="red"id="ppckbj">3600</span></dd>
<dd><strong>上市時(shí)間:</strong>2007</dd>
<dd><strong>網(wǎng)絡(luò)制式:</strong>GSM850/900/1800/1900,EDGE</dd>
<dd><strong>手機(jī)外形:</strong>直板</dd>
<dd><strong>主屏參數(shù):</strong>彩屏,1600萬(wàn)色,TFT,觸摸屏,320×480像素,3.5英寸</dd>
2.3定義模式
所謂模式,就是對(duì)頁(yè)面中我們感興趣的信息所取的名稱,例如上述例子中,我們感興趣的信息有:手機(jī)品牌:蘋果iPhone(8G);參考價(jià)格:3600元;上市時(shí)間:2007等。而“品牌型號(hào)”,“參考價(jià)格”和“上市時(shí)間”就是這些信息的名稱。定義了模式之后。我們只需要從頁(yè)面中獲得:“蘋果iPhone(8G)”“3600元”和“2007”等冒號(hào)右邊的信息就可以了。這些信息的意義已經(jīng)由模式給出了。
注意到該樣本中,除了“手機(jī)品牌:蘋果iPhone(8G)”之外,所有的信息都在冒號(hào)的左邊給出了它們的名稱。我們可以使用這些頁(yè)面中給出的名稱來(lái)作為模式信息,也可以自己定義。
表現(xiàn)在數(shù)據(jù)庫(kù)中,模式就是信息抽取結(jié)果表中的字段名稱。上面例子中完整的模式信息如下:品牌型號(hào),參考價(jià)格,上市時(shí)間,網(wǎng)絡(luò)制式,手機(jī)外形,主屏參數(shù)。
2.4生成抽取規(guī)則
在一個(gè)信息抽取系統(tǒng)中,最重要的部分是抽取過(guò)程,而抽取過(guò)程要順利完成,抽取規(guī)則的正確生成是功不可沒(méi)的。
在此我們按照信息的左右邊界和文本特征來(lái)形成抽取規(guī)則。由于上文已定義了模式信息,我們可以直接從信息塊中找到待抽取的屬性,它們的語(yǔ)義已由模式信息確定。
而知識(shí)庫(kù)中就記錄了這些標(biāo)記信息。在數(shù)據(jù)庫(kù)中表示為標(biāo)記表。但是需要注意的是,上述HTML代碼是我們事先從冗長(zhǎng)的HTML代碼中找到的一個(gè)信息塊。也就是說(shuō),在提取標(biāo)記之前,需要進(jìn)行一個(gè)過(guò)濾功能,把有用的信息塊找到并保留,而去掉其余的HTML代碼。
至此已可以確定待抽取信息的左右邊界,這種確定左右邊界的方法要求待抽取的信息塊中對(duì)應(yīng)位置的標(biāo)記應(yīng)該相同。
2.5抽取過(guò)程
利用抽取規(guī)則,匹配所有的信息塊,獲取的信息將被寫入抽取信息數(shù)據(jù)庫(kù)中。
3.總結(jié)
本文提出了一個(gè)基于歸納學(xué)習(xí)方式的信息抽取系統(tǒng),這個(gè)系統(tǒng)在后臺(tái)能夠?qū)崿F(xiàn)對(duì)于不同類型的Web頁(yè)面的樣本歸納學(xué)習(xí),并由此生成抽取規(guī)則和信息模式,利用抽取規(guī)則可以對(duì)不同頁(yè)面進(jìn)行信息抽取,并把相關(guān)的信息集成到一個(gè)數(shù)據(jù)庫(kù)中,還能夠?qū)崿F(xiàn)對(duì)知識(shí)庫(kù)的添加和擴(kuò)充;在前臺(tái)則能夠滿足用戶查詢某一信息的要求,它與一般查詢的不同之處就是,用戶查詢到的資料雖然存在于本地的一個(gè)集成的數(shù)據(jù)庫(kù)中,但他們都是從Internet上的不同站點(diǎn)上抽取并匯總過(guò)來(lái)的,相當(dāng)于對(duì)分布的數(shù)據(jù)庫(kù)的一個(gè)虛擬的查詢。
參考文獻(xiàn)
[1]李彥剛,魏海平,侯興華,基于HTMLParser的Web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)遼寧石油化工大學(xué)學(xué)報(bào),2006.6
[2]梁曉濤,謝榮傳,基于OWL描述本體的語(yǔ)義信息抽取,計(jì)算機(jī)技術(shù)與發(fā)展,2006.1
文章標(biāo)題:基于歸納學(xué)習(xí)的信息抽取
轉(zhuǎn)載請(qǐng)注明來(lái)自:http://www.optiwork.cn/fblw/dianxin/xinxiguanli/6555.html
攝影藝術(shù)領(lǐng)域AHCI期刊推薦《Phot...關(guān)注:106
Nature旗下多學(xué)科子刊Nature Com...關(guān)注:152
中小學(xué)教師值得了解,這些教育學(xué)...關(guān)注:47
2025年寫管理學(xué)論文可以用的19個(gè)...關(guān)注:192
測(cè)繪領(lǐng)域科技核心期刊選擇 輕松拿...關(guān)注:64
及時(shí)開(kāi)論文檢索證明很重要關(guān)注:52
中國(guó)水產(chǎn)科學(xué)期刊是核心期刊嗎關(guān)注:54
國(guó)際出書(shū)需要了解的問(wèn)題解答關(guān)注:58
合著出書(shū)能否評(píng)職稱?關(guān)注:48
電信學(xué)有哪些可投稿的SCI期刊,值...關(guān)注:66
通信工程行業(yè)論文選題關(guān)注:73
SCIE、ESCI、SSCI和AHCI期刊目錄...關(guān)注:121
評(píng)職稱發(fā)論文好還是出書(shū)好關(guān)注:68
復(fù)印報(bào)刊資料重要轉(zhuǎn)載來(lái)源期刊(...關(guān)注:51
英文期刊審稿常見(jiàn)的論文狀態(tài)及其...關(guān)注:69
Web of Science 核心合集期刊評(píng)估...關(guān)注:59
電子信息論文范文
智能科學(xué)技術(shù)論文 廣播電視論文 光電技術(shù)論文 計(jì)算機(jī)信息管理論文 計(jì)算機(jī)網(wǎng)絡(luò)論文 計(jì)算機(jī)應(yīng)用論文 通信論文 信息安全論文 微電子應(yīng)用論文 電子技術(shù)論文 生物醫(yī)學(xué)工程論文 軟件開(kāi)發(fā)論文
SCI期刊分析
copyright © www.optiwork.cn, All Rights Reserved
搜論文知識(shí)網(wǎng) 冀ICP備15021333號(hào)-3