基于歸納學(xué)習(xí)的信息抽取

所屬欄目：計(jì)算機(jī)信息管理論文發(fā)布日期：2011-01-20 08:42 熱度：

摘要：本文利用了標(biāo)準(zhǔn)的HTML技術(shù)來(lái)解決信息抽取問(wèn)題,提出一個(gè)Web信息抽取平臺(tái)。通過(guò)歸納學(xué)習(xí)算法,尋找感興趣的數(shù)據(jù)。抽取機(jī)制是利用歸納學(xué)習(xí)的方法，先選定樣本頁(yè)面和模式，生成模式信息和抽取規(guī)則，存入知識(shí)庫(kù)；后利用知識(shí)庫(kù)對(duì)其他同類頁(yè)面自動(dòng)地抽取信息，將得到的信息按對(duì)象關(guān)系模型進(jìn)行重組后存放在數(shù)據(jù)庫(kù)，以支持查詢及各種應(yīng)用。
　　關(guān)鍵詞：信息抽��；歸納學(xué)習(xí)；樣本頁(yè)面；模式
　　
　　1.背景
　　Internet提供了海量數(shù)據(jù)，但不便于處理查詢；關(guān)系數(shù)據(jù)庫(kù)提供了非常方便的SQL語(yǔ)句來(lái)處理數(shù)據(jù)但對(duì)數(shù)據(jù)的結(jié)構(gòu)限制過(guò)多。因此，結(jié)合兩者之間的優(yōu)點(diǎn)，利用關(guān)系數(shù)據(jù)庫(kù)中的查詢語(yǔ)句對(duì)Web上異構(gòu)的、大量數(shù)據(jù)信息進(jìn)行查詢，就會(huì)顯露出巨大優(yōu)勢(shì)。它能完成搜索引擎所不能完成、同時(shí)基于多個(gè)站點(diǎn)的查詢。
　　這種新的技術(shù)就是信息抽取技術(shù)。它可以把散落在Internet中的信息以某種格式提取出來(lái)，并把提取出的整齊的結(jié)果放入關(guān)系數(shù)據(jù)庫(kù)中，這樣獲得的數(shù)據(jù)集就可以方便地使用SQL語(yǔ)句進(jìn)行查詢，彌補(bǔ)了搜索引擎的不足。并且，由于獲得的信息格式整齊，便于計(jì)算機(jī)對(duì)其進(jìn)行加工處理。
　　2.基于歸納學(xué)習(xí)信息抽取模型的建立
　　2.1原理概述
　　同一Web站點(diǎn)的同類數(shù)據(jù)信息具有相似結(jié)構(gòu)，尤其是對(duì)于大量的信息，通常都是采用某種模板或者基于某種動(dòng)態(tài)網(wǎng)頁(yè)技術(shù)生成的,這些同類信息通過(guò)HTML格式表現(xiàn)出來(lái)，就具有一定相似性。而信息抽取的特點(diǎn)一般是：一次數(shù)據(jù)抽取通常是針對(duì)同類信息的，我們可以利用這種相似性來(lái)完成信息抽取。
　　可以將整個(gè)抽取過(guò)程分為2個(gè)階段：學(xué)習(xí)階段和抽取階段。同時(shí)將抽取階段分為2步：抽取部分和集成部分。
　　學(xué)習(xí)階段：以某一個(gè)信息塊為樣本，根據(jù)這個(gè)樣本生成抽取規(guī)則放入知識(shí)庫(kù)。知識(shí)庫(kù)中存放了系統(tǒng)每次抽取時(shí)，對(duì)每種樣本生成的模式信息和特定的抽取規(guī)則，這種存放是以數(shù)據(jù)庫(kù)的形式實(shí)現(xiàn)的，模式信息作為表的字段名稱，而規(guī)則是由各個(gè)數(shù)據(jù)段的內(nèi)容即時(shí)生成的。
　　抽取階段：根據(jù)學(xué)習(xí)階段定義的模式信息，建立數(shù)據(jù)庫(kù)，同時(shí)使用知識(shí)庫(kù)對(duì)所有信息塊進(jìn)行信息抽取，將抽取出來(lái)的信息以數(shù)據(jù)庫(kù)的形式存儲(chǔ)和管理。其中抽取部分從知識(shí)庫(kù)中獲得規(guī)則信息和模式信息，對(duì)所有的信息塊進(jìn)行抽取，獲得結(jié)果信息表。而抽取階段的集成部分將多次抽取獲得的結(jié)果表進(jìn)行整合，除去冗余信息，形成一個(gè)集成數(shù)據(jù)庫(kù)。
　　2.2確定樣本
　　樣本就是用于在學(xué)習(xí)階段生成抽取規(guī)則的示例信息塊。進(jìn)行信息抽取之前，我們先要分析樣本，以生成抽取規(guī)則。
　　假設(shè)某電子商務(wù)網(wǎng)站中介紹一款手機(jī)的頁(yè)面HTML代碼如下，這就是樣本。
　　<dt>蘋果iPhone(8G)</dt>
　　<dd>參考價(jià)格：<spanclass="red"id="ppckbj">3600</dd>
　　<dd>上市時(shí)間：2007</dd>
　　<dd>網(wǎng)絡(luò)制式：GSM850/900/1800/1900,EDGE</dd>
　　<dd>手機(jī)外形：直板</dd>
　　<dd>主屏參數(shù)：彩屏,1600萬(wàn)色,TFT,觸摸屏,320×480像素,3.5英寸</dd>
　　2.3定義模式
　　所謂模式，就是對(duì)頁(yè)面中我們感興趣的信息所取的名稱，例如上述例子中，我們感興趣的信息有：手機(jī)品牌：蘋果iPhone(8G)；參考價(jià)格：3600元；上市時(shí)間：2007等。而“品牌型號(hào)”，“參考價(jià)格”和“上市時(shí)間”就是這些信息的名稱。定義了模式之后。我們只需要從頁(yè)面中獲得：“蘋果iPhone(8G)”“3600元”和“2007”等冒號(hào)右邊的信息就可以了。這些信息的意義已經(jīng)由模式給出了。
　　注意到該樣本中，除了“手機(jī)品牌：蘋果iPhone(8G)”之外，所有的信息都在冒號(hào)的左邊給出了它們的名稱。我們可以使用這些頁(yè)面中給出的名稱來(lái)作為模式信息，也可以自己定義。
　　表現(xiàn)在數(shù)據(jù)庫(kù)中，模式就是信息抽取結(jié)果表中的字段名稱。上面例子中完整的模式信息如下：品牌型號(hào)，參考價(jià)格，上市時(shí)間，網(wǎng)絡(luò)制式，手機(jī)外形，主屏參數(shù)。
　　2.4生成抽取規(guī)則
　　在一個(gè)信息抽取系統(tǒng)中，最重要的部分是抽取過(guò)程，而抽取過(guò)程要順利完成，抽取規(guī)則的正確生成是功不可沒(méi)的。
　　在此我們按照信息的左右邊界和文本特征來(lái)形成抽取規(guī)則。由于上文已定義了模式信息，我們可以直接從信息塊中找到待抽取的屬性，它們的語(yǔ)義已由模式信息確定。
　　而知識(shí)庫(kù)中就記錄了這些標(biāo)記信息。在數(shù)據(jù)庫(kù)中表示為標(biāo)記表。但是需要注意的是，上述HTML代碼是我們事先從冗長(zhǎng)的HTML代碼中找到的一個(gè)信息塊。也就是說(shuō)，在提取標(biāo)記之前，需要進(jìn)行一個(gè)過(guò)濾功能，把有用的信息塊找到并保留，而去掉其余的HTML代碼。
　　至此已可以確定待抽取信息的左右邊界，這種確定左右邊界的方法要求待抽取的信息塊中對(duì)應(yīng)位置的標(biāo)記應(yīng)該相同。
　　2.5抽取過(guò)程
　　利用抽取規(guī)則，匹配所有的信息塊，獲取的信息將被寫入抽取信息數(shù)據(jù)庫(kù)中。
　　3.總結(jié)
　　本文提出了一個(gè)基于歸納學(xué)習(xí)方式的信息抽取系統(tǒng)，這個(gè)系統(tǒng)在后臺(tái)能夠?qū)崿F(xiàn)對(duì)于不同類型的Web頁(yè)面的樣本歸納學(xué)習(xí)，并由此生成抽取規(guī)則和信息模式，利用抽取規(guī)則可以對(duì)不同頁(yè)面進(jìn)行信息抽取，并把相關(guān)的信息集成到一個(gè)數(shù)據(jù)庫(kù)中，還能夠?qū)崿F(xiàn)對(duì)知識(shí)庫(kù)的添加和擴(kuò)充；在前臺(tái)則能夠滿足用戶查詢某一信息的要求，它與一般查詢的不同之處就是，用戶查詢到的資料雖然存在于本地的一個(gè)集成的數(shù)據(jù)庫(kù)中，但他們都是從Internet上的不同站點(diǎn)上抽取并匯總過(guò)來(lái)的，相當(dāng)于對(duì)分布的數(shù)據(jù)庫(kù)的一個(gè)虛擬的查詢。
　　
　　參考文獻(xiàn)
　　[1]李彥剛，魏海平，侯興華，基于HTMLParser的Web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)遼寧石油化工大學(xué)學(xué)報(bào)，2006.6
　　[2]梁曉濤，謝榮傳，基于OWL描述本體的語(yǔ)義信息抽取，計(jì)算機(jī)技術(shù)與發(fā)展，2006.1

文章標(biāo)題：基于歸納學(xué)習(xí)的信息抽取

轉(zhuǎn)載請(qǐng)注明來(lái)自：http://www.optiwork.cn/fblw/dianxin/xinxiguanli/6555.html

国产黄色毛片-国产黄色毛片视频-国产黄色片91-国产黄色片一级-一级坐爱片-一级免费

基于歸納學(xué)習(xí)的信息抽取

相關(guān)問(wèn)題解答