国产黄色毛片-国产黄色毛片视频-国产黄色片91-国产黄色片一级-一级坐爱片-一级免费

基于歸納學(xué)習(xí)的信息抽取

所屬欄目:計(jì)算機(jī)信息管理論文 發(fā)布日期:2011-01-20 08:42 熱度:

  摘要:本文利用了標(biāo)準(zhǔn)的HTML技術(shù)來(lái)解決信息抽取問(wèn)題,提出一個(gè)Web信息抽取平臺(tái)。通過(guò)歸納學(xué)習(xí)算法,尋找感興趣的數(shù)據(jù)。抽取機(jī)制是利用歸納學(xué)習(xí)的方法,先選定樣本頁(yè)面和模式,生成模式信息和抽取規(guī)則,存入知識(shí)庫(kù);后利用知識(shí)庫(kù)對(duì)其他同類頁(yè)面自動(dòng)地抽取信息,將得到的信息按對(duì)象關(guān)系模型進(jìn)行重組后存放在數(shù)據(jù)庫(kù),以支持查詢及各種應(yīng)用。
  關(guān)鍵詞:信息抽;歸納學(xué)習(xí);樣本頁(yè)面;模式
  
  1.背景
  Internet提供了海量數(shù)據(jù),但不便于處理查詢;關(guān)系數(shù)據(jù)庫(kù)提供了非常方便的SQL語(yǔ)句來(lái)處理數(shù)據(jù)但對(duì)數(shù)據(jù)的結(jié)構(gòu)限制過(guò)多。因此,結(jié)合兩者之間的優(yōu)點(diǎn),利用關(guān)系數(shù)據(jù)庫(kù)中的查詢語(yǔ)句對(duì)Web上異構(gòu)的、大量數(shù)據(jù)信息進(jìn)行查詢,就會(huì)顯露出巨大優(yōu)勢(shì)。它能完成搜索引擎所不能完成、同時(shí)基于多個(gè)站點(diǎn)的查詢。
  這種新的技術(shù)就是信息抽取技術(shù)。它可以把散落在Internet中的信息以某種格式提取出來(lái),并把提取出的整齊的結(jié)果放入關(guān)系數(shù)據(jù)庫(kù)中,這樣獲得的數(shù)據(jù)集就可以方便地使用SQL語(yǔ)句進(jìn)行查詢,彌補(bǔ)了搜索引擎的不足。并且,由于獲得的信息格式整齊,便于計(jì)算機(jī)對(duì)其進(jìn)行加工處理。
  2.基于歸納學(xué)習(xí)信息抽取模型的建立
  2.1原理概述
  同一Web站點(diǎn)的同類數(shù)據(jù)信息具有相似結(jié)構(gòu),尤其是對(duì)于大量的信息,通常都是采用某種模板或者基于某種動(dòng)態(tài)網(wǎng)頁(yè)技術(shù)生成的,這些同類信息通過(guò)HTML格式表現(xiàn)出來(lái),就具有一定相似性。而信息抽取的特點(diǎn)一般是:一次數(shù)據(jù)抽取通常是針對(duì)同類信息的,我們可以利用這種相似性來(lái)完成信息抽取。
  可以將整個(gè)抽取過(guò)程分為2個(gè)階段:學(xué)習(xí)階段和抽取階段。同時(shí)將抽取階段分為2步:抽取部分和集成部分。
  學(xué)習(xí)階段:以某一個(gè)信息塊為樣本,根據(jù)這個(gè)樣本生成抽取規(guī)則放入知識(shí)庫(kù)。知識(shí)庫(kù)中存放了系統(tǒng)每次抽取時(shí),對(duì)每種樣本生成的模式信息和特定的抽取規(guī)則,這種存放是以數(shù)據(jù)庫(kù)的形式實(shí)現(xiàn)的,模式信息作為表的字段名稱,而規(guī)則是由各個(gè)數(shù)據(jù)段的內(nèi)容即時(shí)生成的。
  抽取階段:根據(jù)學(xué)習(xí)階段定義的模式信息,建立數(shù)據(jù)庫(kù),同時(shí)使用知識(shí)庫(kù)對(duì)所有信息塊進(jìn)行信息抽取,將抽取出來(lái)的信息以數(shù)據(jù)庫(kù)的形式存儲(chǔ)和管理。其中抽取部分從知識(shí)庫(kù)中獲得規(guī)則信息和模式信息,對(duì)所有的信息塊進(jìn)行抽取,獲得結(jié)果信息表。而抽取階段的集成部分將多次抽取獲得的結(jié)果表進(jìn)行整合,除去冗余信息,形成一個(gè)集成數(shù)據(jù)庫(kù)。
  2.2確定樣本
  樣本就是用于在學(xué)習(xí)階段生成抽取規(guī)則的示例信息塊。進(jìn)行信息抽取之前,我們先要分析樣本,以生成抽取規(guī)則。
  假設(shè)某電子商務(wù)網(wǎng)站中介紹一款手機(jī)的頁(yè)面HTML代碼如下,這就是樣本。
  <dt>蘋果iPhone(8G)</dt>
  <dd><strong>參考價(jià)格:</strong><spanclass="red"id="ppckbj">3600</span></dd>
  <dd><strong>上市時(shí)間:</strong>2007</dd>
  <dd><strong>網(wǎng)絡(luò)制式:</strong>GSM850/900/1800/1900,EDGE</dd>
  <dd><strong>手機(jī)外形:</strong>直板</dd>
  <dd><strong>主屏參數(shù):</strong>彩屏,1600萬(wàn)色,TFT,觸摸屏,320×480像素,3.5英寸</dd>
  2.3定義模式
  所謂模式,就是對(duì)頁(yè)面中我們感興趣的信息所取的名稱,例如上述例子中,我們感興趣的信息有:手機(jī)品牌:蘋果iPhone(8G);參考價(jià)格:3600元;上市時(shí)間:2007等。而“品牌型號(hào)”,“參考價(jià)格”和“上市時(shí)間”就是這些信息的名稱。定義了模式之后。我們只需要從頁(yè)面中獲得:“蘋果iPhone(8G)”“3600元”和“2007”等冒號(hào)右邊的信息就可以了。這些信息的意義已經(jīng)由模式給出了。
  注意到該樣本中,除了“手機(jī)品牌:蘋果iPhone(8G)”之外,所有的信息都在冒號(hào)的左邊給出了它們的名稱。我們可以使用這些頁(yè)面中給出的名稱來(lái)作為模式信息,也可以自己定義。
  表現(xiàn)在數(shù)據(jù)庫(kù)中,模式就是信息抽取結(jié)果表中的字段名稱。上面例子中完整的模式信息如下:品牌型號(hào),參考價(jià)格,上市時(shí)間,網(wǎng)絡(luò)制式,手機(jī)外形,主屏參數(shù)。
  2.4生成抽取規(guī)則
  在一個(gè)信息抽取系統(tǒng)中,最重要的部分是抽取過(guò)程,而抽取過(guò)程要順利完成,抽取規(guī)則的正確生成是功不可沒(méi)的。
  在此我們按照信息的左右邊界和文本特征來(lái)形成抽取規(guī)則。由于上文已定義了模式信息,我們可以直接從信息塊中找到待抽取的屬性,它們的語(yǔ)義已由模式信息確定。
  而知識(shí)庫(kù)中就記錄了這些標(biāo)記信息。在數(shù)據(jù)庫(kù)中表示為標(biāo)記表。但是需要注意的是,上述HTML代碼是我們事先從冗長(zhǎng)的HTML代碼中找到的一個(gè)信息塊。也就是說(shuō),在提取標(biāo)記之前,需要進(jìn)行一個(gè)過(guò)濾功能,把有用的信息塊找到并保留,而去掉其余的HTML代碼。
  至此已可以確定待抽取信息的左右邊界,這種確定左右邊界的方法要求待抽取的信息塊中對(duì)應(yīng)位置的標(biāo)記應(yīng)該相同。
  2.5抽取過(guò)程
  利用抽取規(guī)則,匹配所有的信息塊,獲取的信息將被寫入抽取信息數(shù)據(jù)庫(kù)中。
  3.總結(jié)
  本文提出了一個(gè)基于歸納學(xué)習(xí)方式的信息抽取系統(tǒng),這個(gè)系統(tǒng)在后臺(tái)能夠?qū)崿F(xiàn)對(duì)于不同類型的Web頁(yè)面的樣本歸納學(xué)習(xí),并由此生成抽取規(guī)則和信息模式,利用抽取規(guī)則可以對(duì)不同頁(yè)面進(jìn)行信息抽取,并把相關(guān)的信息集成到一個(gè)數(shù)據(jù)庫(kù)中,還能夠?qū)崿F(xiàn)對(duì)知識(shí)庫(kù)的添加和擴(kuò)充;在前臺(tái)則能夠滿足用戶查詢某一信息的要求,它與一般查詢的不同之處就是,用戶查詢到的資料雖然存在于本地的一個(gè)集成的數(shù)據(jù)庫(kù)中,但他們都是從Internet上的不同站點(diǎn)上抽取并匯總過(guò)來(lái)的,相當(dāng)于對(duì)分布的數(shù)據(jù)庫(kù)的一個(gè)虛擬的查詢。
  
  參考文獻(xiàn)
  [1]李彥剛,魏海平,侯興華,基于HTMLParser的Web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)遼寧石油化工大學(xué)學(xué)報(bào),2006.6
  [2]梁曉濤,謝榮傳,基于OWL描述本體的語(yǔ)義信息抽取,計(jì)算機(jī)技術(shù)與發(fā)展,2006.1

文章標(biāo)題:基于歸納學(xué)習(xí)的信息抽取

轉(zhuǎn)載請(qǐng)注明來(lái)自:http://www.optiwork.cn/fblw/dianxin/xinxiguanli/6555.html

相關(guān)問(wèn)題解答

SCI服務(wù)

搜論文知識(shí)網(wǎng) 冀ICP備15021333號(hào)-3

主站蜘蛛池模板: 一级黄色录像片 | 手机在线精品视频每日更新 | 国产午夜精品久久理论片 | 波多野结衣一区二区三区高清在线 | 青青影院一区二区免费视频 | 91香蕉视| 免费一级a毛片在线播放视 免费一级α片在线观看 | 日韩不卡一二三区 | 国产精品久久久久久久9999 | 黄色a三级三级三级免费看 黄色a网 | 99秒拍福利大尺度视频 | 成人a毛片免费视频观看 | 香蕉一区二区三区观 | 亚洲aⅴ| 国产亚洲福利精品一区二区 | 欧美三级成版人版在线观看 | 久久精品爱 | 久草免费在线播放 | 欧美成人免费全部色播 | 欧美性猛交xxxxxxxx软件 | 亚洲精品国产一区二区三 | 特级a欧美做爰片毛片 | 亚洲小视频在线播放 | 美女把张开腿男生猛戳免费视频 | 成人黄色免费 | 日韩毛片欧美一级a网站 | 香港a毛片免费全部播放 | 免费观看视频成人国产 | 玖玖香蕉视频 | 久草在线青青草 | 久久免费视频8 | 国产在线啪 | 国内精品久久久久久久星辰影视 | 国产成人精品一区二区免费 | 成人国产精品免费网站 | 亚洲香蕉一区二区三区在线观看 | 欧美在线综合视频 | 免费一区二区三区 | 国产网曝手机视频在线观看 | 成人毛片一区二区三区 | 国产一区a |