国产黄色毛片-国产黄色毛片视频-国产黄色片91-国产黄色片一级-一级坐爱片-一级免费

基于歸納學習的信息抽取

所屬欄目:計算機信息管理論文 發布日期:2011-01-20 08:42 熱度:

  摘要:本文利用了標準的HTML技術來解決信息抽取問題,提出一個Web信息抽取平臺。通過歸納學習算法,尋找感興趣的數據。抽取機制是利用歸納學習的方法,先選定樣本頁面和模式,生成模式信息和抽取規則,存入知識庫;后利用知識庫對其他同類頁面自動地抽取信息,將得到的信息按對象關系模型進行重組后存放在數據庫,以支持查詢及各種應用。
  關鍵詞:信息抽取;歸納學習;樣本頁面;模式
  
  1.背景
  Internet提供了海量數據,但不便于處理查詢;關系數據庫提供了非常方便的SQL語句來處理數據但對數據的結構限制過多。因此,結合兩者之間的優點,利用關系數據庫中的查詢語句對Web上異構的、大量數據信息進行查詢,就會顯露出巨大優勢。它能完成搜索引擎所不能完成、同時基于多個站點的查詢。
  這種新的技術就是信息抽取技術。它可以把散落在Internet中的信息以某種格式提取出來,并把提取出的整齊的結果放入關系數據庫中,這樣獲得的數據集就可以方便地使用SQL語句進行查詢,彌補了搜索引擎的不足。并且,由于獲得的信息格式整齊,便于計算機對其進行加工處理。
  2.基于歸納學習信息抽取模型的建立
  2.1原理概述
  同一Web站點的同類數據信息具有相似結構,尤其是對于大量的信息,通常都是采用某種模板或者基于某種動態網頁技術生成的,這些同類信息通過HTML格式表現出來,就具有一定相似性。而信息抽取的特點一般是:一次數據抽取通常是針對同類信息的,我們可以利用這種相似性來完成信息抽取。
  可以將整個抽取過程分為2個階段:學習階段和抽取階段。同時將抽取階段分為2步:抽取部分和集成部分。
  學習階段:以某一個信息塊為樣本,根據這個樣本生成抽取規則放入知識庫。知識庫中存放了系統每次抽取時,對每種樣本生成的模式信息和特定的抽取規則,這種存放是以數據庫的形式實現的,模式信息作為表的字段名稱,而規則是由各個數據段的內容即時生成的。
  抽取階段:根據學習階段定義的模式信息,建立數據庫,同時使用知識庫對所有信息塊進行信息抽取,將抽取出來的信息以數據庫的形式存儲和管理。其中抽取部分從知識庫中獲得規則信息和模式信息,對所有的信息塊進行抽取,獲得結果信息表。而抽取階段的集成部分將多次抽取獲得的結果表進行整合,除去冗余信息,形成一個集成數據庫。
  2.2確定樣本
  樣本就是用于在學習階段生成抽取規則的示例信息塊。進行信息抽取之前,我們先要分析樣本,以生成抽取規則。
  假設某電子商務網站中介紹一款手機的頁面HTML代碼如下,這就是樣本。
  <dt>蘋果iPhone(8G)</dt>
  <dd><strong>參考價格:</strong><spanclass="red"id="ppckbj">3600</span></dd>
  <dd><strong>上市時間:</strong>2007</dd>
  <dd><strong>網絡制式:</strong>GSM850/900/1800/1900,EDGE</dd>
  <dd><strong>手機外形:</strong>直板</dd>
  <dd><strong>主屏參數:</strong>彩屏,1600萬色,TFT,觸摸屏,320×480像素,3.5英寸</dd>
  2.3定義模式
  所謂模式,就是對頁面中我們感興趣的信息所取的名稱,例如上述例子中,我們感興趣的信息有:手機品牌:蘋果iPhone(8G);參考價格:3600元;上市時間:2007等。而“品牌型號”,“參考價格”和“上市時間”就是這些信息的名稱。定義了模式之后。我們只需要從頁面中獲得:“蘋果iPhone(8G)”“3600元”和“2007”等冒號右邊的信息就可以了。這些信息的意義已經由模式給出了。
  注意到該樣本中,除了“手機品牌:蘋果iPhone(8G)”之外,所有的信息都在冒號的左邊給出了它們的名稱。我們可以使用這些頁面中給出的名稱來作為模式信息,也可以自己定義。
  表現在數據庫中,模式就是信息抽取結果表中的字段名稱。上面例子中完整的模式信息如下:品牌型號,參考價格,上市時間,網絡制式,手機外形,主屏參數。
  2.4生成抽取規則
  在一個信息抽取系統中,最重要的部分是抽取過程,而抽取過程要順利完成,抽取規則的正確生成是功不可沒的。
  在此我們按照信息的左右邊界和文本特征來形成抽取規則。由于上文已定義了模式信息,我們可以直接從信息塊中找到待抽取的屬性,它們的語義已由模式信息確定。
  而知識庫中就記錄了這些標記信息。在數據庫中表示為標記表。但是需要注意的是,上述HTML代碼是我們事先從冗長的HTML代碼中找到的一個信息塊。也就是說,在提取標記之前,需要進行一個過濾功能,把有用的信息塊找到并保留,而去掉其余的HTML代碼。
  至此已可以確定待抽取信息的左右邊界,這種確定左右邊界的方法要求待抽取的信息塊中對應位置的標記應該相同。
  2.5抽取過程
  利用抽取規則,匹配所有的信息塊,獲取的信息將被寫入抽取信息數據庫中。
  3.總結
  本文提出了一個基于歸納學習方式的信息抽取系統,這個系統在后臺能夠實現對于不同類型的Web頁面的樣本歸納學習,并由此生成抽取規則和信息模式,利用抽取規則可以對不同頁面進行信息抽取,并把相關的信息集成到一個數據庫中,還能夠實現對知識庫的添加和擴充;在前臺則能夠滿足用戶查詢某一信息的要求,它與一般查詢的不同之處就是,用戶查詢到的資料雖然存在于本地的一個集成的數據庫中,但他們都是從Internet上的不同站點上抽取并匯總過來的,相當于對分布的數據庫的一個虛擬的查詢。
  
  參考文獻
  [1]李彥剛,魏海平,侯興華,基于HTMLParser的Web信息抽取系統的設計與實現遼寧石油化工大學學報,2006.6
  [2]梁曉濤,謝榮傳,基于OWL描述本體的語義信息抽取,計算機技術與發展,2006.1

文章標題:基于歸納學習的信息抽取

轉載請注明來自:http://www.optiwork.cn/fblw/dianxin/xinxiguanli/6555.html

相關問題解答

SCI服務

搜論文知識網 冀ICP備15021333號-3

主站蜘蛛池模板: 日韩在线视频免费不卡一区 | 欧美在线视频二区 | 国产三级在线免费 | 欧美成在线播放 | 亚洲黄色免费网址 | 免费精品久久久视频 | 毛片手机在线观看 | 亚洲成人免费网址 | 免费一级欧美片在线观免看 | 午夜一区二区福利视频在线 | 99久久免费精品国产免费高清 | 一区二区伦理 | 亚洲天堂网在线视频 | 日产一区两区三区四区 | 亚洲欧美成人综合 | 久草国产在线视频 | 久久99亚洲精品久久久久网站 | 成人亚洲视频在线观看 | 99久久精品免费国产一区二区三区 | 99在线热视频只有精品免费 | 另类自拍 | jul-179在线中文字幕 | 亚洲视频中文字幕在线 | 美国一级毛片片aa成人 | 成人午夜在线观看国产 | 综合久久影院 | 亚洲国产精品日韩在线 | 中国美女一级看片 | 欧美日韩一区二区三区视频播 | 欧美特一级 | cao草棚视频网址成人 | 在线播放国产真实女同事 | 三级色网站 | 在线观看亚洲网站 | 久久九九有精品国产56 | 国产黄色自拍视频 | 久草资源在线播放 | 国产9191精品免费观看 | 亚洲精品成人a | 亚洲午夜综合网 | 欧美成人免费高清视频 |