<s id="c2f0n"><noscript id="c2f0n"><i id="c2f0n"></i></noscript></s>

  • <s id="c2f0n"></s>
    <u id="c2f0n"><meter id="c2f0n"></meter></u>
  • <span id="c2f0n"></span>
  • 基于深度學習的軟件實體識別方法

    推薦人:寫作督導機構 來源: 寫作輔導機構 時間: 2021-12-02 19:51 閱讀:
    論文,畢業論文
     
     
    摘要
     
    隨著軟件開發進入網絡化、大眾化時代,各種社交編程網站和軟件知識社區迅速發展。在這些網站中蘊含著和軟件開發相關的大量有價值的信息,例如該類網站的功能之一是搜索特定軟件實體(如庫、工具、
    API)的相關討論,從而尋找在軟件開發過程中出現的問題的解決方法、工具使用方法等。所以網站中積累了大量的關于軟件工程的實體信息,對這些實體信息的挖掘和研究可以支持與軟件工程相關的問答系統、機器翻譯、文本分類等以實體為中心的相關應用的發展,同時為軟件工程領域知識圖譜的構建提供基礎。而當前的分析軟件工程文本的方法以與其他內容相同的方式對待軟件實體,不利于以實體為中
    心的相關應用的發展。所以本文主要目的是研究軟件工程文本中軟件實體的識別和分類方法。
     
    實體識別(Named  Entity  Recognition,  NER)是自然語言處理任務中比較基本的任務之一,傳統實體識別的相關研究大多是識別出句子中的人名和地名等專有名稱,或者是有意義的數量短語和時間等并進行分類標記,暫時還沒有一個很好的實體識別模型應用在軟件工程領域,并且傳統的實體識別算法的詞向量嵌入是靜態固定的不能根據上下文語義對同一單詞的不同用法進行表示。對于軟件工程文本,現有實體識別方法僅限于基于代碼或文字解析技術的字典查找和基于規則的方法,但是軟件工程文本中存在大小寫亂用、拼寫錯誤等情況,基于字典和規則的方法不能很好的進行識別。所以本文構建了一種基于深度學習的軟件實體識別方法。
     
    本文在構建軟件實體識別方法過程中主要做了以下幾個工作:
     
    (1)引入預訓練語言模型 BERT(Bidirectional  Encoder  Representation  from Transformers)解決傳統詞向量訓練模型產生的詞向量是靜態的,沒有考慮上下文語義,不能對一詞多義進行表示的問題。首先通過 
    Stack Overflow 官方數據轉儲提取軟件工程領域的文本內容并進行數據預處理;然后在 BERT 模型基礎上通過軟件工程領域的文本內容進一步預訓練,從而獲得更適合軟件工程領域的預訓練語言模型;最后在軟件工程領域實體識別模型構建過程中通過預訓練模型獲取輸入數據的特征表示。實驗表明引入 BERT 預訓練語言模型后模型的識別效果具有明顯的提升。
     
    (2)通過圖卷積網絡將句法信息融合到實體識別模型中,增加模型學習特征的能力,解決由于軟件工程文本書寫不規范造成的單純的詞特征不能很好的區分并分類軟件實體的問題。先通過相關句法分析器分析標注數據的句法依存結構,得到的句法信息同詞嵌入一起作為模型的輸入;再通過添加圖卷積網絡把句法信息融入到模型中,從而提升模型的識別效果。實驗表明,加入圖卷積網絡之后模型的識別準確率提高了 2%
     
    (3)在已有小型標注數據集上進行擴充,解決軟件工程領域標注數據少的問題。首先獲取軟件工程領域的問答數據并構建該領域的實體分類詞典,然后通過詞典對數據進行匹配標注,同時基于小型標注數據構建的實體識別模型進行數據集的預測標注,最后把兩種方法的標注結果進行整合并進行人工檢查。相比于完全人工標注可以大大減少工作量,提升標注效率。
     
    關鍵詞:軟件工程;實體識別(NER);BERT;圖卷積網絡(GCN)
     
     
     
     
    目錄
    第 1 章 緒論 
     1.1  研究背景及意義
    1.1.1  研究背景
    1.1.2  研究意義
    1.2  研究現狀
    1.2.1  軟件工程領域社交文本研究現狀
    1.2.2 實體識別研究現狀
    1.3  論文的研究內容
     1.4  論文的組織結構
    1.5  本章小結
     
    第 2 章基于 Bi LSTM 的軟件命名實體識別
    2.1  實體識別概述
     2.1.1實體識別概念
     2.1.2  主要方法
    2.2 LSTM 網絡
     2.2.1 LSTM 介紹
    2.2.2 LSTM 網絡的模型結構
    2.2.3 LSTM 網絡的模型訓練
    2.2.4 Bi LSTM-CRF 網絡的模型結構
    2.3  基于 Bi LSTM 的軟件命名實體識別方法構建
     2.3.1  數據集介紹
    2.3.2  模型整體結構設計
    2.3.3  實驗模型構建
    2.3.4網絡參數設置
    2.4  實驗結果分析
    2.4.1  評價指標
    2.4.2  參數優化及實驗結果分析
    2.5  本章小結
    第 3 章  基于 BERT 與 GCN 的軟件實體識別方法研究
    3.1 BERT 概述
    3.1.1 BERT 
    3.1.2  主要結構及原理
    3.2 GCN 概述
    3.2.1 GCN 介紹
     3.2.2 GCN 相關研究
    3.3 基于 BERT 實體識別算法構建
     3.3.1  軟件工程領域數據提取及預處理
    3.3.2 BERT 預訓練
    3.3.3  獲取BERT 詞向量
    3.3.4 BERT-Bi LSTM-CRF 模型構建
    3.3.5  實驗結果分析
    3.4 基于 GCN 實體識別算法構建
    3.4.1 模型原理
    3.4.2 輸入數據處理
    3.4.3 加入 GCN 的模型構建
    3.4.4 參數調優和實驗結果分析
    3.5  實驗綜合對比分析
    3.6  本章小結
    第 4 章 針對軟件工程領域標注數據不足的擴充方法
    4.1  數據獲取與詞典構建
    4.1.1 Stack Overflow 文本數據的獲取與選擇
    4.1.2  實體詞典的構建
    4.2  數據集擴充
    4.2.1 基于詞典的方法進行標注
     4.2.2  基于小型標注數據進行標注
     4.2.3 不同標注結果的融合與修正
     4.3 實驗與分析
    4.3.1  不同模型實驗結果
    4.3.2 實驗結果分析
    4.4  本章小結
    第 5 章總結與展望
    5.1 論文總結
    5.2 展望
    參考文獻 
     
     
     第 1 章 緒論 
    1.1 研究背景及意義
     
    1.1.1  研究背景
     
    近年來,隨著社交編程網站和軟件知識社區的迅速發展,軟件開發進入網絡化、大眾化時代[1]。例如,知名軟件知識社區Stack  Overflow 為 5000 萬余名軟件開發人員提供開發技術、配置管理、項目組織等軟件開發相關的問答交流平臺,在軟件開發人員之間的知識共享和獲取等方面發揮重要作用[2]。這些網站的基本功能是搜索特定軟件實體(如庫、工具、API)相關的討論,從而尋找問題解決方法,工具使用方法等。目前,網站中的搜索方法多是使用主題模型、向量空間模型或神經網絡語言模型來索引內容,把軟件實體與其他常規文本內容以相同的方式處理,這樣可能會導致對內容的索引不是很理想,因為傳統的信息檢索不太適用于識別關鍵領域的特定實體。在軟件知識庫中實現信息提取和搜索的最理想形式是以知識圖譜的形式實現知識庫中實體和實體之間的關聯,系統不僅可以利用知識圖譜查找關于特定軟件實體的討論內容,還可以查詢顯示有關中心實體的一些其他信息[3]。為了實現這樣的功能,首先需要識別出軟件工程領域中特定的軟件實體。但是現存實體識別的相關研究大多是識別出句子中的人名和地名等專有詞匯,或者是有意義的數量短語、時間等進行分類標記,暫時還沒有一個很好的實體識別模型應用在軟件工程領域。
     
    近幾年國內外實體識別的相關研究比較多,應用場景比較廣泛,2015 年Santos 等人[4]通過使用卷積神經網絡提取字符特征從而增強 CNN-CRF 模型的識別效果。2016 年,Akash Bharadwaj等人[5]提出了一種注意力神經模型(Attentional Neural Model),該模型在雙向長短期記憶網絡加條件隨機場(Bi LSTM-CRF)組成的模型基礎上加入了音韻特征,并通過注意力機制來關注并學習更有效的字符信息。2017 年,Strubell 等人[6]使用 IDCNN-CRF 模型進行命名實體識別,通過空洞卷積網絡提取序列信息,加快了訓練速度。2018 年,王潔[7]把基于雙向門控循環單元(GRU)的命名實體識別方法運用在了會議名稱的識別任務上。李麗雙[8]將卷積網絡與雙向長短期記憶網絡相結合(CNN-Bi LSTM-CRF)并應第 1 章 緒論 2  用在了生物醫學領域。2019 年,周曉磊[9]提出了 SVM-Bi LSTM-CRF 模型識別裁判文書中的實體信息,主要識別動產、不動產和知識財產三類實體。2020 年,Wang 等人[10]提出了一種對抗訓練的 LSTM-CNN 系統提高了模型的泛化能力和魯棒性,改善了神經網絡的過擬合問題。 
    1.1.2  研究意義 
    實體識別任務是自然語言處理中最基礎的任務之一,實體識別模型的好壞影響著自然語言處理的后續任務,例如問答系統,機器翻譯,文本分類,信息抽取等任務都以實體識別為基礎[11]。問答系統中的常見問題如:“是誰”、“在哪兒”、“什么時間”、“干了什么事”等,這些答案的抽取都需要比較好的實體識別模型的支持。機器翻譯中人名、地名等專有名詞會有一些專門的翻譯規則,好的實體識別模型能提高機器翻譯的翻譯效果。在實體關系抽取任務中,如果識別的實體是錯的,那也會導致關系的抽取錯誤從而出現連續性的錯誤影響。所以研究實體識別任務對自然語言處理的后續任務具有重要意義。
     
    對于軟件工程文本,現有實體識別方法僅限于基于代碼或文字解析技術的字典查找和基于規則的方法,而這些方法針對軟件工程領域的實體識別任務具有以下挑戰,在軟件工程領域的實體識別任務中研究并解決以下問題具有重大意義:
    1)軟件知識社區中討論的特點是不遵循嚴格的語言規則,存在大量拼寫錯誤,以及簡寫等情況。
    2)許多特定于軟件的實體名稱是常用詞。 
    3)有些實體詞根據使用語境的不同可以歸為不同的實體類別。
     同時通過對國內外實體識別相關文獻的整理研究發現,雖然有很多關于實體識別的相關模型,但是這些模型還存在如下問題,研究解決這些問題同樣對實體識別領域的研究具有重要意義: 
    (1)不能很好的表征字的多義性,例如句子“這條褲子太長了,等你長大再穿。”中,雖然兩個“長”字代表不同的意思,但是在傳統的詞向量模型中,這兩個“長”字的詞向量是一樣的,不能根據意思的不同進行區分。 
    (2)如果句子中前后文內容較少并且存在長實體包含短實體、實體的縮寫等情況,往往不能準確地識別,還需要繼續研究。
     
    (3)缺少大量的針對特定領域的標注數據。
     第 1 章 緒論  
     
    在社交編程網站上每天都會產生海量的文本內容,這些文本內容包含豐富的軟件開發信息,為軟件開發人員提供各種問題解決方案以及工具使用方法對這些豐富的軟件開發信息進行挖掘研究,提取有用信息對于軟件工程領域的發展具有重大意義。比如構建軟件工程領域的知識庫,知識圖譜,提高和改進軟件工程領域知識社區檢索系統的檢索效果。要想實現這些目標,首先需要從大量軟件工程非結構化文本內容中抽取有用的結構化數據,而命名實體識別的研究可以達到這一目的[11]。命名實體識別也是自然語言處理技術的重要子任務之一,軟件工程領域非結構化信息中的軟件實體,比如編程語言、軟件工具、開發庫、開發框架等實體都是對于文本理解不可缺少的內容,在做軟件工程領域的智能問答系統、推薦系統、構建知識圖譜等方面同樣離不開軟件工程領域實體的識別。所以研究軟件工程領域實體識別具有如下作用和意義: 
    1.  方便軟件開發人員查詢特定實體的相關知識。
     
    2.  為軟件實體抽取、軟件知識庫的構建提供支持。
     
    3.  為實體間關系的挖掘以及知識圖譜的構建提供支持。
     
    4.  改善軟件知識社區的信息搜索形式,提高搜索效率。
     
    5.  為軟件工程領域的信息檢索、問答系統等自然語言處理任務提供基礎。
     
    6.  為其他軟件工程的智能化應用提供支持。
     
    1.2  研究現狀
     
    1.2.1  軟件工程領域社交文本研究現狀
     
    隨著社交編程網站和軟件知識社區的迅速發展,相關軟件社交網站中積累了有關軟件工程的大量信息。這些信息圍繞特定于軟件的實體及其使用模式或者問題解決方案等進行討論?,F在有一些針對軟件工程文本的挖掘研究,例如 Zou等人[12]以用戶的使用感受為基礎,基于互聯網的用戶評論對軟件質量進行評估,對網上海量的正面和負面的評論進行情感分析,并從穩定性、易用性等六個角度對軟件的質量進行綜合性評估。還有人利用軟件代碼或者軟件介紹等數據對軟件進行分類,例如文章[13][14]采用支持向量機的方法、文章[15]采用潛在語義索引的方法、文章[16]采用概率主題模型的方法對軟件進行分類。在軟件知識社區中如何準確地識別某一領域的專家對于軟件生產活動以及軟件問答社區的問題及時解決具有重要意義,Nguyen[17]和 Ma[18]等人分別從實現能力(解決缺陷第 1 章 緒論的時間)和使用經驗(函數的使用頻率)對開發者的技術水平進行度量。文章[19]通過分析問題回答者的問題類型以及得分,利用聚類以及非負矩陣分解的方法進行相關問題的專家推薦。以 Stack Overflow為代表的軟件知識問答社區漸漸成為了軟件開發人員獲得知識的重要平臺。文章[20]對 Stack Overflow 網站中的問題的概念、主題、類型進行過分析,發現該軟件知識社區中包含了不同編程語言、不同開發平臺的各種類型的問題,并且文章[21]發現,Stack Overflow 社區中有關 Android API 的討論覆蓋了 Android 中 87%的類,并且這些討論被大量用戶瀏覽超過 7000 次[2]。由于該類軟件知識問答平臺的快速發展,越來越多的研究者開始關注以軟件知識分享社區為基礎的與軟件開發有關知識的提取和挖掘,并進行相關研究。例如文章[22]關于軟件開發知識問答檢索的研究,文章[23]中關于軟件開發過程中常見問題解答的自動抽取的研究以及文章[24]中代碼注釋自動生成的研究。文章[25]中還提出了一種結構化的語義索引技術,通過不同項目中同一 API 的使用相似度構建源代碼實體和不同表述詞匯之間的關聯,從而實現依據開發者需求迅速從代碼庫中查找 API 使用示例的功能。
     總之,開源軟件知識共享社區中擁有海量的與軟件開發相關的資源和知識等著我們去挖掘、研究。從軟件代碼倉庫挖掘技術出現開始,人們利用統計學以及機器學習等各種研究方法對軟件工程領域的相關數據進行挖掘,發現了許多軟件開發過程中蘊含的規律,最近幾年,軟件倉庫挖掘技術擴展到了各類軟件知識社區并且迅速發展[2]。
     
    1.2.2 實體識別研究現狀
     
    命名實體識別任務的主要工作是識別出句子中的人名和地名等特殊名稱,或者是有用的數量短語和時間等并進行分類標記[26]。國外最早提出對命名實體識別任務進行研究。1991 年,Rau 在第 7 屆 IEEE 人工智能應用會議上首次提出了通過啟發式算法與人工編寫規則相結合的方法識別公司名稱并發表文章“Extracting Company Names from Text”  [27]。命名實體識別正式作為專業術語和研究領域是在第六屆 MUC(Message  Understanding  Conference)會議上被Grishman 和 Sundheimt 提出的,隨后該領域研究引起了越來越多人的關注。1999年,Bikel 等人[28]提出采用隱馬爾可夫模型進行英文文本的命名實體識別,并且通過 MUC-6 測試集進行實驗,實驗結果顯示:該模型的總體識別精度達到了 93%,第 1 章 緒論 5  召回率達到了96%;2009 年,Liao 等人[29]通過半監督的機器學習算法進行實體識別模型的構建,最早提出了采用條件隨機場進行命名實體識別。
     目前,經過多年的發展,實體識別技術已經有了很大發展,從早期到現在,主要有四類實體識別方法被提出,分別是基于規則、基于詞典、基于統計和基于深度學習的方法?;谝巹t的方法一般需要通過對應文本語言的相關專家人工設計識別規則,并且通常和基于詞典的方法進行結合使用。例如 Kim[31]用基于規則的方法對口語化的文本內容進行自動的命名實體識別,Hanisch[32]利用預先構建好的同義詞典來識別生物醫學領域相關文本中和蛋白質相關的術語。Quimbaya 等人[33]使用基于詞典的方法提取電子醫療記錄中的命名實體。但是由于基于規則和詞典的方法移植性較差,并且在提高識別精確度以及召回率方面有很多局限性,所以研究者開始重視基于統計的方法?;诮y計的方法需要一定的訓練數據,通過有監督的機器學習算法學習訓練語料中的特征和規律,從而根據學習到的特征和規律對新語料中的實體進行識別和標記。例如單詞的形態和讀音,句子的語法特征和單詞出現次數等特征都可以被用來統計、學習,從而提高實體識別效果[34]。目前比較常用的基于統計的機器學習模型主要有:決策樹、最大熵[35]、隱馬爾可夫[36]、支持向量機[37]以及條件隨機場[38]等模型。近幾年,深度神經網絡模型在一些語音識別以及圖片處理等任務上取得了很大進展,許多研究者在其他自然語言處理任務中也都引入了神經網絡模型[39]。例如,Collobert[40]最早在命名實體識別任務中引入神經網絡模型進行特征抽取,從而減少特征工程的工作量。在此之后,神經網絡模型越來越多應用到實體識別任務中,相關研究已經在本文研究背景中進行簡要介紹。這些研究中主要用到卷積神經網絡(CNN)、循環神經網絡(RNN)、空洞卷積網絡(IDCNN)、門控循環單元(GRU)以及循環神經網絡的變體——長短期記憶網絡(LSTM),相關研究者以這些模型為基礎進行優化組合,加入其它算法及特征研究適用于不同領域、不同語言的效果更好的實體識別方法。其中應用最成功、最廣泛的模型結構為雙向長短期記憶網絡加條件隨機場(Bi LSTM-CRF)的模型組成結構。相比于其他類別的實體識別方法,基于深度學習的方法可以學到更多非線性聯系,特征表示能力更強,但是基于深度學習的方法的識別效果比較依賴于輸入的表示方法,因此可以在模型的輸入表示方面進行更深入的研究,從而提升模型的實體識別效果。
     第 1 章 緒論
     
    1.3  論文的研究內容 
    本文主要研究目標為通過深度學習的方法構建軟件工程領域的實體識別模型,模型構建過程中首先從Stack Overflow 官方數據轉儲中提取數據集,通過預處理提取對實驗有用的數據,去除不相關數據,然后構造訓練數據集。實驗過程中將研究基于 BERT(由 Google 提出的一種基于雙向 Transformers 編碼器的預訓練語言表征模型)的軟件實體識別技術,探討基于 BERT 的文本特征提取方法,從而在軟件問答社區中進行文本挖掘、模型訓練,達到軟件社區中軟件實體自動識別的目的。在問答社區的相關討論中,內容的前后是有聯系的,傳統的前向神經網絡不能很好的對這種數據進行建模,因此,本實驗擬采用 LSTM網絡進行語義編碼并結合條件隨機場 CRF 的轉移特征對結果加以限制,從而預測最終的標簽序列。由于圖卷積網絡 GCN 可以考慮句子的句法結構,所以實驗中嘗試在模型中加入圖卷積網絡,進行句子中句法結構特征的提取與表示,從而進一步提取實體特征,提高實體識別準確率。論文具體研究內容主要分為以下幾個方面:
     
    (1)Bi LSTM-CRF 基礎模型構建。利用長短期記憶神經網絡LSTM 構建經典的實體識別模型,在LSTM 網絡的基礎上增加一層反向LSTM 可以形成雙向長短期記憶神經網絡(Bi LSTM),其中正向的 LSTM 網絡可以獲取并記憶上文的信息,反向 LSTM 網絡可以獲取并記憶下文信息,所以利用雙向 LSTM 可以更加充分提取輸入語句的上下文語義信息。Bi LSTM 網絡基于上下文特征對單個詞進行獨立的分類,但是分類結果沒有考慮句子中單詞與單詞之間的約束關系。條件隨機場 CRF 能夠考慮輸出標記之間的特殊性,因此需要在 Bi LSTM 網絡之后接入 CRF 層確定最終的標注序列。該模型用于后續改進實驗的參照基礎。
     
    (2)引入 BERT預訓練語言模型。
    BERT 采用的是雙向 Transformer 作為編碼器,和其他詞嵌入模型相比BERT 可以獲取句子級別語義特征以及上下文的語境。本文在基礎的 Bi LSTM-CRF實體識別模型上添加BERT 預訓練語言模型,通過預訓練與微調兩步獲取軟件工程文本的詞嵌入向量,與傳統詞嵌入相比,更好的表征詞的特征,有利于實體識別模型的特征提取與學習。 
    (3)引入圖卷積網絡 GCN,將句法信息融合到實體識別模型中。通過相關句法分析器分析標注數據的句法依存結構,得到的句法信息同詞嵌入一起作為模型的輸入,然后在編碼層 Bi LSTM 之后添加圖卷積層,通過圖卷積網絡把句第 1 章 緒論 法信息融入到模型中。
     (4)針對深度學習方法需要大量標注數據的問題,提出數據集擴充方法。通過相關軟件問答網站、數據庫獲取軟件知識相關數據集。在獲取軟件資源數據集后,分析數據結構對其進行數據集解析、提取正文、去標記等文本預處理操作,然后通過詞典以及實體識別模型對數據進行標注。文章[3]中提供了軟件工程領域實體識別的小型標注數據集,但是大部分深度學習模型都需要數據量比較大的訓練語料,本文實驗從Stack Overflow 社交編程網站中獲取問答轉儲信息,并根據問答信息的關注程度,問題及答案質量等因素選取問答信息,并對文本信息進行預處理,然后根據從小型標注數據訓練的實體識別模型以及預先構建的實體詞典對預處理后的數據進行標注,從而對小型標注數據集進行補充。 
    1.4  論文的組織結構
     
    本文首先介紹了選題的背景意義以及相關技術的研究現狀,為后續工作打下基礎,然后介紹了怎樣基于經典的 Bi LSTM-CRF 網絡構建基礎的軟件工程領域的實體識別模型,之后又介紹了通過 BERT 預訓練語言模型和圖卷積網絡 GCN分別從詞向量表示以及句法特征的融合等方面對模型進行改進,其次還介紹了本文擴充小型數據集的方法,最后總結本文所能得到成果和不足之處,提出未來的改進方向。文章具體組織結構如下:
     
    第一章, 緒論。主要介紹了軟件問答社區與實體識別方法的研究背景以及發展現狀,分析軟件工程文本的挖掘和應用方向,總結現存實體識別方法存在的不足,以及構建軟件工程領域實體識別的意義。同時介紹了軟件工程文本的挖掘、實體識別以及本文所用其他技術的國內外研究現狀。 
    第二章, 基于 Bi LSTM 的軟件命名實體識別方法。通過經典的實體識別模型構建軟件工程領域的實體識別方法。首先介紹LSTM 以及Bi LSTM-CRF 的模型結構以及訓練方法,然后以 Bi LSTM 為基礎從輸入層、編碼層、輸出層的詳細設計介紹軟件工程領域實體識別模型構建過程,最后對模型進行參數調優以及實驗驗證。
     
    第三章, 加入BERT預訓練語言模型與GCN圖卷積網絡的軟件實體識別方法研究。在上一章構建的軟件工程領域實體識別模型基礎上分別第 1 章 緒論 入 BERT 預訓練語言模型與圖卷積神經網絡(GCN)進行詞的上下文表征與句法特征的嵌入。詳細介紹通過 BERT 預訓練軟件工程領域詞向量模型的過程,以及通過圖卷積網絡融合句法依存特征的原理。
     
    第四章, 針對深度學習模型需要大量標注語料的問題,嘗試使用模型預測結合詞典匹配的方法進行小型標注數據的擴充。該章從擴充數據的獲取、預處理,以及詞典的構建、模型結合詞典的標注過程到最后的人工檢查進行詳細介紹。
     
    第五章, 總結與展望??偨Y本文的主要工作和不足之處,提出未來更進一步的研究方向。
     
    1.5  本章小結
     
    本章首先介紹了本文研究的背景和意義,分析了在軟件開發進入網絡化大眾化的今天,編程網站積累了大量的軟件工程領域的相關信息,對這些信息進行挖掘研究是有意義的事情。同時提出基于這些軟件工程領域的文本信息進行軟件工程領域實體識別模型的構建,不僅為軟件實體抽取、軟件知識庫的構建和知識圖譜的構建提供支持而且可以支持軟件工程領域的信息檢索、機器翻譯、問答系統等以軟件實體為中心的相關應用的發展。然后對軟件工程領域社交文本、實體識別技術等本文涉及到的相關技術的研究現狀進行介紹。再然后重點介紹了本文的主要研究內容為構建軟件工程領域的實體識別模型,并從詞嵌入、模型結構、數據集的標注擴充等方面對模型進行改進。最后對本文的整體組織結構進行了介紹。

    聯系我們

    亚洲国产精品无码久久久久久曰久久久精品国产亚洲成人满18免费网站99久久综合狠狠综合久久最近高清影院免费观看国产亚洲美日韩AV中文字幕无码成人无码国产亚洲日韩国精品视频一区二区三区,欧美日韩在线一区二区国产欧美亚洲精品中文字幕无码专区国产日韩综合不卡免费观看国产精品国产精品国产专区不卡亚洲成a人片在线播放亚洲第一国产综合国产极品精品免费视频能看的福利中文字幕最新永久久久久综合九色合综,97精品国产高清自在线看超日韩精品无码视频免费专区国产一区麻豆剧传媒果冻精品91精品国产福利在线观看麻豆国产在线精品国自产在线91久久中文精品无码中文字幕国产高清在线a视频大全国产精品午夜福利精品国精品四产自在久国产无码一二三四区免费久久久久精品久久久久久亚洲偷窥日本一区欧美国产日韩精品国精品国产AV自在久国产国产精品va免费视频亚洲色一久久久综合网亚洲欧美高清一区二区三区99久久久久精品国产免费日韩一级一欧美一级国产国产成a人片在线观看视频99亚洲综合av一区二区,亚洲国产精品无码第一区无码久久久一区二区三区免费一卡2卡三卡4卡激情短篇少妇系列小说色偷偷亚洲第一综合网国产综合色产在线精品中文字幕亚洲综合小综合,国产精品成人啪精品视频免费网站84sex久久精品国产麻豆无码日韩精品一区二区免费暖暖免费麻花豆传媒剧