新疆福利彩票时时彩|时时彩平台出租
論文發表 | 論文范文 | 公文范文
最新公告:目前,本站已經取得了出版物經營許可證 、音像制品許可證,協助雜志社進行初步審稿、征稿工作。咨詢:400-675-1600
您現在的位置: 新晨范文網 >> 專題欄目 >> 綜合材料 >> 專題綜合范文 >> 正文

期刊引文有效性識別研究

定制服務

定制原創材料,由寫作老師24小時內創作完成,僅供客戶你一人參考學習,無后顧之憂。

發表論文

根據客戶的需要,將論文發表在指定類別的期刊,只收50%定金,確定發表通過后再付余款。

加入會員

申請成為本站會員,可以享受經理回訪等更17項優惠服務,更可以固定你喜歡的寫作老師。

1引文有效性的定義及分析引文

引用是否有效的核心是施引論文中的觀點是否真實有效的出現在被引文獻之中。一般來說,引用參考文獻通常有4種情況:1)引用有歷史背景和意義的文獻;2)引用實驗中的方法;3)引用支持性或批判性的證據;4)引用相關文獻用于比較。科研工作者出于上述目的在引用他人的概念、數據、觀點時出于表達的需要,通常有直接引用、間接引用、轉引以及隱含引用幾種情況。無論哪種引用目的、哪種引用方式,參考文獻的觀點、數據、表述需要真實有效的出現在施引文獻中,方可判定引文是有效引用。鑒于參考文獻表明了科學研究的某種繼承性,本文認為在施引文獻和參考文獻之間天然存在相關性,但一般情況下兩者之間并不存在上下關系、同義關系或整體———部分等相關關系,施引文獻和參考文獻的整體相關性并不高。施引文獻和參考文獻兩者相關只是因為施引文獻引用了參考文獻中的部分內容、觀點或數據,即參考文獻被引用的內容和施引文獻中引用的內容具有相似性。一般來說,直接引用的內容相似性高,間接引用或轉引的內容相似性略低。因此本文認為,如施引文獻中引用的文字內容與參考文獻中的某段表述、數據、觀點具有相似性,則稱為引文有效,否則則稱為引文無效。對引文有效性的識別可用參考文獻與施引文獻引用的文本內容的相似性程度進行度量。

2文本相似度計算

一般來說,相關文本的兩個或多個變量之間存在以下依存關系:上下關系、同義關系、反義關系、整體———部分關系,主體———屬性關系等,反映出文本變量之間的關聯。相似文本的變量之間則一般表現為同義關系、上下關系、整體———部分關系。由于應用場景以及需要解決問題、達成目標的差異性,學界對文本相似度尚沒有統一定義。本文認為文本相似度分析是指對兩個給定的文本通過詞匯、語句、段落進行比較,判定兩者的差異,從而確定文本的相似程度,通常用[0,1]之間的某個數值進行度量。相似性越強,數值越接近1(意味著比較的文本完全相同);相似性越弱,數值越接近0(意味著比較的文本完全不同)。

3期刊引文有效性識別方法與實現

對引文有效性的識別即對引用內容與參考文獻內容相似度的計算。本文的引文有效性識別方法主要分成3步:文本表示,特征詞權重確定,相似度計算。3.1參考文獻的文本表示文本表示是指從參考文獻和引用內容中抽取出能體現參考文獻主要內容的特征詞,以形成參考文獻的向量表示,包括參考文獻和施引文獻引用的內容部分,主要解決抽取什么特征向量和抽取多少特征項量的問題。期刊論文是人類自然語言的文本表示,屬于非結構化信息。為了便于計算機處理論文信息,需要將論文進行預處理,即將非結構化的論文信息轉化為能夠被計算機直接處理的結構化文本信息,通常有分詞和去停用詞兩個步驟。分詞就是將待比較的論文切割成單個的詞,并根據詞性進行標注。目前常用的漢語分詞系統有:ICTCLAS分詞系統、HTTPCWS、SCWS———簡易中文分詞系統、PhpanAl-ysis、盤古分詞、MMSEG4J無組件分詞系統以及中國科學院的NLPIR中文分詞系統。NLPIR中文分詞系統可以基于信息交叉熵自動發現新特征語言,從較長的文本內容中自適應測試語料的語言概率分布模型,實現自適應分詞,在本文的期刊引文識別方法中分詞效果最好,是本文主要使用的分詞方法[6]。文本預處理的第二步是去停用詞。所謂停用詞是指出現頻率較高但實際意義不大的詞,包括連詞、嘆詞、語氣詞等沒有實際意義的功能詞以及地名、人名等詞匯詞。去除、過濾停用詞可以有效降低文本相似度計算的誤差,提高計算效率并節省存儲空間。目前使用的停用詞都是根據人類經驗非自動化生成的,由此匯集而成停用詞表,目前尚沒有普遍應用的通用停用詞表工具。已有停用詞表包括哈工大停用詞詞庫”、“四川大學機器學習智能實驗室停用詞庫”、百度停用詞表“等。3.2特征詞權重確定特征項的權重計算是期刊引文識別中極為重要的過程,和文本相似度計算的效率密切相關。TF-IDF(TermFre-quency-InverseDocumentFrequency)權重計算方法是向量空間模型中最常使用的權重計算方法之一。TF-IDF的主要思想是詞語的重要性跟它在文本中出現的次數成正比,但跟它在語料庫中出現的次數成反比。3.3相似度計算及引文有效性判定本文使用相似度來表示文本間的相似程度,相似度越大文本間差異就越小,文本越相似。余弦相似度是實踐中非常有效的一個相似度度量方法,其思想是通過計算兩向量間夾角的cos值來度量文本間的相似程度,夾角越小,余弦值越接近于1。

4實驗及結果

實驗選用某本刊2015年第一期為實驗文本集,獲得論文25篇,參考文獻260篇。出于數據獲取的便利考慮,本研究剔除了圖書、報紙、專利及外文類等參考文獻,獲得中文論文類參考文獻95篇;作為比對,在每篇論文中隨意劃取一段敘述作為引用內容,并增加無關參考文獻1篇做為虛假引用的參考文獻(為了回避偶然性,取其它學科論文做為參考文獻),獲得虛假引文25篇。經過文本預處理之后,根據向量空間模型,分別計算期刊論文與參考文獻和虛假引文的余弦匹配度。

5結束語

文獻的不當引用是一個長期、復雜且相對隱蔽的現象,既屬于學術道德問題,又屬于學術規范問題。對期刊虛假引文的有效識別只是規范引文不當引用的第一步,但無法解決引文引而不注、過度引用、模糊標注等問題[9]。廣大學者、期刊界、管理者應共同重視引文不當問題的緊迫性和重要性,逐步推出針對不當引用行為的監督、獎勵機制,鼓勵廣大學者及編輯人員發現、修正虛假引用、引而不注、匿引等不合理引用問題,為不端引用行為監督工作提供可靠的依據。

期刊引文有效性識別研究責任編輯:張雨    閱讀:人次
按欄目篩選
專題綜合范文相關文章
    沒有相關范文
新疆福利彩票时时彩