關(guān)鍵詞:信息研究 中醫(yī)藥文獻(xiàn) 數(shù)據(jù)庫(kù) 計(jì)算機(jī)檢索
文獻(xiàn)資源共享是時(shí)代的迫切要求
隨著科學(xué)技術(shù)的飛速進(jìn)步,人類(lèi)社會(huì)由工業(yè)社會(huì)向后工業(yè)社會(huì)——信息社會(huì)挺進(jìn),社會(huì)信息化程度不斷地提高,人們?cè)絹?lái)越重視信息的作用。信息需求的客觀性大大刺激了信息技術(shù)的發(fā)展,全球性的信息網(wǎng)絡(luò)迅速建立起來(lái)。信息資源得以在“信息高速公路”上自由傳送,全球性的信息資源共享的夢(mèng)想終于有望得以實(shí)現(xiàn)。
實(shí)現(xiàn)文獻(xiàn)資源共享是信息社會(huì)的客觀要求,是現(xiàn)代化技術(shù)發(fā)展的歷史必然。在市場(chǎng)經(jīng)濟(jì)的環(huán)境下,文獻(xiàn)資源的需求更為迫切。實(shí)現(xiàn)文獻(xiàn)資源共享是我國(guó)圖書(shū)情報(bào)事業(yè)發(fā)展的必然趨勢(shì),也是各國(guó)圖書(shū)情報(bào)事業(yè)發(fā)展的重要特點(diǎn)。美國(guó)人曾在1850年就提出了編制聯(lián)合目錄的設(shè)想,1942年美國(guó)制定了進(jìn)行文獻(xiàn)協(xié)調(diào)補(bǔ)充的“法明頓計(jì)劃”。1975年,國(guó)際圖書(shū)館協(xié)會(huì)聯(lián)合會(huì)(IFLA)將文獻(xiàn)資源共享(UAP)正式列為一項(xiàng)中期計(jì)劃。目前,全世界有上百的檢索網(wǎng)絡(luò),數(shù)以千計(jì)機(jī)讀數(shù)據(jù)庫(kù)。僅美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館醫(yī)學(xué)文獻(xiàn)聯(lián)機(jī)檢索系統(tǒng)(MEDLINE),其網(wǎng)絡(luò)由遍布全國(guó)的11個(gè)地區(qū)圖書(shū)館中心和800個(gè)聯(lián)機(jī)檢索點(diǎn)組成,網(wǎng)絡(luò)還延伸到全世界11個(gè)地區(qū)和國(guó)家,共有3000多個(gè)終端。整個(gè)系統(tǒng)存貯有79個(gè)文獻(xiàn)數(shù)據(jù)庫(kù),其中包括350萬(wàn)篇論文及病毒學(xué)等專(zhuān)業(yè)的數(shù)據(jù)資料、醫(yī)學(xué)圖書(shū)館目錄、醫(yī)學(xué)期刊目錄等。[1]
Internet是世界上規(guī)模最大、用戶最多、影響最廣的網(wǎng)絡(luò)互聯(lián)系統(tǒng)。據(jù)估計(jì),Internet上的數(shù)據(jù)庫(kù)總數(shù)不下1萬(wàn)個(gè),這其中不僅有大量的科技數(shù)據(jù)庫(kù),也有大量的時(shí)事評(píng)論、社會(huì)科學(xué)、文學(xué)藝術(shù)等方面的數(shù)據(jù)庫(kù)。北美最大、最有代表性的圖書(shū)館資源共享網(wǎng)絡(luò)要數(shù)美國(guó)的OCLC和加拿大的ISM了。至1997年3月,OCLC已經(jīng)發(fā)展到24117個(gè)成員館,遍及60多個(gè)國(guó)家和地區(qū),是世界上最大的專(zhuān)業(yè)網(wǎng)絡(luò)。OCLC中的參考服務(wù)系統(tǒng)連接有55個(gè)國(guó)際上有影響的大型數(shù)據(jù)庫(kù),遵循Z39.50協(xié)議,一種檢索方式可以訪問(wèn)55個(gè)數(shù)據(jù)庫(kù)。有的數(shù)據(jù)庫(kù)還提供全文,并標(biāo)有FAX服務(wù)的價(jià)格。[2]
國(guó)際計(jì)算機(jī)檢索方法學(xué)的現(xiàn)狀和新進(jìn)展
數(shù)據(jù)庫(kù)(Database)是統(tǒng)一管理的相關(guān)數(shù)據(jù)的集合,它能為各種用戶所共享,具有最小冗余度,數(shù)據(jù)間聯(lián)系密切,而又有較高的數(shù)據(jù)獨(dú)立性。數(shù)據(jù)庫(kù)系統(tǒng)(Database System)是指實(shí)現(xiàn)有組織地、動(dòng)態(tài)地存儲(chǔ)大量的關(guān)聯(lián)數(shù)據(jù),方便多用戶訪問(wèn)的計(jì)算機(jī)軟件、硬件和數(shù)據(jù)資源組成的系統(tǒng),即采用了數(shù)據(jù)庫(kù)技術(shù)的計(jì)算機(jī)系統(tǒng)。根據(jù)ISO.DIS5127號(hào)標(biāo)準(zhǔn)(文獻(xiàn)與情報(bào)工作術(shù)語(yǔ)),數(shù)據(jù)庫(kù)被定義為:“至少由一種文檔組成,并能滿足某一特定目的或某一特定數(shù)據(jù)處理系統(tǒng)需要的一種數(shù)據(jù)集合?!保?]按照國(guó)際上通用的分類(lèi)方法,數(shù)據(jù)庫(kù)通常劃分為以下類(lèi)型:
1.參考數(shù)據(jù)庫(kù)(Reference Databases):指引用戶到另一信息源以獲得原文或其他細(xì)節(jié)的一類(lèi)數(shù)據(jù)庫(kù)。它又包括書(shū)目數(shù)據(jù)庫(kù)和指南數(shù)據(jù)庫(kù)。
2.源數(shù)據(jù)庫(kù)(Source Databases):指能直接提供原始資料或具體數(shù)據(jù)的數(shù)據(jù)庫(kù)??蓜澐譃椋簲?shù)值數(shù)據(jù)庫(kù)、文本-數(shù)值數(shù)據(jù)庫(kù)、全文數(shù)據(jù)庫(kù)、術(shù)語(yǔ)數(shù)據(jù)庫(kù)、圖像數(shù)據(jù)庫(kù)、混合型數(shù)據(jù)庫(kù)。
計(jì)算機(jī)檢索系統(tǒng)根據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)內(nèi)容、文件結(jié)構(gòu)、存儲(chǔ)容量、檢索方式的不同,可以提供多種內(nèi)容與形式的檢索服務(wù)。就全文數(shù)據(jù)庫(kù)檢索而言,目前的產(chǎn)品的檢索方法一般是用布爾(Boolean)邏輯運(yùn)算和自由詞來(lái)檢索文獻(xiàn)中某個(gè)詞或某幾個(gè)詞所在的出處,也可進(jìn)行詞頻檢索。當(dāng)前的檢索技術(shù)難以做到對(duì)檢索出的文獻(xiàn)按相關(guān)程度進(jìn)行排序,相關(guān)程度最大的文獻(xiàn)應(yīng)當(dāng)排在最前面。布爾檢索正是相關(guān)程度排序的弱肯定(weak assertion)形式,這種局限性的存在,降低了檢索的績(jī)效。[4]
對(duì)全文本文獻(xiàn)信息檢索技術(shù)的研究,開(kāi)始于基于概念(concept-based)的算法,發(fā)展到現(xiàn)在的基于內(nèi)容(content-based)的算法,這一演化反映了對(duì)內(nèi)容知識(shí)的檢索逐漸取代了對(duì)概念知識(shí)的檢索。每篇文獻(xiàn)都是由眾多概念構(gòu)成的,這些概念之間的關(guān)系實(shí)質(zhì)上就是文獻(xiàn)內(nèi)容的真實(shí)反映,概念之間的相互關(guān)系可以稱(chēng)之為“概念結(jié)構(gòu)”。標(biāo)引和檢索文獻(xiàn)時(shí),必須如實(shí)反映其概念結(jié)構(gòu),現(xiàn)代檢索技術(shù)中稱(chēng)之為“事實(shí)檢索”(message understanding)的檢索方法就是追求概念結(jié)構(gòu)的典型形式。目前,普遍應(yīng)用的是一種基于框架(frame-based)的方法,在這種方法中概念結(jié)構(gòu)被框架化了。[5]
布爾邏輯理論指導(dǎo)下的檢索提問(wèn)式都遵循De Morgan法則——把“或”和“與”聯(lián)系起來(lái),“與”的互補(bǔ)是互補(bǔ)部分的“或”。這種理論認(rèn)為一個(gè)對(duì)象要么屬于一個(gè)集合,要么不屬于一個(gè)集合,即只用0和1來(lái)表達(dá)這種從屬關(guān)系。而模糊子集合理論則認(rèn)為存在著一種一般化的從屬關(guān)系函數(shù),即可以0~1之間的任一值來(lái)表達(dá)這種關(guān)系。元素集合{xεx}的一個(gè)模糊子集合可由一個(gè)從屬關(guān)系函數(shù)定義為:0≤fs(x)≤1。
也就是說(shuō),當(dāng)fs(x)=1時(shí),x要素肯定在系統(tǒng)中;當(dāng)fs(x)=0時(shí),x肯定不在系統(tǒng)中。
把提問(wèn)式中的每個(gè)概念轉(zhuǎn)化成概念空間中相應(yīng)的一個(gè)要素向量,用W和T計(jì)算相似的測(cè)度,根據(jù)模糊邏輯法則算出總分?jǐn)?shù),就可以完善地詮釋一個(gè)結(jié)構(gòu)化的提問(wèn)式。[6]
基于積(product-based)的表達(dá)法,利用De Morgan法則中的AND函數(shù)計(jì)算OR函數(shù)。實(shí)際上,嚴(yán)格的參數(shù)對(duì)未出現(xiàn)的術(shù)語(yǔ)做了過(guò)于嚴(yán)厲的限制,通過(guò)對(duì)fx進(jìn)行適當(dāng)?shù)男薷?,例如使其范圍介?.3~1之間,可防止這一情況的出現(xiàn)。
由此可見(jiàn),構(gòu)造一個(gè)復(fù)雜的線性結(jié)構(gòu),然后用代表一個(gè)提問(wèn)式剩余結(jié)構(gòu)的選擇擴(kuò)展項(xiàng)對(duì)此加以修飾,從而把文獻(xiàn)用向量表示出來(lái),把提問(wèn)式用概念結(jié)構(gòu)表示出來(lái),就可以充分支持一個(gè)檢索項(xiàng)目。需要明確的是:無(wú)論是從自然語(yǔ)言概念、概率或統(tǒng)計(jì)檢索或從基于框架的推理等各種不同的理論出發(fā),都可以得到上述用線性代數(shù)和非線性廣義方法所表達(dá)的匹配方案。實(shí)際上,大多數(shù)方法是直接應(yīng)用自然語(yǔ)言,而不是概念。
無(wú)論檢索詞是以字、n-grams的形式,還是以短語(yǔ)形式出現(xiàn),在處理提問(wèn)式和可檢索的文獻(xiàn)時(shí),所采用的方法都與上述對(duì)概念描述所采用的處理方法相同。這里不用c(概念)來(lái)標(biāo)引加權(quán)和相互關(guān)系,而用T(文獻(xiàn)或提問(wèn)式中實(shí)際出現(xiàn)的的術(shù)語(yǔ))進(jìn)行標(biāo)引,因?yàn)樗鼈兪俏谋局袑?shí)際出現(xiàn)的術(shù)語(yǔ),因此,我們將其稱(chēng)之為文本的“內(nèi)容”,這與由人所感知的概念是有很大差別的。
預(yù)先處理(preprocessing)是從內(nèi)容中提取出概念的一個(gè)步驟,預(yù)先處理文獻(xiàn)的老式方法是用大寫(xiě)字體形式代替所有的字,用這些字的詞干部分代替大量的字。這種做法有助于突出詞所代表的概念,而無(wú)需考慮這些概念的各種變化形式,如名詞的單復(fù)數(shù)、動(dòng)詞的時(shí)態(tài)變化等。當(dāng)把短語(yǔ)和字的組合形式增加到倒排文檔中時(shí),以這種方式編制索引會(huì)耗費(fèi)大量空間。
上述的線性公式是一種很著名的向量方法,它在SMARTS及其后來(lái)的進(jìn)化系統(tǒng)中得到了證實(shí)。用向量代表文獻(xiàn),這些向量的基本要素與術(shù)語(yǔ)出現(xiàn)在文獻(xiàn)中的頻率有關(guān),提問(wèn)式也是在這一基礎(chǔ)上加以表達(dá)的。實(shí)際上,在SMARTS未出現(xiàn)之前,Luhn在1959年就提出了一些非常重要的原則,其要點(diǎn)是:(1)文獻(xiàn)和術(shù)語(yǔ)的相關(guān)程度應(yīng)隨著術(shù)語(yǔ)在文獻(xiàn)中出現(xiàn)的頻率的增加而增加(術(shù)語(yǔ)頻率或TF原則);(2)一個(gè)術(shù)語(yǔ)在區(qū)分文獻(xiàn)中的重要程度隨著包含它的文獻(xiàn)數(shù)量的增加而降低(逆文獻(xiàn)頻率或IDF原則)。[7]
如果布爾邏輯系統(tǒng)只是對(duì)集合進(jìn)行檢索,而不把所檢索到的文獻(xiàn)按相關(guān)重要程度進(jìn)行排序的話,在對(duì)術(shù)語(yǔ)集合進(jìn)行某種運(yùn)算時(shí),所使用的就不再局限于布爾運(yùn)算。首先,系統(tǒng)規(guī)定用戶按某種特定的方式,如題名、關(guān)鍵詞等查找預(yù)定義的概念實(shí)體(conceptual entities),標(biāo)記語(yǔ)言(markup languages)的迅速發(fā)展極大便利了為檢索目的而進(jìn)行的文本處理的自動(dòng)化;[8]其次,系統(tǒng)認(rèn)可對(duì)從自由文本中抽取的概念進(jìn)行重組的近似算符。不過(guò)在實(shí)際檢索中,還沒(méi)有任何系統(tǒng)采用上述近似方法計(jì)算術(shù)語(yǔ)之間的相互關(guān)系而將其作為標(biāo)引文本的依據(jù),而是根據(jù)檢索用戶的要求來(lái)界定術(shù)語(yǔ)之間的關(guān)系。
術(shù)語(yǔ)之間還存在更復(fù)雜的關(guān)系,即域無(wú)關(guān)(corpus-independent)的情況。這是確立術(shù)語(yǔ)之間相互關(guān)系的另一種方法,它要求對(duì)書(shū)寫(xiě)文獻(xiàn)的基本詞匯進(jìn)行研究,包括從構(gòu)造詞表到對(duì)自然語(yǔ)言進(jìn)行處理的一系列過(guò)程。目前對(duì)這一方法的研究是以WordNet的語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)的,但還未取得預(yù)期的結(jié)果。不過(guò)已進(jìn)行的研究表明:在一個(gè)顯示術(shù)語(yǔ)與術(shù)語(yǔ)之間相互關(guān)系的通用網(wǎng)絡(luò)中無(wú)法找到所要求的特殊關(guān)系。因此,研究的方向就是發(fā)展與各領(lǐng)域的基本概念相對(duì)應(yīng)的術(shù)語(yǔ)與術(shù)語(yǔ)之間的關(guān)系的特定領(lǐng)域網(wǎng)絡(luò),這與人工智能中得到的一個(gè)結(jié)論相類(lèi)似――要解決一個(gè)特定問(wèn)題,就要發(fā)展特定領(lǐng)域知識(shí)。[9]把這一結(jié)論應(yīng)用于中醫(yī)藥學(xué)古籍文獻(xiàn)的檢索中,非常具有指導(dǎo)意義,它提示我們必須深入到中醫(yī)古籍特有的語(yǔ)詞規(guī)律中去,發(fā)展特定的標(biāo)引體系。如果照搬其他醫(yī)學(xué)文獻(xiàn)的標(biāo)引方法,將是行不通的。
自動(dòng)做文摘和抽取主題句也是一種可以考慮的標(biāo)引方法。系統(tǒng)通過(guò)自動(dòng)做出文摘和抽取文中的關(guān)鍵句子和重要公式,可以向用戶描述數(shù)據(jù)空間,從而有助于測(cè)度和明確信息需求。分散/集中方法通過(guò)為用戶提供題名和短語(yǔ)、跟蹤用戶的抉擇,可以幫助用戶構(gòu)造盡可能簡(jiǎn)潔明了的提問(wèn)式。
經(jīng)過(guò)多年的不斷發(fā)展和完善,目前已建立起檢索編碼,但存在的不足是:一個(gè)程序無(wú)法顯示它的設(shè)計(jì)原則的所有特征,這就導(dǎo)致遵循相同原則設(shè)計(jì)的系統(tǒng)在運(yùn)作時(shí)會(huì)出現(xiàn)相當(dāng)大的差別。由此引起的問(wèn)題領(lǐng)域包括:(1)在減少某一空間時(shí)所需進(jìn)行的維度選擇;(2)為科霍南算法選擇意識(shí)參數(shù)(conscience parameters);(3)選擇可改變“文獻(xiàn)頻率參數(shù)”的區(qū)間;(4)對(duì)詞干規(guī)則和非用詞表的特定選擇;(5)建立代表概念的術(shù)語(yǔ)集。這幾方面都影響系統(tǒng)績(jī)效,但由于系統(tǒng)極其復(fù)雜,要想把每一選擇所造成的影響?yīng)毩⒊鰜?lái)加以考慮非常困難。
當(dāng)代信息檢索方法無(wú)論是在理論層次上,還是在實(shí)踐中都顯示出一種成熟的技術(shù)特質(zhì),通過(guò)對(duì)實(shí)踐經(jīng)驗(yàn)的不斷積累,可以有效地推進(jìn)理論的發(fā)展。
中醫(yī)藥文獻(xiàn)檢索方法的進(jìn)展
國(guó)內(nèi)在中醫(yī)藥文獻(xiàn)方面的理論研究新成果相對(duì)較少,尤其缺乏創(chuàng)新性成果。由于建設(shè)大型數(shù)據(jù)庫(kù)方面要耗費(fèi)大量的財(cái)力、人力,在一定程度上限制了這方面的大型項(xiàng)目的開(kāi)展,所以可供參考信息的不多。
建設(shè)全國(guó)中醫(yī)藥信息網(wǎng)絡(luò)的設(shè)想數(shù)年前就有人提出,中國(guó)中醫(yī)研究院在1987年就初步建成我國(guó)第一個(gè)綜合性的《中醫(yī)藥文獻(xiàn)分析檢索系統(tǒng)》(TCMLARS),收錄1984~1987年全國(guó)公開(kāi)發(fā)行的300余種生物醫(yī)學(xué)期刊中有關(guān)中醫(yī)、中藥、針灸、按摩、氣功、養(yǎng)生保健、民族醫(yī)藥等內(nèi)容的文獻(xiàn)十多萬(wàn)條。這個(gè)數(shù)據(jù)庫(kù)在當(dāng)時(shí)能與國(guó)內(nèi)外主要生物醫(yī)學(xué)數(shù)據(jù)庫(kù)兼容,但在時(shí)差和收錄范圍方面則顯得落后,而這兩項(xiàng)恰好是檢索工具先進(jìn)性的主要標(biāo)志。[10]“上海市中醫(yī)藥信息協(xié)作中心”提出的局域網(wǎng)拓?fù)浣Y(jié)構(gòu)為總線型與星型相結(jié)合,采用Windows NT4.0網(wǎng)絡(luò)操作系統(tǒng)。該系統(tǒng)大致有以下幾方面的應(yīng)用:(1)行政辦公;(2)中醫(yī)函授;(3)情報(bào)文獻(xiàn),網(wǎng)上刊物,報(bào)刊摘要,學(xué)術(shù)動(dòng)態(tài);(4)學(xué)術(shù)交流,開(kāi)設(shè)杏林論苑;(5)醫(yī)藥服務(wù),遠(yuǎn)程會(huì)診,網(wǎng)上就醫(yī),健康咨詢,藥品介紹等。[11]目前,國(guó)內(nèi)已經(jīng)出現(xiàn)商業(yè)性的期刊檢索數(shù)據(jù)庫(kù),其中也包含了醫(yī)藥類(lèi)期刊,如ki.net(CNKI數(shù)據(jù)庫(kù))。
在中醫(yī)文獻(xiàn)的數(shù)字化方面的工作,上海中醫(yī)藥大學(xué)計(jì)算機(jī)中心開(kāi)展得比較早,在數(shù)據(jù)庫(kù)的中醫(yī)特色化上有許多創(chuàng)新思路,值得借鑒。他們最早提出整合性關(guān)系化醫(yī)學(xué)電子書(shū)(IRMEB)的概念,探索醫(yī)學(xué)的數(shù)學(xué)和信息學(xué)內(nèi)涵,致力于醫(yī)學(xué)的定量化、數(shù)學(xué)化、信息化的新研究QMSOC(醫(yī)學(xué)的計(jì)算機(jī)定量模擬和運(yùn)算)或信息醫(yī)學(xué)(Information Medicine)的一部分。IRMEB盡可能地把醫(yī)學(xué)的最實(shí)質(zhì)的知識(shí)元素化,把知識(shí)的表達(dá)方式歸結(jié)為一種結(jié)構(gòu)嚴(yán)格一致的關(guān)系形式。將各種專(zhuān)門(mén)的知識(shí)以諸如“生成”、“組成(所屬)”、“激揚(yáng)”、“阻抑”、“量序”、“時(shí)序”、“度序”等構(gòu)成知識(shí)的基本謂詞,編輯成知識(shí)“積木塊”,然后對(duì)任何大小范圍的醫(yī)學(xué)信息和知識(shí)進(jìn)行重新組裝,并利用醫(yī)學(xué)知識(shí)的內(nèi)在的數(shù)學(xué)屬性加以整合互通、互導(dǎo)、互析、互晰等。[12]
包含飛把所有醫(yī)學(xué)知識(shí)歸結(jié)為系統(tǒng)論意義下的幾種泛化關(guān)系:泛激、泛抑、泛生、泛函、泛等、泛轉(zhuǎn)、泛并、泛序、泛移、泛境。并把醫(yī)學(xué)事件、概念、泛權(quán)元素化編碼化,進(jìn)而把醫(yī)學(xué)知識(shí)根據(jù)上述關(guān)系三集合化:主體集合、客體集合、條件集合,在此基礎(chǔ)上對(duì)醫(yī)學(xué)知識(shí)實(shí)施互聯(lián)、整理、整合。[13]這對(duì)如何進(jìn)行中醫(yī)藥文獻(xiàn)的數(shù)據(jù)庫(kù)建設(shè)是具有一定的啟發(fā)意義的。
中國(guó)中醫(yī)研究院及北京中醫(yī)藥大學(xué)研制出了“小兒咳喘病證古代中醫(yī)文獻(xiàn)數(shù)據(jù)庫(kù)”,收集資料年代范圍截止到1911年以前。該課題的數(shù)據(jù)收集、整理工作全部在中文Office97中進(jìn)行,用Visual Basic6.0中文版進(jìn)行編程。系統(tǒng)采用了動(dòng)態(tài)數(shù)據(jù)庫(kù)對(duì)象技術(shù),運(yùn)用面向?qū)ο蟮木幊碳夹g(shù)和activeX技術(shù)進(jìn)行程序設(shè)計(jì),簡(jiǎn)潔高效,可視性好。界面采用多媒體技術(shù)進(jìn)行動(dòng)畫(huà)和聲音處理,特色鮮明。采用樹(shù)狀結(jié)構(gòu)顯示文獻(xiàn)目錄和檢索結(jié)果目錄,運(yùn)用補(bǔ)字技術(shù)處理僻字。[14]
南京中醫(yī)藥大學(xué)在中醫(yī)方劑數(shù)據(jù)庫(kù)方面做了大量富有成效的工作,已順利完成了江蘇省科委自然科學(xué)基金資助項(xiàng)目“中醫(yī)方劑編碼及文獻(xiàn)數(shù)據(jù)庫(kù)系統(tǒng)”。該項(xiàng)研究歷時(shí)3年,共收錄方劑101903首,比《中醫(yī)方劑大辭典》多收載方劑5311首,是目前最大的方劑數(shù)據(jù)庫(kù)檢索系統(tǒng),各方劑的相關(guān)研究資料截止1999年底,反映了這一領(lǐng)域的最新成就。該系統(tǒng)具有多途徑檢索功能,可以進(jìn)行方名檢索、處方藥物檢索、功效檢索、藥味數(shù)檢索、模糊檢索等,還可以進(jìn)行多個(gè)項(xiàng)目的聯(lián)合檢索,即可以將多項(xiàng)檢索條目邏輯相加進(jìn)行布爾檢索,對(duì)方名、書(shū)名、藥物、功用、主治等的任一兩項(xiàng)以上條件的綜合檢索,有效地提高了檢索績(jī)效。該系統(tǒng)維護(hù)簡(jiǎn)便,可以隨時(shí)增添新內(nèi)容,并且自動(dòng)生成相應(yīng)索引項(xiàng)。此項(xiàng)研究中還創(chuàng)制了一套行之有效的方劑編碼系統(tǒng),對(duì)于糾正古代方劑文獻(xiàn)中廣泛存在的命名混亂現(xiàn)象,頗具研究?jī)r(jià)值。方法是以功效與主治病證為依據(jù),對(duì)各方編制代碼,采用62位進(jìn)制的混合碼,由10個(gè)阿拉伯?dāng)?shù)字和26個(gè)英文字母的大小寫(xiě)二種形式組合而成。每碼長(zhǎng)度為12位,前8位描述功效和主治病證,每2位表示一個(gè)分類(lèi)條目,后4位碼用作功效和主治病證相同方劑的順序碼。這項(xiàng)編碼體系是現(xiàn)代檢索技術(shù)在中醫(yī)藥古代文獻(xiàn)研究領(lǐng)域的具體運(yùn)用,對(duì)于中醫(yī)藥文獻(xiàn)數(shù)據(jù)庫(kù)研究的理論和實(shí)踐有著重要的參考價(jià)值。
綜上所述,國(guó)內(nèi)在中醫(yī)藥文獻(xiàn)數(shù)據(jù)庫(kù)方面起步較晚,缺乏必要的人力、物力投入,故發(fā)展滯后,明顯落后于其他先進(jìn)學(xué)科的水平。所以,在此領(lǐng)域的發(fā)展空間還是相當(dāng)巨大的。
參考文獻(xiàn)
[1]陳界,等.新編文獻(xiàn)學(xué).北京:軍事醫(yī)學(xué)科學(xué)出版社,1999-1:302.
[2]陳界,等.新編文獻(xiàn)學(xué).北京:軍事醫(yī)學(xué)科學(xué)出版社,1999-1:312.
[3]黎漢津,等.中醫(yī)藥文獻(xiàn)檢索.廣州:廣東高等教育出版社,1999-8:117.
[4]孟廣均,等.國(guó)外圖書(shū)館學(xué)情報(bào)學(xué)研究進(jìn)展.北京:北京圖書(shū)館出版社,1999-9:190.
[5]孟廣均,等.國(guó)外圖書(shū)館學(xué)情報(bào)學(xué)研究進(jìn)展.北京:北京圖書(shū)館出版社,1999-9:193.
[6]孟廣均,等.國(guó)外圖書(shū)館學(xué)情報(bào)學(xué)研究進(jìn)展.北京:北京圖書(shū)館出版社,1999-9:195.
[7]Luhn,H.P.Auto-encoding of documents for information retrieval systems.In:Boaz,M.,ed.Modern Trends in Documentation.London,England:Pergamon Press,1959:45.
[8]Goldfarb,Charles F.The SGmlHandbook.New York,NY:Oxford University Press,1990:664.
[9]Miller,George A.;et al.Five Papers on WordNet.Princeton,NJ:PrincetonUniversityComputer Science Laboratory,1990JuIy.
[10]唐國(guó)順.完善和發(fā)展全國(guó)中醫(yī)藥信息網(wǎng)絡(luò)的設(shè)想.中醫(yī)文獻(xiàn)雜志,1996,(3):22.
[11]胡開(kāi)敏,等.中醫(yī)藥信息與INTERNET.中醫(yī)文獻(xiàn)雜志,1997,(3):21.
[12]包含飛,等.整合性關(guān)系化醫(yī)學(xué)電子書(shū)的單純性傳遞性知識(shí)鏈自動(dòng)推導(dǎo)―QMSOC與計(jì)算機(jī)輔助醫(yī)學(xué)教學(xué)(Ⅲ).醫(yī)學(xué)教育,1994,(8):17.
[13]包含飛.在E&R基礎(chǔ)上建成國(guó)際一流的中醫(yī)學(xué)智能化Internet網(wǎng)站.中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2000,6(3):56.
[14]萬(wàn)芳,等.小兒咳喘病證古代文獻(xiàn)數(shù)據(jù)庫(kù)的建立,北京中醫(yī)藥大學(xué)學(xué)報(bào),2000,23(6):15.
南京中醫(yī)藥大學(xué)(江蘇,210029)陳曉東 李婷
本文地址:http://www.mcys1996.com/zhongyizatan/39224.html.
聲明: 我們致力于保護(hù)作者版權(quán),注重分享,被刊用文章因無(wú)法核實(shí)真實(shí)出處,未能及時(shí)與作者取得聯(lián)系,或有版權(quán)異議的,請(qǐng)聯(lián)系管理員,我們會(huì)立即處理,本站部分文字與圖片資源來(lái)自于網(wǎng)絡(luò),轉(zhuǎn)載是出于傳遞更多信息之目的,若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)立即通知我們(管理員郵箱:douchuanxin@foxmail.com),情況屬實(shí),我們會(huì)第一時(shí)間予以刪除,并同時(shí)向您表示歉意,謝謝!
上一篇: 試論黎佩蘭《時(shí)癥良方釋疑》的學(xué)術(shù)成就···
下一篇: 敦煌醫(yī)學(xué)資料研究概況