按音標查詢(xún)的英漢電子詞典的設計與實(shí)現

發(fā)布時(shí)間:2010-11-1 21:55    發(fā)布者:eetech
關(guān)鍵詞: 查詢(xún) , 電子詞典 , 音標 , 英漢
目前的各類(lèi)電子詞典系統在查詢(xún)速度、詞庫容量等方面都日趨完善。用戶(hù)在英文閱讀時(shí),可以方便快捷地查找生詞的詞義、用法、同義詞或反義詞。然而,就使用方式來(lái)講,仍存在欠缺。當人們聽(tīng)英語(yǔ)廣播、看英語(yǔ)節目或練習聽(tīng)力時(shí)聽(tīng)到一個(gè)詞的發(fā)音而又不知其含義時(shí),又如何查到單詞的含義呢?按傳統的方法,只能先根據單詞發(fā)音猜測單詞的拼寫(xiě),然后再查詞典。由于英文單詞拼寫(xiě)不規范,這種查詢(xún)的效率必然很低。  

為此,應尋求另一種查詢(xún)途徑。旨在通過(guò)音標輸入,根據單詞發(fā)音直接進(jìn)行查詢(xún),并配合模糊查詢(xún)算法,從而為這一問(wèn)題的解決找到一條途徑。整個(gè)設計涉及到音標的提取和輸入、范例數據庫的建立、模糊查詢(xún)算法、界面的設計等。  

1 音標的提取和輸入  

系統設計首先考慮音標字庫問(wèn)題。Windows自帶的音標符號不全且不方便引入,而一些商用軟件,如金山公司的KingSoft Phonetic音標字體則包含了英式音標所需要的基本符號,可在開(kāi)發(fā)中引入該字體。當然,要以合法方式獲得。其方法是在裝有金山詞霸的系統中找到Ksphonet.ttf,將其拷貝到開(kāi)發(fā)系統中,安裝此字體即可。開(kāi)發(fā)時(shí),將窗口缺省字體設置為KingSoft Phonetic;最后,在程序發(fā)布安裝過(guò)程中自動(dòng)為目標機安裝該字體。  

由于無(wú)論是建立樣例數據庫還是系統運行時(shí)進(jìn)行查詢(xún),都涉及到音標的錄入,而通過(guò)鍵盤(pán)進(jìn)行錄入顯然不方便。所以在程序窗口中設置一個(gè)音標輸入面板,通過(guò)點(diǎn)擊面板中的按鈕來(lái)錄入對應的音標;還應對面板中的按鍵排列做規劃,例如,雙元音按鈕排列在一個(gè)區,方便錄入,見(jiàn)圖2。  

2 樣例數據庫的設計  

本電子詞典系統利用MS Access 2000建立了一個(gè)含500個(gè)單詞左右的樣例詞庫,并使用MS Visual C++6.0作為前端工具,采用DAO技術(shù)實(shí)現對樣例數據庫的訪(fǎng)問(wèn)。  

雖然本詞庫的規模較小,但應當體現出詞典在詞語(yǔ)分布上的特點(diǎn)。所以,特根據《郎文英漢雙解詞典》做粗略統計,得出數據如表1所示。其中,x、z按所占比例算不足一詞,均按一詞計。  

表1 單詞選取分布表  

首字母
所占百分比(%)
詞庫中單詞數(個(gè))
首字母
所占百分比(%)
詞庫中單詞數(個(gè))

a
5.12
26
N
2.15
11

b
6.07
30
O
2.09
10

c
9.99
50
P
2.09
44

d
5.69
28
Q
0.44
2

e
3.48
17
R
5.57
28

f
5.63
28
S
11.70
59

g
3.54
18
T
5.00
25

h
3.92
20
U
1.58
8

i
3.61
18
V
1.58
8

j
0.76
4
W
3.61
18

k
3.29
16
Y
0.25
1

m
5.12
26
Z
0.13
1

數據庫字段設計如下:  

Yinbiao
Eword
Cword
其中,Yinbiao存放單詞的音標,并作為主關(guān)鍵字;Eword為英文單詞;Cword為單詞的中文釋義。  

3 模糊查詢(xún)處理  

3.1 實(shí)時(shí)匹配的處理  

系統可以以?xún)煞N方式進(jìn)行查詢(xún):按詞查詢(xún)和按音標查詢(xún)。限于篇幅,本文只討論后者。樣例數據庫中以音標字段作為主鍵,對于每一輸入,系統都進(jìn)行匹配,將相近的結果顯示出來(lái)。例如,用戶(hù)輸入:a:則列表提示:art,arm,army,artist,article…等;若用戶(hù)輸入:a:t,則列表提示:art,artist,article…等。如用戶(hù)的輸入無(wú)法完全匹配,則從列表中選擇第一個(gè)匹配作為查詢(xún)結果或提示用戶(hù)手動(dòng)選擇相近的詞條。
  
3.2 重音的處理  

英語(yǔ)中多音節單詞都有各類(lèi)重音,在音標中用重音符號標記。重音符號完全可以參加匹配查詢(xún),但考慮到查詢(xún)復雜度和實(shí)用性,不將重音符號作為查詢(xún)的一部分,即輸入的重音符號在音詢(xún)時(shí)經(jīng)過(guò)預先處理過(guò)濾掉重音號。重音符號只用于建立樣例數據庫中的音詞條目,以便在查詢(xún)結果中正確地顯示單詞的完整音標。對于音標相同重音不同的單詞,同時(shí)給出釋義。



3.3 模糊查詢(xún)處理  

基于音標的模糊查詢(xún),類(lèi)似于很多輸入法提供的“南方模糊音”功能,即以用戶(hù)潛在的由于音標讀音相似產(chǎn)生的輸入錯誤為基礎,對無(wú)法直接匹配的輸入進(jìn)行相似的代換并對每一種代換進(jìn)行查找。例如對于音標tr很容易與音標t∫混淆,因此對于可能出現的習慣上的錯誤對音標進(jìn)行查詢(xún)的等價(jià)類(lèi)劃分,本系統做了如下劃分:  


  
需要說(shuō)明的是,這種劃分只是來(lái)源于實(shí)際的經(jīng)驗,衡量任何一種劃分成功與否必須通過(guò)音標的錯誤使用統計和用戶(hù)的反饋來(lái)確定。對于正常查詢(xún)無(wú)法查得的音標,用戶(hù)可以有選擇地應用以上的等價(jià)代碼重新進(jìn)行查找。但應用等價(jià)代換會(huì )非常顯著(zhù)地降低查詢(xún)效率,因此必須對查詢(xún)的規模進(jìn)行限制,如最多開(kāi)啟三個(gè)等價(jià)集或者進(jìn)行重新等價(jià)劃分等。  

另外對于比較長(cháng)的音標輸入,可以將音標輸入的前一半或者1/3長(cháng)度作為模糊查詢(xún)的輸入依據,這樣模糊查詢(xún)的范圍雖然會(huì )有所擴大,但是卻節省了查詢(xún)浪費的時(shí)間?傊,以等價(jià)代換查詢(xún)?yōu)榛A,可以采用很多策略來(lái)限制查詢(xún)的復雜度,但是具體哪一種策略更好,需要對音標構成和用戶(hù)輸入習慣做大量的統計和實(shí)驗得出。查詢(xún)流程如圖1所示。  

在具體的實(shí)現上,使用了遞歸函數,其基本算法如下:  

FuzzySearch(Cstring str,int n){  
Length=str.GetLength();  
if(length<=n){  
ExactSearch(str); //完全匹配查找  
return;  
}  
else {//對第n個(gè)字母進(jìn)行搜索尋找等價(jià)代換;  
//如果找到則從該等價(jià)第一個(gè)字母開(kāi)始進(jìn)行代換;  
//代換后的音標str2作為遞歸入口送入;  
FuzzySearch(str2,n+1);  
//同樣的str3、str4;  
FuzzySearch(str3,n+1);  
FuzzySearch(str4,n+1);  
//對于雙元音代換,則是:  
FuzzySearch(str5,n+2);  
//如無(wú)法找到等價(jià)代換,則:  
FuzzySearch(str,n+1);  
}  
}  

對已輸入的音標先進(jìn)行完全匹配,如完全匹配挫敗則對已輸入音標(剛輸入的音標)進(jìn)行等價(jià)集代換,并把模糊查詢(xún)的結果添加到列表,作為進(jìn)一步模糊查詢(xún)的基礎。由于縮小了搜索范圍,在速度上有一定優(yōu)勢。



4 界面設計  

界面以及風(fēng)格的設計已成為Windows編程十分重要的一環(huán),合理的設計會(huì )提高用戶(hù)使用效率。如果采用英式音標輸入,則至少需要44個(gè)音標按鈕。另一種方案是省略雙元音和某些由兩個(gè)音標符號組成的輔音(如t∫)由用戶(hù)自行輸入t和∫,這樣可以減少面板上音標按鈕的數量。但多數人在學(xué)習音標時(shí),習慣上是將雙元音作為一個(gè)整體為記憶,折開(kāi)后反而不自然。所以,面板排列由44個(gè)音標按鈕組成,為方便用戶(hù)快速錄入,將其按習慣分成三個(gè)區,即單元音區、雙元音區和輔音區,并將發(fā)音相似的音標排列在一起,如圖2所示。  

本系統的設計與實(shí)現具有很強的實(shí)用價(jià)值。將本系統所帶的詞庫進(jìn)行擴充,即可形成標準的電子詞典系統。若將本系統的算法加以固化,即可形成固件產(chǎn)品,具有很好的應用前景。
本文地址:http://selenalain.com/thread-35782-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页