用Java實現(xiàn)語音引擎

2019-11-18 13:39:24

字體：大中小

供稿：網(wǎng)友

　　為應(yīng)用程序加上語音能力有什么好處呢？粗略地講，是為了趣味，它適合所有注重趣味的
應(yīng)用，比如游戲。當然，從更嚴厲的角度來講，它還涉及到應(yīng)用的可用性問題。注重，這
里我考慮的不僅是可視化界面固有的不足，而且還有這樣一些情形：一些時候，讓雙眼離
開當前的工作很不方便，甚至是不合法的。比如，假設(shè)有一個帶語音功能的瀏覽器，你就
可以在外出散步或開車上班的同時，用聽的方式瀏覽自己喜愛的網(wǎng)站。

　　從目前來看，郵件閱讀器或許是語音技術(shù)更實際的應(yīng)用，在javaMail API的幫助下，
這一切已經(jīng)可能。郵件閱讀器可以定期地檢查收件箱，然后用語音“You have new mail,
would you like me to read it to you?”引起你的注重。按照類似的思路，我們還可以
考慮一個帶語音功能的提醒器，把它連接到一個日歷應(yīng)用：它會及時地提醒你“Don't
forget your meeting with the boss in 10 minutes!”。

　　也許你已經(jīng)被這些主意吸引，或者有了自己更好的主意，現(xiàn)在讓我們繼續(xù)。首先我將
介紹如何啟用本文提供的語音引擎，這樣，假如你認為語音引擎的實現(xiàn)細節(jié)過于復(fù)雜，就
可以直接使用它而忽略其實現(xiàn)細節(jié)。
　　一、試用語音引擎

要使用這個語音引擎，你必須在CLASSPATH中加入本文提供的javatalk.jar文件，然后從
命令行運行（或者從Java程序調(diào)用）com.lotontech.speech.Talker類。假如從命令行運
行，則命令為：

java com.lotontech.speech.Talker "heloo"

假如從Java程序調(diào)用，則代碼為：

com.lotontech.speech.Talker talker=new com.lotontech.speech.Talker();

talker.sayPhoneWord("heloo");

現(xiàn)在，對于在命令行上（或者調(diào)用sayPhoneword()方法時）提供的“heloo”字符串，你
或許有所不解。下面我就來解釋一下。

語音引擎的工作原理是把細小的聲音樣本連接起來，每一個樣本都是人的語言發(fā)音（英
語）的一個最小單位。這些聲音樣本稱為音素（allophone）。每一個因素對應(yīng)一個、二
個或者三個字母。從前面“hello”的語音表示可以看出，一些字母組合的發(fā)音顯而易見，
還有一些卻不是很明顯：

h -- 讀音顯而易見

e -- 讀音顯而易見

l -- 讀音顯而易見，但注重兩個“l(fā)”被簡縮成了一個“l(fā)”。

OO -- 應(yīng)該讀作“hello”中的讀音，不應(yīng)讀作“bot”、“too”中的讀音。

下面是一個有效音素的清單：

a ：如cat
b ：如cab
c ：如cat
d ：如dot
e ：如bet
f ：如frog
g ：如frog
h ：如hog
i ：如pig
j ：如jig
k ：如keg
l ：如leg
m ：如met
n ：如begin
o ：如not
p ：如pot
r ：如rot
s ：如sat
t ：如sat
u ：如put
v ：如have
w ：如wet
y ：如yet
z ：如zoo
aa ：如fake
ay ：如hay
ee ：如bee
ii ：如high
oo ：如go
bb ： b的變化形式，重音不同
dd ： d的變化形式，重音不同
ggg ： g的變化形式，重音不同
hh ： h的變化形式，重音不同
ll ： l的變化形式，重音不同
nn ： n的變化形式，重音不同
rr ： r的變化形式，重音不同
tt ： t的變化形式，重音不同
yy ： y的變化形式，重音不同
ar ：如car
aer ：如care
ch ：如which
ck ：如check
ear ：如beer
er ：如later
err ：如later (長音)
ng ：如feeding
or ：如law
ou ：如zoo
ouu ：如zoo (長音)
ow ：如cow
oy ：如boy
sh ：如shut
th ：如thing
dth ：如this
uh ： u 的變化形式
wh ：如where
zh ：如Asian

人說話的時候，語音在整個句子之內(nèi)起落變化。語調(diào)變化使得語音更自然、更富有感染
力，使得問句和陳述句能夠相互區(qū)別。請考慮下面兩個句子：

It is fake -- faak

Is it fake? -- fAAk

也許你已經(jīng)猜想到，提高語調(diào)的方法是使用大寫字母。

以上就是使用該軟件時你需要了解的東西。假如你對其后臺實現(xiàn)細節(jié)感愛好，請繼續(xù)閱讀。
　　二、實現(xiàn)語音引擎

語音引擎的實現(xiàn)只包括一個類，四個方法。它利用了J2SE 1.3包含的Java Sound API。在
這里，我不預(yù)備全面地介紹這個API，但你可以通過實例學習它的用法。Java Sound API
并不是一個非凡復(fù)雜的API，代碼中的注釋將告訴你必須了解的知識。

下面是Talker類的基本定義：

package com.lotontech.speech;

import javax.sound.sampled.*;

import java.io.*;

import java.util.*;

import java.net.*;

public class Talker

{

PRivate SourceDataLine line=null;

}

假如從命令行執(zhí)行Talker，下面的main()方法將作為入口點運行。main()方法獲取第一個
命令行參數(shù)，然后把它傳遞給sayPhoneword()方法：

/*

* 讀出在命令行中指定的表示讀音的字符串

*/

public static void main(String args[])

{

Talker player=new Talker();

if (args.length>0) player.sayPhoneword(args[0]);

System.exit(0);

}
sayPhoneword()方法既可以通過上面的main()方法調(diào)用，也可以在Java程序中直接調(diào)用。
從表面上看， sayPhoneword()方法比較復(fù)雜，其實并非如此。實際上，它簡單地遍歷所
有單詞的語音元素（在輸入字符串中語音元素以“”分隔），通過一個聲音輸出通道一個
元素一個元素地播放出來。為了讓聲音更自然一些，我把每一個聲音樣本的結(jié)尾和下一個
聲音樣本的開頭合并了起來：

/*

* 讀出指定的語音字符串

*/

public void sayPhoneword(String word)

{

// 為上一個聲音構(gòu)造的模擬byte數(shù)組

byte[] previousSound=null;

// 把輸入字符串分割成單獨的音素

StringTokenizer st=new StringTokenizer(word,"",false);

while (st.hasMoreTokens())

{

// 為音素構(gòu)造相應(yīng)的文件名字

String thisPhoneFile=st.nextToken();

thisPhoneFile="/allophones/"+thisPhoneFile+".au";

// 從聲音文件讀取數(shù)據(jù)

byte[] thisSound=getSound(thisPhoneFile);

if (previousSound!=null)

{

// 假如可能的話，把前一個音素和當前音素合并

int mergeCount=0;

if (previousSound.length>=500 && thisSound.length>=500)

mergeCount=500;

for (int i=0; i

{

previousSound[previousSound.length-mergeCount+i]

=(byte)((previousSound[previousSound.length

-mergeCount+i]+thisSound[i])/2);

}

// 播放前一個音素

playSound(previousSound);

// 把經(jīng)過截短的當前音素作為前一個音素

byte[] newSound=new byte[thisSound.length-mergeCount];

for (int ii=0; ii

newSound[ii]=thisSound[ii+mergeCount];

previousSound=newSound;

}

else

previousSound=thisSound;

}

// 播放最后一個音素，清理聲音通道

playSound(previousSound);

drain();

}

在sayPhoneword()的后面，你可以看到它調(diào)用playSound()輸出單個聲音樣本（即一個音
素），然后調(diào)用drain()清理聲音通道。下面是playSound()的代碼：

/*

* 該方法播放一個聲音樣本

*/

private void playSound(byte[] data)

{

if (data.length>0) line.write(data, 0, data.length);

}

下面是drain()的代碼：

/*

* 該方法清理聲音通道

*/

private void drain()

{

if (line!=null) line.drain();

try {Thread.sleep(100);} catch (Exception e) {}

}
現(xiàn)在回過頭來看sayPhoneword()，這里還有一個方法我們沒有分析，即getSound()方法。

getSound()方法從一個au文件以字節(jié)數(shù)據(jù)的形式讀入預(yù)先錄制的聲音樣

上一篇：用java實現(xiàn)一個簡單的序列化的例子

下一篇：用Java實現(xiàn)數(shù)據(jù)庫應(yīng)用系統(tǒng)