音頻預處理
這一講主要介紹些音頻基本處理方式,為接下來的語音識別打基礎。
三種播放音頻的方式
使用 python 播放音頻有以下幾種方式:
os.system()
os.system(file) 調用系統應用來打開文件,file 可為圖片或者音頻文件。
缺點:要打開具體的應用,不能在后臺播放音頻。
pyaudio
安裝:pip install pyaudio
官方提供了播放音頻與錄音的 api ,使用十分方便,只要把Filename更改為你的音頻文件的文字,就可以播放音頻了。
"""PyAudio Example: Play a WAVE file."""import pyaudioimport waveCHUNK = 1024FILENAME = '你的音頻文件'def play(filename = FILENAME): wf = wave.open(filename, 'rb') p = pyaudio.PyAudio() stream = p.open(format=p.get_format_from_width(wf.getsampwidth()), channels=wf.getnchannels(), rate=wf.getframerate(), output=True) data = wf.readframes(CHUNK) while data != b'': stream.write(data) data = wf.readframes(CHUNK) stream.stop_stream() stream.close() p.terminate()
jupyter notebook
在 jupyer notebook 中播放音頻可以使用以下函數:
import IPython.display as ipdipd.Audio(文件名)
幾種讀取音頻的方式
python 有很多讀取音頻文件的方法,內置的庫 wave ,科學計算庫 scipy, 和方便易用的語音處理庫 librosa。
下面將介紹分別使用這幾種庫讀取音頻文件:
安裝:
使用:
wave.open:
參數 path 為文件名,mode 為打開方式
以'rb'方式打開文件返回一個 Wave_read 對象,而以'wb'方式打開文件返回一個 Wave_write 對象。
scipy.io.wavfile:
參數 path 為文件名
返回 rate : 采樣率(每秒采樣點的個數),data : 音頻數據
librosa.load:
參數 path 為文件名
返回 y 為音頻數據,sr 為采樣率
# read wav file from pathfrom scipy.io import wavfileimport librosaimport pyaudio# wavefile = wave.open(path,'rb')# wavfilerate, data = wavfile.read(path)# librosay, sr = librosa.load(path)
下面演示一個使用 wavfile 讀取音頻文件并且畫出波形的例子:
首先要計算音頻到底持續了多長時間,wave 的 shape 就是總的采樣點個數,除以采樣頻率可以得到持續的總時間(秒),乘1000得到總持續時間(毫秒)。接著通過 np.linsapce 產生時間的序列,最后使用 matplotlib 畫出圖像。
from scipy.io import wavfileimport matplotlib.pyplot as pltimport numpy as np%matplotlib inline# 一秒采樣數sr, wave = wavfile.read('D://QQPCMgr/Desktop/python3/skip.wav')sample_number = wave.shape[0]total_time = int(sample_number / sr * 1000)time_series = np.linspace(0,total_time,sample_number)fig, ax = plt.subplots(1, 1)ax.plot(time_series, wave)ax.set_title('Time*Amplitude')ax.set_xlabel('Time/ms')ax.set_ylabel('Amplitude/dB')
新聞熱點
疑難解答