-
采集mp3音频样本
数据量小可以直接客户端批量下载,网易云下载的是mp3格式,每天每个id下载限度300首。
数据量大写爬虫。
-
mp3音频样本转为wav格式样本
这一步涉及到python的文件路径编程,主要用到的是os库函数。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24 1from pydub import AudioSegment
2import os,sys
3#单个转码
4# print(sys.argv[0])
5# print(os.getcwd())
6
7# source_file_path = "E:\\毕业设计\\music\\老四叔 - 关于南方破碎的理想.mp3"
8# destin_path = "./music/老四叔 - 关于南方破碎的理想.wav"
9# print(source_file_path)
10# sound = AudioSegment.from_mp3(source_file_path)
11# sound.export(destin_path,format = 'wav')
12#批量转码
13#想遍历的文件夹的路径
14path = r'E:/毕业设计/music/'
15
16for files in os.listdir(path):
17 print(files)
18 source_file_path = path+files
19 destin_path = path+'\\wav\\'+files[:-3]+'wav'
20 sound = AudioSegment.from_mp3(source_file_path)
21 sound.export(destin_path,format='wav')
22
23
24
-
将wav音频文件绘制成音频频谱图
频谱图(语谱图):横坐标为时间(time(s)),纵坐标为频率。
更详细的音频基础知识见上文音频处理中需要用到的关于声乐的基本概念。
因为从网易云下载的音频文件转码为wav格式后,均为双声道,所以代码中将两个声道分开绘图。
注意到:
例如:12767663/44100=289.51(s)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71 1for files in os.listdir(filepath):
2 print('filename:',files)
3 wav_path = filepath+files
4 pic_path = 'E:/毕业设计/pic_one/'+files[:-3]+'png'
5
6 f = wave.open(wav_path,'rb')
7 params = f.getparams()
8 nchannels,sampwidth,framerate,nframes = params[:4]
9 print('nchannels(声道数):',nchannels)
10 print('sampwidth(量化位数byte):',sampwidth)
11 print('framerate(采样频率):',framerate)
12 print('nframes(采样点数):',nframes)
13
14 strData = f.readframes(nframes)#读取音频,字符串格式
15 waveData = np.fromstring(strData,dtype=np.int16)#将字符串转化为int
16 waveData = waveData*1.0/(max(abs(waveData)))#wave幅值归一化
17 print('waveData:',waveData)
18 #多通道处理
19 waveData = np.reshape(waveData,[nframes,nchannels])
20 f.close()#关闭文件读写流
21
22 time = np.arange(0,nframes)*(1.0/framerate)
23 print('time:',time)
24
25 #绘图,两个声道分别画
26 plt.figure()
27 # #第一个声道
28 # plt.subplot(7,1,1)
29 # plt.plot(time,waveData[:,0])
30 # plt.xlabel("Time(s)")
31 # plt.ylabel("Amplitude")
32 # plt.title("Ch-1 wavedata")
33 # plt.grid(True)#标尺,on:有,off:无
34
35 # #第二个声道
36 # plt.subplot(7,1,3)
37 # plt.plot(time,waveData[:,1])
38 # plt.xlabel("Time(s)")
39 # plt.ylabel("Amplitude")
40 # plt.title("Ch-2 wavedata")
41 # plt.grid(True)#标尺,on:有,off:无
42
43 #频谱图(横坐标时间、纵坐标频率)
44 #第一声道
45 plt.subplot(1,1,1)
46 plt.specgram(waveData[:,0],Fs = framerate,scale_by_freq = True,sides='default')
47 #plt.ylabel('Frequency(Hz)')
48 #plt.xlabel('Time(s)')
49 # #第二声道
50 # plt.subplot(3,1,3)
51 # plt.specgram(waveData[:,1],Fs = framerate,scale_by_freq = True,sides='default')
52 # plt.ylabel('Frequency(Hz)')
53 # plt.xlabel('Time(s)')
54 plt.axis('off')
55
56 fig = plt.gcf()
57 width = nframes/framerate/10
58 height = 2.56
59 fig.set_size_inches(width,height)#输出width*height像素
60 plt.gca().xaxis.set_major_locator(plt.NullLocator())
61 plt.gca().yaxis.set_major_locator(plt.NullLocator())
62 plt.subplots_adjust(top=1,bottom=0,left=0,right=1,hspace =0, wspace =0)
63 plt.margins(0,0)
64
65 plt.savefig(pic_path)
66 #plt.show()
67 plt.close('all')#防止内存溢出
68 pic_cut(pic_path)
69
70
71
-
频谱图切割为256*256像素的子图
观察到虽然音频文件都是双声道,但是两个声道除了颜色(即音量)有细微差距,其他非常相似。
故对所有样本均取第一声道进行频谱图绘制。
这一步涉及到Python图片切割的库函数是pillow(PIL)
关于crop()的问题,参阅
使用python PIL库裁剪和保存图像时遇到困难
Python实现图片裁剪的两种方式——Pillow和OpenCV
1
2
3
4
5
6
7
8
9
10
11
12 1def pic_cut(picpath):
2 print('picpath:',picpath)
3 #将频谱图全部分割为256*256
4 img = Image.open(picpath)
5 #print(img.width/256)
6 for i in range(0,int(img.width/256)):
7 cpic_path = "E:/毕业设计/cut_pic/"+os.path.split(picpath)[1][:-4]+"("+str(i)+")"+".png"
8 print('cpic_path:',cpic_path)
9 print('int(img.width/256):',int(img.width/256))
10 cropped = img.crop((i*256,0,i*256+256,256))
11 cropped.save(cpic_path)
12