基于深度学习的音乐推荐系统（一）音频频谱图绘制

释放双眼，带上耳机，听听看~！

采集mp3音频样本

数据量小可以直接客户端批量下载，网易云下载的是mp3格式，每天每个id下载限度300首。

数据量大写爬虫。

mp3音频样本转为wav格式样本

基于深度学习的音乐推荐系统（一）音频频谱图绘制

这一步涉及到python的文件路径编程，主要用到的是os库函数。


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
1from pydub import AudioSegment

2import os,sys

3#单个转码

4# print(sys.argv[0])

5# print(os.getcwd())

6

7# source_file_path = &quot;E:\\毕业设计\\music\\老四叔 - 关于南方破碎的理想.mp3&quot;

8# destin_path = &quot;./music/老四叔 - 关于南方破碎的理想.wav&quot;

9# print(source_file_path)

10# sound = AudioSegment.from_mp3(source_file_path)

11# sound.export(destin_path,format = &#x27;wav&#x27;)

12#批量转码

13#想遍历的文件夹的路径

14path = r&#x27;E:/毕业设计/music/&#x27;

15

16for files in os.listdir(path):

17  print(files)

18  source_file_path = path+files

19  destin_path = path+&#x27;\\wav\\&#x27;+files[:-3]+&#x27;wav&#x27;

20  sound = AudioSegment.from_mp3(source_file_path)

21  sound.export(destin_path,format=&#x27;wav&#x27;)

22

23

24

将wav音频文件绘制成音频频谱图

频谱图（语谱图）：横坐标为时间（time（s）），纵坐标为频率。

更详细的音频基础知识见上文音频处理中需要用到的关于声乐的基本概念。

因为从网易云下载的音频文件转码为wav格式后，均为双声道，所以代码中将两个声道分开绘图。

基于深度学习的音乐推荐系统（一）音频频谱图绘制

注意到：

例如：12767663/44100=289.51(s)

基于深度学习的音乐推荐系统（一）音频频谱图绘制


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
1for files in os.listdir(filepath):

2   print(&#x27;filename:&#x27;,files)

3   wav_path = filepath+files

4   pic_path = &#x27;E:/毕业设计/pic_one/&#x27;+files[:-3]+&#x27;png&#x27; 

5   

6   f = wave.open(wav_path,&#x27;rb&#x27;)

7   params = f.getparams()

8   nchannels,sampwidth,framerate,nframes = params[:4]

9   print(&#x27;nchannels(声道数):&#x27;,nchannels)

10  print(&#x27;sampwidth(量化位数byte):&#x27;,sampwidth)

11  print(&#x27;framerate(采样频率):&#x27;,framerate)

12  print(&#x27;nframes(采样点数):&#x27;,nframes)

13

14  strData = f.readframes(nframes)#读取音频，字符串格式

15  waveData = np.fromstring(strData,dtype=np.int16)#将字符串转化为int

16  waveData = waveData*1.0/(max(abs(waveData)))#wave幅值归一化

17  print(&#x27;waveData:&#x27;,waveData)

18  #多通道处理

19  waveData = np.reshape(waveData,[nframes,nchannels])

20  f.close()#关闭文件读写流

21

22  time = np.arange(0,nframes)*(1.0/framerate)

23  print(&#x27;time:&#x27;,time)

24

25  #绘图，两个声道分别画

26  plt.figure()

27  # #第一个声道

28  # plt.subplot(7,1,1)

29  # plt.plot(time,waveData[:,0])

30  # plt.xlabel(&quot;Time(s)&quot;)

31  # plt.ylabel(&quot;Amplitude&quot;)

32  # plt.title(&quot;Ch-1 wavedata&quot;)

33  # plt.grid(True)#标尺,on:有,off:无

34

35  # #第二个声道

36  # plt.subplot(7,1,3)

37  # plt.plot(time,waveData[:,1])

38  # plt.xlabel(&quot;Time(s)&quot;)

39  # plt.ylabel(&quot;Amplitude&quot;)

40  # plt.title(&quot;Ch-2 wavedata&quot;)

41  # plt.grid(True)#标尺,on:有,off:无

42

43  #频谱图（横坐标时间、纵坐标频率）

44  #第一声道

45  plt.subplot(1,1,1)

46  plt.specgram(waveData[:,0],Fs = framerate,scale_by_freq = True,sides=&#x27;default&#x27;)

47  #plt.ylabel(&#x27;Frequency(Hz)&#x27;)

48  #plt.xlabel(&#x27;Time(s)&#x27;)

49  # #第二声道

50  # plt.subplot(3,1,3)

51  # plt.specgram(waveData[:,1],Fs = framerate,scale_by_freq = True,sides=&#x27;default&#x27;)

52  # plt.ylabel(&#x27;Frequency(Hz)&#x27;)

53  # plt.xlabel(&#x27;Time(s)&#x27;)

54  plt.axis(&#x27;off&#x27;)

55

56  fig = plt.gcf()

57  width = nframes/framerate/10

58  height = 2.56

59  fig.set_size_inches(width,height)#输出width*height像素

60  plt.gca().xaxis.set_major_locator(plt.NullLocator())

61  plt.gca().yaxis.set_major_locator(plt.NullLocator())

62  plt.subplots_adjust(top=1,bottom=0,left=0,right=1,hspace =0, wspace =0)

63  plt.margins(0,0)

64

65  plt.savefig(pic_path)

66  #plt.show()

67  plt.close(&#x27;all&#x27;)#防止内存溢出

68  pic_cut(pic_path)

69  

70

71

频谱图切割为256*256像素的子图

观察到虽然音频文件都是双声道，但是两个声道除了颜色（即音量）有细微差距，其他非常相似。

故对所有样本均取第一声道进行频谱图绘制。

基于深度学习的音乐推荐系统（一）音频频谱图绘制

这一步涉及到Python图片切割的库函数是pillow（PIL）

关于crop（）的问题，参阅

使用python PIL库裁剪和保存图像时遇到困难

Python实现图片裁剪的两种方式——Pillow和OpenCV


1
2
3
4
5
6
7
8
9
10
11
12
1def pic_cut(picpath):

2   print(&#x27;picpath:&#x27;,picpath)

3   #将频谱图全部分割为256*256

4   img = Image.open(picpath)

5   #print(img.width/256)

6   for i in range(0,int(img.width/256)):

7       cpic_path = &quot;E:/毕业设计/cut_pic/&quot;+os.path.split(picpath)[1][:-4]+&quot;(&quot;+str(i)+&quot;)&quot;+&quot;.png&quot;

8       print(&#x27;cpic_path:&#x27;,cpic_path)

9       print(&#x27;int(img.width/256):&#x27;,int(img.width/256))

10      cropped = img.crop((i*256,0,i*256+256,256))

11      cropped.save(cpic_path)

12

{{userData.name}}已认证

基于深度学习的音乐推荐系统（一）音频频谱图绘制

采集mp3音频样本

mp3音频样本转为wav格式样本

将wav音频文件绘制成音频频谱图

频谱图切割为256*256像素的子图

Step into Redis- 02 - set ，get & incr ，decr

Ubuntu上NFS的安装配置

{{userData.name}}已认证

采集mp3音频样本

mp3音频样本转为wav格式样本

将wav音频文件绘制成音频频谱图

频谱图切割为256*256像素的子图

Related posts:

Step into Redis- 02 - set ，get & incr ，decr

Ubuntu上NFS的安装配置

Docker与Kubernetes系列(四): Docker的数据卷

Python操作MongoDB数据库

redis基本操作

python连接MySQL