OpenHarmony开发者论坛

标题: 【SUBJECT技术】音符检测实现原理 [打印本页]

作者: wangyeyu01    时间: 2023-12-8 20:07
标题: 【SUBJECT技术】音符检测实现原理
[md]# 音符检测实现原理

## 一、音符检测的基本原理

本文基于开源系统提供了一种音符检测的原理方法,结合多首音乐,运用了python和C++两种编程环境实现了预期的检出效果。
先从python实现说起,Librosa关于音符检测主要用到了两个函数,一个是onset_strength(),负责生成包含音符产生的频率突变的包络线,如蓝色线条所示。另一个是onset_detect(),主要运用峰点检测找到每个音符的位置,如黄色线条所示。

![图片2.png](https://forums-obs.openharmony.c ... laxtjz90ar4dcrp.png "图片2.png")

![图片3.png](https://forums-obs.openharmony.c ... s8mvlwb8mklwwmw.png "图片3.png")

图1 音符检测包络图


包含有用的频率突变的包络线是音符检测的核心所在。傅里叶变换能够得到全部信号采样的频谱图,即每个频率的能量贡献,如图2所示。但是每个时刻频谱图却得不到,于是将全部采样分割成若干固定长度的窗口,每个窗口应用傅里叶变化,从而得到这一窗口的频率分布,水平轴为时间,纵轴为频率,颜色代表能量大小如图3所示。

![图片1.png](https://forums-obs.openharmony.c ... uet07v7cuvpzupv.png "图片1.png")

图2 整体频率分布图

![图片3.png](https://forums-obs.openharmony.c ... y7ch6rnjon66pll.png "图片3.png")

图3 时频图

每种乐器在音符产生时,前后时间片段的频率将会发生明显变化,如图4所示。于是将时频图相邻列做差分,将明显看到变化的频率。为了便于分析,只取正值,具有相同的效果,所以负值填零。一个时刻变化的频率有多个,如何取舍,有三种方法,平均数、中位数和联合,目前常用到的是中位数和平均数。至此,将得到任意时刻发生明显频率变化的单一能量,如图1蓝色线条所示。

图4 时频图相邻列差分前后变化

## 二、音符检测的准确性

目前采用频谱光通量(相邻列差分)方法检测是业界公认且较为准确的方法,音符检出率仅为70%多。不准确的原因可能有乐器多且差异较大,信号衰减对性能的影响,颤音影响,峰点检测时不同参数的影响,这些主要是针对音乐的研究。

## 三、音符检测的程序流程

### 3.1程序实现

音符检测功能核心就是频谱图和梅尔滤波器,频谱图的核心就是短时傅里叶变换,C++代码片段如下,参考链接https://github.com/kooBH/STFT/blob/main/cpp/STFT.h

```cpp
void STFT::stft(short*in,int length,double**out){
  int i,j;
  /*** Shfit & Copy***/
  for (j = 0; j < channels; j++) {
    for (i = 0; i < ol; i++) {
      buf[j] = buf[j][i + shift_size];
    }
  }
  // EOF
  if(length!=shift_size*channels){

    length = length/channels;
    for (i = 0; i < length; i++) {
      for (j = 0; j < channels; j++)
        buf[j][i + ol]
          =  (double)(in[i * channels+ j]);
    }
    for (i = length; i < shift_size; i++) {
      for (j = 0; j < channels; j++)
        buf[j][i + ol] = 0;
    }
    //continue
  }else{
    for (i = 0; i < shift_size; i++) {
      for (j = 0; j < channels; j++){
        buf[j][i + ol]
          = (double)(in[i * channels+ j]);
      }
    }
  }
  /*** Copy input -> hann_input buffer ***/
  for (i = 0; i < channels; i++)
    memcpy(out, buf, sizeof(double) * frame_size);

  // scaling for precision
  if(opt_scale)
    for (i = 0; i < channels; i++)
      for (j = 0; j < frame_size; j++)
        out[j] /= MATLAB_scale;

  /*** Window ***/
  hw->Process(out, channels);

  /*** FFT ***/
  fft->FFT(out);
}
```

Mel滤波器构造代码如下:

```py
if fmax is None:
    fmax = float(sr) / 2
    # Initialize the weights
    n_mels = int(n_mels)
    weights = np.zeros((n_mels, int(1 + n_fft // 2)), dtype=dtype)
    # Center freqs of each FFT bin
    fftfreqs = fft_frequencies(sr=sr, n_fft=n_fft)
    # 'Center freqs' of mel bands - uniformly spaced between limits
    mel_f = mel_frequencies(n_mels + 2, fmin=fmin, fmax=fmax, htk=htk)
    fdiff = np.diff(mel_f)
    ramps = np.subtract.outer(mel_f, fftfreqs)
    for i in range(n_mels):
        # lower and upper slopes for all bins
        lower = -ramps / fdiff
        upper = ramps[i + 2] / fdiff[i + 1]
        # .. then intersect them with each other and zero
        weights = np.maximum(0, np.minimum(lower, upper))
    if norm == "slaney":
        # Slaney-style mel is scaled to be approx constant energy per channel
        enorm = 2.0 / (mel_f[2 : n_mels + 2] - mel_f[:n_mels])
        weights *= enorm[:, np.newaxis]
    else:
        weights = util.normalize(weights, norm=norm, axis=-1)
    # Only check weights if f_mel[0] is positive
    if not np.all((mel_f[:-2] == 0) | (weights.max(axis=1) > 0)):
        # This means we have an empty channel somewhere
        warnings.warn(
            "Empty filters detected in mel frequency basis. "
            "Some channels will produce empty responses. "
            "Try increasing your sampling rate (and fmax) or "
            "reducing n_mels.",
            stacklevel=2,
        )
return weights
```

### 3.2功能流程图

![图片6.png](https://forums-obs.openharmony.c ... 13k44mdq6866qkj.png "图片6.png")

## 四、参考资料

1.《EVALUATING THE ONLINE CAPABILITIES OF ONSET DETECTION METHODS》
http://www.cp.jku.at/research/papers/Boeck_etal_ISMIR_2012.pdf
2.《MAXIMUM FILTER VIBRATO SUPPRESSION FOR ONSET DETECTION》
http://www.cp.jku.at/research/papers/Boeck_Widmer_DAFx_2013.pdf
[/md]




欢迎光临 OpenHarmony开发者论坛 (https://forums.openharmony.cn/) Powered by Discuz! X3.5