我正在考虑对标量函数 f:R^n->R 进行回归的问题,其中我有一组训练样本 (x1,y1),...,(xN,yN),其中 yi = f(xi).
我知道原则上我可以应用任何神经网络架构来对此函数进行回归,但是我想利用我所知道的属性来设计网络。
准确地说,我知道 f(x)= x^TA(x)x$ 对于 nxn 矩阵值函数 A(x),我不太清楚,但我知道它是对称且正定的。
我认为,既然我知道这个函数的结构,那么将“标准”架构应用于这个问题并不是一个有效的方法。这个问题实际上看起来像是在 R^n 上寻找并逼近度量的问题。
由于 A(x) 是对称正定的,对于未知的矩阵值函数 B(x),我想将其重写为 A(x) = B(x)^TB(x)。因此,函数 f(x) 以更简单的方式重写:f(x) = |B(x)x|^2,其中唯一的未知数是矩阵函数 B(x)。
现在,是否有一些已知的架构非常适合这种情况?
使用 B(x) 常数生成训练数据,我已经很容易地解决了这个问题,定义了要优化的权重,并且效果很好。但是,如果矩阵 B(x) 与 x 相关,我不完全确定如何继续。
到目前为止,我已经实现了一个从 R^n 到 R^{n^2} 的神经网络,其中输出被重塑为 nxn 矩阵 B(x) 来学习。然而,这仅适用于简单的 B(x),对我来说仍然不清楚为什么。
您可以在张量流中编写表达式
f(x) = |B(x)x|^2
,并通过标准梯度下降最小化求解 B。 Tensorflow 可以最小化您可以在 Tensorflow 中编写的任何内容。