求助一个梯度下降的问题

Tips:点击图片进入下一页

现在在做一个系统拟合的问题,希望求一个列向量h,h经过变换得到一个更高维的列向量W,还有一个W的期望值W_ref,希望(W-W_ref)^T * (W-W_ref)最小(^T表示转置),即W和W_ref的误差最小。下图是用梯度下降搜索h的结果,横坐标是迭代次数,纵坐标是W和W_ref的相对误差,可以看到前600次迭代的结果还是不错的,相对误差下降明显,但后面即使增加迭代次数,相对误差下降也很慢,而且基本无法下降到0.05以下,不知道有什么办法可以改善这个结果,将相对误差降低到0.1%左右。
http://imgchr.com/i/FrztbV


网友评论:
h是怎么变换到w的?线性映射还是神经网络搞的?
(本调包侠只会adam一把梭

— from Google Pixel 3, Android 9 of Next Goose v2.1.0-play
归一化,改激活函数,加参数。这什么细节都没有谁知道啊
假设你用多项式拟合三角函数,哪怕你的各项的系数跟泰勒级数展开项系数完全一致了,你也会有高阶销量的误差。如何减小误差?增加多项式的项的个数。

发自我的iPhone via Saralin 2.0.1
来自: iPhone客户端
两个问题,一个是尽量不要估计高维量,增维矩阵不可能增rank啊,又不会有新的信息被创造。
W’W不可逆的话LS估计量甚至没有意义。
第二个你选择的objective function就是MSE,那玩意根据样本方差来讲是客观存在下限的。
如果不换估计方法,再怎么操纵数据也只是在骗自己。
1.拟合模型带来的结构性误差
2.步长
stat上都巴不得降维度,你为啥要加维度.....这个问题挺重要的.....
处理方面 标准化 还有考虑模型的问题和你要求的玩意 适当减少response variables  模型不是Rsquare越高就越好的 太高了容易过拟合 必要的时候pca啥的也可以弄弄


因为系统需求(项目不是深度学习相关),需要把h做变换来评价他的性能,W=1 ./ (Rh) (./ 表示按元素除),矩阵(R^H * R)的条件数只有1.85。也试过加大h的维度,但最终性能并没有改善,可能如你所说,梯度下降得到的误差可能有一个下限,并不能无限接近0.
一般误差不缩小了,不都认为是迭代达到了局部最优解吗?不要强求了
梯度下降法在比较平的曲面上效率很低,可以试试Levenberg–Marquardt或者其他Trust-region算法。
不过看你的图感觉误差已经达到极小值了,估计是模型没有你预想的那么准确。
我是丈育
我就想问问,那么多算法求函数极值
为啥要用gradient descent呢?