BN(Batch Normalization)
在网络的每一层输入的时候,又插入了一个归一化层,也就是先做一个归一化处理(归一化至:均值0、方差为1),然后再进入网络的下一层。不过归一化层可不像我们想象的那么简单,它是一个可学习、有参数(γ,β \gamma , \betaγ,β)的网络层。
CNN在图像中的广泛应用的原因
局部连接:捕获局部特征结构
权值共享:减小参数量
池化操作:增大感受野
多层次结构:可以提取low-level以及high-level的信息
CNN不适用的场景
数据集太小,数据样本不足时,深度学习相对其它机器学习算法,没有明显优势。
数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像/语音/自然语言处理等领域,这些领域的一个共性是局部相关性。
K-means的基本算法流程:
K-means与KNN的区别:
K-means是无监督学习算法,KNN是有监督学习算法
K-means有明显的训练过程(求聚类中心),KNN在学习阶段只是简单的把所有样本记录
在测试阶段,对于K-means,新的样本点的判别与聚类中心有关,即与所有训练样本有关,对于KNN,新的样本点的判别只是与最近邻的K个样本有关。
在目标检测算法中,two stage的算法比one stage在检测小物体上更有效,此说法同意吗,为什么?
基本上同意这个说法。
要说明这个问题主要从感受野的角度去看,one stage的方法,对于SSD,其采取多个特征图进行分类,但由于依赖网络中比较深的层(特征图),感受野很大,因而小物体检测不准确。同样,对于Yolo,由于在方法设计中就把原图分块,即设定了最后用于判断的特征图尺寸,其感受野也很大,因而对小物体判断也不准确。
相对于one stage方法要求同时分离前景和背景以及做出分类,two stage的方法由于proposal的存在可以先用简单的结构分出前景和背景(此时感受野小,特征图分辨率高),再通过深层网络做进一步分类和精修,提高准确率。
one stage的方法也有针对这个问题进行过优化,SSD增加相对不那么深的特征图层作判断,以减小感受野增加分辨率,但层数不深的特征图的判别能力有限,无法大幅增加准确率;Yolo v3增加了FPN,用多尺度特征来判断,增加了对小物体判别能力;RetinaNet也是one stage方法,用了FPN判别,此处对小物体检测更有效,另外其设计了focal loss的训练方式,此方式可认为把two stage中proposal达到的正负样本平衡以修改损失函数的方式达到类似效果,提高了训练效率和整体的准确率。
梯度下降法与牛顿法的区别与优劣性
主要的的区别:梯度下降法是一阶,牛顿法是二阶
牛顿法相对于梯度下降法:
优点:二阶比一阶收敛速度快;
缺点:对目标函数严格,要求目标函数二阶可微,Hessian矩阵正定;需要计算Hessian矩阵以及它的逆,计算量大。
描述Canny算法的流程
先用高斯滤波器进行图像模糊(一般边缘检测算法都需要先滤波降低对噪声的敏感)
计算图像的梯度幅值图像和角度图像(计算梯度即提取边缘,参考其它边缘检测算法;计算角度是为步骤3要用)
对梯度幅值图像进行非最大值抑制(目的是为了细化边缘)
用双阈值对边缘进行选择和连接(主体思想是把弱边缘连接到强边缘上)
在概率统计学里,自由度是如何被定义的,又该怎样去应用?
定义为一个随机向量域的维数。
分类树和回归树的区别
总结:分类树使用信息增益或增益比率来划分节点;每个节点样本的类别情况投票决定测试样本的类别
回归树总体流程也是类似,区别在于,回归树的每个节点(不一定是叶子节点)都会得一个预测值,以年龄为例,该预测值等于属于这个节点的所有人年龄的平均值。分枝时穷举每一个feature的每个阈值找最好的分割点,但衡量最好的标准不再是最大熵,而是最小化均方差即(每个人的年龄-预测年龄)^2 的总和 / N。也就是被预测出错的人数越多,错的越离谱,均方差就越大,通过最小化均方差能够找到最可靠的分枝依据。分枝直到每个叶子节点上人的年龄都唯一或者达到预设的终止条件(如叶子个数上限),若最终叶子节点上人的年龄不唯一,则以该节点上所有人的平均年龄做为该叶子节点的预测年龄。
总结:回归树使用最大均方差划分节点;每个节点样本的均值作为测试样本的回归预测值
LR推导->梯度消失->激活函数->TensorFlow调参经验这条路,
####为什么很多做人脸的Paper会最后加入一个Local Connected Conv?
####对所有优化问题来说, 有没有可能找到比現在已知算法更好的算法?
####Dropout怎么做,有什么用处,解释;用贝叶斯机率说明Dropout的原理
####何为共线性, 跟过拟合有啥关联?
####广义线性模型是怎被应用在深度学习中?
####什么造成梯度消失问题? 推导一下
####不同的权值初始化方式以及其造成的后果。为什么会造成这样的结果。
####为什么网络够深(Neurons 足够多)的时候,总是可以避开较差Local Optima?
####样本方差与总体方差的关系。