面筋读书笔记二

　　第二章 模型评估
　　只有选择与问题相匹配的评估方法，才能快速地发现模型选择或训练过程中出现的问题，迭代地对模型进行优化。模型评估主要分为离线评估和在线评估两个阶段。针对分类、排序、回归、序列预测等不同类型的机器学习问题，评估指标的选择也有所不同。知道每种评估指标的精确定义、有针对性地选择合适的评估指标、根据评估指标的反馈进行模型调整，这些都是机器学习在模型评估阶段的关键问题，也是一名合格的算法工程师应当具备的基本功。
　　学习任务
　　评估指标1
　　评估指标2
　　评估指标3
　　评估指标4
　　二分类
　　准确率（Accuracy）
　　精确率（Precision）
　　召回率（recall）
　　F1值/Fα值
　　多分类
　　F1值/Fα值
　　回归
　　RMSE
　　准确率（Accuracy）：是指模型预测正确（包括预测为真正确和预测为假正确）的样本数量占总样本数量的比例，准确率是分类问题中的一个最简单也最直观的评估指标，但是准确率存在一些局限性。比如，在二分类中，当负样本占比 99 %时，如果模型把所有样本都预测为负样本也能获得 99% 的准确率。虽然准确率看起来很高，但是其实这个模型时没有用，因为它找不出一个正样本。
　　精确率（Precision）：是指模型预测为真，实际也为真的样本数量占模型预测所有为真的样本数量的比例。举例来说明，比如警察要抓小偷，抓了 10 个人，其中有 6 个人是小偷，那么精确率就是 6/10 = 0.6。
　　召回率（recall）：也叫查全率，是指模型预测为真，实际也为真的样本数量占实际所有为真的样本数量的比例。警察抓小偷的例子，抓了 10 个人，其中 6 个人是小偷，还有另外 3 个小偷逃之夭夭，那么召回率就是 6 / ( 6 + 3) ≈ 0.67。
　　均方根误差（Root Mean Square Error，RMSE）：
　　F1值/Fα值：精确率和召回率是互斥的，也就是说精确率高的话，召回率会变低；召回率高的话，精确率会变低。所以设计了一个同时考虑精确率和召回率的指标 F1值。F1值是精确率和召回率的调和平均，即：
　　2.1 准确率的局限性？
　　准确率是分类问题中的一个最简单也最直观的评估指标，但是准确率存在一些局限性。比如，在二分类中，当负样本占比 99 %时，如果模型把所有样本都预测为负样本也能获得 99% 的准确率。虽然准确率看起来很高，但是其实这个模型时没有用，因为它找不出一个正样本。
　　2.2 精确率与召回率的权衡？
　　模型返回的Precision@5的结果非常好，也就是说排序模型Top5的返回值的质量是很高的。但在实际应用过程中，用户为了找一些冷门的视频，往往会寻找排在较靠后位置的结果，甚至翻页去查找目标视频。但根据题目描述，用户经常找不到想要的视频，这说明模型没有把相关的视频都找出来呈现给用户。显然，问题出在召回率上。如果相关结果有100个，即使Precision@5达到了100%，Recall@5也仅仅是5%。在模型评估时，我们是否应该同时关注Precision值和Recall值？进一步而言，是否应该选取不同的Top N的结果进行观察呢？是否应该选取更高阶的评估指标来更全面地反映模型在Precision值和Recall值两方面的表现？
　　为了综合评估一个排序模型的好坏，不仅要看模型在不同Top N下的Precision@N和Recall@N，而且最好绘制出模型的P-R（Precision-Recall）曲线
　　2.3 什么是ROC曲线？
　　ROC曲线是Receiver Operating Characteristic Curve的简称，中文名为＂受试者工作特征曲线＂。
　　ROC曲线的横坐标为假阳性率（False Positive Rate，FPR）；纵坐标为真阳性率（True Positive Rate，TPR）。
　　我们举一个医院诊断病人的例子。假设有10位疑似癌症患者，其中有3位很不幸确实患了癌症（P=3），另外7位不是癌症患者（N=7）。医院对这10位疑似患者做了诊断，诊断出3位癌症患者，其中有2位确实是真正的患者（TP=2）。那么真阳性率TPR=TP/P=2/3。对于7位非癌症患者来说，有一位很不幸被误诊为癌症患者（FP=1），那么假阳性率FPR=FP/N=1/7。对于＂该医院＂这个分类器来说，这组分类结果就对应ROC曲线上的一个点（1/7，2/3）。
　　2.4 如何计算AUC？
　　AUC指的是ROC曲线下的面积大小，该值能够量化地反映基于ROC曲线衡量出的模型性能。计算AUC值只需要沿着ROC横轴做积分就可以了。由于ROC曲线一般都处于y=x这条直线的上方（如果不是的话，只要把模型预测的概率反转成1−p就可以得到一个更好的分类器），所以AUC的取值一般在0.5～1之间。AUC越大，说明分类器越可能把真正的正样本排在前面，分类性能越好。
　　2.5 ROC曲线相比P-R曲线有什么特点？
　　相比P-R曲线，ROC曲线有一个特点，当正负样本的分布发生变化时，ROC曲线的形状能够基本保持不变，而P-R曲线的形状一般会发生较剧烈的变化。
　　2.6 结合你的学习和研究经历，探讨为什么在一些场景中要使用余弦相似度而不是欧氏距离？
　　欧氏距离体现数值上的绝对差异，而余弦距离体现方向上的相对差异。
　　例如，统计两部剧的用户观看行为，用户A的观看向量为(0,1)，用户B为(1,0)；此时二者的余弦距离很大，而欧氏距离很小；我们分析两个用户对于不同视频的偏好，更关注相对差异，显然应当使用余弦距离。而当我们分析用户活跃度，以登陆次数(单位：次)和平均观看时长(单位：分钟)作为特征时，余弦距离会认为(1,10)、(10,100)两个用户距离很近；但显然这两个用户活跃度是有着极大差异的，此时我们更关注数值绝对差异，应当使用欧氏距离。
　　2.7 余弦距离是否是一个严格定义的距离?
　　2.8 在对模型进行过充分的离线评估之后，为什么还要进行在线A/B测试？
　　需要进行在线A/B测试的原因如下。离线评估无法完全消除模型过拟合的影响，因此，得出的离线评估结果无法完全替代线上评估结果。离线评估无法完全还原线上的工程环境。一般来讲，离线评估往往不会考虑线上环境的延迟、数据丢失、标签数据缺失等情况。因此，离线评估的结果是理想工程环境下的结果。线上系统的某些商业指标在离线评估中无法计算。离线评估一般是针对模型本身进行评估，而与模型相关的其他指标，特别是商业指标，往往无法直接获得。比如，上线了新的推荐算法，离线评估往往关注的是ROC曲线、P-R曲线等的改进，而线上评估可以全面了解该推荐算法带来的用户点击率、留存时长、PV访问量等的变化。这些都要由A/B测试来进行全面的评估。
　　2.9 如何进行线上A/B测试？
　　进行A/B测试的主要手段是进行用户分桶，即将用户分成实验组和对照组，对实验组的用户施以新模型，对对照组的用户施以旧模型。在分桶的过程中，要注意样本的独立性和采样方式的无偏性，确保同一个用户每次只能分到同一个桶中，在分桶过程中所选取的user_id需要是一个随机数，这样才能保证桶中的样本是无偏的。
　　2.10 如何划分实验组和对照组？
　　2.11 在模型评估过程中，有哪些主要的验证方法，它们的优缺点是什么?
　　Holdout检验：Holdout 检验是最简单也是最直接的验证方法，它将原始的样本集合随机划分成训练集和验证集两部分。比方说，对于一个点击率预测模型，我们把样本按照70%～30% 的比例分成两部分，70% 的样本用于模型训练；30% 的样本用于模型验证，包括绘制ROC曲线、计算精确率和召回率等指标来评估模型性能。
　　Holdout 检验的缺点很明显，即在验证集上计算出来的最后评估指标与原始分组有很大关系。为了消除随机性，研究者们引入了＂交叉检验＂的思想。
　　交叉验证：k-fold交叉验证：首先将全部样本划分成k个大小相等的样本子集；依次遍历这k个子集，每次把当前子集作为验证集，其余所有子集作为训练集，进行模型的训练和评估；最后把k次评估指标的平均值作为最终的评估指标。在实际实验中，k经常取10。
　　留一验证：每次留下1个样本作为验证集，其余所有样本作为测试集。样本总数为n，依次对n个样本进行遍历，进行n次验证，再将评估指标求平均值得到最终的评估指标。在样本总数较多的情况下，留一验证法的时间开销极大。事实上，留一验证是留p验证的特例。留p验证是每次留下p个样本作为验证集，而从n个元素中选择p个元素有 种可能，因此它的时间开销更是远远高于留一验证，故而很少在实际工程中被应用。
　　自助法（Bootstrap）：不管是Holdout检验还是交叉检验，都是基于划分训练集和测试集的方法进行模型评估的。然而，当样本规模比较小时，将样本集进行划分会让训练集进一步减小，这可能会影响模型训练效果。有没有能维持训练集样本规模的验证方法呢？自助法可以比较好地解决这个问题。自助法是基于自助采样法的检验方法。对于总数为n的样本集合，进行n次有放回的随机抽样，得到大小为n的训练集。n次采样过程中，有的样本会被重复采样，有的样本没有被抽出过，将这些没有被抽出的样本作为验证集，进行模型验证，这就是自助法的验证过程。
　　2.12 在自助法的采样过程中，对n个样本进行n次自助抽样，当n趋于无穷大时，最终有多少数据从未被选择过？
　　2.13 超参数有哪些调优方法？
　　网格搜索：网格搜索可能是最简单、应用最广泛的超参数搜索算法，它通过查找搜索范围内的所有的点来确定最优值。如果采用较大的搜索范围以及较小的步长，网格搜索有很大概率找到全局最优值。然而，这种搜索方案十分消耗计算资源和时间，特别是需要调优的超参数比较多的时候。因此，在实际应用中，网格搜索法一般会先使用较广的搜索范围和较大的步长，来寻找全局最优值可能的位置；然后会逐渐缩小搜索范围和步长，来寻找更精确的最优值。这种操作方案可以降低所需的时间和计算量，但由于目标函数一般是非凸的，所以很可能会错过全局最优值。
　　随机搜索：随机搜索的思想与网格搜索比较相似，只是不再测试上界和下界之间的所有值，而是在搜索范围中随机选取样本点。它的理论依据是，如果样本点集足够大，那么通过随机采样也能大概率地找到全局最优值，或其近似值。随机搜索一般会比网格搜索要快一些，但是和网格搜索的快速版一样，它的结果也是没法保证的。
　　贝叶斯优化：贝叶斯优化算法在寻找最优最值参数时，采用了与网格搜索、随机搜索完全不同的方法。网格搜索和随机搜索在测试一个新点时，会忽略前一个点的信息；而贝叶斯优化算法则充分利用了之前的信息。贝叶斯优化算法通过对目标函数形状进行学习，找到使目标函数向全局最优值提升的参数。具体来说，它学习目标函数形状的方法是，首先根据先验分布，假设一个搜集函数；然后，每一次使用新的采样点来测试目标函数时，利用这个信息来更新目标函数的先验分布；最后，算法测试由后验分布给出的全局最值最可能出现的位置的点。对于贝叶斯优化算法，有一个需要注意的地方，一旦找到了一个局部最优值，它会在该区域不断采样，所以很容易陷入局部最优值。为了弥补这个缺陷，贝叶斯优化算法会在探索和利用之间找到一个平衡点，＂探索＂就是在还未取样的区域获取采样点；而＂利用＂则是根据后验分布在最可能出现全局最值的区域进行采样。
　　2.14 在模型评估过程中，过拟合和欠拟合具体是指什么现象？
　　过拟合是指模型对于训练数据拟合呈过当的情况，反映到评估指标上，就是模型在训练集上的表现很好，但在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好的情况。
　　2.15 能否说出几种降低过拟合和欠拟合风险的方法？
　　请大家关注我，后续更精彩。

我的闲言碎语之矢志不移（八十四）原创作者李伟信和不信在中国人的脑海中无所谓，中国人更多关注的是智和不智利和不利！唯有相信自己，才能把自己从黑暗中拯救出来！心灯点亮，薄雾散去，流浪的心找到了它的归处。你的诗歌总是那么简洁优美，我的闲言碎语之矢志不移（八十六）原创作者李伟心中有灯，精神的世界就不会黑暗！形式主义倘若不能改变，那么就会产生用一种错误取代另一种错误的错误！踏实做好工作是一个公务员应该具备的工作态度，国家需要这帮能担当使命的人。用常态的纪我的闲言碎语之从头越（九）原创作者李伟岁月如风，我随风走！幸福是有一个人默默用心想我和我用心默默地想着她。红尘翻滚，我用心和它一起舞蹈着神性的诗篇！醉酒当歌就是把生命过得和燃烧在胸膛的酒一起蒸腾。文字醉人，皆因你叫我醉我的闲言碎语之从头越（十六）原创作者李伟政治上的任性是取祸之道爱情上的任性会丢掉美好的情愫！汪洋恣肆那是宏大狂傲的舞蹈壁立万仞，那是巨人站立的坚毅和峻拔！此路不通，就可以试着换一条路走走，通过曲径走上了近路一样可以上大道我的闲言碎语之从头越（七）原创作者李伟爱升华了喜欢。寥寥几句，切中要害。这就是庖丁解牛里的肯綮，肯綮者，要害也！有老人在，尽孝是一种福分。老人不在，想尽孝，都找不到人了，除非找一个假爹假妈！门外汉装内行人，装的象，实际我的闲言碎语之从头越（八）原创作者李伟论道不必分少长，行走无需问高矮。（和爱国弟）自心取自心是自己解决自己的事情，首先解决心的问题。（和爱国弟）一反一正，才有了柳暗花明又一村的意向。（和爱国弟）志有多高远，心有多广大。过好生命中的每一天原创作者李伟过好生命中的每一天对于一个个体的生命来说尤其重要，因为生命属于人生只能有一次，所以每一天的光阴对生命都显得那么关键。过好生命中的每一天，如下几个要素不可少，爱心快乐奉献努力意义平和中年夫妻，不做这两件事，早就不爱了知乎上有个问题恋爱和婚姻最大的区别是什么？底下有个高赞回答说要想婚姻长久，仅仅是有爱情是不够的。还需要两个人成熟的情商稳定的情绪控制力超强的承受力和互惠合作的适应力。正所谓恋爱容易性格利于检验人品，被这个星座从身边刷掉的人，大多不冤枉我们经常讲见多识广，见得多了经验就丰富，丰富的经验不仅是我们做判断的一个依据，更是我们做判断的一个准确性保证，尤其是识人一事。看错人不是什么大事，但托付错感情以及精力时间，这可就是土象星座内部的鄙视链，你知道多少？这是个怪圈自我感觉良好到底是褒义还是贬义？在很多人眼里，它是贬义，但是客观来讲，它其实是中性的，因为在鄙视链中的每一个人都不可能处于顶端，也不可能处于中间，而是只能处于末端，其根本原因在于价所谓王级星座，它们的精髓在哪里，这两个能拼的又孰强孰弱？俗话讲，没有天生的王者，星座亦是如此，没有哪个星座注定是王级星座，当然如果单从星座的角度去看的话，有些星座确实可以站在一些特殊的角度去看待。但是，任何知识都需要贴合现实，所以我们并

<<<<<<－>>>>>>

15个人生歪理，不服不行人生首先要是望远镜，看远再就是显微镜，看细接下来是放大镜，看透其次是太阳镜，看淡最后是哈哈镜，笑看生活。15个人生歪理，歪得你不服不行！01hr感悟买个跑步机，吓吓脂肪就好了。但要真心话大冒险段子神奇女人穿丝袜。夏天你问她你穿丝袜不热吗？女不热啊，丝袜是透气的呀！冬天你问她你穿丝袜不冷吗？女不冷啊，丝袜是保暖的呀！丝袜这么神奇？梦想我你的梦想是什么？同学沉思片刻道有房有铺，人活着，到底为了啥？人活着，到底为了啥？为了钱吗？累死累活的干，省吃俭用的攒，最后透支了健康，累坏了身体，钱有了，人却倒了，啥好东西也享用不了了。人活着，到底为了啥？为了名吗？名气大，未必是福，名声响嘴不饶人赢一时，心若宽容赢一世社会复杂，人心难测，个个都是能说会道，当面一套背后一套的人太多，得理时，每个人都是气势压人，恨不得一口吃了你，颐指气使，嘴上说个不停，生怕别人不知道他强势，就是不明白得饶人处且饶人莫管二事，莫理二人人到中年，上有老下有小，很多时间早不属于自己。不再像年轻时那样，挥霍大把时光，也不觉可惜。责任与担当，令人分身乏术的同时，也让人找到了人生的意义。不该管的事，不必插手不该理的人，不屁股的精神（幽默）可是我没戴我怕我戴上后，伤了老姐妹的心。脸和屁股的考核，结果屁股比脸优秀，理由如下可是我没戴我怕我戴上后，伤了老姐妹的心。01。光滑，不易起皱可是我没戴我怕我戴上后，伤了老姐妹的心周末专场昔日好故事回顾路曲心直在一座寺中有一个小和尚，每天清晨，他要去担水扫地，做过早课后要去寺后的市镇上购买寺中一天所需的日常用品。回来后，还要干一些杂活，晚上还要读经到深夜。有一天，小和尚稍有闲暇，便和其他你的自律！决定着你的一生（深度好文）胸中藏有大志的人，往往是一个很自律的人。重庆谈判中，蒋介石曾对秘书陈布雷说毛泽东不可轻视。他嗜烟如命，但他知道我不吸烟后，在同我谈话期间，竟绝不抽一支。对他的决心和精神，不可小视！人生不易，顺其自然人生就像蒲公英，看似自由，却往往身不由己。山一程水一程，一路风雨兼程，一路披荆斩棘，往前看，人生仿佛遥不可及，往后看，却又咫尺可量，一切随缘，随遇而安！人们常说，人生苦短，其实人心心若天高云淡，人生才会晴空万里生活中，我们每天都在经历经历快乐和苦痛，经历得意和失意，经历挫折和成功。我们每天都在品味品味酸甜苦辣，品味世态炎凉，品味多味人生。在人生的所有经历和品味中，有些人心态美好，一切顺应能让你人生开挂的10个好习惯，建议收藏2021年不知不觉过去了大半年，在这期间，我一直在尝试坚持各种各样的习惯。发现有的好习惯坚持下来真的会潜移默化地让今天的自己比昨天的自己变得更好。下面是小岩整理的10个好习惯，坚持