今日的内容是【大数据计算】第二课的课程学习笔记 课程内容大部分都是分类和对比,包括表格数据与非数据表格 的对比、描述性分析与预测性分析 的对比、分类与回归 的对比。 好啦,来看看吧! 预测性(监督):标签(知道所有标签进行分类) 描述性(非监督):非标签(未知标签、未知数据,努力弄清楚标签和分类) 数据集分为训练集和测试集,一般来说,70%的训练集和30%的测试集,我们运用训练集来训练模型,不断优化参数形成算法,并用测试集评估算法,测试集是有标签的数据集,算法优化完成后,就可以运用其来锻炼未知数据集了。 在训练数据过程中,会有实际数据和预测数据。 分类:包括分类算法、决策树、分类法则 等。 KNN,K Nearest Neighbor K最近邻居法则。 要点:Support(A→B)和Confidence(A→B) 的计算。