带有数据的最佳机器学习案例 在此文章中,我们将讨论 10 个最佳机器学习项目,其中包含您作为初学者需要学习的数据集,以在数据科学领域打造出色的作品集。 数据集请关注『芯媒』官W后台获取 机器学习是目前最流行的技术之一。它正在彻底改变每个行业,无论是电子商务、医疗保健、金融、安全等。 "机器学习是人工智能的一个子集,它使机器能够自动学习并从经验中改进而无需明确编程"。 你了解机器学习的概念吗?您是否对如何进一步进步感到困惑?嗯,人们常说学习任何技术的最好方法是做一些项目。项目是最好的学习方式。为什么?因为你可以实现你所学的所有理论概念。在线课程、阅读书籍、博客等其他选项仅有助于理解 ML 的基础知识,但只有通过使用真实数据进行项目才能真正学习该主题。通过做项目,您还可以了解可能发生的错误及其解决方案。在面试过程中,公司非常关注候选人所做的项目。 您必须专注于构建端到端的机器学习项目。例如,尝试将您的机器学习应用程序也与网站和数据库集成。你也可以尝试与 Docker、Kubernetes、MLFlow 等 MLOps 工具集成。拥有一个可靠的机器学习项目肯定会让你在面试中比其他人更有优势。 在这个特定的博客中,我们将通过讨论问题陈述来讨论 10 个最佳机器学习项目。不仅如此,我们还将附上数据集的链接供您练习。那么,让我们现在直接进入讨论。 表中的内容 房价预测 客户流失预测 心脏病预测 客户细分 网络钓鱼检测 TMDB票房预测 使用智能手机进行人类活动识别 人口普查收入预测 纽约市出租车旅行时间 迁移预测 机器学习项目 1. 房价预测 数据集请关注『芯媒』官W后台获取 如果你能预测房子的合适价格会怎样?太棒了,对吧?是的,您可以创建一个可以预测房屋价格的机器学习模型。房子的价格取决于各种因素,例如卧室的数量、房子的大小、位置等。 这是一个回归问题。只需输入自变量的值,您将根据提供的因子值获得正确的房屋价格。 请记住应用所需的特征工程技术。您甚至可以可视化数据集以供人类理解。使用它,您将能够向最终用户解释位置与房屋价格的相关性。 在数据集中,您可以使用各种特征(如临街面积、位置等)来预测房价。 2.客户流失预测 数据集请关注『芯媒』官W后台获取 客户保留是银行等金融机构面临的一项重大挑战。该项目的目的是对客户是否会流失进行分类。银行识别和可视化导致客户流失的因素非常有帮助。 如果银行能够识别将要流失的客户,并确定可能导致他们流失的可能因素,那么他们就可以制定适当的营销和保留策略来留住客户。例如,他们可以为客户提供免费信用卡、低息贷款等优惠。 3. 心脏病预测 数据集请关注『芯媒』官W后台获取 机器学习在医疗保健领域发现了它的巨大重要性。它可以预测各种疾病,如心脏病、乳腺癌等。 心脏病是一种可以使用机器学习预测的疾病。您需要提供导致心脏病的因素的值,例如血压、胸痛类型、胆固醇、糖水平等。 这是一个二分类问题。 数据集包含 13 个独立属性。该数据集将使您能够大量练习特征工程。此外,您可以探索不同的特征选择技术来选择正确的特征来创建模型。该数据集高度不平衡,因为该数据集中的许多患者没有 患 心脏病。因此,您还可以探索过采样和欠采样等技术。 4.客户细分 数据集请关注『芯媒』官W后台获取 你是恐怖片爱好者还是动作片爱好者?您可能属于这两者中的特定组。我们经常根据某些因素将人们分成不同的部分,在这种情况下,就是人们喜欢哪种类型的电影。 客户细分是一个无监督的学习问题。这意味着您没有因变量。 客户细分对市场和公司至关重要。他们希望将客户划分为不同的细分市场,以便将不同的营销策略应用于不同的细分市场以留住他们。例如,超市商店可能会向很少从他们那里购买的人提供更多折扣以吸引他们。 5. 网络钓鱼检测 数据集请关注『芯媒』官W后台获取 网络钓鱼是一种网络犯罪,攻击者冒充已知或受信任的实体,通过电子邮件、短信或电话联系个人,并要求他们分享敏感信息。还可能提示用户输入信用卡信息或银行账户详细信息以及其他敏感数据。一旦收集到这些信息,攻击者就可以使用它来访问帐户、窃取数据和身份,并将恶意软件下载到用户的计算机上。 为避免这种情况,唯一的解决方案是根据某些因素确定是否存在网络钓鱼威胁。从安全的角度来看,这非常重要。如果我们能够确定是否存在可能的网络钓鱼威胁,这将非常有帮助。 6. TMDB票房预测 数据集请关注『芯媒』官W后台获取 今天每个人都喜欢看电影。每年有这么多的大片上映,收入数亿美元(有时甚至超过10亿美元),非常成功。 你能预测一部电影的全球票房收入吗?通过机器学习,这是可能的。 这是一个回归问题。该项目的目标是通过衡量全球票房收入来分析是什么让特定电影成功,而其他电影则不然。如果他们能够了解电影成功的因素,这对电影制片人来说将是一个福音。 在这个数据集中,您获得了 7398 部电影和从 电影数据库 (TMDB) 获得的各种元数据。电影标有id。数据点包括演员、工作人员、情节关键词、预算、海报、发布日期、语言、制作公司和国家。 7. 智能手机的人类活动识别 数据集请关注『芯媒』官W后台获取 这是你能做得最好的机器学习项目之一。您可以使用捕获的身体姿势值来预测人员执行的活动。 这是一个多类分类问题。目标是将活动分类为所执行的六项活动之一。六种活动是:走、走上楼、走下楼、坐、站、躺。 您可以应用不同的分类算法,如 SVM、朴素贝叶斯、随机森林等来预测输出。 该数据集可在 UCI 机器学习存储库中获得。 8. 人口普查收入预测 收入预测对于预测国家经济和其他各种重要措施非常有用。该机器学习项目的目标是使用成人人口普查收入数据集,根据教育水平、人际关系、每周工作时间和其他属性等人口普查数据来预测年收入是否超过 5 万。 根据分析,我们可以确定贫富之间的收入不平等差距。此外,我们可以分析哪些因素对收入不平等的影响最大。在此基础上,政府可以出台适当的政策来缩小收入差距,确保所有人的生活良好。 该数据集有超过 32,000 行和 15 个属性。这是一个很好的数据集,用于练习如何处理缺失值和特征工程。 数据集请关注『芯媒』官W后台获取。 9. 纽约市出租车旅行时长 数据集请关注『芯媒』官W后台获取 这个项目非常适合练习特征工程。该项目的目的是预测纽约市出租车旅行的总乘坐时间。这是一个回归问题。 该数据集的变量包括出租车行程的开始和结束坐标、时间和乘客数量。时间和坐标等变量需要进行适当的预处理并转换为可理解的格式。所以,你也可以练习处理日期。该数据集还有一些异常值,使预测更加复杂,因此您需要使用特征工程技术来处理这个问题。 您可以直观地和统计地探索各种异常值检测和处理技术。 数据集请关注『芯媒』官W后台获取。 10. 迁移预测 数据集请关注『芯媒』官W后台获取。 该项目旨在预测移民流入各个欧洲国家。通过这样做,政府当局可以积极准备满足他们的需求,并倡导提供安全进入欧洲的政治意愿。 需要向移民提供援助。这就是为什么预测是最重要的。 数据集请关注『芯媒』官W后台获取。 结论 最后,我们想重申,项目对于掌握任何技能都非常重要。它将帮助您完成整个学习过程以及面试。 我们讨论了一些最好的机器学习项目,它们不仅可以帮助您构建模型,还可以增强您的特征工程技能。 数据集请关注『芯媒』官W后台获取。 希望你能尝试这些项目。快乐学习!