搜 索

机器学习(1)—机器学习导论

  • 251阅读
  • 2023年03月05日
  • 1评论
首页 / AI / 正文

从本篇开始,笔者将开始机器学习之旅,持续更新关于机器学习的入门知识,对笔者个人所学习的内容做总结梳理,同时也希望能够实现写博客的初衷帮到有需要的读者。
特别说明,本人高数挂过科,数学水平非常有限,而且半路出家,本博客重实践而轻理论,若出现纰漏实属正常,希望与君共同进步。

什么是机器学习ml

简单来说,机器学习是一种数据处理技术,机器学习的过程就是将无序或无用的数据转化为有用数据的过程。
机器学习是一种使用算法和数学模型,让计算机能够从数据中自动学习,并对新的数据进行准确的预测和分类的技术。它是人工智能领域的重要分支。

机器学习的主要任务是训练一个模型,使其能够对未知数据进行准确的预测或分类。为了达到这个目的,机器学习模型需要经过训练,即使用已有的数据集来调整模型的参数。通常情况下,数据集会被分成训练集和测试集,模型会在训练集上进行训练,然后在测试集上进行验证。

机器学习的算法可以被分为三大类:监督学习、无监督学习和强化学习。在监督学习中,算法会使用已经标注好的数据集来训练模型,以便让模型能够对新数据进行准确的分类或预测。在无监督学习中,算法会自动发现数据中的模式和规律,以便进行数据的聚类或降维。强化学习是一种通过试错学习的方法,以达到最大化某个目标的学习方式。

机器学习技术已经被广泛应用于各种领域,如自然语言处理、图像识别、语音识别、数据挖掘、推荐系统等。

机器学习与深度学习的关系

机器学习和深度学习是密切相关的,可以说深度学习是机器学习的一种分支。机器学习是通过对大量数据的学习和分析,发现数据中的规律和模式,从而实现自主预测和决策的一种技术。而深度学习是机器学习中的一种方法,通过建立多层神经网络来处理和学习数据,从而实现更高级别的数据抽象和表示。

深度学习是建立在机器学习的基础之上的,它主要通过多层神经网络模拟人脑的神经系统,从而实现对数据的自主学习和分析。深度学习在语音识别、图像处理、自然语言处理等领域有着广泛的应用,特别是在计算机视觉领域,深度学习已经成为了最主流的技术之一。

机器学习的一般流程

收集数据

通过多种方式进行数据采集,可以通过网络爬虫到指定网站抽取数据、通过api获取数据、设备采集并推送过来数据,也可以使用公开数据

准备输入数据

将采集得到的数据清洗处理为机器学习算法所需特定数据格式

分析输入数据

检查是否有垃圾数据

训练算法

格式化数据到算法,从中抽取知识或信息

测试算法

使用测试数据对算法进行评估,对于监督学习,必须已知用于评估算法的目标变量值;对于无监督学习,也必须用其他的评估手段来检验算法的成功率。若不满意评估结果,可回到上一步骤,改正并测试。

使用算法

将算法转换为应用程序,执行实际任务。

机器学习常见算法

以下介绍常见的机器学习算法,后面将陆续介绍详情。

K最近邻(K-Nearest Neighbors)

通过测量输入实例与训练集中的实例之间的距离,来预测离散或连续型变量的值

线性回归(Linear Regression)

通过拟合线性模型来预测连续型变量的值

逻辑回归(Logistic Regression)

用于二分类或多分类问题,将输入与离散输出之间建立一种关系

决策树(Decision Tree)

通过树状结构来预测目标变量,可以用于分类或回归问题

随机森林(Random Forest)

是一种集成学习方法,将多个决策树的预测结果组合起来来提高模型的准确性

支持向量机(Support Vector Machine)

用于分类或回归问题,通过寻找一个最优的分离超平面将数据分为两个类别

神经网络(Neural Networks)

通过多个层次的神经元相互连接来建立模型,可以用于分类、回归、聚类等问题

支持向量聚类(Support Vector Clustering)

通过寻找一个最优的超平面将数据划分为不同的簇

高斯混合模型(Gaussian Mixture Model)

用于聚类问题,通过建立多个高斯分布来描述不同的数据簇

主成分分析(Principal Component Analysis)

用于降维问题,通过将数据映射到一个低维空间来描述数据的变化

开始机器学习前需要掌握的技能

Python

Python是一门简单易用的语言,在AI领域类库非常有优势,numpy/pandas/scipy/matplolit/scikit都是必备的库,若你还是个python小白,可以考虑先从这里入门Python教程

数学基础

从事机器学习需要掌握高等数学、线性代数、概率论等基础数学知识,还需要掌握统计学的基本概念和方法,如概率分布、假设检验、回归分析等。不过由于我们是从事机器学习工程,对数学基础没有特别高的要求,可以平时有个了解,遇到的时候再深入学习。

数据处理能力

需要掌握数据预处理和清洗技能,如数据采集、数据清理、特征工程等。具体就是爬虫,pandas,matplotlib等,具体可以学习<Python数据分析>

机器学习的应用

机器学习已经深入我们生活的方方面面,以下是一些具体的应用:
语音识别:机器学习在语音识别领域的应用已经非常成熟,如语音助手、语音识别输入等。
图像识别:机器学习在图像识别领域的应用也非常广泛,如人脸识别、车牌识别、物体识别等。
自然语言处理:机器学习在自然语言处理领域也有很多应用,如机器翻译、情感分析、文本分类等。
推荐系统:机器学习在推荐系统领域的应用也很广泛,如电商推荐、社交网络推荐、新闻推荐等。
金融领域:机器学习在金融领域的应用非常多,如风险控制、欺诈检测、投资决策等。
医疗领域:机器学习在医疗领域的应用也越来越多,如医学影像诊断、疾病预测、药物发现等。
工业领域:机器学习在工业领域的应用也非常广泛,如生产质量控制、设备故障预测、智能制造等。
以下是在我司的一些应用:

  • 用户画像系统
  • 产品推荐系统
  • 专家系统

机器学习前景

chatgpt标志着强人工智能时代的到来,人类走入AI世界的道路已经肉眼可见,未来机器学习将在以下方面产生巨大变革:
自动化:机器学习算法可以通过对大量数据的学习和分析,自动化地完成许多任务,从而提高效率、降低成本。
智能化:机器学习算法可以帮助人工智能系统实现自主学习和决策,从而使得机器的智能水平越来越高,能够应用于更广泛的领域。
个性化:机器学习算法可以根据个人的数据和需求,实现个性化定制和服务,从而提高用户的满意度和体验。
最主要的是机器人将崛起,机器学习(AI)将与机器人技术共同作用于人类社会,坐的车将是无人驾驶的车,工作中将有copilot这种神器来辅助工作,生活中将有保姆机器人照料,甚至女友可能都是共享的AI女友,想想这种生活未来会成为现实简直太激动了,迫不及待要投入到ml的发展中去。

参考资料

《机器学习实战》
《机器学习 西瓜书》
《机器学习公式详解 南瓜书》
《机器学习实战:基于Scikit-Learn、Keras和TensorFlow 第2版》
王小草机器学习笔记

评论区
Joey 2023年03月09日 16:29
回复 取消

3月读书计划:,,,,

avatar