注：我看的是这个线上版本，英文版。不是我装逼，而是如果不看英文版，后面看论文更加吃力，看这个英文版我也很吃力。遇到搞不懂的，我就直接大段的贴给ChatGPT，让他给我讲解，现在大模型就是好，就是牛逼，不服不行。在以前真的只有花更多时间才能达到这种效果。

第一章：介绍

核心概念

数据

简单来说，我们做机器学习，那就得有学习材料，而机器学习的材料就是喂给他的数据，数据越多越好，而且要高质量的。否者就是garbage in, garbage out。

模型

模型就是我们在计算机世界里面去尝试描述（或者概括）我们要面对的问题的规律。它的作用就是处理输入，给出输出。也就是处理问题，给出答案。

比如开车速度v=s/t就是我们尝试描述我们的车跑的有多快。根据我们不同的s和t的组合，我们就可以直到车开的有多快或者有多慢。

目标函数

我们在训练的时候，总得直到我们的模型计算的结果对不对（如果是对错这种答案）？或者是离正确答案有多远（比如两个答案哪个更优秀），如何来评判这些答案呢？这些评判的函数就是目标函数。作用就是前面描述的，评判答案的好坏。

优化算法

这里提到了梯度下降（gradient descent），这是非常基础又非常重要的一种优化算法。这个梯度下降概念有点抽象，也有点绕口。我问了ChatGPT半天，才找到一个非常好理解的方向，就是首先他是描述的方法，不是目标。我们的优化目标就是让loss尽量小，而一种方法就是gradient descent。比如我们在一个3维世界的一个山峰上面，我们想要找最低点，而且我们是瞎子（注意这个很重要！），我们如何快速的找到呢？我们是瞎子，所以我们没法说直接用眼找，那就剩下试探了，我左边走两步，回来，右边走两步，回来，前面走两步，回来，后面走两步。然后我分别比较下，4个方向上，哪个方向往下走的最多呢？然后我们就往那个方向上走，然后再重复刚才的寻找的方法。这个就是gradient descent，她就是找最陡峭的地方，这样才能更快的找到最低点。

各种机器学习分类和例子

监督学习

这个意思就是我们监督他，这个学习是有正确答案的，我们会提供，我们提供正确答案，这种就是监督学习。比如识别图片中的猫狗，我们怼进去很多图片，每张图片我们都会告诉他有没有猫狗。常见的监督学习的例子如下：

回归问题。概念很绕，但例子很好理解，给出房子相关的各种相关因素，比如面积，楼层，装修，地理位置等等，去预测房价。
分类问题。给我们很多图片，我们去分类，里面是猫，狗，树，汽车，还是什么。
打标问题。跟上面分类问题类似，但如果一张图片里面既有猫又有狗，这怎么分类呢？这其实是打标问题，就是把里面的猫和狗都分别圈出来就好了。

无监督学习

无监督学习就是没有正确答案，那监督学习就只能找规律，而不是找答案。乍一看好像我们需要的是监督学习，毕竟如果我们都不知道什么是正确答案，我期望机器学习学个啥出来呢？但现实就是无监督学习也非常有用，因为监督学习要求正确答案，但是机器学习需要的学习材料是海量数据，每个数据我们都提供标准答案的话，成本是很高的。

比如我们做一个电商网站，我们把用户相关的数据喂给机器学习算法，让他给我们分类，就会得出类似，VIP，羊毛党，正常用户等等类别。还有Principal Component Analysis，这个类似输入数据的优化压缩，大致意思就是，我们输入的数据有很多维，但有些维的数据其实相关性很小（或者是跟别的维度的数据重复了），我们就可以把这些数据压缩一下，然后再去做后续处理，这样训练效率能提升很多。当然现在这个已经不太流行了，因为这种还是需要我们人工参与的，一旦需要人工，成本就会高很多，现在深度学习不需要人工参与。当然这个类似古法编程和AI编程，古法编程如果是编程专家，那肯定是又快又好。AI的话快是快，有些时候不一定好，但他就是快啊。如果数据量优化前后差距不是很离谱，直接深度学习硬怼也不是不行。

自监督学习

就是我们给模型原始数据，然后原始数据就可以拆分成训练数据和答案。比如ChatGPT的训练就是，"I love cats. Because cats are cute."，这是原始数据。训练的时候前面的"I love"，他的正确答案就是"cats"。这样就是自监督学习。

强化学习

强化学习也是没有正确答案，但是它会给奖励，类似训狗，狗按照我们的期望做了，我们就奖励他零食，跟我们对着干就惩罚他。一些强化学习的例子比如AlphaGo，也就是围棋方向，训练的时候就是赢了+1，输了-1，这样下的多了他就越下越强。

祝你好运的技术博客

《动手学深度学习》学习笔记（一）