如何利用好机器学习，数据分析与处理很重要

独爱72H 2020-04-12 4223

电子说

1.4w人已加入

描述

（文章来源：网络整理）
机器学习涉及到很多的学科和门类，在我看来，它更像是各个学科的集合体，因此想要学好机器学习，你需要具备很多方面的知识，不过也并不是所有人会用到机器学习的每个细节，因此可以根据自己的专长有针对性的学习。

我目前也在学习相关的技术资料，再加上之前也接触过这方面的工作，所以对于机器学习方面还是有一定的了解，在我看来无论是什么样的机器学习模型、分类、算法都是依托于原始数据的，原始数据的分析和处理是前提也是很重要的部分。

通常我身边的工程师在进行相关设计的时候有一个惯性的思维，先采集一大堆的数据然后用工具分析特征和生成模型，之后通过大量的数据采集来实现模型的修正和完善，这种方式应该也是很多设计人员通常的思路，而且一般的情况下要求硬件采集设备尽可能的提供多种参数，这样可以丰富算法模型的输入参数，理论上可以更好地接近实际的结果，在纯技术的角度上这个是可行的，而且随着样本量的增加，采用机器学习的思路，最终的模型和算法会越来越精确。

这样的设计方法对于已有理想样本或是可以很容易获取样本数据的前提下是非常高效的，但是如果已有样本不是很理想，存在大量干扰成分，样本数据受人为因素或者必须由人工采集获取数据时，传统的方法就没有太大优势了。这个时候需要对数据进行预处理和必要的分析，需要确定几个问题：

一、预先确定几个需要研究的参数，选择参数时需要有一定的依据和相关性，拿红外信号输出信号分析举例，可以从公开的资料中知道红外传感器会受到温度和光谱范围的影响导致输出曲线的变化，那么温度和光谱范围就是需要研究的参数。

二、确定了参数之后，先不要对所有参数进行样本数据采样，而是针对单一参数进行数据采样，彻底明确单一参数对于最终结果的影响程度，也就是权重，用函数关系表示即：Y = F(X), Y为结果，X为样本数据参数，数据处理过程包括平滑、筛选、剔除、插入等基本操作，也就是预处理过程，之后可以生成基本的函数关系或对照表，为后续的大模型的建立提供数据支持。

三、将每种数据参数的影响程度量化之后，我们就获取了所有的参数对照表和函数对应关系，利用这些已有的结果建立整个算法模型和框架结构，在模型中将每种数据的权重设计好，最终形成一个初步的机器学习模式。

四、在实现了以上三步之后，我们最终可以通过大数据样本的采集来实现整个机器学习模型的完善，最终实现之前制定的目标。
（责任编辑：fqj）

打开APP阅读更多精彩内容