PBA.常用人工智能预测分析算法

时间：2024-04-23 08:20:29 来源：网络cs 作者：峨乐栏目：卖家故事阅读：

标签：预测分析

阅读本书更多章节>>>>

相同的数据型态，利用不同的方法分析，就可以解决不同的课题。例如目前已相当纯熟的人脸识别技术，在国防应用可以进行安保工作；企业可做员工门禁系统；可结合性别、年龄辨识让卖场进行市调分析，或结合追踪技术进行人流分析等。

本篇接下来要针对深度学习方法的数据类型或算法，介绍AI常见的应用。

1. 神经网络算法

以算法区分深度学习应用，算法类别可分成三大类：

常用于影像数据进行分析处理的卷积神经网络(简称CNN)文本分析或自然语言处理的递归神经网络(简称RNN)常用于数据生成或非监督式学习应用的生成对抗网络(简称GAN)

CNN卷积神经网络(简称CNN)

CNN主要应用可分为图像分类(image classification)、目标检测(object detection)及语义分割(semantic segmentation)。下图可一目了然三种不同方法的应用方式。

1、图像分类 (Classification)

顾名思义就是将图像进行类别筛选，通过深度学习方法识别图片属于哪种分类类别，其主要重点在于一张图像只包含一种分类类别，即使该影像内容可能有多个目标，所以单纯图像分类的应用并不普遍。不过由于单一目标识别对深度学习算法来说是正确率最高的，所以实际上很多应用会先通过目标检测方法找到该目标，再缩小撷取影像范围进行图像分类。所以只要是目标检测可应用的范围，通常也会使用图像分类方法。图像分类也是众多用来测试算法基准的方法之一，常使用由ImageNet举办的大规模视觉识别挑战赛(ILSVRC)中提供的公开图像数据进行算法测试。图像分类属于CNN的基础，其相关算法也是最易于理解，故初学者应该都先以图像分类做为跨入深度学习分析的起步。使用图像分类进行识别，通常输入为一张图像，而输出为一个文字类别。

2、目标检测 (Object Detection)

一张图像内可有一或多个目标物，目标物也可以是属于不同类别。算法主要能达到两种目的：找到目标坐标及识别目标类别。简单来说，就是除了需要知道目标是什么，还需要知道它在哪个位置。

目标检测应用非常普遍，包含文章开头提到的人脸识别相关技术结合应用，或是制造业方面的瑕疵检测，甚至医院用于X光、超音波进行特定身体部位的病况检测等。目标识别的基础可想象为在图像分类上增加标示位置的功能，故学习上也不离图像分类的基础。不过目标检测所标示的坐标通常为矩形或方形，仅知道目标所在位置，并无法针对目标的边缘进行描绘，所以常用见的应用通常会以「知道目标位置即可」作为目标。

最常见的算法为YOLO及R-CNN。其中YOLO因算法特性具有较快的识别速度，目前已来到v3版本。R-CNN针对目标位置搜寻及辨识算法和YOLO稍有不同，虽然速度稍较YOLO慢，但正确率稍高于YOLO。使用目标检测进行识别，通常输入为一张图像，而输出为一个或数个文字类别和一组或多组坐标。

3、语义分割 (Semantic Segmentation)

算法会针对一张图像中的每个像素进行识别，也就是说不同于目标检测，语义分割可以正确区别各目标的边界像素，简单来说，语义分割就是像素级别的图像分类，针对每个像素进行分类。当然这类应用的模型就会需要较强大的GPU和花较多时间进行训练。

常见应用类似目标检测，但会使用在对于图像识别有较高精细度，如需要描绘出目标边界的应用。例如制造业上的瑕疵检测，针对不规则形状的大小瑕疵，都可以正确描绘。医学上常用于分辨病理切片上的病变细胞，或是透过MRI、X光或超音波描绘出病变的区块及类别。算法如U-Net或是Mask R-CNN都是常见的实作方法。使用语义分割进行识别，通常输入为一张图像，而输出也为一张等大小的图像，但图像中会以不同色调描绘不同类别的像素。

RNN

RNN的特色在于可处理图像或数值数据，并且由于网络本身具有记忆能力，可学习具有前后相关的数据类型。例如进行语言翻译或文本翻译，一个句子中的前后词汇通常会有一定的关系，但CNN网络无法学习到这层关系，而RNN因具有内存，所以性能会比较好。因为可以通过RNN进行文字理解，其他应用如输入一张图像，但是输出为一段关于图像叙述的句子。(如下图)

RNN虽然解决了CNN无法处理的问题，但其本身仍然有些缺点，所以现在很多RNN的变形网络，其中最常被使用的网络之一为长短记忆网络(Long Short-Term Network，简称LSTM)。这类网络的输入数据不限于是图像或文字，解决的问题也不限于翻译或文字理解。数值相关数据也同样可以使用LSTM进行分析，例如工厂机器预测性维修应用，可透过LSTM分析机台震动讯号，预测机器是否故障。在医学方面，LSTM可协助解读数以千计的文献，并找出特定癌症的相关信息，例如肿瘤部位、肿瘤大小、期数，甚至治疗方针或存活率等等，透过文字理解进行解析。也可结合图像识别提供病灶关键词，以协助医生撰写病理报告。

GAN

除了深度学习外，有一种新兴的网络称为强化学习(Reinforcement Learning)，其中一种很具有特色的网络为生成式对抗网络(GAN)。

这里不详述GAN的理论或实作方式，而是探讨GAN实际应用的场域。深度学习领域最需要的是数据，但往往不是所有应用都可以收集到大量数据，并且数据也需要人工进行标注，这是非常消耗时间及人力成本。图像数据可以通过旋转、裁切或改变明暗等方式增加数据量，但如果数据还是不够呢？目前有相当多领域透过GAN方法生成非常近似原始数据的数据，例如3D-GAN就是可以生成高质量3D对象。当然，比较有趣的应用例如人脸置换或表情置换。(如下图)

5. 分类算法

5. 逻辑回归---逻辑回归是线性分类器（线性模型）—— 主要用于二分类问题

逻辑回归（Logistic regression）与线性回归类似，但逻辑回归的结果只能有两个的值。如果说线性回归是在预测一个开放的数值，那逻辑回归更像是做一道是或不是的判断题。逻辑函数中Y值的范围从0到1，是一个概率值。逻辑函数通常呈S 型，曲线把图表分成两块区域，因此适合用于分类任务。逻辑回归经常被电商或者外卖平台用来预测用户对品类的购买偏好。

【机器学习】逻辑回归（非常详细） - 知乎

比如上面的逻辑回归曲线图，显示了通过考试的概率与学习时间的关系，可以用来预测是否可以通过考试。

逻辑回归的核心思想是使用sigmoid函数将线性回归的输出转化为概率值，然后根据阈值将概率值转化为类别标签。

逻辑回归的应用场景：

广告点击率

是否为垃圾邮件

是否患病金融诈骗虚假账号

看到上面的例子，我们可以发现其中的特点，那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器。

逻辑回归模型的应用场景

BML Codelab基于JupyterLab 全新架构升级，支持亮暗主题切换和丰富的AI工具，详见使用说明文档。

逻辑回归模型广泛用于各个领域，包括机器学习，大多数医学领域和社会科学。包括不限于以下几点：

1.用于疾病分类与预测。广泛用于预测受伤患者的死亡率，使用逻辑回归基于观察到的患者特征（年龄，性别，体重指数,各种血液检查的结果等）分析预测发生特定疾病（例如糖尿病，冠心病）的风险。

2.逻辑回归模型也用于预测在给定的过程中，系统或产品的故障的可能性。还用于市场营销应用程序，例如预测客户购买产品或中止订购的倾向等。

3.在经济学中它可以用来预测一个人选择进入劳动力市场的可能性，而商业应用则可以用来预测房主拖欠抵押贷款的可能性。条件随机字段是逻辑回归到顺序数据的扩展，用于自然语言处理。

此外，逻辑回归模型现在同样是很多分类算法的基础组件,比如分类任务中基于GBDT算法+LR逻辑回归实现的信用卡交易反欺诈，CTR(点击通过率)预估等，其好处在于输出值自然地落在0到1之间，并且有概率意义。模型清晰，有对应的概率学理论基础。它拟合出来的参数就代表了每一个特征(feature)对结果的影响。也是一个理解数据的好工具。但同时由于其本质上是一个线性的分类器，所以不能应对较为复杂的数据情况。很多时候我们也会拿逻辑回归模型去做一些任务尝试的基线（基础水平）。

逻辑回归模型的优缺点:

而对于逻辑回归而且，最为突出的两点就是其模型简单和模型的可解释性强。

优点：实现简单，易于理解和实现；计算代价不高，速度很快，存储资源低；缺点：容易欠拟合，分类精度可能不高

6. 决策树

如果说线性和逻辑回归都是把任务在一个回合内结束，那么决策树（Decision Trees）就是一个多步走的动作，它同样用于回归和分类任务中，不过场景通常更复杂且具体。举个简单例子，老师面对一个班级的学生，哪些是好学生？如果简单判断考试90分就算好学生好像太粗暴了，不能唯分数论。那面对成绩不到90分的学生，我们可以从作业、出勤、提问等几个方面分开讨论。

每个特征的重要性是通过自顶向下方法确定的。节点越高，其属性就越重要。比如在上面例子中的老师就认为出勤率比做作业重要，所以出勤率的节点就更高，当然分数的节点更高。

7. 朴素贝叶斯--朴素贝叶斯分类器(Naive Bayes Classifier)

用非术语解释贝叶斯定理，就是通过A条件下发生B的概率，去得出B条件下发生A的概率。比如说，小猫喜欢你，有a%可能性在你面前翻肚皮，请问小猫在你面前翻肚皮，有多少概率喜欢你？比如小猫喜欢你，有b%可能和你贴贴，有c%概率发出呼噜声。所以我们如何知道小猫有多大概率喜欢自己呢，通过贝叶斯定理就可以从翻肚皮，贴贴和呼噜的概率中计算出来。

8支持向量机（Support Vector Machine，SVM）

所以支持向量机想要解决的问题也就是如何把一堆数据做出区隔，它的主要应用场景有字符识别、面部识别、文本分类等各种识别。

6.K- 最近邻算法（KNN）

7.K-均值

K-均值（K-means）是通过对数据集进行分类来聚类的。例如，这个算法可用于根据购买历史将用户分组。它在数据集中找到K个聚类。K-均值用于无监督学习，因此，我们只需使用训练数据X，以及我们想要识别的聚类数量K。

该算法根据每个数据点的特征，将每个数据点迭代地分配给K个组中的一个组。它为每个K-聚类（称为质心）选择 K 个点。基于相似度，将新的数据点添加到具有最近质心的聚类中。这个过程一直持续到质心停止变化为止。

生活中，K-均值在欺诈检测中扮演了重要角色，在汽车、医疗保险和保险欺诈检测领域中广泛应用。

6. 决策森林回归

决策森林回归是一种适用于精准度高、训练时间短的场景的算法，它通过树形结构将数据划分为多个子集，每个子集对应着一个类别。

6. AI算法在微环境监测的应用---机器学习算法时间序列预测分析

大数据包含了大量的环境监测数据，包括传感器数据、卫星遥感数据、气象数据等。AI可以通过对大数据的挖掘和分析，发现隐藏在数据中的规律和趋势。例如，AI可以通过分析历史环境数据和相关因素的关联性，建立预测模型，预测环境污染事件的发生概率和严重程度。这有助于相关部门提前做好应对准备，采取相应的措施降低环境污染的影响。

机器学习算法在环境污染实时监测预警中扮演着重要角色。通过对历史监测数据的学习和训练，机器学习算法可以建立环境污染模型，并根据实时数据进行预测和预警。例如，利用监测数据和机器学习算法，可以建立空气质量预测模型，预测未来几小时或几天内空气质量的变化趋势。这样的预警系统可以提供准确的预测结果，帮助公众提前做好健康防护和应对措施。

AI技术的优势之一是其能够从大量数据中提取规律和趋势。通过对历史监测数据的学习和训练, AI系统可以深入分析环境因素与污染物之间的关系，并预测环境变化的趋势。这样，我们就能更好地了解环境状况，并及时采取必要措施来应对潜在的问题。

一、时间序列分析的基本概念和方法
1.1时间序列的定义和特点
时间序列是按照时间顺序排列的一系列数据点的集合,其中的数据点可以是连续的或离散的。时间序列的特点包括趋势、周期性、季节性和随机性。
1.2常用的时间序列分析方法
平稳性检验:通过检验时间序列是否具有平稳性来确定后续分析方法的选择。

可视化数据即绘制时间序列的折线图，看曲线是否围绕某一数值上下波动（判断均值是否稳定），看曲线上下波动幅度变化大不大（判断方差是否稳定），看曲线不同时间段波动的频率[~紧凑程度]变化大不大（判断协方差是否稳定），以此来判断时间序列是否是平稳的。

-自相关函数(ACF) 和偏自相关函数(PACF) :用于确定时间序列的自相关和偏相关性质,进而选择适合的模型。

自相关是指时间序列数据与其自身在不同时间点的相关性。它衡量了- -个时间序列与其滞后版本之间的线性关系。自相关函数(Autocorrelation Function, ACF)是用于测量自相关的工具。ACF的值范围在-1到1之间，其中-1表示完全负相关，1表示完全正相关,0表示无相关。

偏自相关是在控制其他滞后项的影响下，衡量-一个时间序列与其滞后版本之间的相关性。偏自相关函数(Partial AutocorrelationFunction，PACF)用于测量偏自相关。PACF的计算通常基于递归方法，如Yule-Walker方程。

相关分析用于分析两个事物之间的关系情况，在现实分析中，相关分析往往有第三变量的影响或作用，而使得相关系数不能真实地体现其线性相关程度。比如，研究身高与肺活量之间的关系，身高与肺活量都同体重有关系，如果不考虑体重的影响，就会得到身高越高，肺活量越大，这显然是不准确的。

因此，当存在可能会影响两变量之间的相关性的因素时，就需要使用偏相关分析，以得到更加科学的结论。

百度安全验证

- 季节分解:将时间序列分解为长期趋势、季节性和残差三个部分，更好地理解和预测序列数据。

在实际工作中，人们经常按月（或年、季度、小时等）记录资料，如每个月的出生人口数、死亡率、某种疾病的发病率、某产品的销售额等，这些资料可能符合某种季节性分布，但这些数字的大小往往受多种因素的影响，从原始数据中很难看出季节趋势。

季节分解法将时间序列分解成三个组成部分，或称三个变量，即“趋势分量”，“季节分量”和“随机波动”，趋势分量采用多项式拟合，季节分量用傅里叶变换估计，其数学表达式为：Yt=f(Tt,St,It)。式中，Tt代表长期趋势（可以是线性趋势，也可以是周期性波动或长周波动），St是季节因子（幅度和周期固定的波动，日历效应为常见的季节因子），It为随机波动（可视为误差）。

百度安全验证

二、时间序列预测的基本方法
2.1传统的时间序列预测方法
-移动平均(MA)模型:根据时间序列的平均值来进行预测，适用于没有长期趋势和季节性的数据。
-自回归(AR)模型:根据时间序列自身的相关性来进行预测，适用于有长期趋势但没有季节性的数据。
- 自回归滑动平均(ARMA)模型:结合MA和AR模型，适用于同时存在长期趋势和季节性的数据。
- 季节性自回归滑动平均(SARMA) 模型:在ARMA模型的基础上考虑季节性的数据预测。

2.2利用机器学习进行时间序列预测的方法
-支持向量回归(SVR) :基于支持向量机(SVM)的回归算法, 通过寻找支持向量使得回归误差最小化来进行预测。
-随机森林回归(RF) :利用随机森林的决策树集合进行回归分析,通过集成多个决策树的结果来进行预测。
-神经网络(NN) :通过建立多层神经网络模型，利用前馈和反向传播的算法进行时间序列的预测。
-长短期记忆网络(LSTM) : -种基于循环神经网络的深度学习模型，适合处理长期依赖关系的时间序列预测。

三、机器学习在实际时间序列分析中的应用案例
3.1经济领域中的时间序列分析和预测
-股票市场预测:利用机器学习方法对股票市场中的时间序列数据进行分析和预测，帮助投资者做出决策。
-经济增长预测:通过对宏观经济指标的时间序列数据进行预测，为政府和企业提供可靠的经济发展趋势预测。
3.2环境领域中的时间序列分析和预测
-气候变化预测:基于历史气象数据，利用机器学习方法预测未来的气候变化情况，为农业、城市规划等提供决策支持。
空气质量预测:通过对空气质量指标的时间序列数据进行分析和预测，提前采取相应的防护措施以保护大众健康。

根据系统观测得到的时间序列数据，通过曲线拟合和参数估计来建立数学模型，分析其随时间的变化趋势，对预测目标进行外推的定量预测方法。
时间序列预测方法常用在国民经济宏观控制，企业经营管理，市场潜量预测，气象预报等方面。
主要介绍:移动平均、指数平滑。

2.1.1.1.移动平均
根据时间序列资料逐项推移，依次计算包含一定项数的序时平均值，以反映长期变化趋势。适用于短期预测。
移动平均法能有效地消除预测中的随机波动。
不足:
(1) 不能很好地反映出未来趋势;
(2)需要大量的过去数据的记录。
2.1.1.2.指数平滑
用过去数据的加权平均数作为预测值，即第t+1期的预测值等于第t期的实际观察值与第t期预测值的加权平均值。(指数平滑法是加权平均的--种特殊的形式，观察值时间越远，其权数也跟着呈现指数的下降，因而称为指数平滑)
优点:
(1)只需一个最近时期观测值的权数，其他时期数据的权数可自动推算;适用于短期预测。
(2)需要数据量较少，只需前一期的实际观测值及前一期的预测值。

7. 大数据分析AI工具的常用算法美林数据TempodataTempoAI

人工智能的概念始于1956年的达特茅斯会议，由于受到数据、计算力、智能算法等多方面因素的影响，人工智能技术和应用发展经历了多次高潮和低谷。2006年以来，以深度学习为代表的机器学习算法在机器视觉和语音识别等领域取得了极大的成功，识别准确性大幅提升，使人工智能再次受到学术界和产业界的广泛关注。数据、计算力和算法被认为是人工智能发展的三大核心要素，数据是基础，算法是核心，计算力是支撑。因此，要衡量一个大数据分析平台的核心能力，最为关键的一定是其所具备的算法能力。

机器学习平台的核心算法体系，平台内嵌130余种数据分析方法，涉及数据预处理、回归、分类、聚类、关联、时间序列、综合评价、文本分析、推荐、统计图表十大类别。

智能化的自学习算法，平台内置自动择参、自动分类、自动回归、自动聚类、自动时间序列等多种自学习功能，帮助用户自动选择最优算法和参数，一方面降低了用户对算法和参数选择的经验成本，另一方面极大的节省用户的建模时间成本。