【智易百科】用最简练直白的语言带你了解机器学习

我们每个人每天都在生产着数不清的各种数据,图片、音视频、各种图表、代码等等,这些都是数据,它们不断飞速增长,丝毫没有停下来的迹象。

而机器学习让这一切数据有了重要意义。

英国未来学家Arthur.C.Clarke曾有一句名言:“任何足够先进的科技与魔术别无二致。”

但机器学习并不是要成为魔术,它是一种工具和技术,我们可以用它来结合数据回答问题。它是计算机科学家们想让计算机像人一样思考,进而研发出来的一种用数据或以往的经验来优化计算机程序的技术。

生活中,机器学习其实早就已经环绕在你身边了。当你在搜索引擎搜索的时候,机器学习来帮助搜索引擎判断哪个结果更适合你(也在判断哪个广告更适合你);当你在下班路上打开网易云音乐的FM,立马跳出一首你第一次听但你却很喜欢的歌曲,因为这是网易云音乐通过学习你平时听歌习惯所推荐的歌。

以前让计算机去做什么事情的唯一方法就是输入命令告诉计算机如何实现。但机器学习算法并不是这样,它们会自己找到答案。换句话说,在机器学习中,并不是我们给机器编程,而是机器自己给自己编程。

现如今,各种各样的企业都可以被AI所赋能,金融、零售、互联网、教育......任何行业都可以实现「AI+行业」,但许多行业目前正面临着AI人才和技术两大门槛的挑战。

智易科技通过自身独创的一站式AI研发与应用云服务平台,帮助企业更加简单便捷地进行AI应用的开发与部署,低成本拥有人工智能,从而获得更大的商业价值。

机器学习不仅仅只有一种方法,实现它的方法多种多样,这里所说的方法,在程序语言中,我们叫做算法。目前所有机器学习的算法,大概可以被分为以下几类。

监督学习

如果在学习的过程中,我们不断向计算机提供数据和这些数据所对应的值。例如给计算机看吉他和尤克里里的图片,并告诉计算机哪些图片里的是吉他,哪些图片里的是尤克里里,然后再让他们学习去分辨从未见过的吉他和尤克里里。

通过这些指引的方式,让计算机学习我们是如何把这些图片数据对应上图片所代表的物体,也就是让计算机学习这些标签可以代表哪些图片。这种方式叫做监督学习。

在零售行业,零售商能够通过消费者的一系列行为,了解消费者的购买偏好。机器学习这些消费者的购买数据之后,可以为零售商提供销量预测及消费者最可能购买的商品的最佳建议,从而优化供应链,实现0库存,获取更大的利润。

无监督学习

如果同样在这种学习过程中,只提供给计算机吉他和尤克里里的照片,而并没有告诉他哪些是吉他,哪些是尤克里里,取而代之的是,我让它自己去判断和分类。让他总结出这两种类型图片的不同之处,这就是一种无监督学习。

在这种学习中,我们可以不用提供数据所对应的标签信息。计算机通过观察各种数据之间的特性,会发现这些特征背后的规律,例如尤克里里只有四根弦,而吉他拥有六根弦。这些规律也就是通过无监督学习的方法所学到的东西。

半监督学习

还有一种方法综合了监督学习和无监督学习的特征,它主要考虑如何利用少量有标签的样本和大量没有标签的样本进行训练和分类。

强化学习

如果把计算机丢到一个对于他完全陌生的环境或者让他完成一项从未接触过的任务,他自己会去尝试各种的手段,最后让自己去成功适应这样一个陌生的环境,或者学会完成这件任务的方法途径,这就叫强化学习。

比如说我想训练机器人打台球,我只需要告诉它基本规则,让他自己去尝试各种各样的击球方法。在开始阶段,他的命中率可能会非常低,不过他会像人类一样,自己总结失败或成功的经验,最后成为一个超强的“台球选手”。(PS:Google DeepMind开发的AlphaGo中也应用了强化学习。)

在拥有海量数据的某些行业(如金融行业),除了那些强相关的数据,我们也会去使用很多的弱相关的数据来帮助做决策。这种弱相关数据来源多样化,有些来自用户的行为数据,有些来自用户的浏览记录... 他们之间存在的非线性关系使得风险评估变得非常复杂。而这些条件使得深度学习模型在风险评估上拥有独一无二的优势。

除了风险评估外,在反欺诈、舆情分析、高频交易上深度学习也能发挥很好的作用。

这里只是高度概括了一下机器学习的定义及其主要的几个分类,机器学习是一个非常广泛的领域,涉及从数据中推断答案所用的全部技术。数据是推动机器学习发展的基石,而机器学习是打开数据隐含意义的钥匙。