什么是机器学习
机器学习是人工智能的一个分支。 从关注“推理”到关注“知识”再关注“学习”,人工智能的研究是自然而清晰的脉络。 机器学习是实现人工智能的一种方式,即使用机器学习作为解决人工智能问题的手段。 机器学习算法是一类算法,可自动分析数据以获得定律(模型)并使用定律预测未知数据
为什么需要机器学习
在21世纪,机器学习再次引起了人们的关注,而在这些担忧背后的是整个环境的变化,我们的数据量不断增加,硬件越来越强大。 迫切需要解放人们的生产力并自动查找数据定律。 解决更多专业领域的问题。 机器学习已广泛用于数据挖掘,计算机视觉,自然语言处理,生物识别,搜索引擎,医学诊断,信用卡欺诈检测,股票市场分析,DNA序列测序,语音和手写识别,战略游戏和机器人技术。
机器学习思维导图
开发机器学习应用程序的步骤
(1)收集数据
我们可以使用许多方法来收集样本防护装备,例如:使Web爬网程序从网站中提取数据,从RSS反馈或API中获取信息,以及设备发送的测量数据。
(2)准备输入数据
获取数据后,还必须确保数据格式符合要求。
(3)输入数据分析
此步骤的主要作用是确保数据集中没有垃圾数据。 如果您使用的是受信任的数据源,则可以直接跳过此步骤
(4)训练算法
机器学习算法实际上是从这一步骤开始学习的。 如果使用无监督学习算法,则由于没有目标变量值,因此无需训练该算法。 与算法有关的所有内容均在步骤(5)中
(5)测试算法
该步骤实际上将使用在步骤(4)中通过机器学习获得的知识信息。 当然,您还需要在此处评估结果的准确性,然后根据需要重新训练算法
(6)使用算法
转换为应用程序以执行实际任务。 验证以上步骤在实际环境中是否可以正常工作。 如果遇到新的数据问题,还需要重复上述步骤
环境准备
我们本次机器学习的课程使用的python程序库:
Numpy、Scikit-learn
在ubuntu或者mac操作系统中,在虚拟环境中安装:
pip3 install Numpy
pip3 install Scikit-learn
Numpy是一个强大的高级数学运算的工具库,还具备非常搞笑的向量和矩阵运算功能。Scikit-learn是一个基于python的机器学习库,封装了大量经典以及最新的机器学习模型。
我们应该怎么做
互联网公司机器学习工作、数据挖掘工程师们工作内容是什么?
研究各种算法,设计高大上模型?
深度学习的应用,N层神经网络?
…
大部分复杂模型的算法精进都是数据科学家在做
大多数程序员
跑数据,各种map-reduce,hive SQL,数据仓库搬砖
数据清洗,数据清洗,数据清洗
分析业务,分析case,找特征
常用算法跑模型
机器学习思维导图