• 0
  • 0
分享
  • 学习大数据需要具备的数学基础——软件测试圈
  • 北极 2021-12-22 14:41:43 字数 1163 阅读 815 收藏 0

提到大数据,很多人首先联想到的是每天要和一堆数据相处,数学必须要很好,当然,大数据的学习确实需要一定的数学基础,但是也有一定的侧重点。

大数据有很多细分方向,如大数据开发、大数据分析、大数据挖掘、大数据运维等,不同方向对数学的要求是不同的,但是如果想更好的学习大数据,还是需要有一定的数学基础。

1. 概率论与数理统计

这部分与大数据技术开发的关系非常密切,条件概率、独立性等基本概念、随机变量及其分布、多维随机变量及其分布、方差分析及回归分析、随机过程(特别是Markov)、参数估计、Bayes理论等在大数据建模、挖掘中就很重要。大数据具有天然的高维特征,在高维空间中进行数据模型的设计分析就需要一定的多维随机变量及其分布方面的基础。Bayes定理更是分类器构建的基础之一。除了这些这些基础知识外,条件随机场CRF、隐Markov模型、n-gram等在大数据分析中可用于对词汇、文本的分析,可以用于构建预测分类模型。

当然以概率论为基础的信息论在大数据分析中也有一定作用,比如信息增益、互信息等用于特征分析的方法都是信息论里面的概念。

2. 线性代数

这部分的数学知识与大数据技术开发的关系也很密切,矩阵、转置、秩 分块矩阵、向量、正交矩阵、向量空间、特征值与特征向量等在大数据建模、分析中也是常用的技术手段。

在互联网大数据中,许多应用场景的分析对象都可以抽象成为矩阵表示,大量Web页面及其关系、微博用户及其关系、文本集中文本与词汇的关系等等都可以用矩阵表示。比如对于Web页面及其关系用矩阵表示时,矩阵元素就代表了页面a与另一个页面b的关系,这种关系可以是指向关系,1表示a和b之间有超链接,0表示a,b之间没有超链接。著名的PageRank算法就是基于这种矩阵进行页面重要性的量化,并证明其收敛性。

以矩阵为基础的各种运算,如矩阵分解则是分析对象特征提取的途径,因为矩阵代表了某种变换或映射,因此分解后得到的矩阵就代表了分析对象在新空间中的一些新特征。所以,奇异值分解SVD、PCA、NMF、MF等在大数据分析中的应用是很广泛的。

3. 最优化方法

模型学习训练是很多分析挖掘模型用于求解参数的途径,基本问题是:给定一个函数f:A→R,寻找一个元素a0∈A,使得对于所有A中的a,f(a0)≤f(a)(最小化);或者f(a0)≥f(a)(最大化)。优化方法取决于函数的形式,从目前看,最优化方法通常是基于微分、导数的方法,例如梯度下降、爬山法、最小二乘法、共轭分布法等。

4. 离散数学

离散数学的重要性就不言而喻了,它是所有计算机科学分支的基础,自然也是大数据技术的重要基础。

大数据正在悄然改变我们的世界,搜索引擎、交通出行、金融分析、医疗健康、娱乐消费、数据挖掘等领域,无处不在,因此,现在选择选择学习大数据正当时!


文章来源:百度文库

  • 【留下美好印记】
    赞赏支持
登录 后发表评论
+ 关注

热门文章

    最新讲堂

      • 推荐阅读
      • 换一换
          •   根据我的观察,优秀的测试人员可以做的事情可以包括如下3点:  ·由单纯的测试变成项目质量保证工作  · 持续集成探索和推动和自动化测试技术研究  · 测试相关工具的开发  1、我们先来讲第一点,由单纯的测试变成项目质量保证工作  测试,从狭义的角度来讲,包括如下这些环节:  测试计划和测试用例编写-测试执行-质量报告书写  测试人员一般会在开发阶段就进行测试计划和测试用例的编写和准备工作;在测试阶段,我们一般先会做功能测试,等项目功能基本稳定,bug较少了,就开始做兼容性测试、性能测试、安全性测试。兼容性测试保证了产品在多浏览器、APP在产品在不同机型下的兼容性;性能测试保证了产品在海量用...
            0 0 913
            分享
          •   通常,软件测试的测试方式分为人工测试和自动化测试,人工测试是由测试人员编写并执行测试用例,然后观察测试结果与预期结果是否一致的过程;自动化测试是通过测试工具来代替或辅助人工去验证系统功能是否有问题的过程。  采用自动化测试需要满足以下3个条件。  (1)项目需求变动不频繁  测试脚本的稳定性决定了自动化测试的维护成本。如果项目需求变动过于频繁,测试人员需要根据变动的需求来更新测试用例以及相关的测试脚本,然后不断地对测试脚本代码进行修改和调试,有时候还需要花费很多时间对自动化测试的框架进行修改。  (2)项目进度压力不大且时间不紧迫  在动化测试过程中,测试工具需要多次对项目进行测试后才能有...
            0 0 986
            分享
          •   应用场景:Allure Report报表以收集测试运行信息翔实、分类完整、显示美观受到了很多自动化测试朋友的青睐。有些企业可能没有完全集成到CICD上,也有的企业用的是Python, 这就要求我们测试人员要能灵活地根据实际状况配置Allure Report。今天介绍一下如何与pytest 结合快速生成一份报告在测试本机,期望能够为正在烦恼的自动化测试朋友提供一份帮助。(如果想配置Allure Report 在Jenkins, 您可以下载 Allure Plugin)  温馨提示:如果阅读者想按示例进行操作,您一定要具备以下的配置。   ·自动化框架: Selenium&...
            1 1 1362
            分享
          •   就在我们等待英国竞争和市场管理局对微软以 690 亿美元收购动视暴雪的计划发出"同意/不同意"的信号时,一份新的报告称,微软最近对收购计划的修改将不必再经过欧盟的一系列调查。  欧盟监管机构--欧盟委员会早在今年 5 月就批准了微软收购动视暴雪的计划。然而,英国 CMA 于 4 月否决了同一计划,声称这会给微软在云游戏市场带来反竞争优势。  此后,微软向 CMA 提交了一份新计划。微软承诺让育碧通过云流媒体提供当前和未来的动视暴雪游戏。中国软件行业协会已临时批准了这一计划,预计将在 10 月 18 日之前给予最终批准。  有人猜测,由于微软计划的改变,欧盟可能会下令对该...
            0 0 1019
            分享
          •   作为一名开发人员,你可能会发现周围的开发并不太喜欢写测试用例,甚至有些同学根本不写测试用例,认为写测试用例完全是浪费时间,或者是测试用例只是测试的事情。  在开发过程中,往往都是呼啦啦的写完代码,然后用 Postman 或者 Httpclient 等接口工具请求下接口,看着没问题就提测,然后等测试人员反馈问题。  这大概和职业以及所处的环境又关系,有些是公司没有相关的要求,有些是注重敏捷开发(项目和自己总有一个敏捷),不过群里有些同学问测试用例的事情,而我前段时间正好在写测试用例,所以做了一些笔记,在这里和大家分享一下。  以下内容都是自己粗鄙的理解,不对的地方,请指出。  为什么要写测试...
            0 0 781
            分享
      • 51testing软件测试圈微信