加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

零基础学习大数据挖掘的33个知识点整理

发布时间:2018-09-22 10:52:48 所属栏目:教程 来源:佚名
导读:副标题#e# 9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维! 下面是一些关于大数据挖掘的知识点,笔者和大家一起来学习一下。 1. 数据、信息和知识是广义数据表现的不同形式。 2. 主要知识模式类型有:广义知识,关联知识,类知

30. 改善Apriori算法适应性和效率的主要的改进方法有:

  • 基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。
  • 基于散列(Hash)的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。
  • 基于采样(Sampling)的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。
  • 其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。

31. 数据分类的两个步骤是什么?

a建立一个模型,描述预定的数据类集或概念集

数据元组也称作样本、实例或对象。

为建立模型而被分析的数据元组形成训练数据集。

训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习。

通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。

b使用模型进行分类

首先评估模型(分类法)的预测准确率。

如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。

32. web访问信息挖掘的特点:

  • Web访问数据容量大、分布广、内涵丰富和形态多样
  • 一个中等大小的网站每天可以记载几兆的用户访问信息。
  • 广泛分布于世界各处。
  • 访问信息形态多样。
  • 访问信息具有丰富的内涵。
  • Web访问数据包含决策可用的信息
  • 每个用户的访问特点可以被用来识别该用户和网站访问的特性。
  • 同一类用户的访问,代表同一类用户的个性。
  • 一段时期的访问数据代表了群体用户的行为和群体用户的共性。
  • Web访问信息数据是网站的设计者和访问者进行沟通的桥梁。
  • Web访问信息数据是开展数据挖掘研究的良好的对象。
  • Web访问信息挖掘对象的特点
  • 访问事务的元素是Web页面,事务元素之间存在着丰富的结构信息。
  • 访问事务的元素代表的是每个访问者的顺序关系,事务元素之间存在着丰富的顺序信息。
  • 每个页面的内容可以被抽象出不同的概念,访问顺序和访问量部分决定概念。
  • 用户对页面存在不同的访问时长,访问长代表了用户的访问兴趣。

33. web页面内文本信息的挖掘:

挖掘的目标是对页面进行摘要和分类。

  • 页面摘要:对每一个页面应用传统的文本摘要方法可以得到相应的摘要信息。
  • 页面分类:分类器输入的是一个Web页面集(训练集),再根据页面文本信息内容进行监督学习,然后就可以把学成的分类器用于分类每一个新输入的页面。

{在文本学习中常用的方法是TFIDF向量表示法,它是一种文档的词集(Bag-of-Words)表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。这种构造二维表的方法是:

  • 每一列为一个词,列集(特征集)为辞典中的所有有区分价值的词,所以整个列集可能有几十万列之多。
  • 每一行存储一个页面内词的信息,这时,该页面中的所有词对应到列集(特征集)上。列集中的每一个列(词),如果在该页面中不出现,则其值为0;如果出现k次,那么其值就为k;页面中的词如果不出现在列集上,可以被放弃。这种方法可以表征出页面中词的频度。

对中文页面来说,还需先分词然后再进行以上两步处理。

这样构造的二维表表示的是Web页面集合的词的统计信息,最终就可以采用Naive Bayesian方法或k-Nearest Neighbor等方法进行分类挖掘。

【编辑推荐】

  1. 大数据挖掘机器学习人工智能的维恩图战争
  2. 一篇文章让你知道什么是大数据挖掘技术
  3. 人工智能、机器学习、数据挖掘以及数据分析有什么联系?
  4. 如何用Python进行大数据挖掘和分析?快速入门路径图!
  5. 大数据与数据挖掘的相对绝对关系
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读