教育行业A股IPO第一股(股票代码 003032)

全国咨询/投诉热线:400-618-4000

大数据培训:设计数据仓库

更新时间:2023年11月17日16时38分 来源:传智教育 浏览次数:

好口碑IT培训

  针对网站流量日志分析系统项目,可以将数据仓库设计为星状模式,使用一张事实表ods_weblog_origin(俗称窄表)来存储由MapReduce清洗之后的数据,表结构如表11-2所示。

  表11-2 ods_weblog_origin

  从表11-3可以看出,上述字段即为MapReduce初步预处理后的数据字段。ods_weblog_origin表名前缀ods(Operational Data Store)是指操作型数据存储,作用是为使用者提供当前数据状态,且具有及时性、操作性和集成性的全体数据信息。

  ods_weblog_origin表是指对应原始数据的表,字段与数据产生映射,虽然该表记录了全部数据,但是并不利于数据分析,为了细化分析数据,通常会把窄表中融合各种信息的数据进行分隔,提取出新字段,将窄表分解为宽表,信息更加详细,如将ods_weblog_origin表中time_local字段拆分为dw_weblog_detail(俗称宽表),表结构如表11-3所示。

  从表11-3可以看出,dw_weblog_detail表将数据进一步细分,方便后期进行数据分析。表名前缀dw(data warehouse)即数据仓库,它是面向主题的,反映历史数据变化,用于支撑管理决策的事实表。

  完成事实表设计后,结合实际业务需求设计维度表,如本章案例主要讲解日均PV量(page visits,页面浏览量),因此,对应设计的维度表如表11-4所示。

  表11-3 dw_weblog_detail

  表11-4 t_avgpv_num

  表11-4结构简单,这里只设计了日期和平均PV值两个字段,读者也可以自行设计相关业务,如根据IP分析所在的地域制定访客地域维度,根据客户终端标识制定访客终端维度等多角度进行数据分析。

0 分享到:
和我们在线交谈!