更新时间:2023年11月17日16时38分 来源:传智教育 浏览次数:
针对网站流量日志分析系统项目,可以将数据仓库设计为星状模式,使用一张事实表ods_weblog_origin(俗称窄表)来存储由MapReduce清洗之后的数据,表结构如表11-2所示。
表11-2 ods_weblog_origin
从表11-3可以看出,上述字段即为MapReduce初步预处理后的数据字段。ods_weblog_origin表名前缀ods(Operational Data Store)是指操作型数据存储,作用是为使用者提供当前数据状态,且具有及时性、操作性和集成性的全体数据信息。
ods_weblog_origin表是指对应原始数据的表,字段与数据产生映射,虽然该表记录了全部数据,但是并不利于数据分析,为了细化分析数据,通常会把窄表中融合各种信息的数据进行分隔,提取出新字段,将窄表分解为宽表,信息更加详细,如将ods_weblog_origin表中time_local字段拆分为dw_weblog_detail(俗称宽表),表结构如表11-3所示。
从表11-3可以看出,dw_weblog_detail表将数据进一步细分,方便后期进行数据分析。表名前缀dw(data warehouse)即数据仓库,它是面向主题的,反映历史数据变化,用于支撑管理决策的事实表。
完成事实表设计后,结合实际业务需求设计维度表,如本章案例主要讲解日均PV量(page visits,页面浏览量),因此,对应设计的维度表如表11-4所示。
表11-3 dw_weblog_detail
表11-4 t_avgpv_num
表11-4结构简单,这里只设计了日期和平均PV值两个字段,读者也可以自行设计相关业务,如根据IP分析所在的地域制定访客地域维度,根据客户终端标识制定访客终端维度等多角度进行数据分析。