问题:

SQL Server 2012引入了两个新分析函数, LEAD() 和 LAG() 。下面介绍一下这两个函数的用法。

解决方案:

这两个函数对一个序列化的数据进行查询,返回同一结果集中的后一行(lead)和前一行(lag)数据,而不用写复杂的自关联(self-join)查询语句(梦魇)~

Lead和Lag函数的语法:

LAG|LEAD (scalar_expression [,offset] [,default])
    OVER ( [ partition_by_clause ] order_by_clause ) 

让我们来在TestDB中创建一张表 Test_table ,并插入一些数据。

CREATE DATABASE [TestDB]

--Create testable to hold some data
CREATE TABLE [dbo].[Test_table](
 [id] [int] IDENTITY(1,1) NOT NULL,
 [Department] [nchar](10) NOT NULL,
 [Code] [int] NOT NULL,
 CONSTRAINT [PK_Test_table] PRIMARY KEY CLUSTERED
(
 [id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON,
ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]
GO
--Insert some test data
insert into Test_table values('A',111)
insert into Test_table values('B',29)
insert into Test_table values('C',258)
insert into Test_table values('D',333)
insert into Test_table values('E',15)
insert into Test_table values('F',449)
insert into Test_table values('G',419)
insert into Test_table values('H',555)
insert into Test_table values('I',524)
insert into Test_table values('J',698)
insert into Test_table values('K',715)
insert into Test_table values('L',799)
insert into Test_table values('M',139)
insert into Test_table values('N',219)
insert into Test_table values('O',869)

表数据就是这样的:

E0NJIEY$GQX`YW$4Q@340M8

写一个查询语句:

SELECT id,department,Code,
LEAD(Code,1) OVER (ORDER BY Code ) LeadValue,
LAG(Code,1) OVER (ORDER BY Code ) LagValue
FROM test_table

image

全面的查询语句示例,前移或后移都是1行(偏移量),也可以根据需要设置其他移动行数,但偏移量必须是正整数!当偏移量超出结果集后,默认会等于NULL空值,也可以指定某个数值来取代。

SELECT id,department,Code,
LEAD(Code,2,0) OVER (ORDER BY Code ) LeadValue,
LAG(Code,3,0) OVER (ORDER BY Code ) LagValue
FFROM test_table

image

使用情景:

在点击流数据仓库ETL过程中,这两个函数非常实用!譬如,了解某个访问者的点击流过程,单一页面的访问时长,以及可能退出页面和退出率统计!而且,这个查询非常快!!!

点击流数据仓库的具体设计和分析模型,这里就暂不展开讨论了。

image

 

问题:

SQL Server 2012的“列存储索引 ColumnStore Index”能显著提升查询性能。在数据仓库中,如何有效利用这一新特性?

解决方案:

数据库中有两种存储类型:行存储 RowStore 和列存储 ColumnStore。

在行存储中,数据行按顺序置放在一页里,而列存储则按列放到页里,多行数据是连续存储的。因此,列存储索引也只能用于列存储模式。图例如下:

image

创建列存储索引:跟创建 NonClustered Index一样,语法如下:

CREATE NONCLUSTERED COLUMNSTORE INDEX ON Table_Name (Column1,Column2,… Column N)

性能测试:使用微软AdventureWorks示例数据库进行性能测试

步骤1:建测试表并创建列存储索引

--Create the Test Table
USE [AdventureWorks2008R2]
GO
SET ANSI_NULLS ON
GO
SET QUOTED_IDENTIFIER ON
GO
CREATE TABLE [dbo].[Test_Person](
 [BusinessEntityID] [int] NOT NULL,
 [PersonType] [nchar](2) NOT NULL,
 [NameStyle] [dbo].[NameStyle] NOT NULL,
 [Title] [nvarchar](8) NULL,
 [FirstName] [dbo].[Name] NOT NULL,
 [MiddleName] [dbo].[Name] NULL,
 [LastName] [dbo].[Name] NOT NULL,
 [Suffix] [nvarchar](10) NULL,
 [EmailPromotion] [int] NOT NULL,
 [AdditionalContactInfo] (CONTENT [Person].[AdditionalContactInfoSchemaCollection]) NULL,
 [Demographics] (CONTENT [Person].[IndividualSurveySchemaCollection]) NULL,
 [rowguid] [uniqueidentifier] ROWGUIDCOL  NOT NULL,
 [ModifiedDate] [datetime] NOT NULL
) ON [PRIMARY] TEXTIMAGE_ON [PRIMARY]
GO
-- We Populated this table with the Data Stored in Table Person.Person.
-- As we need Plenty of data so we ran the loop 100 times.
INSERT INTO [dbo].[Test_Person]
SELECT P1.*
FROM Person.Person P1
GO 100
-- At this point we have 1,997,200 rows in the table.
-- Create Clustered Index  on Coloun [BusinessEntityID]
CREATE CLUSTERED INDEX [CL_Test_Person] ON [dbo].[Test_Person]
( [BusinessEntityID])
GO
-- Creating Non - CLustered Index on 3 Columns
CREATE NONCLUSTERED INDEX [ColumnStore__Test_Person]
ON [dbo].[Test_Person]
([FirstName] , [MiddleName],[LastName])

-- Creating Non - CLustered  ColumnStore Index on 3 Columns
CREATE NONCLUSTERED COLUMNSTORE INDEX [ColumnStore__Test_Person]
ON [dbo].[Test_Person]
([FirstName] , [MiddleName],[LastName])

步骤2:分别执行使用使用索引的SELECT查询:

select [LastName],Count([FirstName]),Count([MiddleName])
from dbo.Test_Person
group by [LastName]
Order by [LastName]
OPTION (IGNORE_NONCLUSTERED_COLUMNSTORE_INDEX)
select [LastName],Count([FirstName]),Count([MiddleName])
from dbo.Test_Person
group by [LastName]
Order by [LastName]

步骤3:在Actual Execution Plans中查看两次查询结果

image

image

使用NonClustered Index的成本是59%;使用ColumnStore Index的成本是13%

image

可以清楚看到,在创建 ColumnStore Index后的查询,比未建立之前,性能提高非常显著,这是因为被查询的列都存放在同一页内,查询不需要检索多个页面来读取这些列。

局限:

目前SQL Server 2012的数据表,如果建立了ColumnStore Index后,不能执行DML(插入、更新、删除)操作!!!这是由于列存储索引会把数据改变为“只读”模式。

对于数据仓库而言,大多数操作都是只读的,这个问题并不大。

要进行DML操作,需要先禁用ColumnStore Index,示例:

ALTER INDEX 'Index Name' on 'table name' DISABLE

在ETL,需对进行列存储索引的表数据进行操作时,最佳实践方案有3种:

  • 先Drop表的列存储索引,然后进行必要的DML操作,然后再重新建立列存储索引;
  • 对表进行分区,然后切换分区;
  • 把静态数据放到一个主表(有列存储索引),然后把新数据放置到具有相同表结构的另外一张新表(不建列存储索引,可进行更新等操作)。查询数据时,对两张表进行分别查询然后把结果集进行 UNION ALL。主表依然可以获得列存储索引带来的性能提升好处。

更详细的介绍:参见微软技术资源库 列存储索引

 

Forrester 2010年的一份报告《Topic Overview: Social CRM Goes Mainstream》,提供的 “扩展的客户关系管理CRM应用生态系统 The Extended CRM Application Ecosystem” 。虽然报告已经比较久远,但框架依然可供参考。

image

 

传统CRM指标

image

社会化CRM聆听平台的指标:

image

 

BI Semantic Model

针对所有终端用户体验的单一模型:报表、分析、积分卡、数据面板和BI用户应用。微软BI全套工具-Excel, PowerPivot, SharePoint Insights 和 Reporting Services,都在此模式下进行操作。

详细内容,有空了再来写。

 

市场智能情报系统架构 Market Intelligence

全球情报联盟(Global Intelligence Alliance, GIA)专家,基于多年研究成果发表的白皮书和实践,提出的一个"世界级MI路线图"中,提供了一个所谓的“市场智能情报 Market Intelligence”的系统架构。

市场智能情报(Market Intelligence, MI)定义:帮助企业理解商业环境,在商业环境中参与竞争并取得成功,其结果是获得增长。

作为一个项目体系,MI收集市场各放的信息,并具有策略性的把相关主题和过程关联在一起,整合后形成市场洞见(insights),来支持决策。从组织层面看,MI典型的处在战略规划、商业拓展或营销之下。

市场情智能报,有时候也会跟商业智能(Business Intelligence, BI)或竞争智能情报(Competitive Intelligence, CI)交替使用。然而,CI典型的跟MI活动类似,大多数情况下,BI更多是指基于电脑技术的处理数字化商业数据。

从架构图中可以看出,MI整合了商业管理中非常重要的两个框架,一个是Michael E. Porter五力竞争模型Kaplan & Norton战略地图模型

MI带来的好处:

image

  • 更好和更快的决策
    • 更好的决策:基于研究的市场洞见,来充分利用机会和消除风险,进行决策
    • 更快的决策:避免意外事件(surprises),在时间急迫的情况下也能有持续稳定的能力来制定有依据的决策
  • 时间和成本节省
    • 时间节省:把决策中消耗在寻找准确信息的时间转移到指定决策过程中去
    • 成本节省:避免购买和处理商业信息中的低效率和冗余
  • 组织学习和创新
    组织里共享理解,集体化创意
    • 组织学习:通过持续获取并刷新智能情报内容,促进共识达成,产生创意
    • 创新制造:让组织通过集体化参与,来识别萌发的相关机会、威胁
 

Google推出“流视觉化 Flow Visualization”功能已经有一段时间了。现在写篇博客来对这一功能做个简单介绍。

在以往,GA报表中只提供了“导航 ”和“进入路径”等简单的报表,功能和实用性都很有限。譬如,在顶级路径报表中,经常会出现几千种不同路径的转化。这对网站分析并无太多裨益。

多渠道路径的根基:节点

所有的“流视觉报表”都是基于节点的。每个节点可以看作是多个页面的组合,或是某项度量指标的分析维度。“流视觉报表”最令人振奋的功能是其智能算法来生成页面组合(节点)。例如,节点会把带有不同查询参数的同一个页面进行自动组合,对于现代几乎都是基于数据库的动态网站来说,就不会产生无穷尽的路径。

image

此外,除了智能算法产生的组合,你也可以自定义自己的节点!!!下面,我做一个简单介绍。

在新的“流视觉报表”报表中,展示了访问者是如何顺着节点往下访问,以及在什么节点上离开访问流(flow,如离开网站)。对于转化分析来说,数据视觉化和视觉化的可操作性是非常重要的。如果你要分析特定问题或场景,你就会想在当前情景下能很容易的对数据进行向下钻取的分析操作。同时,这种数据可视化也支持个人特定目的的分析。

查看“目标流”报表

报表位于GA新版:标准报告 > 转化 > 目标 > 目标流

“目标流”报表对传统点击路径报表进行了耳目一新的革命。以往我们看点击路径,是从一个页面到另一个页面的跳转,现在则是节点与节点直接的点击流转。分析之旅从最左边的节点开始,你还可以选择特定访问细分,轻而易举的对访问流量进行维度细分,这样你就能轻而易举的回答,来自特定营销活动、流量来源、访问地区的用户是如何转化的!!!

蓝色的连接线是节点与节点直接的连接,表示前后两个节点的访问次数。红色的节点则是在转化流中,有多少访问中途离开了。通过这种可视化,让繁复的数据变得非常容易解读,简洁性就是“目标流”最强大最耀眼的特性。

image

譬如,我们可只关注特定流量来源的数据,如“百度”。从“流量来源维度”中选择“流量”,然后点击“Baidu”方块,选择“突出显示途径此处的流量”。这样,即可看到来自该流量来源

image

此外,还可以使用“连接”滑块来调整视图展示,更美观易读。

image

这样,你就能了解网站访客都是来自何处,跟随他们的访问轨迹、跳出/退出率,评估网站的转化绩效和进行关键页面的优化。

image

导航流报表

报表位于GA新版:标准报告 > 受众群体 > 访问者流

任意选择某个节点,你可以看到的前、后节点的访问情况。

image

创建和编辑节点

点击顶部节点的齿轮按钮,可使用正则表达式,或其他基本过滤模式,来把特定页面进行组合成一个节点。

image

譬如,某个跨国公司的网站可能会把来自美国的流量归到“美国”节点上。

image

补充参考资料:

http://support.google.com/analytics/bin/answer.py?hl=zh-Hans&answer=1709397   Google Analytics官网的详细操作说明

 

每个网页有大量的链接,如何了解用户会点击哪些链接,以及这些点击会产生什么样的商业结果?我们可以利用Google Analytics中的“网页内分析”功能来回答这些问题。这里,我介绍一下如何使用“网页内分析”的功能和数据解读。

1. 访问“网页内分析”功能

进入GA报表后台,在左侧导航栏内找到 “内容”- “网页内分析”模块(截图下方红圈处)

image

点击链接,可以看到“网页内分析”的界面,左侧有“内容详情”(含访问量及相关统计信息)- “入站来源”(进入当前页面的访问路径,也就是访问者从哪个页面链接引过来的) – “站外目标网页”(离开当前页面后的访问路径,也就是访问者接下来访问什么页面);网页主体部分内将自动加载嵌入小秘书网站页面,并且页面内的链接上会浮现气泡图和相应统计数据。

image

2. 几个关键指标的说明

  • a) “网页内分析”的默认指标是“点击次数”,但实际上GA并非跟踪鼠标的点击行为,而是根据链接目标页面的网页访问(PV)行为进行统计。这样产生的一个问题就是,该页面内的多个链接可能会指向同一个链接目标页面,这样的话,这些相同链接的指标数值就是一样的(目标页面url一样)。GA针对这种情况做了一些标记:

clip_image005 “首页”存在多个指向链接,气泡图用虚线进行标注;“找餐厅”只有唯一指向连接,则是实线

当我们把鼠标停留在有多个指向链接的气泡图上,该网页内相同指向链接的气泡图也会被黑亮显示。如下图:

clip_image007

  • b) 气泡图内的数据计算:
  • 绝对值指标:

“点击次数”=该链接被访问过多少次;

“收入”=“访问过当前网页该链接的所有访问进程中,曾经购买的现金券的金额数”

“目标      1”=“访问过当前网页该链接的所有访问进程中,有多少次访问进程曾经在网上订餐”

  • 相对值指标:

“点击率”=该链接被访问过的次数 / 当前页面所有链接被访问的次数;

“收入”=“访问过当前网页该链接的所有访问进程中,曾经购买的现金券的金额数” / “访问过当前网页所有链接的所有访问进程中,曾经购买的现金券的金额数”

“目标 1”=“访问过当前网页该链接的所有访问进程中,有多少次访问进程曾经在网上订餐”/ “访问过当前网页所有链接的所有访问进程中,所有访问进程曾经在网上订餐的总次数”

注意:这里的相对值指标,并非是“转化率”的概念,而是某一个链接在该网页所有链接访问指标中所占的比重!

3. 分析举例:

首页Banner幻灯片2指向的链接http://www.xiaomishu.com/square/food/special_5999 ,指标数据如下:

image

我们看到,在统计期内,获得了172次点击(浏览次数),在访问过此链接的所有访问进程中,产生了价值“1800.00”的目标价值(我们预设了每次网上订餐均为一次目标完成,价值100元),以及18次网上订餐和1次兑换礼品。172次的点击,占首页总链接点击数的0.5%,分别各占所有首页访问进程目标1完成和目标价值的0.6%。

从首页进入目标网页http://www.xiaomishu.com/square/food/special_5999 (截图下半部分),我们可以看到访问者在该页面点击过哪些链接,以及从哪些路径访问到该页面(除首页Banner幻灯片广告链接外)

clip_image010

clip_image012

4. 常见问题

  • 某些连接为什么没有数据?

页面中所有的出站链接

Google Analytics默认不会追踪出站链接,所以对于页面中所有指向站外的链接都无法统计到点击次数。此外,指向站内子域名的链接,GA也不会进行统计,譬如www.xiaomishu.com某个网页中指向wedding.xiaomishu.com/ 子站的链接。

页面中包含在JS/Flash中的链接

当页面中的链接包含在JS/Flash中时,Google Analytics无法追踪到这部分点击的数据,同样热力图中也不会包含这些链接的点击次数。

网站内使用了Google Analytics的虚拟页面trackPageView()来跟踪链接,由于虚拟页面会人工改写链接url,GA不能获取原始url信息,所以无法跟网页内的真实链接进行匹配了。

  • 下载,订阅等功能性按钮

下载,订阅,视频播放等非页面浏览行为默认都不会被Google Analytics追踪到。解决的方法同样是使用虚拟页面进行追踪。

链接目标页面中不包含GATC

Google Analytics利用后续页面的PV计算前一页面链接的点击量,所以,如果碰巧后面的页面没有实施GATC,那么Google Analytics也就没有数据用来计算热力图中的链接点击量了。

  • 整页点击量汇总等于100%吗?

是的,整个页面中各个链接的点击量占比加在一起是等于100%的。

 

Forrester 7月份的一份研究报告 The DMP Is The Audience Intelligence Engine For Interactive Marketers ,提出了一个 “数据管理平台 Data Management Platform (DMP)”的针对于线上互动营销和客户细分的商业智能Business Intelligence 解决方案概念。我从这份报告中摘选部分翻译,供了解、学习和探讨一下。

客户细分一向是传统营销的核心根基。在离线世界中,客户细分已经得到无数营销者的认可并实践。
而线上互动营销的领域,正在浮现出来的“数据管理平台 Data Management Platform (DMP)”,则为营销者提供了一个相较传统营销更为有效的客户细分或基于受众营销的机遇。营销者挣扎于支离破碎的信息片段,数据资产未被充分利用,并渴望获得更多受众的真知灼见,这就有必要针对类似“聚合知识或Turn”这样的DMP进行投入了。但要做好准备,这可是一个时间-劳动力密集的过程,需要营销、IT、法务e客户关系管理(CRM)或者分析部门的参与。

营销者总是依赖于客户/受众细分

传统大型企业,会使用诸如Acxiom和Marketing Solutions等公司管理的客户数据库来进行丰富的客户细分,开展营销。对于严重依赖于如直邮渠道等的直复式营销者来说,客户细分方案是很容易实施的;科学的测试和优化也是必备的。尽管客户细分对于品牌营销者来说是很普遍的实践行为,但他们针对客户细分进行营销的能力却是收到限制的,因为他们严重的依赖于大规模媒体工具,如印刷媒体或电视。无论是高度精准定位的直复邮件还是精心策划的品牌推广信息,进行客户细分的好处是显而易见的。客户细分能帮助营销者:

  1. 提供信息,来更好的进行定位和优化营销活动
  2. 提高客户管理方法和流程
  3. 驱动跨客户生命周期的洞见,从客户获取到关系维系

在数字世界,基于细分的受众定位机会可以说不要太多,但也存在缺陷:

  • 数据支离破碎(Data Fragementation)
    互动营销者拥有大把的受众定位数据选择,但从中进行挑选来针对特定受众群体获得最大化曝光度,这种选择过程是容易让人迷惑且令人畏惧的,更不要说需要花大量的时间来管理不同的数据。Moxie Interactive 媒体总监就说:我们有好几吨的数据,但没有好的方法来利用这些数据。这些数据来自五花八门。
  • 使用第一方数据的机会受限制   比较令人惊诧的是,互动营销者在把强健而有价值的离线数据库搬到网上使用时,会面临一个严峻的问题:法律限制和内部组织孤井壁垒(internal organizational silos)。由于担心数据泄露,数据管理和应用权的丧失,会阻碍离线和线上数据精准营销中的使用。
  • 有限的受众见解  互动营销者渴望获取和了解对那些看到和回应数字化营销活动的受众群的洞见。但这些数据很难进行挖掘。

而DMP框架则是考虑用一个统一的方式来进行基于细分的营销。这种威力来自集中化的系统,收集散落的受众洞悉,通过让数据易于获取,并且整合不同的数据集合,来创建出独一无二、有意义的客户细分,在整个数字化渠道中,如展示广告、网站和邮件,采取有效和俯览式的客户细分,进行有效营销活动。

Forrester对DMP的定义是:

把分散的第一、第二和第三方数据进行整合纳入的一种统一的技术平台,对这些数据进行标准化和细分,让用户可以把这些细分结果推向现有的互动渠道环境里。

DMP的核心元素:

  • 数据纳入和聚合 采取统一化(并且逐步程序化)的方式,具备从第一、第二和第三方的在线和离线来源,把数据进行吸收和整合的能力。
  • 客户细分建造和利用:让营销者可以灵活合并数据源来构建自定义受众群的功能。
  • 无所不包的容器标签:无所不包的标签解决方案,提供了包含一致化和精确数据收集的好处,提供标签灵活性,降低组织的摩擦。
  • 自助式的用户界面:基于网页web界面的直接获取数据工具,功能和几种式报表和分析。笔者注:貌似基于网页web界面,也并非必要,微软的MS SQL Server BI解决方案提供的PowerPivot工具跟Office Excel与Analysis Services的集成方案,远比web界面更灵活,甚至更强大,对大部分商业用户来说,也更熟悉Excel的操作界面。
  • 相关渠道环境的连接:跟相关渠道的集成,包含网站端,展示今天的广告和电子邮件,以及接下来的搜索和视频,让营销者能找到、定位和提供细分群体提供相关度高的营销信息。
    笔者注:“搜索”需要在下一步进行吗?用免费的Google Analytics网站分析工具,就能够进行到客户转化与访问来源、媒介和关键字了喏。

下面是DMP的框架图

 

 

数据管理平台 Data Management Platform

 

Aggregate Knowledge and BlueKai 提供的报告样例

image

 

案例:“大众点评网”使用的“微数据Microdata”,应用于站内连接、面包屑、餐厅点评和地址等信息,从而在搜索引擎结果展示页面上提供更用户友好的信息展示,从而提高搜索转化率。

clip_image002

clip_image004

 

从上面的截图可以看到,“大众点评网”在Google的搜索结果页,具有良好的结构化呈现,并且信息丰富,满足搜索用户的多样化需要,从而提供了极佳的体验,对搜索结果展示转化成点击量,具有非常重要的提升作用。“大众点评网”是如何做到的呢?我碰到的一些所谓SEO业内人士(譬如预定酒店机票“X程”内部SEO经理)竟然说这是因为“大众点评网”跟Google的关系很好,所以有所优待……真能扯淡啊!

随便找一个“大众点评网”的搜索着陆页看看里面的html代码吧。

 

clip_image006

代码内标黄的部分,即可看出不同之处,是一个item申明标签还有一个链接 http://data-vocabulary.org/ ,其实这就是富文本摘要(Rich Snippets)的一种规范,还有几种可选规范(microdata, microformats, and RDFa)。可参考Google支持中心的介绍 http://www.google.com/support/webmasters/bin/answer.py?&answer=185417

注:有多种实施方案可选, 我个人推荐使用RDFa,相对语法更简洁明了。

针对一般的电子商务/订餐网站,可考虑部署内容:

  1. 面包屑
  2. 线下实体店/餐厅简介(本地化商业搜索)
  3. 产品/餐厅评论
  4. 菜谱

这只需要一个小的技术改造即可实现。当然,网站的产品或评论页面添加富文本摘要之后,也不会马上就在Google搜索结果页面展示,国外一些同行称需要1个月的时间才能更新上去。此外,Google似乎也会对这些富文本摘要进行比较严格的审核,不符合规范的话,也不能被展示。

 

上周四Google宣布将对Google Analytics中的访问次数/访问进程(visit/ session)的定义进行改变 – 官方原文http://analytics.blogspot.com/2011/08/update-to-sessions-in-google-analytics.html。最关键的变化在于,新的定义中,无论何时,访问者从不同的来源重新访问网站,都会计算为一次访问。此前,只有访问者在30分钟没有网站访问动作后,才会计算成为一次新的访问。第二个变化是,浏览器关闭不会结束一次访问进程。

Google认为,这次改变影响不会很大,大部分GA用户只会看到大约1%左右的变化。然而,有一些却反映有超过10%的变化幅度。对GA数据来说,影响最明显的是比率指标,譬如转化率,弹出率和网站平均访问时长。

哪些指标会受到影响?

首先可以确定的是,绝对会受影响的指标是访问次数(visits)。对“唯一访问者 UV”、网页访问数量PV、转化率、网站停留时间等,应该是没有影响的。

随着访问次数(visits)增长,那些以访问次数为分母的比率指标都会下降,譬如每次访问的页面浏览数,转化率和网站平均停留时长。

对跳出率(bounce rate)来说,则有些特殊。如果访问者通过某个访问来源来到网站并点击了某个页面,然后她又跳到别的访问来源,譬如用搜索引擎重新进行搜索,在结果页面点击某个结果链接又回到了之前的网站,那GA就会针对第一个访问来源计算一次跳出。这样,对一些网站来说,跳出率就可能会增长。

另一个会受特别影响的指标是 %新访问者 。访问者重新进入网站,产生第二次访问,会被认为是 回访者(Return Visit)。因此 %新访问者 这个指标会下降。

对我的网站指标会造成哪些的影响?

新的定义会根据网站的不同类型而呈现不同程度的影响。这取决于访问者是否会通过多个访问来源来重新进入网站。有些网站可能并不会受影响。而某些是用Google提供的内部搜索服务或第三方聚合网站,则会受很大的影响,因为访问者使用这些功能时,总是被认为是重新进入网站。

具体的影响程度,可能需要一段时间的观察来进行判断。

Google Analytics的数据是否还可靠?

一个关键的问题是,定义的变化是否会影响我们对网站或商业绩效的理解,是否会影响我们用GA数据来改进绩效?从长期角度来看,一点儿也不会。

无论访问次数的定义是否精确,以往和现在的数据是否正确,都取决于所处时期的定义。现在的数据可能跟上几周不能直接进行比较,但过几周后,就不是问题了。毕竟,我们在评估绩效时,更多的是看当下的数据,这一变化并不会营销我们对绩效的理解。

某些人可能会面临的当前困境是,他们刚好前几天刚发起一场营销活动或推出网站新功能。那这些人就可能有点儿运气不太好,不过抗一抗也就过去了。

值得探讨的是,从这个指标的两种定义来看,我们是否能从中更好地理解商业绩效呢?

如何检查数据变化?

定义发生变化的时间是8月11号,但被影响数据的时间可能会根据不同时区而有所不同。建议:从每日的关键指标从抓取一些数据出来,然后比较它们的变化。如果你看到数据发生了变化,那这个数据会在11号或12号左右出现较大的变化,然后逐渐平缓下来。

Change-from-GA-definition2

为什么Google要这么做呢?

可能Google想要让网站分析的数据更容易理解一些吧,尤其是针对线上营销者。现在,访问次数的定义更简单,每次某人进入网站,就是一次访问。Google公告也说了,希望能把不同渠道漏斗的数据进行对齐一致,这可能是一个关键的决策因素。

还有一个原因,可能是Google Analytics与AdWords在访问次数上定义的差异:访问者可能多次点击您的广告。如果一个人在同一会话中多次点击一个广告,AdWords 会记录多次点击,而 Analytics(分析)会将单独的综合浏览识别为一次访问。这是访问者在进行比较购物过程中的常见行为。(http://www.google.com/support/analytics/bin/answer.py?answer=57164

© 2012 V的博客 Suffusion theme by Sayontan Sinha