雪花
本指南描述了如何将MixPanel数据导出到一个雪花数据集。创建管道将Mixpanel数据导出到雪花上。一旦安排出口工作,Mixpanel将以反复出现的方式将数据导出到雪花。
设计
Mixpanel将数据导出到自己的雪花帐户中,并使您的雪花帐户访问读取数据。结果,您将需要一个雪花帐户才能使用导出的数据。有关如何使用共享数据的更多信息,请参见在雪花中共享数据。
对于雪花导出,我们首先将数据加载到单列原始(变体类型)数据表中。这些数据将是一个转换版本存储在Mixpanel中的原始数据。然后,我们创建一个视图,以将所有属性视为列。视图名称是事件名称的已清洁版本,原始表名称始终为“视图名称”。_生的
。例如,对于报名
活动,您将有一个signup_raw
桌子和报名
看法。请参见模式有关示意图的导出管道中有关模式的一般信息。
分区
原始表中的数据基于时间
专栏但在项目的时区中。准确地说,我们使用cluster by(to_date(convert_timezone('utc','
在哪里时区
是Mixpanel项目的时区。
查询
Mixpanel建议您将所有活动放入单个表中,以使查询更容易。要获取有关表格模式的更多信息,请参阅模式。
查询是数据结果的请求。您可以在数据上执行操作,例如从不同表中的数据组合数据;添加,更改或删除表数据;并执行计算。
雪花支持可以存储JSON对象和数组的变体类型。MixPanel作为视图中的变体列将数组和对象顶级属性公开。
这是一个示例,说明如何在所有事件中使用一个表时如何查询原始表:
从mixpanel.mp_master_event_raw中选择计数(*),其中数据:mp_event_name :: string =“ imply”;
这是一个示例,说明如何在所有事件中使用一个表时查询视图:
从mixpanel.mp_master_event中选择计数(*),其中mp_event_name =“ is imigup”;
这是一个示例,说明如何在使用多个表进行事件时查询原始表:
从mixpanel.signup_raw中选择计数(*),其中数据:dimption_id :: string =“ 1”;
这是一个示例,说明在为事件使用多个表时如何查询视图:
从mixpanel.signup中选择计数(*),其中dimption_id =“ 1”;
每天获得活动数量
如果您怀疑导出过程没有导出所需的所有事件,则需要此。由于表中的时间列在UTC时区中,因此您首先需要将其转换为Mixpanel Project TimeZone,然后每天获取活动数量。以下查询将为您做到这一点。
选择to_date(convert_timezone('utc','',time))为ttime,从“ ”中计数(*)。03')和ttime <= to_date('2021-12-07')组由ttime组
此示例将返回项目时区中每天的事件数量,以进行单检查管道和示例。Project_TimeZone
和db_name
应由您的Mixpnael Project TigeZone和Snowflake数据库名称代替。您可以通过将正确的表名称放在查询中调整MultiSchema的查询。
查询身份映射表
使用ID映射表时,您应该使用解决独特的_id
代替未解决的独特的_id
每当在场。如果没有解决独特的_id
,然后可以使用独特的_id
从现有的人或事件表中。
以下是一个示例SQL查询,该查询将ID映射表引用到旧金山每个唯一用户的特定日期范围内的事件数量
选择案例,当m.Resolved_distinct_id不为null时,M.Resolved_distinct_id当m.Resolved_distinct_id null为null时,则e.distinct_id end as asolved_distinct_id,将(*)计数(*)从“ ”中计数为count(*)加入“ ”。“ public”。“ mp_identity_mappings_data” m on e.distinct_id = m.distinct_id = m.distinct_id and mp_city =“ sanfrancisco”和to_date(convert_timezone('utc'> = to_date(“ 2020-04-01”)和to_date(convert_timezone('utc','',e.time))<= to_date(“ 2020-04-03”)组由resolved_distinct_id limit 100
通过在事件属性上添加更多过滤器,还可以计算用户完成特定行为的次数。您可以通过将正确的表名称放在查询中调整MultiSchema的查询。
更新 10个月前