# 新建特征转换

注:

  • 场景配置:主要用于 extractor 内部隔离,同场景内特征名称需保持唯一,跨场景允许同名。可到场景关联页面自定义场景配置名称

# 添加特征

按上图所以,添加特征,定义抽取规则

# 特征抽取规则:

目前支持以下几种抽取算子(有新需求可以找工程同学提,不断新增完善):

  • OPDirect
  • OPStatistics
  • OPCategory
  • OPMapFind
  • OPListFindExists
  • OPVocabulary
  • OPMapCollectKeys
  • OPMapCollectValues
  • OPMapFindValues

抽取函数基本规则:

OP算子(&特征源名.原始特征名)

抽取示例:

  • 透传:OPDirect(&pc_game_total_feature_day.game_ctr_1)
  • 多级嵌套:OPMapFindValues(&pc_user2gid_30days.share_last_timestamp, OPMapCollectKeys(&pc_user2gid_30days.pageview_cnt))
# 特征类型和处理类型

不同的特征类型支持的处理类型不同:

  • FEA_INT32/FEA_INT64
    • vocabulary : 词汇表特征
    • category :类别文本特征,做hash
    • statistics :统计型特征
    • label
  • FEA_FLOAT
    • statistics
  • FEA_STRING
    • vocabulary
    • category
    • label
  • FEA_INT32_LIST/FEA_INT64_LIST
    • vocabulary
    • category
    • statistics
  • FEA_FLOAT_LIST
    • statistics
  • FEA_STRING_LIST
    • vocabulary
    • category

注:

  • hash操作前置到extractor