SenWei | AI-Native Agent PM Resume

02 / Capabilities

Capability matrix.

AI Native产品方法论

Agent为一等公民（API/CLI First、GUI为辅）、Specification-Driven、Workflow + Agent混合架构、评测先行驱动迭代、Bad Case闭环纠错

六层Native能力设计

上下文层 · 记忆层 · 意图分流层 · 主动触发层 · 嵌入式界面层 · 行动与履约层的能力分层设计沉淀

Agent-native编排

抢注式任务分发 + 平台Slot算法分配、Pre-Qualification Gate资格门控、异构角色协作、质量回流闭环 + Human-in-the-Loop人工抽检兜底

Agent评测体系

Analytic Rubric分解式评测、Binary/Likert多评分制按场景适配、Wiki-RAG检索增强Rubric生成、Propose-Evaluate-Revise自迭代、LLM-as-a-Judge

Agent训练数据策略

SFT/DPO/偏好数据分层策略、Bad Case闭环、Trajectory数据沉淀

Vibe Coding全栈开发

Loop-Harness-Prompt Engineering、SDD、全栈vibe coding；基于Claude Code等AI Coding工具从概念到前后端数据库落地全程独立交付

System View

Operating flow.

Spec定义好坏

Workflow确定性控制

Agent开放式执行

Evaluation评测先行

Data训练供给

FlywheelBad Case闭环

03 / Experience

Experience timeline.

百度 | Agent 数据策略产品经理

2025.6 - Present

践行AI Native产品方法论，负责面向15+业务线的Agent平台、Agent评测、Agent训练数据三大方向0-1建设。所有产品线均贯彻Agent为一等公民、Specification-Driven、Evaluation-First、Workflow + Agent混合架构等设计原则，将Agent能力封装为可控、可复用、可审计的生产工具。

Agent-native数据生产平台：主导Agent-Native平台0-1设计，Agent通过抢注式任务分发 + 资格门控 + 异构角色协作（标注/质检），日均Agent自主处理任务10w+条，覆盖10+业务线生产场景
多场景Agent评测体系：医疗问诊Agent评测（Plan-Act范式，50+临床病种，κ=0.78）、392虚拟人设陪伴对话Agent评测（文小言/手百/车载多业务线，11维Rubric，21+批数据，一致率97%）、多模态视频模型评测，多套体系从0到1落地
Agent训练数据策略：为15+业务线Agent交付SFT/DPO/偏好数据，T+1完成需求接入；自动化Pipeline将日处理数据从百级提升至10w+条，正确率97%+

Gaiamesh 思拟科技 | AI 产品经理

2023.6 - 2025.5

主导AI售后助理、chatBI设计，基于LLM + 多模态技术打造智能决策中枢。

主动学习数据标注闭环：针对企业知识库与客服场景标注SFT数据，标注数据F1由0.82→0.93，迭代效率提升3倍
AI业务客服：整合业务知识库 + RAG，5次问答解决率由40%→85%，人均月工单处理量由600→100
指令体系与意图识别：构建Prompt体系与自动意图识别流程，用户指令解析准确率由78%→95%

Adeas 凯达环球咨询 | AI 产品经理

2021.11 - 2023.6

负责AIGC产品方案设计与落地，主导多个数据分析项目，设计50+需求方案
探索LLM在国际咨询场景应用，设计自动化报告生成工具原型，需求响应时效由48小时缩短至2小时

04 / Projects

Selected project briefs.

Agent-native数据生产平台（Agent-Native 0-1设计）

2025.6 - Present

AI Native产品方法论的旗舰实证——全面API/CLI First设计；Agent通过统一接口自主完成任务领取、执行、提交全流程，Plan-Act + Reflection推理范式、Workflow + Agent混合架构等AI Native设计原则的工程落地。日均Agent自主处理任务10w+条，覆盖10+业务线。

Agent-native协作范式设计：抢注式任务分发 + 平台侧Slot算法分配；Pre-Qualification Gate资格门控——预标注阶段开放参与、择优进入正式标注限定席位；异构角色协作（标注Agent/质检Agent）+ 质量回流闭环（不合格→返修池→Agent重做）+ Human-in-the-Loop人工抽检兜底
Plan-Act推理范式：Agent领取任务后完成"任务理解→标注策略规划→执行→提交"全链路；自学习Skill引入Reflection模式——执行后自评估、不达标自修正，结合人工监督形成自学习 + 自迭代闭环
Workflow + Agent混合架构：确定性规则环节（阿拉伯数字/英文大小写/表情符号校验）使用Workflow节点保证稳定性与可解释性；开放式生产环节（SFT数据生产）使用Agent节点发挥大模型理解判断能力
Vibe Coding自主研发：Streamlit + Python + Agent工具链完成平台MVP自主设计与开发（无后端开发资源投入），从架构设计到CLI工具上线全程独立交付

C端健康Agent自动化评测Pipeline

2025.6 - Present

Evaluation-First方法论实践，基于"概率性输出 + Specification-Driven" AI Native原则，主导wiki/generation/refine/eval/analyse五阶段解耦评测Pipeline；用Rubric Wiki替代硬编码评判规则，覆盖50临床病种case，自动评测与人工一致性Cohen's κ = 0.78。

Plan-Act范式Agent评测：评测对象为Plan-Act范式的医疗Agent（先问主诉→规划下一步追问→给诊断建议），覆盖多轮规划合理性、症状收集完整性、诊断准确性等多维度
评测资产自动生产Pipeline：Wiki-RAG检索增强自动生成case-specific Rubric；Rubric Wiki跨case知识库实现先验复用，新case接入成本由人工~半天降至自动<30min
Propose-Evaluate-Revise自迭代精磨："对比→诊断→修复→重评→收敛检查"的Rubric自迭代闭环，少量人工数据即可完成阈值校准
Analytic Rubric评测框架：Binary二元评测聚合策略，轻度/重度二级标签体系，沉淀68个标准化评测标签形成可复用Rubric Wiki
科学准出与一致性度量：准召率 + Cohen's κ多指标交叉验证，按标签级Kappa拆解评估；50+ case端到端验证整体一致率78.7%

多模态视频模型评测体系（Evaluation-First × 多模态 0-1）

2025.6 - Present

AI Native评测方法论向多模态视频模态的延伸验证——用"规范即度量衡、循环一致性抗污染、LLM-as-Judge自动裁决"的范式，把主观的"微表情像不像"翻译为可量化、可代码化、可自动评的Analytic Rubric。打通数据筛选→规范→自动描述→自动评测全链路，100+条私有视频端到端跑通。

SDD度量衡设计：将微表情能力抽象为多维标签规范（42类情绪/11类微动/侧性等10+维度），多版本化演进、可回滚可追溯；主导解决"镜头视角左右参考系"核心歧义，使每个字段都成为LLM可自动判定的spec
循环一致性抗污染评测框架：规范稳定性/pipeline准确度/端到端语义保真三目的；以"描述→生成→再描述"循环一致性 + 改prompt对照实验抓假阳性——不依赖ground truth，天然抗污染、可无限量产
Workflow + Agent混合的自动化数据筛选管线：8阶段判定漏斗（完整性/单镜头/单人/质量/难度/VLM语义门/分级/抽检），"hard filter一票否决 + soft score加权→Tier A/B/C"，全配置化、可审计、断点续跑
多模型描述生成Loop + LLM-as-Judge：双描述者模型独立生成→裁判模型拿原视频逐字段仲裁→格式质检门；评测端LLM-as-Judge逐字段自动裁决，难例回流人工复核形成Human-in-the-Loop闭环
成果与业务价值：100+条视频端到端跑通，逐字段报告直接定位短板；验证这套AI Native评测方法论可跨模态复用，直接迁移到其他多模态模型评测

多业务线Agent训练数据生产体系

2025.6 - Present

AI Native能力涌现的底层数据支撑——把Bad Case闭环作为概率性Agent产品的标准纠错机制，让Agent能力随训练数据循环演进。面向15+业务线，建立T+1交付节奏与97%+数据正确率基线。

Agent训练数据策略：对接业务方Agent训练目标，拆解SFT/DPO分层数据需求，定义数据配比、领域分布与采样策略；维护各业务线Agent数据需求矩阵
数据生产Pipeline："采集→清洗→合成→标注→质检→交付"六环节自动化流水线，覆盖格式、去重、敏感、领域分布、答案对齐等多维质检；日处理10w+条，正确率97%+
Bad Case闭环与数据沉淀：线上Agent Bad Case回流→归因→数据补充闭环，针对性SFT数据生产周期由周级压缩至天级

个人项目与其他项目

Personal

MultiAgent Company：多智能体协作框架，自研multi Agent-to-Agent (mA2A)通信协议与多Agent共享记忆系统，支撑异构角色Agent编排、记忆共享与协同履约，践行Agent为一等公民的设计原则
Daily AI Digest：定制化GitHub每日资讯Agent；首次独立完成云服务器采购与线上部署，基于用户喜好反馈动态优化推送策略，形成个性化推荐的Bad Case闭环
HRBoard：从需求、产品设计到前后端 + 数据库全栈开发0-1端到端独立交付，HR绩效看板系统
塔罗牌占卜：完整上线的C端真实产品，内建交易/支付系统，从产品设计到全栈实现独立完成商业闭环

05 / Proof

Education & certifications.

伦敦大学学院（UCL）

2020 - 2021

建筑设计 | 硕士 · QS世界排名第9

河北工程大学

2015 - 2020

建筑学 | 学士

Certifications

阿里云 ACA 大模型助理工程师阿里云 Apsara Clouder 云计算腾讯云 TCCA 从业者认证微软/LinkedIn 生成式AI专业认证

Wei Sen

Capability matrix.

AI Native产品方法论

六层Native能力设计

Agent-native编排

Agent评测体系

Agent训练数据策略

Vibe Coding全栈开发

Operating flow.

Experience timeline.

百度 | Agent 数据策略产品经理

Gaiamesh 思拟科技 | AI 产品经理

Adeas 凯达环球咨询 | AI 产品经理

Selected project briefs.

Agent-native数据生产平台（Agent-Native 0-1设计）

C端健康Agent自动化评测Pipeline

多模态视频模型评测体系（Evaluation-First × 多模态 0-1）

多业务线Agent训练数据生产体系

个人项目与其他项目

Education & certifications.

伦敦大学学院（UCL）

河北工程大学

Certifications