Capability matrix.
AI Native产品方法论
Agent为一等公民(API/CLI First、GUI为辅)、Specification-Driven、Workflow + Agent混合架构、评测先行驱动迭代、Bad Case闭环纠错
AI重塑路径判断
区分AI Enhance与AI Native;用错误容忍度、延迟敏感度、可解释要求等多维红灯指标识别不适合AI重构的场景
Multi-Agent编排
抢注式任务分发 + Slot算法分配、Pre-Qualification Gate资格门控、异构角色协作、质量回流闭环 + Human-in-the-Loop
Agent评测体系
Analytic Rubric分解式评测、Binary/Likert多评分制按场景适配、Wiki-RAG Rubric生成、Propose-Evaluate-Revise自迭代、LLM-as-a-Judge
Agent训练数据策略
SFT/DPO/偏好数据分层策略、Bad Case闭环、Trajectory数据沉淀
Vibe Coding自主研发
基于Cursor/Claude Code等AI Coding工具完成产品0-1自主设计与MVP开发,无后端开发资源依赖
Operating flow.
Experience timeline.
百度 | Agent 数据策略产品经理
2025.6 - Present践行AI Native产品方法论,负责面向15+业务线的Agent平台、Agent评测、Agent训练数据三大方向0-1建设。
- Multi-Agent数据生产平台:Agent通过抢注式任务分发 + 资格门控 + 异构角色协作,日均Agent自主处理任务10w+条,覆盖10+业务线
- 多场景Agent评测体系:医疗问诊Agent评测(Plan-Act范式,50+临床病种,κ=0.78)+ 392虚拟人设陪伴对话评测(11维Rubric,21+批数据,一致率97%)
- Agent训练数据策略:为15+业务线Agent交付SFT/DPO/偏好数据,日处理10w+条,正确率97%+
Gaiamesh 思拟科技 | AI 产品经理
2023.6 - 2025.5主导企业级AI大模型平台从0到1架构设计,创新性提出"AI Agent + SaaS融合"模式,年营收1200万元中AI业务占比40%。
- 主动学习数据标注闭环:标注数据F1由0.82→0.93,迭代效率提升3倍
- AI业务客服:RAG增强,5次问答解决率由40%→85%
- 指令体系与意图识别:用户指令解析准确率由78%→95%
Adeas 凯达环球咨询 | AI 产品经理
2021.11 - 2023.6- 负责AIGC产品方案设计与落地,设计50+需求方案
- 探索LLM在国际咨询场景应用,需求响应时效由48小时缩短至2小时
Selected project briefs.
Multi-Agent数据生产平台(Agent-Native 0-1设计)
2025.6 - PresentAI Native产品方法论的旗舰实证——全面API/CLI First设计;Agent通过统一接口自主完成任务领取、执行、提交全流程。
- Multi-Agent协作范式:抢注式任务分发 + Slot算法 + Pre-Qualification Gate资格门控 + 异构角色协作 + 质量回流闭环 + Human-in-the-Loop
- Plan-Act推理范式:Agent领取任务后完成"任务理解→标注策略规划→执行→提交"全链路;Reflection模式——执行后自评估、不达标自修正
- Workflow + Agent混合架构:确定性规则环节使用Workflow节点,开放式生产环节使用Agent节点,按场景灵活组合
- Vibe Coding自主研发:Streamlit + Python + Agent工具链完成平台MVP独立交付
医疗问诊Agent自动化评测Pipeline
2025.6 - PresentEvaluation-First方法论实践,基于"概率性输出 + Specification-Driven" AI Native原则,五阶段解耦评测Pipeline。
- Plan-Act范式Agent评测:覆盖Agent多轮规划合理性、症状收集完整性、诊断准确性等多维度
- 评测资产自动生产Pipeline:Wiki-RAG检索增强自动生成case-specific Rubric,新case接入成本降至<30min
- Propose-Evaluate-Revise自迭代:"对比→诊断→修复→重评→收敛检查"闭环,少量人工数据即可完成阈值校准
- Analytic Rubric评测框架:Binary二元评测,A/B/C三级标签体系,68个标准化评测标签
- 结果:50 case端到端验证,Cohen's κ = 0.78,整体一致率78.7%
虚拟人设陪伴对话Agent评测体系(392评测)
2025.6 - PresentAI Native评测方法论的多业务线规模化落地——典型的"从if-else业务规则到Specification-Driven评测"范式转换。
- C端Agent业务规则到Rubric翻译:11个评测维度(人设一致性、上下文重复性、幻觉、准确性等),将主观判断转译为可量化Analytic Rubric
- -1/0/1三档Likert评分制:核心维度一票否决、次要维度累计扣分
- 动态策略库与规则版本化:覆盖历史全部错误点 + 业务对齐结论,规则可追溯、可回滚
- 跨业务线复用:文小言/手百/车载三条业务线落地,一致率97%、可托管评测题占比60%
多业务线Agent训练数据生产体系
2025.6 - PresentAI Native能力涌现的底层数据支撑——把Bad Case闭环作为概率性Agent产品的标准纠错机制。
- Agent训练数据策略:拆解SFT/DPO分层数据需求,定义数据配比、领域分布与采样策略
- 数据生产Pipeline:六环节自动化流水线,日处理10w+条,正确率97%+
- Bad Case闭环:线上Agent Bad Case回流→归因→数据补充,生产周期由周级压缩至天级
Education & certifications.
伦敦大学学院(UCL)
2020 - 2021建筑设计 | 硕士 · QS世界排名第9
河北工程大学
2015 - 2020建筑学 | 学士