02 / Capabilities
Capability matrix.
数据策略
面向15+业务线的SFT/DPO/偏好数据需求拆解与配比、SFT–Alignment分层数据策略、数据飞轮与Bad Case闭环
数据生产
全链路(采集→清洗→合成→标注→质检→交付)自动化Pipeline,T+3交付、日处理10w+条
数据评测
Analytic Rubric原子化评测、Binary/Likert多评分制、Wiki-RAG检索增强Rubric生成、Propose-Evaluate-Revise自迭代、LLM-as-a-Judge
数据平台
Agent-Native数据标注平台、自动化评测Pipeline、跨项目数据生产工具生态
AI-Native产品设计
Agent为一等公民的平台设计原则、API/CLI全流程化、多Agent并行编排、Skills化能力沉淀
Vibe Coding自主研发
基于AI Coding工具完成产品原型自主设计与MVP开发,从概念到落地全程独立交付
System View
Operating flow.
Demand需求接入
Strategy数据配比
Pipeline生产自动化
Quality质检矩阵
DeliveryT+交付
FlywheelBad Case闭环
03 / Experience
Experience timeline.
百度 | 大模型数据策略产品经理
2025.6 - Present负责面向15+业务线的大模型数据策略,覆盖数据生产/数据评测/数据生产工具平台三大方向。
- 数据生产体系:为15+业务线交付SFT/DPO/偏好数据,T+1完成需求接入;自动化Pipeline将日处理数据从百级提升至10w+条,正确率97%+
- 多场景自动化评测体系:医疗问诊Agent(50+临床病种,κ=0.78)+ 392虚拟人设陪伴对话(11维Rubric,覆盖文小言/手百/车载,一致率97%)
- 数据标注平台与工具生态:Agent-Native数据标注平台0-1设计,标注Skills市场与CLI工具生态,沉淀110+数据生产工具
Gaiamesh 思拟科技 | AI 产品经理
2023.6 - 2025.5主导企业级AI大模型平台从0到1架构设计,创新性提出"AI Agent + SaaS融合"模式。
- 主动学习数据标注闭环:标注数据F1由0.82→0.93,迭代效率提升3倍
- AI业务客服:RAG增强,5次问答解决率由40%→85%,人均月工单处理量由600→100
- 指令体系与意图识别:用户指令解析准确率由78%→95%
Adeas 凯达环球咨询 | AI 产品经理
2021.11 - 2023.6- 负责AIGC产品方案设计与落地,主导多个数据分析项目,设计50+需求方案
- 探索LLM在国际咨询场景应用,需求响应时效由48小时缩短至2小时
04 / Projects
Selected project briefs.
多业务线大模型数据生产Pipeline与自动化质检体系
2025.6 - Present- 数据策略与需求拆解:对接业务方训练目标,拆解为SFT/DPO分层数据需求,定义数据配比、领域分布与采样策略;维护各业务线数据需求矩阵
- 生产Pipeline设计:六环节自动化流水线;自动化质检矩阵覆盖格式、去重、敏感、领域分布等多维校验,日处理10w+条,正确率97%+
- Bad Case闭环与数据飞轮:线上Bad Case回流→归因→数据补充,针对性SFT数据生产周期由周级压缩至天级
- 跨团队协同:与算法、标注、业务三方建立周度对齐机制,沉淀《标注流程规范》《质检SOP》等组织资产
Agent-Native数据标注平台与标注Skills生态(0-1)
2025.6 - Present- Agent-Native架构设计:全流程通过标准HTTP API + CLI完成,天然支持多Agent并行作业;新数据项目接入TTFV由天级压缩至小时级
- 标注Skills市场:通用标注能力沉淀为可版本管理的Skills,跨项目按需安装调用;建立"版本管理 + 质量评级 + 使用统计"三层治理机制
- CLI工具与数据生产民主化:部门成员通过CLI自主上传50+个数据处理/质检/合成工具,形成内源协作生态
- Vibe Coding自主研发:以Streamlit + Python + Agent工具链完成平台MVP独立交付(无后端开发资源投入)
医疗Agent自动化数据评测Pipeline
2025.6 - Present- 五阶段解耦评测Pipeline:wiki / generation / refine / eval / analyse严格解耦,可量化、可迭代、可迁移
- 评测资产自动生产(wiki + gen):Wiki-RAG检索增强自动生成case-specific Rubric,新case接入成本由人工~6h降至自动<30min
- Propose-Evaluate-Revise自迭代:"对比→诊断→修复→重评→收敛检查"闭环,少量人工数据即可完成阈值校准
- 结果:50 case端到端验证,整体binary一致率78.7%,其中服务调度97%、表达风格85%
虚拟人设陪伴对话场景大模型Response自动化评测体系
2025.6 - Present- 业务规则到Rubric翻译:沉淀11个评测维度(人设一致性、上下文重复性、幻觉、准确性等),将主观"好坏"判断转译为可量化Analytic Rubric
- -1/0/1三档Likert评分制:维度级差异化聚合——核心维度一票否决、次要维度累计扣分
- 动态策略库与规则版本化:覆盖历史全部错误点 + PM对齐结论,规则版本化、可追溯、可回滚
- 跨业务线复用:文小言/手百/车载三条业务线落地,一致率97%、自动化评测托管占比60%
05 / Proof
Education & certifications.
伦敦大学学院(UCL)
2020 - 2021建筑设计 | 硕士 · QS世界排名第9
河北工程大学
2015 - 2020建筑学 | 学士
Certifications
阿里云 ACA 大模型助理工程师阿里云 Apsara Clouder 云计算腾讯云 TCCA 从业者认证微软/LinkedIn 生成式AI专业认证