构建可靠的机器学习系统

借阅：0人

收藏：0人

构建可靠的机器学习系统
查看机读格式

/(美) 凯茜·陈 ... [等] 著 ;林然 ... [等] 译

ISBN/ISSN：978-7-111-77218-7

价格：CNY139.00

出版：北京 :机械工业出版社 ,2025

载体形态：x, 316页 :图 ;24cm

简介：本书融合作者构建、运维和扩展大型机器学习系统的经验，通过丰富的示例，详细讲解如何运行高效、可靠的机器学习系统。本书首先概述机器学习相关概念和数据管理原则，涵盖数据管理、机器学习模型、评估质量、特征、公平性、隐私等主题；然后介绍机器学习模型及其生命周期；最后讲述如何将机器学习引入组织，以及引入后组织会发生什么等复杂问题。

统一题名：Reliable machine learning applying SRE principles to ML in production

中图分类号：TP181

责任者：陈 ((Chen, Cathy)) 著墨菲 ((Murphy, Niall Richard)) 著帕里萨 ((Parisa, Kranti)) 著林然译王薇译王讳译

评分：
加入暂存架

豆瓣内容简介：

本书融合作者构建、运维和扩展大型机器学习系统的经验，通过丰富的示例，详细讲解如何运行高效、可靠的机器学习系统。本书首先概述机器学习相关概念和数据管理原则，涵盖数据管理、机器学习模型、评估质量、特征、公平性、隐私等主题；然后介绍机器学习模型及其生命周期；最后讲述如何将机器学习引入组织，以及引入后组织会发生什么等复杂问题。

豆瓣作者简介：

Cathy Chen，CPCC，硕士，擅长培训技术领导者，帮助他们提高团队领导能力。她担任过技术项目经理、产品经理和工程经理，曾领导大型科技公司和初创公司的团队发布产品功能、开发内部工具和运营大型系统。Cathy拥有加州大学伯克利分校电气工程学士学位和哥伦比亚大学教育学院组织心理学硕士学位。Cathy与伴侣住在宾夕法尼亚州匹兹堡，并在Google从事SRE工作。
Niall Richard Murphy，自20世纪90年代中期开始从事互联网基础设施方面的工作，专门从事大型在线服务。他曾在爱尔兰都柏林办事处与所有主要云提供商合作，最近在微软担任Azure SRE全球负责人。他第一次接触机器学习是在Google都柏林办事处管理Ads ML团队时，当时他在匹兹堡与Todd Underwood一起工作，此后他一直对机器学习着迷。他是两本Google SRE书籍的发起人、合著者和编辑，他可能是世界上为数不多拥有计算机科学、数学和诗歌研究学位的人之一。他与妻子和两个孩子住在都柏林，现就职于一家初创公司。
Kranti Parisa，Dialpad的副总裁兼产品工程主管。他的团队使用业内领先的AI/ML和电话技术构建大规模、云原生、实时业务通信和协作软件。在加入Dialpad之前，他曾在苹果公司领导负责搜索和个性化平台、产品和服务的团队。Kranti是多家专注于云计算、SaaS和企业搜索的初创公司的联合创始人、首席技术官和技术顾问。他为Apache Lucene/Solr社区做出了贡献，并与他人合著了Apache Solr Enterprise Search Server
一书。由于他对搜索和发现的杰出贡献，美国政府授予他“杰出人才”（EB1A）称号。
D. Sculley，Kaggle的首席执行官和Google第三方机器学习生态系统的总经理，之前是Google Brain团队的主管，也是Google一些最关键的生产机器学习管道的负责人。他专注于机器学习中的技术债务问题，以及模型和管道的健壮性和可靠性，并领导团队将机器学习应用于广告点击预测、滥用预防、蛋白质设计和科学发现等各种问题。此外，他还帮助创建了Google机器学习速成课程，向全球数百万人教授机器学习知识。
Todd Underwood，Google的高级总监，领导机器学习SRE。他还是Google匹兹堡办事处的站点负责人。机器学习SRE团队负责构建和扩展内部和外部机器学习服务，对Google几乎所有重要产品都至关重要。在Google工作之前，Todd在Renesys（负责互联网智能服务的运营、安全和对等，现在是Oracle Cloud的一部分）担任过各种职务，在此之前，他是新墨西哥州独立互联网服务提供商Oso Grande的首席技术官。

目录
序1
前言5
第1章引言15
1.1 机器学习的生命周期15
1.1.1 数据收集与分析16
1.1.2 机器学习训练管道17
1.1.3 构建与验证应用程序19
1.1.4 质量和性能评估19
1.1.5 定义与度量服务等级目标20
1.1.6 发布21
1.1.7 监控和反馈循环23
1.2 循环中的教训25
第2章数据管理原则26
2.1 数据即责任27
2.2 机器学习管道的数据敏感性31
2.3 数据的阶段32
2.3.1 创建33
2.3.2 提取35
2.3.3 处理36
2.3.4 存储39
2.3.5 管理40
2.3.6 分析与可视化41
2.4 数据可靠性41
2.4.1 持久性42
2.4.2 一致性42
2.4.3 版本控制44
2.4.4 性能44
2.4.5 可用性44
2.5 数据完整性44
2.5.1 安全性45
2.5.2 隐私45
2.5.3 政策与合规47
2.6 总结48
第3章模型的基本介绍50
3.1 什么是模型50
3.2 基本的模型创建工作流51
3.3 模型架构、模型定义与训练过的模型53
3.4 漏洞在哪里54
3.4.1 训练数据54
3.4.2 标签56
3.4.3 训练方法57
3.5 基础设施及管道60
3.5.1 平台60
3.5.2 特征生成60
3.5.3 升级和修复61
3.6 对任何模型提出的一系列实用问题62
3.7 一个机器学习系统示例63
3.7.1 纱线产品点击预测模型64
3.7.2 特征64
3.7.3 特征标签65
3.7.4 模型更新66
3.7.5 模型服务66
3.7.6 常见故障67
3.8 总结68
第4章特征与训练数据69
4.1 特征69
4.1.1 特征选择和工程71
4.1.2 特征的生命周期72
4.1.3 特征系统74
4.2 标签78
4.3 人工生成的标签79
4.3.1 标注劳动力80
4.3.2 衡量人工标注质量80
4.3.3 标注平台81
4.3.4 主动学习和AI辅助标注81
4.3.5 文档和标注员培训82
4.4 元数据82
4.4.1 元数据系统概述82
4.4.2 数据集元数据83
4.4.3 特征元数据84
4.4.4 标签元数据85
4.4.5 管道元数据85
4.5 数据隐私和公平性86
4.5.1 隐私86
4.5.2 公平性87
4.6 总结87
第5章评估模型的有效性和质量88
5.1 评估模型的有效性88
5.2 评估模型质量91
5.2.1 离线评估91
5.2.2 评估分布92
5.2.3 一些有用的指标95
5.3 实施验证和评估101
5.4 总结101
第6章机器学习系统中的公平性、隐私和道德103
6.1 公平性104
6.1.1 公平性的定义107
6.1.2 达到公平111
6.1.3 公平是一个过程而不是终点113
6.1.4 简短的法律说明114
6.2 隐私114
6.2.1 保护隐私的方法116
6.2.2 简短的法律说明118
6.3 负责任的AI119
6.3.1 模型解释119
6.3.2 有效性121
6.3.3 社会和文化适当性123
6.4 机器学习管道中负责任的AI123
6.4.1 用例头脑风暴123
6.4.2 数据收集和清洗124
6.4.3 模型创建和训练124
6.4.4 模型验证和质量评估124
6.4.5 模型部署125
6.4.6 市场产品125
6.5 总结125
第7章训练系统127
7.1 需求128
7.2 基本训练系统的实施129
7.2.1 特征130
7.2.2 特征存储131
7.2.3 模型管理系统131
7.2.4 编排132
7.2.5 质量评估133
7.2.6 监控133
7.3 一般可靠性原则134
7.3.1 大多数失败不会是机器学习失败134
7.3.2 模型将被重新训练134
7.3.3 模型将同时有多个版本135
7.3.4 好的模型会变坏135
7.3.5 数据将不可用136
7.3.6 模型应该是可改进的137
7.3.7 特征会添加和更改137
7.3.8 模型可能训练得过快138
7.3.9 资源利用很重要139
7.3.10 利用率!=效率140
7.3.11 中断包括恢复时间142
7.4 常见的训练可靠性问题142
7.4.1 数据敏感性142
7.4.2 YarnIt的数据问题示例142
7.4.3 可重现性143
7.4.4 YarnIt的可重现性问题示例144
7.4.5 计算资源量146
7.4.6 YarnIt的资源量问题示例146
7.5 结构可靠性147
7.5.1 组织挑战147
7.5.2 道德和公平性考虑148
7.6 总结148
第8章服务149
8.1 模型服务的关键问题150
8.1.1 我们模型的负载是什么150
8.1.2 我们模型的预测延迟需求是多少150
8.1.3 模型在哪里运行151
8.1.4 我们的模型需要怎样的硬件153
8.1.5 服务模型要如何存储、加载、版本控制和更新154
8.1.6 用于服务的特征管道是什么样子的154
8.2 模型服务架构155
8.2.1 离线服务（批量推理）155
8.2.2 在线服务（在线推理）158
8.2.3 模型即服务160
8.2.4 边缘服务162
8.2.5 选择架构164
8.3 模型API设计165
8.4 服务于准确性还是弹性166
8.5 扩展167
8.5.1 弹性伸缩168
8.5.2 缓存168
8.6 灾难恢复168
8.7 道德和公平性考虑169
8.8 总结170
第9章模型的监控和可观测性171
9.1 什么是生产环境监控以及为什么要这么做171
9.1.1 它是什么样的172
9.1.2 机器学习为监控带来的问题173
9.1.3 为何在生产中需要持续的机器学习可观测性174
9.2 机器学习生产监控中的问题175
9.2.1 开发的难点与服务的难点175
9.2.2 需要在观念上有所转变177
9.3 机器学习模型监控的最佳实践177
9.3.1 通用的预服务模型建议178
9.3.2 训练与重新训练179
9.3.3 模型验证（试运行前）182
9.3.4 服务185
9.3.5 其他需要考虑的事情193
9.3.6 监控策略的高层级建议198
9.4 总结200
第10章持续机器学习201
10.1 剖析持续机器学习系统202
10.1.1 训练样本202
10.1.2 训练标签202
10.1.3 过滤掉坏数据203
10.1.4 特征存储和数据管理203
10.1.5模型更新204
10.1.6将更新后的模型推送到服务中204
10.2 对持续机器学习系统的观察205
10.2.1 外部世界的事件可能影响我们的系统205
10.2.2 模型可以影响其自身的训练数据207
10.2.3时间效应会出现在多种时间维度上208
10.2.4 应急响应必须实时进行209
10.2.5 新发布需要分阶段的提升和稳定的基线213
10.2.6 模型必须被管理，而不是交付即完成215
10.3 持续性组织216
10.4 重新思考非持续机器学习系统218
10.5总结218
第11章事故响应220
11.1 事故管理基础221
11.1.1 事故的生命周期221
11.1.2 事故响应角色222
11.2 剖析以机器学习为中心的故障224
11.3术语提醒：模型224
11.4 故事时间225
11.4.1 故事1：搜索但没有找到225
11.4.2 故事2：突然间无用的伙伴229
11.4.3 故事3：推荐你寻找新的供应商235
11.5 机器学习事故管理原则242
11.5.1 指导原则243
11.5.2模型开发人员或数据科学家244
11.5.3 软件工程师245
11.5.4 机器学习站点可靠性工程师或机器学习生产工程师246
11.5.5 产品经理或业务负责人249
11.6 特殊话题250
11.6.1 生产工程师以及机器学习工程与建模250
11.6.2 符合道德的待命工程师宣言251
11.7 总结253
第12章产品和机器学习如何交互255
12.1 不同类型的产品255
12.2 敏捷机器学习256
12.3 机器学习产品开发阶段256
12.3.1 发现和定义256
12.3.2 业务目标设定258
12.3.3 MVP构建和验证260
12.3.4 模型和产品开发261
12.3.5 部署261
12.3.6 支持和维护262
12.4 构建还是购买262
12.4.1 模型263
12.4.2 数据处理基础设施264
12.4.3 端到端平台264
12.4.4 用以做出决策的评分方法265
12.4.5 做出决策266
12.5 由机器学习提供支持的样例YarnIt商店功能266
12.5.1 按总销售额展示受欢迎的纱线266
12.5.2 基于浏览历史的推荐267
12.5.3 交叉销售和向上销售267
12.5.4 基于内容的过滤267
12.5.5 协同过滤267
12.6 总结269
第13章将机器学习集成到你的组织中270
13.1 本章假设271
13.1.1 基于领导者的视角271
13.1.2 细节很重要271
13.1.3 机器学习需要了解业务271
13.1.4 你做出的最重要的假设273
13.1.5 机器学习的价值273
13.2 重大组织风险274
13.2.1 机器学习不是魔法274
13.2.2 思维模型惯性275
13.2.3 在不同文化中正确表述风险275
13.2.4 孤立的团队并不能解决所有问题276
13.3 实施模型276
13.3.1 记住目标277
13.3.2 绿地还是棕地277
13.3.3 机器学习的角色和职责278
13.3.4 如何雇用机器学习人员279
13.4 组织设计和激励279
13.4.1 战略280
13.4.2 结构281
13.4.3 流程282
13.4.4 奖励282
13.4.5 人员283
13.4.6 关于排序的说明283
13.5 总结284
第14章实用的机器学习组织实施示例285
14.1 场景1：一个新的集中式机器学习团队285
14.1.1 背景和组织描述285
14.1.2 流程286
14.1.3 奖励287
14.1.4 人员287
14.1.5 默认实施288
14.2 场景2：分散式机器学习基础设施和专业知识289
14.2.1 背景和组织描述289
14.2.2 流程289
14.2.3 奖励290
14.2.4 人员290
14.2.5 默认实施291
14.3 场景3：混合使用集中式基础设施/分散式建模291
14.3.1 背景和组织描述292
14.3.2 流程292
14.3.3 奖励292
14.3.4 人员293
14.3.5 默认实施293
14.4 总结293
第15章案例研究：实践中的MLOps296
15.1 在机器学习管道中适应隐私和数据保留政策296
15.1.1 背景296
15.1.2问题和解决方案297
15.1.3 要点299
15.2 影响流量的持续机器学习模型299
15.2.1 背景299
15.2.2 问题和解决方案300
15.2.3 要点301
15.3 钢材检测301
15.3.1 背景301
15.3.2 问题和解决方案302
15.3.3 要点305
15.4 NLP MLOps：性能分析和分阶段负载测试305
15.4.1 背景305
15.4.2 问题和解决方案306
15.4.3 要点309
15.5 广告点击预测：数据库与现实309
15.5.1 背景309
15.5.2 问题和解决方案310
15.5.3 要点311
15.6 在机器学习工作流中测试和测量依赖关系311
15.6.1 背景311
15.6.2 问题和解决方案312
15.6.3 要点315

分馆名	馆藏部门	图书条码	索书号	登录号	架位导航	卷期	状态
A	昌平馆科技图书区（三层）	C1273520	TP181/503	C1273520	架位导航		在架可借
A	东区馆中文图书阅览区（二层）	C1268668	TP181/503	C1268668	架位导航		在架可借

:: 装订刊信息 ::

序号	图书条码	索书号	登录号	藏书部门	流通状态	年卷期	装订册	装订方式	装订颜色

类型

说明

URL

评论

评分：

发表

扫描图片信息到手机上，便于查找书架！

课程代号*
课程名称*
教师姓名*
教师职称
授课单位
授课专业
学时
学分
备注

学工号：
读者姓名：
联系电话：
读者邮箱：

读者位置
用户号：
密码：

用户号：
密码：

构建可靠的机器学习系统

温馨提示

温馨提示