机读格式显示(MARC)

000 01716nam0 2200313 450

001 0000598954

005 20220307155700.0

010 __ |a 978-7-121-40368-2 |d CNY99.00

099 __ |a CAL 012021030940

100 __ |a 20210207d2021 em y0chiy50 ea

101 1_ |a chi |c eng

102 __ |a CN |b 110000

105 __ |a ak z 000yy

106 __ |a r

200 1_ |a 深入大型数据集 |A Shen Ru Da Xing Shu Ju Ji |e 并行与分布化Python代码 |d = Mastering large datasets with Python |e parallelize and distribute your Python code |f (美) John T. Wolohan著 |g 张若飞译 |z eng

210 __ |a 北京 |c 电子工业出版社 |d 2021

215 __ |a XX, 300页 |c 图 |d 24cm

314 __ |a 责任者Wolohan汉译姓: 沃勒翰取自CIP数据

330 __ |a 本书共分3部分，主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格，以及Python中基础的map和reduce函数，并介绍如何将对象持久化，通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架，以及如何使用mrjob库来编写Hadoop作业，如何实现PageRank算法，如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识，包括如何通过boto3的Python库将文件上传到AWS S3服务，以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。

333 __ |a 本书适合有一定Python编程基础，且希望掌握大型数据集处理能力的开发人员和数据科学家阅读

500 10 |a Mastering large datasets with Python : parallelize and distribute your Python code |m Chinese

517 1_ |a 并行与分布化Python代码 |A Bing Xing Yu Fen Bu Hua Python Dai Ma

606 0_ |a 软件工具 |A Ruan Jian Gong Ju |x 程序设计

690 __ |a TP311.561 |v 5

701 _1 |a 沃勒翰 |A Wo Le Han |g (Wolohan, John T.) |4 著

702 _0 |a 张若飞 |A Zhang Re Fei |4 译

801 _0 |a CN |b CAU |c 20220307

905 __ |a CAU |d TP311.561/441

920 __ |a 211180 |z 1