about云开发

 找回密码
 立即注册

QQ登录

只需一步,快速开始

[文章] 注册免费送体验金平台

[复制链接]
阿飞 发表于 2020-5-21 16:39:30 | 显示全部楼层 |阅读模式


随着数据时代和 AI 时代的到来,几乎所有的企业都在建设自己的大数据系统。为了提高数据处理能力,突破单机在计算与资源上的瓶颈,诸如 Hadoop、Spark、Flink 等分布式计算框架和基于 HDFS 的分布式存储系统成为大多数选择。实际工作中,大部分时间我们都在研发、部署和维护批处理、流处理程序,完成相应的业务需求,但是相信很多人都遇到过这样的事情:
  • 需要对一批数据做探索性分析,所谓探索性即尚且没有明确的思路,需要不断的尝试,这时你无法形成完整方案写到代码文件、打包、正式部署。
  • 临时有个任务需要验证一下,特别针对研发人员,你为这个任务写个正式代码文件、打包、部署显然过于繁琐,并且很多线上环境是不允许随便传代码的。

这里的问题就是,如何在分布式计算框架之上实现交互式运行代码?Notebook 显然成为首选。Notebook 是一类基于 Web 的交互式数据分析工具,比较流行的有 Jupyter、Zeppelin 等。Jupyter 是基于 Python 的,前身是 IPython,在单机数据分析上表现非常优异,特别是结合 pandas 库。而 Zeppelin 则以插件的形式对大多数分布式计算引擎提供了友好的支持,尤其是 Spark。


链接: https://pan.baidu.com/s/1AijlcRgdvT6pdq9oXgz-7g 提取码: rmqi
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /5 下一条

QQ|小黑屋|About云开发-学问论坛|社区 ( 京ICP备12023829号 )

GMT+8, 2020-6-3 13:47 , Processed in 1.093750 second(s), 25 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

© 2018 Comsenz Inc.Designed by u179

快速回复 返回顶部 返回列表