全球顶级大数据峰会SHW见闻四盘点最火开源工具

　　Session的规模一般比Keynote小，但更加有助于深度交流。SHW的每一场Session长达40分钟时间，主讲人可以充分展开演讲主题，并留出时间供听众和主讲人Q&A。部分场次的主题为Ask me anything about XXX，通常由知名技术框架的小组成员提供开放交流，小编透过Agenda都感到了一股迷之霸气：我们的平台超级赞，大家都喜欢我们的平台，你们想问的我都能回答（笑）。

　　另外，现场听众也不乏各路技术专家以及开源项目的建设者，今天的听众可能就是下一届大会的报告人。现场氛围比起单方面听讲更像是一场技术沙龙，大家就感兴趣的主题各抒己见，聊到兴起打开Demo来一段代码，更为投缘的交换名片回家继续交流，一不小心一项改变世界的新技术就诞生了~ 这样一个充满了开源开放基因的环境，小编也是叹为观止。

　　分身乏术的小编没能了解全部Session的内容，不过小编在这里整理了一部分非常关注、前景广阔的技术分享给大家，点燃下一个时代的火种说不定就在其中！

　　随着AlphaGo年初大胜李世石，人工智能概念着实火了一把。其实在此之前已经有多个产品能代表AI科技的惊人发展，比如认知计算的代表--IBM Watson，又比如智能工作助理--苹果Siri，以及这里的主角，微软Cortana。

　　作为旗舰产品Win10的代表性功能，微软不仅仅满足于将Cortana定位成辅助产品，而是看到平台化思维的无限前景，把Cortana背后的技术开放出来，鼓励慢慢的变多基于Cortana的智能应用。Cortana Intelligence Suite提供信息管理、大数据存储、机器学习、认知服务等多项功能，并能结合Azure平台提供云端AI服务，可见是微软下一步的重要战略.

　　1）2015年7月，微软在WPC 2015大会上发布Cortana分析套件，提供企业级数据集成与分析服务；

　　随着分布式计算持续不断的发展，业界涌现出慢慢的变多的分布式处理架构，在带来更高性能的同时，也增加了用户切换新平台的成本：学习新的数据处理架构，并重写所有的业务逻辑。

　　Apache Beam 的主要目标就是解决以上问题。首先统一批处理（Batch）和流处理（Stream）的编程范式，为无限、乱序、网络规模的数据集处理提供简单灵活、功能丰富、表达能力强大的SDK。Apache Beam侧重于对数据处理的编程范式和接口定义，并不涉及具体执行引擎的实现。其次，Apache Beam希望基于Beam开发的数据处理程序能执行在任意的分布式计算引擎上，实现执行环境的无缝切换。

　　Kudu是Cloudera开源的新型列式存储系统，也是Apache Hadoop生态圈的新成员之一，目前也在孵化中，用于对快速变化的数据来进行快速分析，填补了以往Hadoop存储层的空缺。

　　HadoopECO有很多组件，在复杂的应用场景中，用户往往需要部署混合架构实现业务需要。此时，用户就希望能有一种存储解决方案来应付不一样的工作流，并保持高性能的计算能力。Cloudera意识到这一问题后，于2012年开始计划开发Kudu存储系统，并在2015年发布并开源。Kudu是对HDFS和HBase功能上的补充，能提供快速的分析和实时计算能力，并且充分的利用CPU和I/O资源，支持数据原地修改，支持简单的、可扩展的数据模型。

　　Kudu定位于提供Fast Analytics on Fast Data，也就是在快速更新的数据上进行快速查询。大家熟知的小米就是Kudu早期的试用者以及合作伙伴。

　　Alluxio源于UC Berkeley AMPLab，过去叫做Tachyon，于2013年开源，今年年初改名为Alluxio。它的最大的作用是在底层分布式文件系统和上层分布式计算框架之间构建桥梁，统一数据访问方式。

　　在大数据基本架构中，位于底层的一般是各类文件存储系统，比如Amazon S3、HDFS等等，而较高层的应用是一些计算框架，比如Spark、MapReduce等，由于各类平台和框架之间的接口存在一定的差异，直接访问分布式文件系统效率比较低下，也不利于跨平台的数据集成。

　　Alluxio作用就是扮演一个虚拟平台的角色，提供通用的数据访问接口，屏蔽底层存储细节，支持数据的访问、快速存储，以及多任务的数据共享和本地化，实现访问加载速度的数量级提升。小编自己觉得可以类比JVM对跨系统的支持。

　　另外插播一句，百度、华为、去哪儿都是Alluxio的合作伙伴，相当有缘啊！

　　根据官网介绍，TensorFlow是一款用于数值计算的开源软件库，采用数据流图的形式计算。这种灵活的架构允许个人会使用相同的API在单或多CPUs或GPU，Servers设置移动电子设备上进行计算。

　　数据流图Data Flow Graph使用有向图的Nodes和Edges来描述数学计算。Nodes代表数学操作，也可以表示数据输入输出的端点。Edges表示节点之间的关系，传递操作之间互相使用的多位数组（Tensors，张量），Tensor在Graph中流动就是TensorFlow得名的原因。一旦输入端的所有张量准备好，节点将被分配到各种计算设备完成异步并行地执行运算。

　　TensorFlow 最初由Google大脑小组（隶属于Google机器智能研究机构）的研究员和工程师们开发，用于机器学习和深度神经网络方面的研究，但这个系统的通用性使其也可大范围的使用在其他计算领域。小编了解TensorFlow更多还是因为课题离不开Deep Learning，现在可用的开源框架慢慢的变多，小弱也是挑花眼哈哈，说多了都是泪啊。

　　至此，小编已经回顾了本届SHW大会的主要环节，除此以外还有各种精彩的应用场景和技术交流，小编水平有限无法一一和大家伙儿一起来分享，但是相信我们大家已经可以感觉到本届大会是多么干货满满。

　　下一届SHW大会将会在明年3月于美国San Jose举办，著名的科技圣地硅谷就在坐落于那里，届时小编会继续为大家播报SHW的一手消息，欢迎关注，不见不散！

网站首页

关于我们

新闻中心

合作案例

联系我们

网站地图

bob电竞官网登录:全球顶级大数据峰会SHW见闻四盘点最火开源工具