博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark将机器学习与GPU加速机制纳入自身
阅读量:7051 次
发布时间:2019-06-28

本文共 1009 字,大约阅读时间需要 3 分钟。

  
  
【51CTO.com快译】

Databricks公司通过简化对GPU加速型机器学习方案的访问支持自家云Spark服务。

作为Apache Spark内存内大数据项目的支持与开发合作厂商,Databricks公司已经对其自家Apache Spark云实现方案进行两轮支持升级,旨在让更多IT用户享受其便利。

此次推出的新功能——即GPU加速与多套深度学习库集成——在理论上能够实现Apache Spark在任意位置的安装工作。不过Databricks方面表示,其版本目前仍处于调整阶段,这是为了避免资源争用情况给功能的实际使用带来复杂性影响。

Apache Spark本身并不具备开箱即用的GPU加速功能,且需要设置一套系统对此加以支持,这意味着用户需要面对多种复杂组件。有鉴于此,Databrick公司决定承担起相关难题。

Databricks方面还宣称,其将降低节点间的资源争用数量,从而最大程度保证Spark的运作能够充分发挥GPU集群的性能优势。这一思路与麻省理工学院的Milk库看起来非常类似,后者同样利用加速机制并发处理应用,旨在确保与内存相关的操作以批量方式进行,最终实现对系统缓存资源的最大化利用。Databricks公司的设置能够保证各项GPU操作之间不会相互导致冲突乃至中断。

另一项能够显著节约时间的举措在于直接访问多种主流机器学习库,这意味着Spark将可作为数据源起效。其中包括Databricks自家的TensorFrames库,其允许将TensorFlow库与Spark相配合,同时实现GPU加速能力。

Databricks 公司已经在推文中表示,其基础设施能够充分利用Spark的自身优势。其建立起免费级服务,用以吸引那些仍对深度使用Spark抱有警惕心理的客户,包括为其提供完整产品中的部分功能。根据InfoWorld网站此前发布的评测报告,Databricks的免费产品确实相当出色且易于上手。

不过市场竞争仍然相当激烈,特别是考虑到Databricks需要面对像微软(拥有Azure机器学习方案)、IBM以及Amazon这样的巨头级对手。因此,其必须找到保持并扩大服务受众规模的可行途径,并专注于打造自身独特的服务产品。除了添加机器学习与GPU加速等功能之外,Databricks还需要在发展计划中确保新特性能够切实带来便利——而非提升复杂程度。

  
作者:核子可乐译
 
来源:51CTO

转载地址:http://nrcol.baihongyu.com/

你可能感兴趣的文章
一分钟?搞定JavaWeb开发环境和工具配置
查看>>
nginx默认虚拟主机
查看>>
ABAP OPEN SQL里OPEN CURSOR和SELECT的比较
查看>>
MongoDB最简单的入门教程之二 使用nodejs访问MongoDB
查看>>
rsync文件同步工具介绍 、常用选项 、通过ssh同步
查看>>
防御ddos攻击的常见方法
查看>>
线下工坊|Blockchain Coding Day:零基础教你开发DAPP(北京)
查看>>
设计模式——策略模式
查看>>
依存句法分析器的简单实现
查看>>
用node.js开发Fabric链码
查看>>
加密解密
查看>>
企业分布式微服务云SpringCloud SpringBoot mybatis (十四)服务注册(consul)
查看>>
df命令,du命令,磁盘分区
查看>>
JNDI到底是什么
查看>>
JS 学习笔记
查看>>
渣渣菜鸡为什么要看 ElasticSearch 源码?
查看>>
JavaEE的13种核心技术
查看>>
spring mvc +mybatis + KafKa+Flume+Zookeeper分布式架构
查看>>
css3的设置颜色透明度的笔记
查看>>
Selenium WebDriver API 进阶使用,模块化参数化进行自动化测试设计
查看>>