阿里云 MaxCompute 2020-7 月刊

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 2020年7月,MaxCompute发布使用包年包月计算资源作业支持优先级功能等8项功能,并于8月5日重磅发布企业级安全新能力,解读SaaS模式云数据仓库MaxCompute数据的持续保护。

2020年8月5日 “MaxCompute企业级安全新能力发布”,解读SaaS模式云数据仓库MaxCompute数据的持续保护。
了解发布详情>>

【7月新发布功能】

1.MaxCompute使用包年包月计算资源作业支持优先级功能

MaxCompute支持作业优先级的功能可以更合理分配使用包年包月计算资源,给高优先级业务加一道保障。

适用客户
适用于MaxCompute使用包年包月计算资源的用户。

发布功能
使用MaxCompute包年包月计算资源时,资源池为独享同时也是有限的,而业务优先级不同,对应的任务也有不同优先级,当任务都处在资源等待状态时,通过优先级功能,可以让优先级高的任务优先获取到资源执行,从而更合理分配使用有限的计算资源。

此功能同时支持关联DataWorks调度任务基线优先级,若通过DataWorks使用MaxCompute,且有调度任务,可以根据业务划分调度任务优先级,当调度任务发起MaxCompute job时,对应的优先级会传到MaxCompute转化成MaxCompute的优先级。

开启使用优先级功能前,务必要先梳理好各任务/流程优先级,避免滥用高优先级从而达不到预定的效果。

查看文档 >>


2.MaxCompute管家支持对包年包月配额组分时管理

MaxCompute管家支持对包年包月配额组分时管理,满足对不同工作负载能力的项目时段进行资源隔离,避免相互干扰,提高资源使用率。

适用客户
MaxCompute包年包月计算资源用户

发布功能
MaxCompute包年包月资源可以通过MaxCompute管家进行配额管理,新支持的配额组分时功能,可以实现因不同项目(开发、生产)1天之内对资源使用的时段不同而需要对配额组按照时段来分配大小的需求,从而满足时段的差异化资源需求,更大化提高资源使用效率。

分时配额功能主要是支持包年包月的预留型计算资源的分时设置,可以根据业务需求,对配额进行分时,然后划分N个包年包月资源配额组,每个配额组每个时段设置具体的预留CU最大和最小值,并关联对应的project。如生产项目关联的配额组在夜间时段可分配多些预留资源,而开发项目管理的配额组可在白天开发高峰期分配多些预留资源,由此隔离生产/开发/不同工作负载的能力,更大化提高资源使用率。

查看文档 >>


3.MaxCompute 使用包年包月计算资源的Project支持指定SQL任务使用按量付费计算资源

MaxCompute支持包年包月项目中的SQL使用按量计费资源,突破了独享资源的局限,从而更灵活更合理的使用包年包月资源。

适用客户
MaxCompute包年包月计算资源用户

发布功能
MaxCompute使用包年包月的项目支持指定SQL提交到关联的按量付费计算资源池执行。在使用此功能前,需要先开通对应区域的按量付费服务,还要评估哪些使用包年包月资源的项目有SQL任务需要指定使用按量付费计算资源。确认好后,通过MaxCompute 管家将包年包月的项目增加按量付费配额组,再在对应包年包月项目指定SQL作业使用按量付费资源运行,指定好后此SQL每次执行会直接提交到按量付费资源池中执行,执行成功则按量付费。

在该功能之前,同个项目同个业务需求有任务需求使用按量付费资源池时,需要单独创建按量付费项目并在项目中创建任务进行执行,还需要打通项目之间的权限,跨项目任务依赖等额外的管理工作,使用起来便捷性和体验都比较差,而“包年包月的项目支持指定SQL使用按量付费计算资源”功能将带来更好的使用体验从而提升工作效率。

查看文档 >>


4.MaxCompute新增项目的默认数据类型版本从1.0变更为2.0

MaxCompute通过DataWorks控制台新增项目时,项目的默认数据类型版本从1.0变更为2.0。

适用客户
MaxCompute公共云用户

发布功能
MaxCompute通过DataWorks控制台新增项目时,项目的默认数据类型版本从1.0变更为2.0。该变更已于2020年7月13日到2020年7月22日陆续对中国站各个区域进行了升级,并将于2020年7月29日到2020年8月6日陆续对国际站各个区域进行升级。如果您之前创建过存量项目,新建项目时需要选择合适的数据类型版本。不同数据类型版本的项目进行数据交互时可能会引起兼容性问题。

MaxCompute有3个数据类型版本,不同数据类型版本在定义和行为上有一定的差异。MaxCompute将数据类型相关属性组成3个组合,分别对应1.0数据类型版本、2.0数据类型版本和Hive兼容数据类型版本。详情请参见数据类型版本说明。

数据类型版本说明 >>
创建项目空间说明 >>


5.Python UDF支持更多数据类型

Python 2 UDF 和Python 3 UDF 支持更多数据类型。

适用客户
MaxCompute公共云用户。

发布功能
Python 2 和Python 3 的UDF/UDTF/UDAF 新增支持 DECIMAL、数据类型2.0的DECIMAL、复杂类型ARRAY、MAP、STRUCT和复杂类型嵌套。
目前Python UDF 支持数据类型包括BIGINT、STRING、DOUBLE、BOOLEAN、DATETIME、DECIMAL、数据类型2.0的DECIMAL、复杂数据类型(ARRAY、MAP和STRUCT)和复杂数据类型嵌套。
目前Python 3 UDF 读资源表,即get_cache_table读取引用资源表的内容支持 BIGINT、STRING、DOUBLE、BOOLEAN、DATETIME、DECIMAL、数据类型2.0的DECIMAL、FLOAT、CHAR、VARCHAR、BINARY、DATE、ARRAY、MAP和STRUCT数据类型。

Python 2 UDF >>
Python 3 UDF >>


6.MaxCompute新增APPROX_DISTINCT等内建聚合函数

MaxCompute新增内建聚合函数,包括APPROX_DISTINCT、ANY_VALUE、ARG_MAX、ARG_MIN等。

适用客户
MaxCompute公共云用户。

发布功能
MaxCompute新增内建聚合函数,包括APPROX_DISTINCT、ANY_VALUE、ARG_MAX、ARG_MIN等。
APPROX_DISTINCT(value) 返回输入的非重复值的近似数目。
ANY_VALUE(value) 实现在取值范围内任选一个值返回。
ARG_MAX(valueToMaximize, valueToReturn) 返回指定判断列最大值的行对应的指定返回列的值。
ARG_MIN(valueToMaximize, valueToReturn) 返回指定判断列最小值的行对应的指定返回列的值。

查看文档 >>


7.MaxCompute支持代码嵌入式UDF

MaxCompute的代码嵌入式UDF允许在SQL脚本中直接书写Java或Python代码。

适用客户
MaxCompute公共云用户。

发布功能
代码嵌入式UDF功能支持把Java或Python代码嵌入到SQL脚本中,即将SQL脚本和第三方代码放入同一个源码文件,减少了使用UDT或UDF的操作步骤,给日常开发和维护带来了便利。

在脚本编译的时候,编译器把嵌入代码识别并提取出来,做必要的编译(Java 代码),动态生成资源,然后结合创建临时函数(Temporary Function)的能力来注册函数。这样,您可以在一个SQL脚本中完成代码编译(Java)、添加资源、创建函数这一系列的操作。代码嵌入式UDF功能还能够解决维护人员阅读他人SQL代码时,无法查看含有UDF的代码内部实现逻辑,甚至有些jar包找不到源码的问题。

查看文档 >>


8.MaxCompute支持SQL语言定义函数

SQL语言定义函数允许在SQL中使用SQL定义的UDF并调用。

适用客户
MaxCompute公共云用户。

发布功能
MaxCompute UDF支持java或者Python定义,很多时候需要实现一些比较简单的的功能,而这些功能有的可以直接通过SQL来描述出来,因此MaxCompute支持SQL语言定义函数(SQL Function),避免编译(Java UDF),添加资源,创建函数等复杂操作,提高代码易读性和代码复用率。SQL Function 能够在SQL中使用SQL定义的UDF并调用。SQL Function可以接受 Function类型的参数。调用时传入的可以是内置函数、UDF 或者 Sql Functions。SQL Function 支持匿名函数,即接受 Function类型参数的SQL Function,调用时传入匿名函数。

SQL Function 作为一种用户自定义函数,弥补了之前系统只能用Java/Python写UDF的不足。此外还扩展了Function Type和匿名函数等特性,让您表达业务逻辑具有了更多的灵活性。

查看文档 >>

MaxCompute 产品官网 https://www.aliyun.com/product/odps
阅读往期月刊 /publication/49
更多关于大数据计算产品技术交流,可扫码加入“MaxCompute开发者社区”钉钉群
二维码.JPG

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
人工智能 数据管理 Serverless
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
407 2
|
2月前
|
人工智能 运维 Cloud Native
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
149 2
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
720 2
|
2月前
|
人工智能 数据管理 大数据
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
35 2
|
25天前
|
机器学习/深度学习 分布式计算 数据挖掘
阿里云 MaxCompute MaxFrame 开启免费邀测,统一 Python 开发生态
阿里云 MaxCompute MaxFrame 正式开启邀测,统一 Python 开发生态,打破大数据及 AI 开发使用边界。
307 1
|
1月前
|
人工智能 DataWorks 数据可视化
心动基于阿里云DataWorks构建游戏行业通用大数据模型
心动游戏在阿里云上构建云原生大数据平台,基于DataWorks构建行业通用大数据模型,如玩家、产品、SDK、事件、发行等,满足各种不同的分析型应用的要求,如AI场景、风控场景、数据分析场景等。
335 1
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1


http://www.vxiaotou.com