当前位置: 首页 > news >正文

潜江资讯网二手房出售/优化方案官方网站

潜江资讯网二手房出售,优化方案官方网站,个人网站不备案做经营性质网站,皮具网站建设在使用 PyODPS DataFrame 编写数据应用时,尽管编写的是同一个脚本文件,但其中的代码会在不同位置执行,这可能导致一些无法预期的问题,本文介绍当出现相关问题时,如何确定代码在何处执行,以及提供部分场景下…

在使用 PyODPS DataFrame 编写数据应用时,尽管编写的是同一个脚本文件,但其中的代码会在不同位置执行,这可能导致一些无法预期的问题,本文介绍当出现相关问题时,如何确定代码在何处执行,以及提供部分场景下解决问题的方法。

概述

假定我们要执行下面的代码:

from odps import ODPS, options
import numpy as npo = ODPS(access_id, access_key, project, endpoint)
df = o.get_table('pyodps_iris').to_df()coeffs = [0.1, 0.2, 0.4]def handle(v):import numpy as npreturn float(np.cosh(v)) * sum(coeffs)options.df.supersede_libraries = True
val = df.sepal_length.map(handle).sum().execute(libraries=['numpy.zip', 'other.zip'])
print(np.sinh(val))复制代码

在开始分析之前,首先需要指出的是,PyODPS 是一个 Python 包而非 Python Implementation,PyODPS 的运行环境均为未经修改的 Python,因而并不会出现与正常 Python 解释器不一致的行为。亦即,你所写的每一条语句不会有与标准 Python 语句不同的行为,例如自动变成分布式代码,等等。

下面解释该代码的执行过程。


上图是执行上述代码时可能涉及的系统。代码本身执行的位置在图中用紫色表示,这些系统都位于 MaxCompute 外部,为了方便表述,下文称为“本地”。在本地执行的代码包括 handle 函数之外的部分(注意 handle 传入 map 时仅传入了函数本身而并未执行)。因而,这些代码在执行时,行为与普通 Python code 的执行行为类似,import 第三方包时,引用的是本地的包。因而,上面的代码中,libraries=['numpy.zip', 'other.zip']引用的other.zip因为并没有在本地安装,因而如果代码中有诸如 import other 这样的语句,会导致执行报错。即便 other.zip已被上传到 MaxCompute 资源也是如此,因为本地根本没有这个包。理论上,本地代码如果不涉及 PyODPS 包,则与 PyODPS 无关,用户需要自行排查。

对于 handle 函数,情况发生了变化。handle 函数传入 map 方法时,如果使用的后端是 MaxCompute 后端,会先被 cloudpickle 模块提取闭包和字节码,此后 PyODPS DataFrame 会使用闭包和字节码生成一个 Python UDF,提交到 MaxCompute。最后,作业以 SQL 的形式在 MaxCompute 执行时,会调用这个 Python UDF,其中的字节码和闭包内容会被 unpickle,此后在 MaxCompute Executor 执行。由此可见,在上述代码中,

  1. 在 handle 函数体中的代码都不会在本地执行,而会在 MaxCompute Executor 中执行;
  2. handle 函数体中无法引用本地安装的包,只有在 MaxCompute Executor 中存在的包才有效;
  3. 上传的第三方包必须能够在 MaxCompute Executor 中的 Python 版本(目前为 Python 2.7,UCS2)中调用;
  4. handle 函数体中修改引用的外部变量(上述代码中的 coeffs)不会导致本地的 coeffs 值被修改;
  5. 如果在 handle 中引用在 handle 外 import 的包,在 handle 中调用可能会报错,因为在不同环境中,包的结构可能不同,而 cloudpickle 会将本地包的引用带到 MaxCompute Executor,导致报错,因而建议 import 在 handle 中进行;
  6. 由于使用 cloudpickle,如果在 handle 中调用了其他文件中的代码,该文件所在的包必须存在于 MaxCompute Executor 中。如果你不想使用第三方包的形式解决该问题,请将所有引用的个人代码放在同一个文件中。

上述对 handle 函数的解释对于自定义聚合、apply 和 map_reduce 中调用的自定义方法 / Agg 类均适用。如果使用的后端是 Pandas 后端,则所有代码都会在本地运行,因而本地也需要安装相关的包。但鉴于 Pandas 后端调试完毕后通常会转移到 MaxCompute 运行,建议在本地装包的同时,参照 MaxCompute 后端的惯例进行开发。

使用第三方包

  1. 个人电脑 / 自有服务器在本地使用第三方包 / 其他文件中的代码

在相应的 Python 版本上安装即可。

  1. DataWorks 中本地使用其他文件中的代码

该部分功能由 DataWorks 提供,请参考 DataWorks 文档。

  1. map / apply / map_reduce / 自定义聚合中使用第三方包 / 其他文件中的代码

参考 yq.aliyun.com/articles/59… 。需要补充的是,在 DataWorks 上上传资源后,需要点击“提交”确保资源被正确上传到 MaxCompute。如果需要使用自己的 Numpy 版本,在上传正确版本的 wheel 包的同时,需要配置 odps.df.supersede_libraries = True,同时确保你上传的 numpy 包名位于 libraries 的最前面,如果指定了 options.df.libraries,则 numpy 包名需要位于 options.df.libraries 的最前面。

引用其他 MaxCompute 表中的数据

  1. 个人电脑 / 自有服务器在本地访问 MaxCompute 表

如果 Endpoint 可以连接,使用 PyODPS / DataFrame 访问。

  1. map / apply / map_reduce / 自定义聚合中访问其他 MaxCompute 表

MaxCompute Executor 中通常不支持访问 Endpoint / Tunnel Endpoint,其上也没有 PyODPS 包可用,因而不能直接使用 ODPS 入口对象或者 PyODPS DataFrame,也不能从自定义函数外部传入这些对象。如果表的数据量不大,建议将 DataFrame 作为资源传入(见 pyodps.readthedocs.io/zh_CN/lates… )。如果数据量较大,建议改写成 join。

访问其他服务

  1. 个人电脑 / 自有服务器在本地访问其他服务

保证自己的环境中可以正常访问相关服务,生产服务器可以联系 PE。

  1. DataWorks 上的本地代码中访问其他服务

请咨询 DataWorks。

  1. map / apply / map_reduce / 自定义聚合中访问其他服务


原文链接

本文为云栖社区原创内容,未经允许不得转载。


转载于:https://juejin.im/post/5cfe0df25188254ee433bf7a

http://www.lbrq.cn/news/935803.html

相关文章:

  • 网站后台程序怎么做/seo工具查询
  • 学营销app哪个更好/长沙seo网站管理
  • 漳州网站建设公司/什么平台免费推广效果最好
  • 手机网站最小宽度/怎么宣传自己的产品
  • 橙子建站验证码是干啥的/西安竞价推广托管
  • h5网站建设价格/文章代写
  • wordpress search everything/郑州网站建设专业乐云seo
  • 一个独立IP做几个网站比较合适/找精准客户的app
  • 怎么制作页面模板/旺道seo营销软件
  • 聊城企业做网站/关键词seo是什么
  • 可以做网站的软件/怎么做百度搜索排名
  • 手机版网站源码/网络舆情处理公司
  • 阿里网站官网入口/成都sem优化
  • 做网站最流行的语言/谷歌google下载
  • 建筑建设行业网站/百度快速seo
  • 保定 网站/域名注册多少钱
  • 充值网站怎么做的/河南省干部任免最新公示
  • 广东省城乡建设部网站首页/网站自然排名工具
  • 特色的重庆网站推广/南京百度seo
  • 江门制作手机网站/中国宣布取消新冠免费治疗
  • 网站集约化建设流程/贵州百度seo整站优化
  • 泰州 做网站/人民日报最新头条10条
  • 如何屏蔽网站ip/常见的网络推广方法
  • 我想给赌博网站做代理/百度网盘资源搜索引擎
  • 手机端网站建设广告词/网站后端开发
  • 芜湖做网站多少钱/网站数据分析案例
  • 珠海网站建设 金碟/企业网站设计欣赏
  • 公司域名注册流程/seo排名点击工具
  • 苏州网站建设丶好先生科技/百度搜索简洁版网址
  • 深度科技有限公司/网站搜索引擎优化主要方法
  • AI产品经理手册(Ch3-5)AI Product Manager‘s Handbook学习笔记
  • 数据结构——图(二、图的存储和基本操作)
  • 未授权访问
  • 终结集成乱局:模型上下文协议(MCP)如何重构AI工具生态?
  • 【华为机试】210. 课程表 II
  • 群晖Synology Drive:打造高效安全的私有云协作平台