数据小站
数据科学成长之路

hive中嵌入python代码

hive > add file ./…….py.paht;

hive > select transform(col_name1 ,col_name2)
using
‘python json.py ‘
as
(col1 ,col2…..)
from
table_name

transform方法提供了调用自定义脚本的功能。transform选择列后, 通过using ‘.py’ 脚本,将选中的列作为输入,输入到py脚本中运行。 py脚本运行的结果, 通过 as关键字,设置py输出的对应列名称。

需要注意的是,TRANSFORM的分割符号是’\t’, 输入输出数据时都需要以’\t‘分割, 在py脚本输出时,内容将不同列的字符串用’\t’.join后,在print输出

在hive中在 add python代码时,在启动的一个任务中,一个文件名只能add一次,如果修py代码要修改,需要改新名称在add, 否则会引起启动py脚本异常的错误

赞(0) 打赏
未经允许不得转载:技术文档分享 » hive中嵌入python代码

评论 抢沙发