当前位置: 首页 > news >正文

国外网站无法访问优化大师下载安装app

国外网站无法访问,优化大师下载安装app,职业生涯规划大赛含金量高吗,成免费的crm2 数据清洗、转换 此实验使用S3作为数据源 ETL: E extract 输入 T transform 转换 L load 输出 大纲 2 数据清洗、转换2.1 架构图2.2 数据清洗2.3 编辑脚本2.3.1 连接数据源#xff08;s3#xff09;2.3.2. 数据结构转换2.3.2 数据结构拆分…2 数据清洗、转换 此实验使用S3作为数据源 ETL: E    extract         输入 T    transform     转换 L    load             输出 大纲 2 数据清洗、转换2.1 架构图2.2 数据清洗2.3 编辑脚本2.3.1 连接数据源s32.3.2. 数据结构转换2.3.2 数据结构拆分、定义2.3.3 清洗后的数据写入新s32.3.4 运行作业 2.4 数据分区2.4.1 编辑脚本2.4.2 运行脚本 2.5 总结 2.1 架构图 2.2 数据清洗 此步会将S3中的原始数据清洗成我们想要的自定义结构的数据。之后我们可通过APIGatewayLambdaAthena来实现一个无服务器的数据分析服务。 步骤图例1、入口2、创建Jobs3作为数据源则Type选择Spark若为Kinesis等选择Stream Spark3、IAM角色需要有s3与Glue的权限4、选择s3脚本位置,若已经完成脚本的编写工作则可以选择第二项或第三项若无则Glue会提供默认脚本5、安全配置参数建议添加参数–enable-auto-scaling为true。每次在我们执行Job任务时会根据运行 ETL 任务的数据处理单元DPU的个数来分配动态IP在我们子网的动态IP数低于DPU数时Job将会执行失败。此参数将会动态分配IP。6、数据源7、数据目标我们会将清洗后的数据存储到新的s3桶8、设计架构在本案例中我们会自定义脚本。所以不再在此处设计架构此处设计后脚本会自动生成相关代码9、保存 2.3 编辑脚本 脚本中的args参数的键值需要从Job的安全配置参数中定义 2.3.1 连接数据源s3 #数据源 datasource glueContext.create_dynamic_frame.from_catalog(database args[db_name], table_name tableName, transformation_ctx datasource)2.3.2. 数据结构转换 mapped_readings ApplyMapping.apply(frame datasource, mappings [(lclid, string, meter_id, string), \(datetime, string, reading_time, string), \(KWH/hh (per half hour), double, reading_value, double)], \transformation_ctx mapped_readings)2.3.2 数据结构拆分、定义 mapped_readings_df DynamicFrame.toDF(mapped_readings)mapped_readings_df mapped_readings_df.withColumn(obis_code, lit()) mapped_readings_df mapped_readings_df.withColumn(reading_type, lit(INT))reading_time to_timestamp(col(reading_time), yyyy-MM-dd HH:mm:ss) mapped_readings_df mapped_readings_df \.withColumn(week_of_year, weekofyear(reading_time)) \.withColumn(date_str, regexp_replace(col(reading_time).substr(1,10), -, )) \.withColumn(day_of_month, dayofmonth(reading_time)) \.withColumn(month, month(reading_time)) \.withColumn(year, year(reading_time)) \.withColumn(hour, hour(reading_time)) \.withColumn(minute, minute(reading_time)) \.withColumn(reading_date_time, reading_time) \.drop(reading_time)2.3.3 清洗后的数据写入新s3 # write data to S3 filteredMeterReads DynamicFrame.fromDF(mapped_readings_df, glueContext, filteredMeterReads)s3_clean_path s3:// args[clean_data_bucket]glueContext.write_dynamic_frame.from_options(frame filteredMeterReads,connection_type s3,connection_options {path: s3_clean_path},format parquet,transformation_ctx s3CleanDatasink)2.3.4 运行作业 执行成功后状态将变为SUCCESS失败将会给出失败信息可在CloudWatch 中查看详情 清洗后的数据保存到了s3 数据清洗完毕后可通过上一篇中的爬网程序步骤将清洗后的数据的结构创建表到数据目录中 此时我们可以使用Athena对清洗后的数据进行分析。 2.4 数据分区 接下来我们对数据进行分区处理此处只提供了按天分区 重新进行数据清洗中的创建Job操作后重写脚本 2.4.1 编辑脚本 连接数据源。表为上一步最后重新爬取生成的新表。 cleanedMeterDataSource glueContext.create_dynamic_frame.from_catalog(database args[db_name], table_name tableName, transformation_ctx cleanedMeterDataSource)根据type与data_str分区 business_zone_bucket_path_daily s3://{}/daily.format(args[business_zone_bucket])businessZone glueContext.write_dynamic_frame.from_options(frame cleanedMeterDataSource, \connection_type s3, \connection_options {path: business_zone_bucket_path_daily, partitionKeys: [reading_type, date_str]},\format parquet, \transformation_ctx businessZone)2.4.2 运行脚本 分区后的数据结果 再次创建、运行爬网程序将会在数据目录中生成新的分区表。 2.5 总结 到这一步我们已经使用Glue ETL对s3桶中的数据进行了清洗、分区操作。在进行上篇中的Athena操作后我们已经可以通过Athena直接查询到清洗、分区后的数据集了。 接下来我们会通过使用APIGatewayLambdaAthena来构建一个无服务器的数据查询分析服务。
http://www.hkea.cn/news/14429281/

相关文章:

  • 素材网站官网广告公司网站官网
  • 广州17网站一起做网店哈尔滨网站建设企业
  • 专做自驾游的网站wordpress新增页面
  • 网站收录了怎么做排名平面设计培训班学费一般多少钱
  • 丰涵网站建设科技wordpress为什么打开商城非常慢
  • 上海 企矩 网站建设民勤县建设局网站
  • 做网站宝安图怪兽海报制作官网
  • 网站备案期间可以建站给别人做的网站要复杂做安全扫描
  • 网站怎么推广运营广东省建设安全协会网站
  • 经验范围 网站建设怎么做网站首页关键词
  • 珠宝网站建设方案网站建设单选
  • 上海网站建设服务站霸网络上海建网站服务器
  • 代理做网站合适吗湖南省建三公司官网
  • 网站如何生成appwordpress download 插件
  • 一个网站需要几个人汝州住房和城乡建设局新网站
  • 宁波网站设计游戏周边产品 做网站
  • 网站活动专题页面设计国内贸易平台
  • 关于网站建设培训那些做app网站的怎么寻找客户的
  • 浙江住房城乡建设厅网站网站页脚设计的几个小技巧
  • 太原网站推广服务专业定制网站建设智能优化
  • 广州市网站网页制作公司网站统计分析平台
  • 制定网站分工任务网站的建设规划找兼职做酒店网站
  • 建设网站的主要任务教育平台oss做视频网站
  • 药材公司网站建设模板长沙网站开发
  • 做网站推广 需要ftpwordpress 搭建博客
  • o2o网站开发相关技术建设网站需要多少钱济南兴田德润厉害吗
  • 做签证宾馆订单用啥网站租点点电脑租赁公司
  • 企业网站源码自己建的网站也要注册域名吗
  • 网站服务器宽带成都成华网站建设
  • 08网站建设佛山企业网站制作哪家好