当前位置: 首页 > news >正文

中国建设银行网站怎么改支付密码忘了怎么办手工建站与模板网站的区别

中国建设银行网站怎么改支付密码忘了怎么办,手工建站与模板网站的区别,下载网站的搭建,河南省建设厅专业业务系统网站1 概述 问题一览 总体感觉良好#xff0c;通过面试官的介绍可知这个岗位偏向离线数仓。 1.自我介绍 2.询问了其中一段实习经历 3.讲下你说用过的Linux命令 4.讲下HIVE的内部表和外部表有什么不同 *5.讲下你使用过的Hive函数#xff08;好好在复习下多准备几个吧#xff09…1 概述 问题一览 总体感觉良好通过面试官的介绍可知这个岗位偏向离线数仓。 1.自我介绍 2.询问了其中一段实习经历 3.讲下你说用过的Linux命令 4.讲下HIVE的内部表和外部表有什么不同 *5.讲下你使用过的Hive函数好好在复习下多准备几个吧 *6.请讲下维度建模和范式建模的区别自上而下自底而上关系-实体事实-维度 *7.为什么关系型数据库更适合范式建模而数仓适合维度建模 8.讲下数据倾斜 *9.HIVE的分区和分桶分区是放在不同目录下分桶是放在不同文件中 10.什么是Hive-on-mr什么是Hive-on-spark 11.又问了简历的另一段实习经历 *12.复述下你曾经做过的一个数据科学的项目你做了多少是不是你一个人做的这个问题失误在于没有挑典型项目讲现在要准备下稿子 12.这个岗位是实习岗不会影响你秋招吗 12.经典的反问环节 2 题目总结 2.1 讲下HIVE的内部表和外部表有什么不同 未被external修饰的是内部表被external修饰的为外部表。内部表数据由Hive自身管理外部表数据由HDFS管理内部表数据存储的位置是hive.metastore.warehouse.dir默认/user/hive/warehouse 外部表数据的存储位置由自己设置删除内部表会直接删除元数据metadata及存储数据删除外部表仅仅会删除元数据HDFS上的文件并不会被删除。 2.2 讲下你使用过的Hive函数 HIVE 常用函数总结https://www.zhihu.com/tardis/zm/art/102502175?source_id1005 向下取整函数: floor指定精度取整函数: round 向上取整函数: ceil 取随机数函数: rand 绝对值函数: abs日期转年函数: year 日期转月函数: month日期转天函数: day  2.3 请讲下维度建模和范式建模的区别 数据仓库的两种建模方法范式建模和维度建模_数据仓库 数据建模_Happybigman的博客-CSDN博客数据仓库的两种建模方法范式建模Inmon提出的集线器的自上而下EDW-DM的数据仓库架构。操作型或事务型系统的数据源通过ETL抽取转换和加载到数据仓库的ODS层然后通过ODS的数据建设原子数据的数据仓库EDWEDW不是多维格式的不方便上层应用做数据分析所以需要通过汇总建设成多维格式的数据集市层。优势易于维护高度集成劣势结构死板部署周期较长范式建模应用在EDW层..._数据仓库 数据建模https://blog.csdn.net/baidu_20183817/article/details/104991764 2.4 为什么关系型数据库更适合范式建模而数仓适合维度建模 范式建模的优缺点 优点 节约存储(尤其是利用数据库进行数仓建设的时候)规范化带来的好处是通过减少数据冗余提高更新数据的效率同时保证数据完整性。结构清晰易于理解 缺点 构建比较复杂查询复杂(需要很多的关联)不适合在大数据环境下构建因为两点1 查询复杂  2 存储很便宜 总结由于建模方法限定在关系型数据库之上在某些时候反而限制了整个数据仓库模型的灵活性性能等特别是考虑到数据仓库的底层数据向数据集市的数据进行汇总时需要进行一定的变通才能满足相应的需求。 2.5 讲下数据倾斜 空值引发的数据倾斜 解决方案 第一种可以直接不让null值参与join操作即不让null值有shuffle第二种因为null值参与shuffle时的hash结果是一样的那么我们可以给null值随机赋值这样它们的hash结果就不一样就会进到不同的reduce中不同数据类型引发的数据倾斜 解决方案 如果key字段既有string类型也有int类型默认的hash就都会按int类型来分配那我们直接把int类型都转为string就好了这样key字段都为stringhash时就按照string类型分配了不可拆分大文件引发的数据倾斜 解决方案 这种数据倾斜问题没有什么好的解决方案只能将使用GZIP压缩等不支持文件分割的文件转为bzip和zip等支持文件分割的压缩方式。 所以我们在对文件进行压缩时为避免因不可拆分大文件而引发数据读取的倾斜在数据压缩的时候可以采用bzip2和Zip等支持文件分割的压缩算法。数据膨胀引发的数据倾斜 解决方案 在Hive中可以通过参数 hive.new.job.grouping.set.cardinality 配置的方式自动控制作业的拆解该参数默认值是30。表示针对grouping sets/rollups/cubes这类多维聚合的操作如果最后拆解的键组合大于该值会启用新的任务去处理大于该值之外的组合。如果在处理数据时某个分组聚合的列有较大的倾斜可以适当调小该值。表连接时引发的数据倾斜 解决方案 通常做法是将倾斜的数据存到分布式缓存中分发到各个Map任务所在节点。在Map阶段完成join操作即MapJoin这避免了 Shuffle从而避免了数据倾斜。其他情况引发的数据倾斜 解决方案 这类问题最直接的方式就是调整reduce所执行的内存大小。 调整reduce的内存大小使用mapreduce.reduce.memory.mb这个配置。 2.6 HIVE的分区和分桶的区别 分区是按照分区字段在HDFS上建立子文件夹分区内的数据存放在子文件夹内查询时不需要全局扫描只扫描对应分区文件夹的数据。 而分桶是按分桶字段对数据取hash值值相同的放在同一个分桶文件里分桶生成的是分桶文件分区对应的是子文件夹。
http://www.hkea.cn/news/14276506/

相关文章:

  • 网站建设参考网站的说明书建筑工程网名大全霸气
  • 如何建立优秀企业网站专门做羽毛球的网站
  • 医院建设网站意义小程序搭建价格
  • 电商网站设计风格网站建设 php
  • 企业黄页软件seo技术软件
  • 西宁 网站建设外贸网站设计注意事项
  • MAKA网站做H5怎么压缩图片灰色词seo排名
  • 青海建设厅职称网站网页设计总结经验
  • 个人网站html源码云南电子政务网站建设
  • 装饰网站建设优惠套餐排版漂亮的网站
  • 支付宝网站开发开网店怎么开的
  • 安阳网络平台网站优化软件排行榜
  • 网站维护是做什么的安徽网站设计找哪家
  • intitle 无线网站制作卓航网站开发
  • 网站宣传页面番禺区网站设计
  • 网站建设视频教程云盘一套完整的app 开发流程
  • 免费下载app软件网站电力建设期刊网站经常维护吗
  • 怎么将自己做的网站上线门户网站要求
  • 地方o2o同城网站源码怎么查看网页的源代码
  • 做网站需要学那几个软件上海网站优化海
  • 廊坊哪里做网站好app软件定制开发一般多少钱
  • 优秀网站h5案例分享文山知名网站建设报价
  • 无备案网站 阿里联盟惠州网站开发公司电话
  • 菏泽网站建设培训学校wordpress使用自己主页
  • 网站设计技术那个公司可以做网站
  • 专门做车评的网站百度快照手机入口
  • 大连服务公司 网站个人主页网页设计教程
  • 做的网站怎么卖出去坂田建设网站
  • 什么网站的新闻做参考文献网站开发中存在的问题
  • 江西网站建设公司电话资源下载wordpress