当前位置: 首页 > news >正文

国内可以做网页的网站附近的教育培训机构有哪些

国内可以做网页的网站,附近的教育培训机构有哪些,网投网站怎么做,微商城建设1 概述 问题一览 总体感觉良好#xff0c;通过面试官的介绍可知这个岗位偏向离线数仓。 1.自我介绍 2.询问了其中一段实习经历 3.讲下你说用过的Linux命令 4.讲下HIVE的内部表和外部表有什么不同 *5.讲下你使用过的Hive函数#xff08;好好在复习下多准备几个吧#xff09…1 概述 问题一览 总体感觉良好通过面试官的介绍可知这个岗位偏向离线数仓。 1.自我介绍 2.询问了其中一段实习经历 3.讲下你说用过的Linux命令 4.讲下HIVE的内部表和外部表有什么不同 *5.讲下你使用过的Hive函数好好在复习下多准备几个吧 *6.请讲下维度建模和范式建模的区别自上而下自底而上关系-实体事实-维度 *7.为什么关系型数据库更适合范式建模而数仓适合维度建模 8.讲下数据倾斜 *9.HIVE的分区和分桶分区是放在不同目录下分桶是放在不同文件中 10.什么是Hive-on-mr什么是Hive-on-spark 11.又问了简历的另一段实习经历 *12.复述下你曾经做过的一个数据科学的项目你做了多少是不是你一个人做的这个问题失误在于没有挑典型项目讲现在要准备下稿子 12.这个岗位是实习岗不会影响你秋招吗 12.经典的反问环节 2 题目总结 2.1 讲下HIVE的内部表和外部表有什么不同 未被external修饰的是内部表被external修饰的为外部表。内部表数据由Hive自身管理外部表数据由HDFS管理内部表数据存储的位置是hive.metastore.warehouse.dir默认/user/hive/warehouse 外部表数据的存储位置由自己设置删除内部表会直接删除元数据metadata及存储数据删除外部表仅仅会删除元数据HDFS上的文件并不会被删除。 2.2 讲下你使用过的Hive函数 HIVE 常用函数总结https://www.zhihu.com/tardis/zm/art/102502175?source_id1005 向下取整函数: floor指定精度取整函数: round 向上取整函数: ceil 取随机数函数: rand 绝对值函数: abs日期转年函数: year 日期转月函数: month日期转天函数: day  2.3 请讲下维度建模和范式建模的区别 数据仓库的两种建模方法范式建模和维度建模_数据仓库 数据建模_Happybigman的博客-CSDN博客数据仓库的两种建模方法范式建模Inmon提出的集线器的自上而下EDW-DM的数据仓库架构。操作型或事务型系统的数据源通过ETL抽取转换和加载到数据仓库的ODS层然后通过ODS的数据建设原子数据的数据仓库EDWEDW不是多维格式的不方便上层应用做数据分析所以需要通过汇总建设成多维格式的数据集市层。优势易于维护高度集成劣势结构死板部署周期较长范式建模应用在EDW层..._数据仓库 数据建模https://blog.csdn.net/baidu_20183817/article/details/104991764 2.4 为什么关系型数据库更适合范式建模而数仓适合维度建模 范式建模的优缺点 优点 节约存储(尤其是利用数据库进行数仓建设的时候)规范化带来的好处是通过减少数据冗余提高更新数据的效率同时保证数据完整性。结构清晰易于理解 缺点 构建比较复杂查询复杂(需要很多的关联)不适合在大数据环境下构建因为两点1 查询复杂  2 存储很便宜 总结由于建模方法限定在关系型数据库之上在某些时候反而限制了整个数据仓库模型的灵活性性能等特别是考虑到数据仓库的底层数据向数据集市的数据进行汇总时需要进行一定的变通才能满足相应的需求。 2.5 讲下数据倾斜 空值引发的数据倾斜 解决方案 第一种可以直接不让null值参与join操作即不让null值有shuffle第二种因为null值参与shuffle时的hash结果是一样的那么我们可以给null值随机赋值这样它们的hash结果就不一样就会进到不同的reduce中不同数据类型引发的数据倾斜 解决方案 如果key字段既有string类型也有int类型默认的hash就都会按int类型来分配那我们直接把int类型都转为string就好了这样key字段都为stringhash时就按照string类型分配了不可拆分大文件引发的数据倾斜 解决方案 这种数据倾斜问题没有什么好的解决方案只能将使用GZIP压缩等不支持文件分割的文件转为bzip和zip等支持文件分割的压缩方式。 所以我们在对文件进行压缩时为避免因不可拆分大文件而引发数据读取的倾斜在数据压缩的时候可以采用bzip2和Zip等支持文件分割的压缩算法。数据膨胀引发的数据倾斜 解决方案 在Hive中可以通过参数 hive.new.job.grouping.set.cardinality 配置的方式自动控制作业的拆解该参数默认值是30。表示针对grouping sets/rollups/cubes这类多维聚合的操作如果最后拆解的键组合大于该值会启用新的任务去处理大于该值之外的组合。如果在处理数据时某个分组聚合的列有较大的倾斜可以适当调小该值。表连接时引发的数据倾斜 解决方案 通常做法是将倾斜的数据存到分布式缓存中分发到各个Map任务所在节点。在Map阶段完成join操作即MapJoin这避免了 Shuffle从而避免了数据倾斜。其他情况引发的数据倾斜 解决方案 这类问题最直接的方式就是调整reduce所执行的内存大小。 调整reduce的内存大小使用mapreduce.reduce.memory.mb这个配置。 2.6 HIVE的分区和分桶的区别 分区是按照分区字段在HDFS上建立子文件夹分区内的数据存放在子文件夹内查询时不需要全局扫描只扫描对应分区文件夹的数据。 而分桶是按分桶字段对数据取hash值值相同的放在同一个分桶文件里分桶生成的是分桶文件分区对应的是子文件夹。
http://www.hkea.cn/news/14358264/

相关文章:

  • app手机网站开发app拉新平台有哪些
  • 网站的服务器是什么西班牙语网站设计公司哪家好
  • 长沙网站制作多少钱分类网站怎么做项目
  • 网站规划的公司南京模板建站哪家好
  • 淘宝客 备案 网站名称淘宝客模板 wordpress
  • 长安网站设计盘锦做网站公司
  • 新世纪建设集团有限公司网站专门做logo的网站
  • 沧州网站建设代理价格建设局网站公告
  • 上海外贸营销网站建设地址网站突然不收录了
  • 怎样让百度搜不到自己的网站自适应网站系统吗
  • [网络收集]form表单及网站开发中常用js表单取值方法伊春网站优化
  • 制作一个自己的网站岳阳网站建设推广
  • 做网站要商标吗wordpress 文章文件夹
  • 松门建设规划局网站冠县网站建设是什么
  • 20个优秀的响应式设计html5网站模板人工智能
  • 想建书画网站怎么做的电子商务网站优化方案
  • o2o网站建设特色9377手游交易平台
  • 网站建设平台赚钱wordpress apahce 静态 windows
  • 找网站公司做网站用了织梦可以吗快速开发网站
  • wordpress网站 搬家拓者吧室内设计吧官网
  • 做网站公司汉狮价格最新新闻事件2023
  • 武夷山景区网站建设特点wordpress采集爬虫
  • 做网站uiWordpress 十大
  • 建设厅施工员证查询网站wordpress筛选热门列表
  • 如何下载别人的网站做模板深圳的建设工程信息网
  • 网站为什么做站外推广岳阳找工作网站
  • 廊坊优化网站排名如何制作课程网站模板下载地址
  • 赔率网站怎么做网站建设带主机
  • 建设银行招标网站中国兰州
  • wap网站和internet网站wordpress会员可看