当前位置：首页 > news >正文

海外网站怎么浏览哈尔滨云建站模板

news 2026/4/14 19:56:18

海外网站怎么浏览,哈尔滨云建站模板,移动商城官网,软件工程专业就业现状Atlas 元数据管理 1.Atlas入门 1.1概述元数据原理和治理功能#xff0c;用以构建数据资产的目录。对这个资产进行分类和管理#xff0c;形成数据字典。提供围绕数据资产的协作功能。表和表之间的血缘依赖字段和字段之间的血缘依赖 1.2架构图导入和导出#xff1…Atlas 元数据管理 1.Atlas入门 1.1概述元数据原理和治理功能用以构建数据资产的目录。对这个资产进行分类和管理形成数据字典。提供围绕数据资产的协作功能。表和表之间的血缘依赖字段和字段之间的血缘依赖 1.2架构图导入和导出是针对元数据的导入和导出的数据的导入和导出需要借助kafka Metadata Source元数据下面以hive为例导入我们的数据。 Zookerper hive hadoop kafka atlas 安装部署是比较复杂的数据分类 Type System 图引擎表和表的血缘字段和字段的血缘 Hbase底层是KV结构的。直接用Hbase存储是不行的。图结构多个点多个线。图数据库底层用的是Graph Engine solr和es是差不多的可以搜索数据的可以查询元数据。可以对接别的系统 1.3Atlas2.0特性使用hadoop3.0 Hive3.0 3.1 Hbase2.0 Solr7.5 Kafka2.0 1.4安装规划 1Atlas 官网地址Apache Atlas – Data Governance and Metadata framework for Hadoop 2文档查看地址Apache Atlas – Data Governance and Metadata framework for Hadoop 3下载地址Apache Downloads 1.5安装环境自带Hbase和Solr可以使用外部的Hbas和Solr。 Hadoop的组件 HDFS Yarn HistoryServer Zookeeper存储元数据的 Kafka HBase Solr Hive给Atlas提供数据的 MySQL提供Hive的数据存储的 Atlas以上全部的启动完成之后才能启动Altlas 1.6复制四个虚拟机修改主机ip vim /etc/sysconfig/network-scripts/ifcfg-ens33改主机名 vim /etc/hostnamereboot重启连接xshell 修改Windows的文件 192.168.6.100 hadoop100 192.168.6.101 hadoop101 192.168.6.102 hadoop102 192.168.6.103 hadoop103 192.168.6.104 hadoop104 192.168.6.105 hadoop105 192.168.6.106 hadoop106 192.168.6.107 hadoop107 192.168.6.108 hadoop108 192.168.6.109 hadoop109 192.168.6.200 gitlab-server 将下面的文件全部导入到虚拟机中。全部传递到/opt/software文件夹下。当出现连接不上的情况就进行重启网络管理器 [rootnode01 ~]# systemctl stop NetworkManager [rootnode01 ~]# systemctl disable NetworkManager Removed symlink /etc/systemd/system/multi-user.target.wants/NetworkManager.service. Removed symlink /etc/systemd/system/dbus-org.freedesktop.NetworkManager.service. Removed symlink /etc/systemd/system/dbus-org.freedesktop.nm-dispatcher.service. [rootnode01 ~]# service network restart 2.环境安装 2.1安装jdk 102中安装jdk 删除系统自带的Java rpm -qa |grep -i java | xargs -n1 sudo rpm -e --nodeps解压jdk tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/配置环境变量cd /etc/profile.d/创建一个自己的环境变量 sudo vim my_env.sh输入下面的环境变量 export JAVA_HOME/opt/module/jdk1.8.0_212 export PATH$PATH:$JAVA_HOME/bin使我们的环境变量生效会自动地遍历profile下的sh为结尾的文件 source /etc/profile 查看Java的环境变量 2.2配置免密登录 .ssh目录下执行下面的语句 ssh-keygen -t rsa 回车三次创建脚本 chmod 776 xsync脚本内容 #!/bin/bash #1. 判断参数个数 if [ $# -lt 1 ] thenecho Not Enough Arguement!exit; fi #2. 遍历集群所有机器 for host in hadoop102 hadoop103 hadoop104 doecho $host #3. 遍历所有目录挨个发送for file in $do#4. 判断文件是否存在if [ -e $file ]then#5. 获取父目录pdir$(cd -P $(dirname $file); pwd)#6. 获取当前文件的名称fname$(basename $file)ssh $host mkdir -p $pdirrsync -av $pdir/$fname $host:$pdirelseecho $file does not exists!fidone done执行 xsync bin 设置免费登录 ssh-copy-id hadoop102 ssh-copy-id hadoop103 ssh-copy-id hadoop104解决root下无法识别xsync命令sudo cp /home/atguigu/bin/xsync /usr/bin/2.3hadoop的安装解压 tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/去解压后的目录 cd /opt/module/hadoop-3.1.3修改配置文件core-site.xml文件 ?xml version1.0 encodingUTF-8? ?xml-stylesheet typetext/xsl hrefconfiguration.xsl?configuration !-- 指定NameNode的地址 -- !—相当于hadoop的内部通讯地址 --propertynamefs.defaultFS/namevaluehdfs://hadoop102:8020/value/property!-- 指定hadoop数据的存储目录 --propertynamehadoop.tmp.dir/namevalue/opt/module/hadoop-3.1.3/data/value/property!-- 配置HDFS网页登录使用的静态用户为atguigu --propertynamehadoop.http.staticuser.user/namevalueatguigu/value/propertypropertynamehadoop.proxyuser.atguigu.hosts/namevalue*/value/propertypropertynamehadoop.proxyuser.atguigu.groups/namevalue*/value/property/configuration 配置vim hdfs-site.xml vim hdfs-site.xml?xml version1.0 encodingUTF-8? ?xml-stylesheet typetext/xsl hrefconfiguration.xsl?configuration!-- nn web端访问地址--propertynamedfs.namenode.http-address/namevaluehadoop102:9870/value/property!-- 2nn web端访问地址--propertynamedfs.namenode.secondary.http-address/namevaluehadoop104:9868/value/property /configuration配置 vim yarn-site.xml ?xml version1.0 encodingUTF-8? ?xml-stylesheet typetext/xsl hrefconfiguration.xsl?configuration!-- 指定MR走shuffle --propertynameyarn.nodemanager.aux-services/namevaluemapreduce_shuffle/value/property!-- 指定ResourceManager的地址--propertynameyarn.resourcemanager.hostname/namevaluehadoop103/value/property!-- 环境变量的继承 --propertynameyarn.nodemanager.env-whitelist/namevalueJAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME/value/property /configuration设置vim mapred-site.xml configuration!-- 指定MapReduce程序运行在Yarn上 --propertynamemapreduce.framework.name/namevalueyarn/value/property /configuration ~ 编辑works文件输入下面的内容 hadoop102 hadoop103 hadoop104 配置历史服务器的地址 vim mapred-site.xml!-- 历史服务器端地址 -- propertynamemapreduce.jobhistory.address/namevaluehadoop102:10020/value /property!-- 历史服务器web端地址 -- propertynamemapreduce.jobhistory.webapp.address/namevaluehadoop102:19888/value /property配置日志得收集 vim yarn-site.xml!-- 开启日志聚集功能 -- propertynameyarn.log-aggregation-enable/namevaluetrue/value /property !-- 设置日志聚集服务器地址 -- property nameyarn.log.server.url/name valuehttp://hadoop102:19888/jobhistory/logs/value /property !-- 设置日志保留时间为7天 -- propertynameyarn.log-aggregation.retain-seconds/namevalue604800/value /property进行分发 xsync hadoop-3.1.3/此时就完成了所有服务器中hadoop得安装了编写一下环境变量vim /etc/profile.d/my_env.sh设置环境变量 export HADOOP_HOME/opt/module/hadoop-3.1.3 export PATH$PATH:$HADOOP_HOME/bin export PATH$PATH:$HADOOP_HOME/sbin 分发环境变量 sudo xsync /etc/profile.d/my_env.sh环境变量生效 source /etc/profile 设置一个完整得启动得脚本 myhadoop.sh #!/bin/bash if [ $# -lt 1 ] thenecho No Args Input...exit ; fi case $1 in start)echo 启动 hadoop集群 echo --------------- 启动 hdfs ---------------ssh hadoop102 /opt/module/hadoop-3.1.3/sbin/start-dfs.shecho --------------- 启动 yarn ---------------ssh hadoop103 /opt/module/hadoop-3.1.3/sbin/start-yarn.shecho --------------- 启动 historyserver ---------------ssh hadoop102 /opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver ;; stop)echo 关闭 hadoop集群 echo --------------- 关闭 historyserver ---------------ssh hadoop102 /opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserverecho --------------- 关闭 yarn ---------------ssh hadoop103 /opt/module/hadoop-3.1.3/sbin/stop-yarn.shecho --------------- 关闭 hdfs ---------------ssh hadoop102 /opt/module/hadoop-3.1.3/sbin/stop-dfs.sh ;; *)echo Input Args Error... ;; esac 启动三个机器的hadoop myhadoop.sh start创建一个脚本查看三个脚本的内容 jpsall文件创建#!/bin/bash for host in hadoop102 hadoop103 hadoop104 doecho $host ssh $host jps $ | grep -v Jps donerm -rf /opt/module/hadoop-3.1.3/logs/ /opt/module/hadoop-3.1.3/data/ 格式化 hdfs namenode -format 下面是启动完成的 2.4安装MySQL rpm -qa |grep mariadbsudo rpm -e --nodeps mariadb-libs-5.5.56-2.el7.x86_64tar -xvf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tarcommon安装 lib 额外的lib client server初始化 mysqld --initialize --usermysql查看临时密码 cat /var/log/mysqld.logsystemctl start mysqldmysql -uroot -pshow databases;update user set host% where userroot;2.5安装Hive 解压 tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /opt/module/改个名字 mv apache-hive-3.1.2-bin/ hive 修改环境变量 sudo vim /etc/profile.d/my_env.shexport HIVE_HOME/opt/module/hive export PATH$PATH:$HIVE_HOME/bin环境变量生效 source /etc/profileHive的元数据配置将MySQL的连接的驱动传递过去cp mysql-connector-java-5.1.37.jar /opt/module/hive/lib/ 修改conf下的配置 vim hive-site.xml?xml version1.0? ?xml-stylesheet typetext/xsl hrefconfiguration.xsl? configuration property namejavax.jdo.option.ConnectionURL/name valuejdbc:mysql://hadoop102:3306/metastore?createDatabaseIfNotExisttrue/valuedescriptionJDBC connect string for a JDBC metastore/description /property property namejavax.jdo.option.ConnectionDriverName/name valuecom.mysql.jdbc.Driver/value descriptionDriver class name for a JDBC metastore/description /property property namejavax.jdo.option.ConnectionUserName/name valueroot/value descriptionusername to use against metastore database/description /property property namejavax.jdo.option.ConnectionPassword/name value000000/value descriptionpassword to use against metastore database/description /property /configuration 修改启动文件 mv hive-env.sh.template hive-env.sh 放开下面的启动参数 export HADOOP_HEAPSIZE1024修改存储日志的地方‘ mv hive-log4j2.properties.template hive-log4j2.properties设置一下的参数 property.hive.log.dir /opt/module/hive/logs 初始化hive服务 schematool -initSchema -dbType mysql -verbose 次数MySQL数据库就创建成功了。此时MySQL表就创建成功了。登录hive客户端 CREATE TABLE test_user (id STRING COMMENT 编号,name STRING COMMENT 姓名,province_id STRING COMMENT 省份名称 ) COMMENT 用户表 ROW FORMAT DELIMITED FIELDS TERMINATED BY \t;yarn中可以产看到运行的进度此时在hdfs上有对应的数据如何解决中文注释的乱码问题将列改为中文修改配置文件 valuejdbc:mysql://hadoop102:3306/metastore?createDatabaseIfNotExisttrueamp;useSSLfalseamp;useUnicodetrue;characterEncodingUTF-8/value 2.6Zookeeper部署 tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz -C /opt/module/修改名字mv apache-zookeeper-3.5.7-bin/ zookeeper-3.5.7 在/opt/module/zookeeper-3.5.7/zkData下的myid文件下设置对应的编号分别为2 3 4修改zookeeper的配置文件 mv zoo_sample.cfg zoo.cfg数据保存的地方 dataDir/opt/module/zookeeper-3.5.7/zkData#下面为集群的模式 server.2hadoop102:2888:3888 server.3hadoop103:2888:3888 server.4hadoop104:2888:3888分发一下数据 xsync zookeeper-3.5.7/ zookeeper的bin下创建zk.sh脚本 #!/bin/bash if [ $# -lt 1 ] thenecho No Args Input...exit ; ficase $1 in start)for i in hadoop102 hadoop103 hadoop104doecho $i ssh $i source /etc/profile /opt/module/zookeeper-3.5.7/bin/zkServer.sh startdone ;; stop)for i in hadoop102 hadoop103 hadoop104doecho $i ssh $i source /etc/profile /opt/module/zookeeper-3.5.7/bin/zkServer.sh stopdone ;; status)for i in hadoop102 hadoop103 hadoop104doecho $i ssh $i source /etc/profile /opt/module/zookeeper-3.5.7/bin/zkServer.sh statusdone ;; *)echo Input Args Error... ;; esac 安装成功的状态 2.7Kafka安装解压 tar -zxvf kafka_2.11-2.4.1.tgz -C /opt/module/改个名字 mv kafka_2.11-2.4.1/ kafka创建logs目录mkdir logs修改kafka的配置文件 broker.id0 delete.topic.enabletrue log.dirs/opt/module/kafka/data zookeeper.connecthadoop102:2181,hadoop103:2181,hadoop104:2181/kafka 修改环境变量 sudo vim /etc/profile.d/my_env.shexport KAFKA_HOME/opt/module/kafka export PATH$PATH:$KAFKA_HOME/bin环境变量生效 source /etc/profile分发 xsync kafka/ 修改server.properties中的配置,分别设置不同的唯一的标识符分发环境变量 sudo xsync /etc/profile.d/my_env.sh 设置环境变量生效 source /etc/profile 创建kafka启动的脚本 cd ~/binchmod 777 ./kf.sh#!/bin/bashcase $1 in start){for i in hadoop102 hadoop103 hadoop104doecho --------启动 $i Kafka-------ssh $i /opt/module/kafka/bin/kafka-server-start.sh -daemon /opt/module/kafka/config/server.properties done };; stop){for i in hadoop102 hadoop103 hadoop104doecho --------停止 $i Kafka-------ssh $i /opt/module/kafka/bin/kafka-server-stop.shdone };; esac 设置这个文件的执行的权限 chmod 777 kf.sh启动所有的kafka服务 kf.sh start必须先启动zookeeper才能启动kafka 查看kafka的进程状态测试一下kafka的进行创建kafka的topic kafka-topics.sh --zookeeper hadoop102:2181/kafka \ --create --replication-factor 3 --partitions 1 --topic first查看所有的 kafka-topics.sh --zookeeper hadoop102:2181/kafka --list 查看当前服务器中所有的topic [atguiguhadoop102 bin]$ kafka-topics.sh --zookeeper hadoop102:2181/kafka --list [atguiguhadoop102 bin]$ 创建topic kafka-topics.sh --zookeeper hadoop102:2181/kafka --create --topic first --partitions 3 --replication-factor 3实例 [atguiguhadoop102 bin]$ kafka-topics.sh --zookeeper hadoop102:2181/kafka --create --topic first --partitions 3 --replication-factor 3 Created topic first. 删除topic kafka-topics.sh --zookeeper hadoop102:2181/kafka --delete --topic first 发送消息 kafka-console-producer.sh --broker-list hadoop102:9092 --topic first 实例 [atguiguhadoop104 config]$ kafka-console-producer.sh --broker-list hadoop102:9092 --topic first 1 2 3 4 5消费消息 kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --from-beginning --topic first 实例 [atguiguhadoop103 kafka]$ kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --from-beginning --topic first 1 2 3 4 52.8Hbase的安装部署 zookeeper必须正常部署。必须先启动hadoop。依赖于hdfs。解压 tar -zxvf hbase-2.0.5-bin.tar.gz -C /opt/module/重命名mv hbase-2.0.5/ hbase设置环境变量 sudo vim /etc/profile.d/my_env.shexport HBASE_HOME/opt/module/hbase export PATH$PATH:$HBASE_HOME/bin环境变量生效 source /etc/profile修改配置文件 cd conf设置外部的zookeeper sudo vim hbase-env.sh export HBASE_MANAGES_ZKfalse修改hbase-site.xml指定zk的位置 sudo vim hbase-site.xmlconfigurationpropertynamehbase.rootdir/namevaluehdfs://hadoop102:8020/HBase/value/propertyproperty namehbase.cluster.distributed/namevaluetrue/value/property!-- 0.98后的新变动之前版本没有.port,默认端口为60000 --propertynamehbase.master.port/namevalue16000/value/property property namehbase.zookeeper.quorum/namevaluehadoop102,hadoop103,hadoop104/value /property property namehbase.zookeeper.property.dataDir/namevalue/opt/module/zookeeper-3.4.10/zkData/value /property /configuration 下面是我配置的配置文件的内容 configurationpropertynamehbase.rootdir/namevaluehdfs://hadoop102:8020/HBase/value/propertyproperty namehbase.cluster.distributed/namevaluetrue/value/property propertynamehbase.zookeeper.quorum/namevaluehadoop102,hadoop103,hadoop104/value /property/configuration 修改regionservers sudo vim regionservers 输入下面的内容 hadoop102 hadoop103 hadoop104分发hbase xsync hbase/分发环境变量 sudo xsync /etc/profile.d/my_env.sh 设置环境变量生效 source /etc/profile 启动hbase 启动hbase start-hbase.sh停止hbase stop-hbase.sh 访问Master: hadoop102可以查看集群的信息 2.9Solr 需要一个索引数据库并没有采用es。因为atlas底层采用的是solr。三个主机分别都添加用户solr sudo useradd solr设置密码为solr echo solr | sudo passwd --stdin solr 解压tar -zxvf solr-7.7.3.tgz -C /opt/module/修改名称为solr mv solr-7.7.3/ solr将当前文件夹的全部的权限都给solr -R 表示递归执行sudo chown -R solr:solr /opt/module/solrsudo chown -R atguigu:atguigu /opt/module/solr/opt/module/solr/bin/solr start 以管理员的身份去修改solr下的配置文件 sudo vim solr.in.sh 修改下面的内容 ZK_HOSThadoop102:2181,hadoop103:2181,hadoop104:2181分发 xsync solr/ 处于安全的考虑不推荐采用root的用户进行启动需要采用自己创建的用户进行启动solr。启动 sudo chmod -R 777 /opt/module/solr/sudo -i -u solr /opt/module/solr/bin/solr start 假设出现打开文件的限制得话运行下面得内容打开 /etc/security/limits.conf 文件sudo vi /etc/security/limits.conf 在文件末尾添加以下行来设置软限制和硬限制* soft nofile 65536 * hard nofile 65536 下面是启动的集群的可视化配置的界面访问下面的地址可以查看solr的管理的界面http://hadoop102:8983/solr/#/~cloud?viewnodes 2.10atlas安装安装不复杂配置是复杂得解压tar -zxvf apache-atlas-2.1.0-bin.tar.gz -C /opt/module/改个名字 mv apache-atlas-2.1.0/ atlas 配置Hbase 修改内容atlas-application.properties atlas.graph.storage.hostnamehadoop102:8181,hadoop103:8181,hadoop104:8181 修改atlas-env.sh中得内容 #hbase连接地址 export HBASE_CONF/opt/module/hbase/conf atlas集成solr 修改内容atlas-application.properties atlas.graph.index.search.solr.zookeeper-urlhadoop102:8181,hadoop103:8181,hadoop104:8181 修改atlas-env.sh中得内容 #hbase连接地址 export HBASE_CONF/opt/module/hbase/conf 3.Atlas安装和配置 3.1集成Hbase 我们目前安装的是基本的server的包。安装不复杂配置是复杂得解压tar -zxvf apache-atlas-2.1.0-bin.tar.gz -C /opt/module/改个名字 mv apache-atlas-2.1.0/ atlas配置Hbase conf下修改内容atlas-application.properties atlas.graph.storage.hostnamehadoop102:2181,hadoop103:2181,hadoop104:2181 修改conf下的atlas-env.sh中得内容 #hbase连接地址 export HBASE_CONF_DIR/opt/module/hbase/conf 3.2集成solr atlas集成solr 修改conf下的atlas-application.properties atlas.graph.index.search.solr.zookeeper-urlhadoop102:2181,hadoop103:2181,hadoop104:2181 在solr中创建三个collection /opt/module/solr/bin/solr create -c vertex_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2/opt/module/solr/bin/solr create -c edge_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2/opt/module/solr/bin/solr create -c fulltext_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2下面是创建collection的效果图通过前端的界面查看创建的collection 此时atlas中的元数据的信息就可以存储到solr中去了 3.3集成Kafka 修改atlas-application.properties配置文件中的内容下面是改好的内容。 ######### Notification Configs ######### atlas.notification.embeddedfalse atlas.kafka.data/opt/module/kafka/data atlas.kafka.zookeeper.connecthadoop102:2181,hadoop103:2181,hadoop104:2181/kafka atlas.kafka.bootstrap.servershadoop102:9092,hadoop103:9092,hadoop104:9092 3.4atlas Server配置在conf下的atlas-application.properties配置文件中进行下面的修改 ######### Server Properties ######### atlas.rest.addresshttp://hadoop102:21000atlas.server.run.setup.on.startfalseatlas.audit.hbase.zookeeper.quorumhadoop102:2181,hadoop103:2181,hadoop104:2181 放开下面的注释 conf下的atlas-log4j.xml !-- Uncomment the following for perf logs --appender nameperf_appender classorg.apache.log4j.DailyRollingFileAppenderparam namefile value${atlas.log.dir}/atlas_perf.log /param namedatePattern value.yyyy-MM-dd /param nameappend valuetrue /layout classorg.apache.log4j.PatternLayoutparam nameConversionPattern value%d|%t|%m%n //layout/appenderlogger nameorg.apache.atlas.perf additivityfalselevel valuedebug /appender-ref refperf_appender //logger3.5集成Hive atlas可以实时的获取atlas中的元数据。在conf下的atlas-application.properties最后面加入下面的内容。 atlas.hook.hive.synchronousfalse atlas.hook.hive.numRetries3 atlas.hook.hive.queueSize10000 atlas.cluster.nameprimary 下面去Hive的conf下的hive-site.xml中加入下面的参数。配置hive hook。 propertynamehive.exec.post.hooks/namevalueorg.apache.atlas.hive.hook.HiveHook/value /property 安装Hive Hook 安装文件在atlas中的源程序中。 tar -zxvf apache-atlas-2.1.0-hive-hook.tar.gz 现在需要将上面的这两个文件夹复制到atlas的目录下。 cp -r ./* /opt/module/atlas/ [atguiguhadoop102 conf]$ sudo vim hive-env.sh 添加下面的内容 export HIVE_AUX_JARS_PATH/opt/module/atlas/hook/hive拷贝一份配置文件到hive的配置文件目录下 sudo cp atlas-application.properties /opt/module/hive/conf/ 3.6Atlas的启动和登录 hadoop启动 zookeeper启动 kafka启动在atlas的bin目录下执行下面的命令启动命令 ./atlas_start.py 关闭命令 ./atlas_stop.py 启动的时间是比较长的。错误日志的地方 atlas管理界面的地址http://hadoop102:21000/ 账户admin 密码admin jpsall如果出现一个Atlas的进程的话就是启动成功了。 UI界面加载的时候时候还需要加载一段的时间。 tail -f application.log 登录上之后可以进行元数据的管理和查询以及血缘关系的查询。 3.7atlas的作用同步Hive中的元数据。并构建元数据实体之间的关联关系。对所存储的元数据建立索引最终用户提供数据血缘查看及元数据检索等功能。 Atlas在安装的时候需要进行一次元数据的全量的导入。后续会使用HIve Hook进行同步Hive中的元数据。全量导入只需要一次。 3.8元数据的导入进入下面的目录 /opt/module/atlas/hook-bin输入下面的命令导入 ./import-hive.sh 查看导入的表。 3.9查看血缘关系订单信息表 CREATE TABLE dwd_order_info (id STRING COMMENT 订单号,final_amount DECIMAL(16,2) COMMENT 订单最终金额,order_status STRING COMMENT 订单状态,user_id STRING COMMENT 用户 id,payment_way STRING COMMENT 支付方式,delivery_address STRING COMMENT 送货地址,out_trade_no STRING COMMENT 支付流水号,create_time STRING COMMENT 创建时间,operate_time STRING COMMENT 操作时间,expire_time STRING COMMENT 过期时间,tracking_no STRING COMMENT 物流单编号,province_id STRING COMMENT 省份 ID,activity_reduce_amount DECIMAL(16,2) COMMENT 活动减免金额,coupon_reduce_amount DECIMAL(16,2) COMMENT 优惠券减免金额,original_amount DECIMAL(16,2) COMMENT 订单原价金额,feight_fee DECIMAL(16,2) COMMENT 运费,feight_fee_reduce DECIMAL(16,2) COMMENT 运费减免 ) COMMENT 订单表 ROW FORMAT DELIMITED FIELDS TERMINATED BY \t;地区维度表 CREATE TABLE dim_base_province (id STRING COMMENT 编号,name STRING COMMENT 省份名称,region_id STRING COMMENT 地区 ID,area_code STRING COMMENT 地区编码,iso_code STRING COMMENT ISO-3166 编码供可视化使用,iso_3166_2 STRING COMMENT IOS-3166-2 编码供可视化使用 ) COMMENT 省份表 ROW FORMAT DELIMITED FIELDS TERMINATED BY \t;插入之后将资料里面提前准备好的数据 order_info.txt 和 base_province.txt 上传到两张 hive 表的 hdfs 路径下在下面的目录中上传我们的数据需求指标 1根据订单事实表和地区维度表求出每个省份的订单次数和订单金额 2建表语句 CREATE TABLE ads_order_by_province (dt STRING COMMENT 统计日期,province_id STRING COMMENT 省份 id,province_name STRING COMMENT 省份名称,area_code STRING COMMENT 地区编码,iso_code STRING COMMENT 国际标准地区编码,iso_code_3166_2 STRING COMMENT 国际标准地区编码,order_count BIGINT COMMENT 订单数,order_amount DECIMAL(16,2) COMMENT 订单金额 ) COMMENT 各省份订单统计 ROW FORMAT DELIMITED FIELDS TERMINATED BY \t;数据装载 insert into table ads_order_by_province select2021-08-30 dt,bp.id,bp.name,bp.area_code,bp.iso_code,bp.iso_3166_2,count(*) order_count,sum(oi.final_amount) order_amount from dwd_order_info oi left join dim_base_province bp on oi.province_idbp.id group by bp.id,bp.name,bp.area_code,bp.iso_code,bp.iso_3166_2;下面是血缘关系图。查看字段下单量的血缘族谱。下面是字段的血缘关系。 4.网址 4.1Atlas http://hadoop102:21000/ 账号admin 密admin 4.2Solr http://hadoop102:8983/ 4.4Hadoop http://hadoop102:9870/ 4.5Yarn http://hadoop103:8088/ 5.启动命令启动Hadoop只在102上执行 myhadoop.sh startMySQL 默认是启动的hive只在102上执行执行hive就可以zookeeper启动只在102上执行 cd /opt/module/zookeeper-3.5.7/bin ./zk.sh startkafka启动只在102上执行cd ~/bin kf.sh start启动hbase只在102上执行 cd /opt/module/hbase/bin启动 start-hbase.sh 停止 stop-hbase.shsolr三个机器上分别执行 /opt/module/solr/bin/solr start

查看全文

http://www.hkea.cn/news/14265208/