在hadoop/pig中导入日志的多级目录

我们将日志存储在S3中,其中一个(Pig)查询将获取三种不同的日志类型。根据类型/日期,每个日志类型都位于一组子目录中。例如: /logs/<type>/<year>/<month>/<day>/<hour>/lots_of_logs_for_this_hour_and_type.log* type1 = load 's3:/logs/type1/2011/03/08' as ... type2 = load 's3:/logs/ty

获取失败太多:集群上的Hadoop(x2)

在过去的一周左右,我一直在使用Hadoop(试图掌握它),尽管我已经能够设置一个多节点集群(2台机器:1台笔记本电脑和一台小型台式机)并检索结果,但在运行Hadoop作业时,我似乎总是遇到“太多的获取失败” 一个示例输出(在一个微不足道的wordcount示例上)是: 我在谷歌上搜索了这个问题,apache的人似乎认为这可能是网络问题(或与/etc/hosts文件有关的问题),也可能是从节点上的磁盘损坏 只需添加:我确实在namenode管理面板(localhost:50070/dfshheal

Hadoop fs-仅复制特定文件

有没有一种方法可以只复制特定的文件,比如使用fs-get或fs-copyToLocal复制基于文件类型的文件?注意:我希望这是递归的并遍历整个集群 我想出来了,但我不能回答我自己的问题 我们是这样做的。刚刚写了一个快速的shell脚本 mkdir /tmp/txt for F in `hadoop fs -fs hdfs://namenode.mycluster -lsr / | grep '/*.txt$' | awk '{print $NF}'; do ha

如何防止`hadoop fs rmr<;uri>;`从创建$folder$文件开始?

我们正在使用Amazon的Elastic Map Reduce执行一些大型文件处理作业。作为我们工作流程的一部分,我们偶尔需要从S3中删除可能已经存在的文件。我们使用hadoop fs接口执行此操作,如下所示: hadoop fs -rmr s3://mybucket/a/b/myfile.log 这将适当地从S3中删除该文件,但在它的位置上会留下一个名为“S3://mybucket/a/b_$folder$”的空文件。如中所述,Hadoop的Pig无法处理这些文件,因此工作流中的后续步骤可能

将自定义MBean部署到Hadoop

我正在开始开发Hadoop应用程序,我想通过几个MBean来管理它。我已经在通过bin/hadoop.shjar运行的jar文件中尝试了使用MBeanUtils.register和MBeanServer的register方法 注册代码没有报告错误,但我无法通过JMX RESTful API看到新的MBean。如何使MBean可见

Hadoop 使用rumen创建跟踪文件

我需要用rumen创建跟踪文件 如何使用rumen从作业日志创建跟踪文件 可以使用哪种类型的作业日志,如何生成它们,在哪里可以找到它们 这些日志是否与运行sort等程序时生成的日志相同 有人能详细指导/告诉我吗?瘤胃文档已包含在0.22中。由于0.22尚未发布,因此可以从附件中获取文档

Hadoop 通用联接脚本

我有一个项目,其中我计算了帐户上的各种数据,并将每个数据保存在不同的文件中(每个计算都有不同的脚本)。 然后,我需要创建最后一个文件,该文件合并了一个帐户的所有数据。 一种方法是将每个输出保存在不同的目录中,而不是在最终脚本中,使用模式加载每个目录,按帐户加入(或联合组)并打印。这里的问题是,我需要告诉pig要加载哪些目录。 我想制作一个更通用的脚本,以便添加更多的计算,因此我创建了一个父目录,并将所有输出保存在该目录下(在子目录中)。然后我写了这个脚本 attributes_data=

Hadoop的标准映射器和还原器类?

Hadoop是否有一个包或一组标准映射器和还原器 例如,OpenMP附带了一组预定义的简化程序,用于循环的并行化,这很方便,但不可扩展。对于Hadoop来说,一组类似的基本减缩器也很方便 当您使用SpringDataHadoop构建Spring批处理应用程序时,这样一个集合将非常有用 如果没有这样的东西,我们可以开始收集 Kr,RHadoop附带了大量的映射器和还原器。它们存储在org.apache.hadoop.mapred.lib中,涵盖了各种各样的用例。如果您想查看快速列表,请查看mapr

Hadoop较小的输入文件

我以一种稍微不同的方式使用hadoop。在我的例子中,输入大小非常小。然而,计算时间更长。我有一些复杂的算法,我将在每一行输入上运行。因此,即使输入大小小于5mb,总体计算时间也超过10小时。所以我在这里使用hadoop。我使用NLineInputFormat按行数而不是按块大小拆分文件。在我最初的测试中,我有大约1500行(分为200行),与在一台机器上串行运行相比,在四节点集群中我只看到了1.5倍的改进。我正在使用虚拟机。这是问题所在吗?或者对于较小的输入,hadoop不会有太多好处?任何见

Hadoop 如何在配置单元Web界面中编写查询

我在玩hwi,我开始了。现在我可以看到不同的模式。但我不知道怎么去问他们。我试图查看HiveWiki(),但他们似乎没有太多的信息放在那里。在“漫游”中似乎有一个正在运行的查询部分,但它表示找不到图像 任何使用过HWI进行查询的人,请建议一种使用方法。查看色调- 该项目与Cloudera安装捆绑在一起,似乎工作得相当好 最好的, Sukrit看看色调- 该项目与Cloudera安装捆绑在一起,似乎工作得相当好 最好的, Sukrit尝试以下步骤: 打开硬件接口:http://localhost:

Hadoop 多次输出未写入文件,我做错了什么?

我基本上是在尝试将我自己的制表符分隔值行写入3个不同的输出文件。尽管定义和编写了不同的命名输出,但所有文件仍命名为“part-r-*” 所有代码都已匿名化和压缩 驱动程序类如下所示: // Set up job Job job = new Job(conf, MyDriver.class.getSimpleName()); job.setJarByClass(MyJar.class); job.setOutputKeyClass(Text.class); job.setOutputValueC

Hadoop 猪-试图避免交叉

我会参考我以前的经验。基本上我有这两个数据集。使用场馆名称,我想输出每个场馆在推特消息中出现的次数。我得到的答案适用于小数据集,但假设我有10000个场地和20000条tweet消息,使用CROSS将使我与200m记录有关联,这是相当多的 简单的数据集在前面的问题中给出,我现在使用的PIG脚本如答案中所示。我正在寻找如何在不使用交叉产品的情况下进行计数的方法。谢谢 REGISTER piggybank.jar venues = LOAD 'venues_mid' USING org.apache

获取异常警告org.apache.hadoop.streaming.PipeMapRed:java.io.IOException:breaked pipe

为了调试的目的,我在现有的工作R脚本中添加了print语句 print("Hello") 在使用Hadoop流执行此代码时,我遇到了断管异常。如果我再次删除此打印,它会工作,听起来很奇怪!! 在编辑Rscript时,我通过windowgitbash使用vi。 您可以建议解决方案吗。如果您的Hadoop群集由Linux节点组成,并且您提交了在windows或windows gitbash中编辑的脚本,它将无法运行并引发错误的异常。只需使用vi或emacs在linux中编辑该文件。或者使用do2u

为什么hadoop需要ip主机名关系?

为什么hadoop系统需要配置ip到主机名的关系 我找到了一些地方调用getHostName来获取ip主机关系:FSNamesystem SecurityUtil NameNode 但是我认为如果没有getHostName,它也可以正常工作 它用于kerberos安全吗?一个ip可以分配给多个主机名。@zsxwing我仍然不明白为什么。一个ip可以分配给多个主机名,这在web服务器中很有用。为什么hadoop需要这个函数?hadoop需要将连接绑定到某个主机名。绑定到所有主机名是不安全的。所以H

hadoop必须在reduce之前完成映射吗?

我大学的讲师说(Hadoop)reduce操作只有在所有map操作完成后才能开始 这与map reduce stream操作的输出形成对比,map reduce stream操作有时会清楚地显示: map 80% reduce 13% map 80% reduce 27% and then map 100% reduce 27% . . map 100% reduce 100% (我家里有一个map reduce三节点集群,我做了一些流媒体工作) 如果我的讲师知道他在说什么,那么输出意味着什么

Hadoop 使用mapreduce(Java)将XML文件转换为AVRO

我的任务是使用mapreduce转换xml文件avro格式。有人能告诉我完成这项任务的方法吗 如果你有一些示例代码,这将是非常有用的 先谢谢你 谢谢, Rackto在映射器或map/reducer中使用XmlInputFormat(如此)、AvroKeyValueOutputFormat和特定业务逻辑构建mapreduce: job.setInputFormatClass(XmlInputFormat.class); job.setOutputFormatClass(AvroKeyValueOu

Hadoop 记录读取器拆分以将固定长度转换为分隔的ASCII文件

我有一个128 MB的文件,所以它被分成2个块(块大小=64 MB)。 我正在尝试使用自定义记录读取器类将固定长度的文件转换为带分隔符的ASCII文件 问题: 当处理文件的第一次拆分时,当我看到数据顶部有一个配置单元表时,它也在访问数据节点2以提取字符,直到记录结束,我就能够正确地获取记录。 但是,第二次拆分是以\n个字符开始的,而且记录的数量增加了一倍 Ex: First Split: 456 2348324534 34953489543 349583534 S

Pig/Hadoop中奇怪的强制转换错误

使用Pig 0.10.1,我有以下脚本: br = LOAD 'cfs:///somefile'; SPLIT br INTO s0 IF (sp == 1), not_s0 OTHERWISE; SPLIT not_s0 INTO s1 IF (adp >= 1.0), not_s1 OTHERWISE; SPLIT not_s1 INTO s2 IF (p > 1L), not_s2 OTHERWISE; SPLIT not_s2 INTO s3 IF (s > 0L),

如何在Oozie工作流中覆盖Hadoop依赖关系?

我需要使用比当前与hadoop common捆绑的jsch更新的版本 当我使用hadoop jar运行我的作业时,我使用export-hadoop\u CLASSPATH=path/to/jsch-0.1.51.jar:$hadoop\u CLASSPATH和export-hadoop\u USER\u CLASSPATH\u FIRST=true,它工作正常 但我不能让它在Oozie工作流中工作。我将jsch-0.1.51.jar放在Oozie工作流工作区的lib目录中,但它最后加载到类路径中

Hadoop ApacheSpark在Thread中部署时如何处理系统故障?

先决条件 假设ApacheSpark是使用Thread部署在hadoop集群上的。此外,正在运行spark执行。spark如何处理下列情况 案例和问题 hadoop集群的一个节点由于光盘错误而失败。但是,复制足够高,并且没有数据丢失。 在该节点上运行的任务会发生什么情况 hadoop集群的一个节点由于光盘错误而失败。复制不够高,数据丢失。Simply spark再也找不到预先配置为工作流资源的文件。 它将如何处理这种情况 在执行过程中,主namenode发生故障切换。 spark是否自

Hadoop双节点集群环境,NameNode’;s web UI将活动节点数显示为一,将非活动节点数显示为零

我为Hadoop正确配置了两节点集群环境,并且也为datanode配置了Master。 因此,目前我有两个数据节点,没有任何问题,我能够启动Master中的所有服务。 从属数据节点还能够从主节点停止启动。 但是当我使用urlhttp://:50070/dfshhealth.jsp检查运行状况时,Live node count总是只显示一个而不是两个 主流程: ~/hadoop-1.2.0$ jps 9112 TaskTracker 8805 SecondaryNameNode 9182 Jps

带有C#/.NET的Hadoop

我发现Hadoop可以与C#()配合使用,但这种支持有多成熟?我可以在生产中使用它,还是最好使用一些JVM语言?您需要使用hadoop streaming jar来实现这一点。此外,应使用Microsoft.NET Map Reduce API For Hadoop编写c#中的程序 下面的所有代码都来自下面,它还有明确的构建和执行步骤 using Microsoft.Hadoop.MapReduce; using System; using System.Collections.Generic;

在fi ware COSMOS实例中对hadoop命令的权限

使用fiware COSMOS实例,我在权限方面遇到了一些问题。我尝试使用chown和chmod解决这个问题,但没有任何变化,如果我尝试使用sudo命令,控制台会询问我一个我不知道从哪里获取的密码 我在使用hadoop命令时遇到了以下问题: hadoop fs -put hadoop fs -mkdir 例如,当我使用Hive CLI创建表时,这个问题再次出现 那么,我该怎么做才能获得hadoop命令所需的权限呢 谢谢 已解决 我说不出原因,但现在,我完成了前几天只要求权限的相同基本示例请您再

Hadoop 不显示配置单元或hbase表的钻取

我创建了一个hbase和hive表来存储一些数据记录信息。我可以从命令行查询hbase和配置单元,没有问题 hbase:扫描MVLogger;//带着9k多张唱片回来 配置单元:从MVLogger中选择*;//带着9k多张唱片回来 我的hbase表定义是 'MVLogger', {NAME => 'dbLogData', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE =>

Hadoop 是否有HDFS客户端有线协议规范?

我感兴趣的是找出为HDFS客户端定义的有线协议。我只能找到各种HDFS客户端绑定的源代码。如果有人能指出协议规范,我们将不胜感激 谢谢。从Hadoop 0.23+开始,所有协议都切换到协议缓冲区。可以找到HDFS协议定义。还有一个实现将REST接口添加到HDFS。但是,IIRC,像Horotonworks和Cloudera这样的大供应商还不推荐使用它。谢谢你的回答。1.2.1版怎么样?编码格式是什么?该协议是否与2.6兼容?1.2.1版被认为是一个非常旧的版本,并且(我相信)已被弃用。这也是pr

如何在远程windows机器上可视化安装在ubuntu服务器上的hadoop界面

我已经在Ubuntu服务器上安装了hadoop,我想用浏览器在windows机器上可视化hadoop界面。 这两台机器在同一个网络中 我在浏览器中尝试过: @IP:8088 and @IP:9001 我知道我错过了什么,我需要你的帮助。 非常感谢所有搜索的人, 您需要将其添加到C:\windows\system32\drivers\etc\hosts 在localhost下: @ubuntu服务器名称的ip\u服务器 在浏览器中指定: 祝你好运

在hadoop上为色调启用https

在阅读了文档之后,我认为这将是简单而直接的,但它根本不起作用 我已经生成了一个2048位的密钥并对其进行了自签名。它们位于hue.ini指向的位置: # Filename of SSL Certificate ssl_certificate=/etc/hue/certs/cert/server.crt # Filename of SSL RSA Private Key ssl_private_key=/etc/hue/certs/key/server.key # Webserver liste

Hadoop 为什么这个简单的配置单元表声明有效?像变魔术似的

以下HQL用于在HDInsight中创建一个配置单元表,我可以成功地查询该表。但是,我有几个问题要问它为什么有效: 事实上,我的数据行是由回车换行符终止的,那么为什么“COLLECTION ITEMS terminated by \002”起作用呢?那么\002到底是什么?而且没有指定blob的位置,所以,同样,为什么这样做 创建同一个表并指定创建外部表…位置“/user/hive/warehouse/salesforderdetail”的所有尝试均失败。表已创建,但未返回任何数据。离开外部,不

Hadoop Chd 5.4.0与map和reduce的问题

当我在Hive always show中执行一个简单的查询(如select*from tablex)时,我遇到了一个问题 第一阶段map=0%,reduce=0% 我尝试使用beeline和HUE执行该查询,在这两种情况下得到的情况相同 有人能帮忙吗?这个问题可能是因为以下原因 您的群集没有足够的资源来启动容器。 您的作业已提交到没有适当资源的资源池或队列。 检查群集中的总资源。如果有足够的资源可用,请检查提交作业的队列,并检查分配给该队列的资源 可以从资源管理器UI检查这些详细信息 问题已报告

hadoop服务器端日志记录不工作

我正在使用ApacheHadoop2.6.0。当我想从工作经历中看到标准时,我总是 log4j:WARN No appenders could be found for logger (org.apache.hadoop.ipc.Server). log4j:WARN Please initialize the log4j system properly. log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig f

Hadoop pyspark:如何检查hdfs中是否存在文件

在通过SparkContext加载hdfs之前,我想检查hdfs中是否存在多个文件。 我用Pypark。我试过了 os.system(“hadoop fs-test-e%s”%path) 但由于我有很多路要检查,工作失败了。 我还尝试了sc.wholeTextFiles(父路径),然后按键过滤。但它崩溃也是因为父路径包含很多子路径和文件。 你能帮我吗 它是怎么说的: …(Spark)它可以读取多种格式,并且支持Hadoop全局表达式,这对于读取HDFS中的多个路径非常有用,但它没有我所知的用于遍

Hadoop WebHCat的替代方案

配置单元可以选择使用WebHCat通过基于REST的API查询配置单元表 WebHCat需要2次呼叫- 调用1通过webhcat提交查询 调用2通过webhdfs检索输出文件 webhcat还有其他替代方案吗?它允许应用程序对HIVE数据库进行基于REST的调用,而不需要Java/Python/.NET等 谢谢, 曼尼什语

hadoop连接被外部请求拒绝

我已经为这个问题争论了很长一段时间,并没有找到解决办法,希望你们能帮助我。 我创建了一个新的centos7虚拟机,安装了hadoop,现在,我可以轻松运行了 hdfs dfs -ls hdfs://hadoop-vm:8020/ 列出所有文件。 但从外部VM或我的本地Mac,如果使用相同的命令,我得到了连接拒绝错误: Call From xxxx/172.21.162.71 to hadoop-vm:8020 failed on connection exception: java.net.C

Hadoop 使用twitter数据进行分析

flume-twitter.conf 如果我想从合并在一家公司下的多个网站获取日志文件,并且所有网站都有自己的网站,我将如何将4个重要密钥(consumerkey、consumer secret、access token、access secret等)添加到flume-twitter.conf中,以便我使用不同的关键字对所有合并的公司网站进行分析。?谢谢你的帮助 相反,您可以使用一个键启动4个flume代理F1、F2、F3和F4。然后,他们四个都将数据发送给收听avro的第五个flume代理。

在安全集群中添加Hadoop用户

我们使用的是kerborized CDH集群。在向集群添加用户时,我们通常只将用户添加到网关/边缘节点,就像在任何hadoop发行版集群中一样。但对于新添加的用户标识,我们无法执行map reduce/thread作业并抛出“user not found”异常 当我研究这个问题时,我发现了一个链接,它说要在安全集群中执行纱线作业,我们可能需要在所有节点中有相应的用户,因为安全容器是在作业用户的凭据下执行的 因此,我们将相应的userID添加到所有节点中,并执行作业。 如果是这种情况,并且集群大约

Hadoop Flume到流gz文件

我有一个文件夹包含很多gzip文件。每个gzip文件都包含xml文件。我使用flume将文件流式传输到HDFS中。下面是我的配置文件: agent1.sources = src agent1.channels = ch agent1.sinks = sink agent1.sources.src.type = spooldir agent1.sources.src.spoolDir = /home/tester/datafiles agent1.sources.src.channels = c

Hadoop 如何将不同来源的文件收集到HDF中?

目前我与一个致力于“搜索引擎”的团队合作,特别是与HP Idol合作 我工作的主要想法是找到一个新的开源搜索引擎,因此我开始使用Elasticsearch,但我仍然有一些问题无法找到解决方案 我需要将文件从服务器索引到Elasticsearch Sharepoint Documentum 露天 从我在网上的搜索中我发现 Talend(无法使用,因为团队不想付款) ApacheManifoldcf(开源,但有很多问题) 看到这些问题,我会继续寻找新的解决方案。 您能告诉我,我是否有一些可能

使用命令行(CDH 5)启动Hadoop服务

我知道如何使用Cloudera manager界面启动服务,但我更喜欢了解幕后真正发生的事情,而不是依赖“魔术” 我读了,但没有提供所需的信息 我知道有一些.sh文件需要使用,但它们似乎因版本而异,我使用的是今天最新的(5.3) 如能提供服务启动命令(特别是HDFS)列表,我将不胜感激 PS:看起来(start-dfs.sh等)您可以通过安装Cloudera的可选服务包来解决这个问题 它们使用service命令来启动服务,而不是clouderamanager hadoop hdfs namen

hadoop生产集群的RAM要求

iam在centos 7上使用hadoop apache 2.7.1 具有由2个名称节点和8个数据节点组成的HA群集 (两个名称节点也是日志节点+3个数据节点作为日志节点) 复制因子为3,块大小为1mb 我插入的文件大小不会超过1 mb 如果iam计划插入约10000000条记录 这些节点需要哪些合适的ram容量 我读过一些链接,其中提到由于map reduce,datanode应该比name node拥有更多内存,是这样吗?如果我们还没有map reduce,那是什么意思?这是核心Hadoop

Hadoop 指定';mapreduce.jobtracker.hosts.filename';对于单个MapReduce作业

少数节点已添加到集群中。我的M/R作业在任何一个上执行时都失败了。确切的原因还不清楚,需要几天才能找到解决方案,所以我正在寻找一个临时的解决办法 有没有办法在作业级别排除这些节点(mapreduce.jobtracker.hosts.exclude.filename) 或者将旧的工作节点(mapreduce.jobtracker.hosts.filename)列入白名单?您可以将以下属性设置为2 <property> <name>mapred.max.tracker.fa

Hadoop 在spark cluster模式下运行齐柏林飞艇

我正在使用本教程以纱线模式在spark cluster中发射齐柏林飞艇。然而,我被困在第4步。我在docker容器中找不到conf/zeppelin-env.sh来放置进一步的配置。我试着把这些飞艇放在文件夹里,但现在成功了。除此之外,齐柏林飞艇笔记本也没有在本地主机上运行:9001 我对分布式系统非常陌生,若有人能帮助我以纱线模式在火花簇上启动齐柏林飞艇,那个就太好了 这是我的docker compose文件,用于启用齐柏林飞艇与spark cluster的对话 version: '2' se

Hadoop tez/蜂巢中的OOM

[经过几次回答和评论后,我根据此处获得的知识提出了一个新问题:] 我的一个查询始终失败,出现以下错误: ERROR : Status: Failed ERROR : Vertex failed, vertexName=Map 1, vertexId=vertex_1516602562532_3606_2_03, diagnostics=[Task failed, taskId=task_1516602562532_3606_2_03_000001, diagnostics=[TaskAttemp

Hadoop 如何在spark/Hive中将大部分数据合并到单个目录中

我有个要求,, 巨大的数据被分割并插入到配置单元中。为了绑定这些数据,我使用了DF.Coalesce10。现在我想将这个部分数据绑定到单个目录,如果我使用DF.Coalesce1,性能会下降吗?或者我有任何其他进程可以这样做吗?据我所知,您正试图确保每个分区的文件数量减少。因此,通过使用coalesce10,每个分区最多可以获得10个文件。我建议使用repartition$COL,这里COL是用于对数据进行分区的列。这将确保根据配置单元中使用的分区列分割巨大的数据。df.repartition$

Hadoop 火花划痕空间

我有一个13台机器的集群,有4个物理CPU和24G的RAM 我用一个驱动程序和12个从机启动了一个spark群集 我将从机的核心数设置为12个,这意味着我有一个集群,如下所示: Alive Workers: 12 Cores in use: 144 Total, 110 Used Memory in use: 263.9 GB Total, 187.0 GB Used 我使用以下配置启动了一个应用程序: [('spark.driver.cores', '4'), ('spark.execut

Hadoop Sparksession错误与配置单元有关

我的操作系统是Windows10 from pyspark.conf import SparkConf sc = SparkContext.getOrCreate() spark = SparkSession.builder.enableHiveSupport().getOrCreate() 这段代码给了我下面的错误 Py4JJavaError回溯最近的调用 最后的 ~\Documents\spark\spark-2.1.0-bin-hadoop2.7\python\pyspark\sql\u

Hadoop可以做流媒体吗?

有人建议Hadoop做流媒体,并引用了Flume和Kafka作为例子 虽然我知道它们可能有流媒体功能,但我想知道它们是否可以与Storm/Spark/Flink等流媒体处理技术并驾齐驱。Kafka是一个“发布-订阅模型消息传递系统”,Flume是一个数据接收工具。即使它们与hadoop交互/集成,它们在技术上是“hadoop”本身的一部分吗 PS:我知道有一个完全不同的东西。Hadoop只是纱线、HDFS和MapReduce。作为一个项目,它不适应(接近)实时摄取或处理 Hadoop Strea

Hadoop 使用Hive JDBC驱动程序通过Squirrel连接到Knox

我在运行Ubuntu的计算机上创建了一台VMWare机器。我使用演示LDAP在那里设置了ApacheKnox,目前我正试图通过SQuirreL设置到Knox的连接字符串。我不能使用Hortonworks沙盒,因为我需要使它与Cloudera下的Hive兼容。在开始配置Knox之前,我希望能够首先使用HiveJDBC驱动程序连接到它。以下是我到目前为止掌握的字符串: jdbc:hive2://:8443/;ssl=1;sslTrustStore=/gateway.jks;trustStorePas

共享外部配置单元元存储如何依赖于特定版本的HDInsight(Hadoop)集群?

假设我们有一个外部配置单元元存储,然后我们有一堆Hadoop(HDInsight)集群,我们在需要处理时删除并创建这些集群,这些集群使用这个共享配置单元元存储。在某个阶段,当新版本可用时,我们将开始使用新版本的HDInsight创建这些集群。现在,假设外部元存储在所有这些过程中保持不变(它不会被重新创建),它会为HDInsight的未来版本带来问题吗?或者每次我们开始使用新版本的HDInsight时,我们也必须将外部元存储迁移到新版本?Hive Metastore和HDInsight集群之间的这

  1    2   3   4   5   6  ... 下一页 最后一页 共 280 页