Hive命令手册有哪些常用命令及用法？-菜鸟科技网

Hive作为构建于Hadoop之上的数据仓库基础设施,它提供了类SQL的查询语言HiveQL，用于大规模数据集的查询和分析，掌握Hive命令是高效使用Hive进行数据管理的关键，以下将详细介绍Hive的常用命令及其使用场景。

（图片来源网络，侵删）

Hive的交互式命令行界面（CLI）是最常用的操作方式，通过在终端输入hive命令即可进入CLI，进入CLI后，可以执行HiveQL语句或特定的Hive命令，Hive命令通常以分号（;）而HiveQL语句同样需要分号结束，需要注意的是，Hive区分大小写，尤其是表名、列名等默认情况下是小写的，除非在使用时用引号明确指定为大写。

数据定义语言（DDL）命令是Hive操作的基础，用于管理数据库、表、分区等数据库对象，创建数据库使用CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];，例如CREATE DATABASE mydb COMMENT 'my test database';，如果数据库已存在，IF NOT EXISTS可以避免报错，使用数据库则通过USE database_name;命令，后续操作将默认在该数据库下进行，查看当前数据库可用命令DATABASE;或SCHEMA;，显示数据库详细信息可使用DESCRIBE DATABASE [EXTENDED] database_name;，删除数据库使用DROP DATABASE [IF EXISTS] database_name [RESTRICT|CASCADE];，其中CASCADE会同时删除数据库下的所有表，RESTRICT（默认）则不允许删除包含表的数据库。

表的操作是Hive DDL的核心，创建表的基本语法为CREATE TABLE [IF NOT EXISTS] table_name (col_name data_type [COMMENT col_comment], ...) [COMMENT table_comment] [ROW FORMAT row_format] [STORED AS file_format] [LOCATION hdfs_path] [TBLPROPERTIES (property_name=property_value, ...)];，创建一个内部表CREATE TABLE employees (id INT, name STRING, age INT) COMMENT 'employee information' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;。ROW FORMAT DELIMITED FIELDS TERMINATED BY ','指定字段分隔符为逗号，STORED AS TEXTFILE指定存储格式为纯文本，Hive支持多种表类型，内部表（MANAGED TABLE）的元数据和数据都由Hive管理，删除表时数据会同时被删除；外部表（EXTERNAL TABLE）则通过EXTERNAL关键字创建，删除表时数据保留，仅删除元数据，这对于处理HDFS上已存在的数据非常重要，例如创建外部表：CREATE EXTERNAL TABLE ext_employees (id INT, name STRING) LOCATION '/user/hive/warehouse/ext_employees';，修改表结构可以使用ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...);添加或替换列，ALTER TABLE table_name RENAME TO new_table_name;重命名表，ALTER TABLE table_name SET TBLPROPERTIES ('property.name' = 'property.value');设置表属性，删除表使用DROP TABLE [IF EXISTS] table_name [PURGE];，PURGE会立即删除数据而不放入回收站（适用于Hive 3.0+）。

分区表是Hive优化查询性能的重要手段,通过将数据按特定列（如日期、地区）分割成不同的子目录存储，查询时只需扫描相应分区，大幅减少数据量，创建分区表示例：CREATE TABLE sales (order_id INT, amount DOUBLE) PARTITIONED BY (date STRING, region STRING) STORED AS ORC;，添加分区使用ALTER TABLE table_name ADD PARTITION (partition_col1='value1', partition_col2='value2') [LOCATION 'hdfs_path'];，例如ALTER TABLE sales ADD PARTITION (date='2023-01-01', region='east');，删除分区则用ALTER TABLE table_name DROP PARTITION (partition_col1='value1', partition_col2='value2');，查看分区信息可执行SHOW PARTITIONS table_name;，查看分区详细元数据使用DESCRIBE EXTENDED table_name PARTITION (partition_spec);。

（图片来源网络，侵删）

数据操作语言（DML）命令用于数据的加载和导出，加载数据到Hive表主要有两种方式：一是从本地文件系统加载，语法为LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE table_name [PARTITION (partition_spec)];，LOCAL表示从本地文件系统加载，否则从HDFS加载；OVERWRITE表示覆盖表中原有数据，例如LOAD DATA LOCAL INPATH '/path/to/local/file.txt' INTO TABLE mytable;，二是通过HiveQL语句插入数据，如INSERT TABLE table_name [PARTITION (partition_spec)] SELECT ... FROM ...;，这种方式支持查询并插入结果集，例如INSERT OVERWRITE TABLE sales_partitioned PARTITION (date='2023-01-01') SELECT * FROM sales WHERE date = '2023-01-01';，导出数据同样有多种方式，使用INSERT OVERWRITE [LOCAL] DIRECTORY 'filepath' [ROW FORMAT row_format] [STORED AS file_format] SELECT ...;可将查询结果导出到本地或HDFS目录，例如INSERT OVERWRITE LOCAL DIRECTORY '/path/to/local/export' SELECT * FROM employees;，Hive还支持EXPORT TABLE table_name TO 'hdfs_path';和IMPORT TABLE table_name FROM 'hdfs_path';用于表的导出和导入，这会保留表的元数据和数据。

Hive还提供了丰富的查询和管理命令,执行HiveQL查询直接输入SELECT语句即可，如SELECT * FROM employees WHERE age > 30;，查看表结构使用DESCRIBE [EXTENDED] table_name [col_name];，EXTENDED会显示更多细节如存储格式、位置等，查看表中的数据行数可执行SELECT COUNT(*) FROM table_name;，Hive支持创建视图（VIEW），视图是虚拟表，基于查询结果集创建，语法为CREATE VIEW [IF NOT EXISTS] view_name AS SELECT ...;，例如CREATE VIEW v_employees AS SELECT id, name FROM employees;，视图可以简化复杂查询，但物理数据并不存储在视图中，管理索引在Hive中相对较少使用，因为Hive的查询优化主要依赖分区和桶，但可以通过CREATE INDEX index_name ON TABLE table_name (col_name) AS 'COMPACT' [WITH DEFERRED REBUILD] [IDXPROPERTIES ('property'='value')] [IN TABLE index_table] [LOCATION 'hdfs_path'] [TBLPROPERTIES ('property'='value')];创建索引，并通过ALTER INDEX index_name ON TABLE table_name REBUILD;重建索引。

为了提高查询性能,Hive支持分桶（Bucketing），即根据指定列的哈希值将数据分成固定数量的桶文件，适合于高效的JOIN和采样操作，创建分桶表示例：CREATE TABLE bucketed_table (id INT, name STRING) CLUSTERED BY (id) INTO 4 BUCKETS STORED AS ORC;，分桶表需要设置hive.enforce.bucketing=true，并通过INSERT OVERWRITE TABLE bucketed_table SELECT ... FROM ...;加载数据时自动分桶。

以下是Hive常用命令的简要总结表格：

命令类别	常用命令语法	功能说明
数据库操作	CREATE DATABASE db_name; USE db_name; DROP DATABASE db_name [CASCADE];	创建、切换、删除数据库
表操作（DDL）	CREATE TABLE table_name (...); CREATE EXTERNAL TABLE ...; ALTER TABLE ...;	创建内部/外部表、修改表结构、删除表
分区操作	CREATE TABLE ... PARTITIONED BY (...); ALTER TABLE ADD/DROP PARTITION ...;	创建分区表、添加/删除分区
数据加载（DML）	LOAD DATA [LOCAL] INPATH ... INTO TABLE ...; INSERT INTO TABLE ... SELECT ...;	从本地/HDFS加载数据、通过查询插入数据
数据导出	INSERT OVERWRITE [LOCAL] DIRECTORY ... SELECT ...; EXPORT TABLE ... TO ...;	导出查询结果到本地/HDFS、导出表到HDFS
查询与视图	SELECT ... FROM ...; CREATE VIEW view_name AS SELECT ...;	执行查询、创建视图
分桶操作	CREATE TABLE ... CLUSTERED BY (...) INTO N BUCKETS;	创建分桶表，提升JOIN和采样性能

相关问答FAQs：

Q1: Hive内部表和外部表有什么区别？如何选择使用？
A1: 内部表（MANAGED TABLE）的元数据和数据文件都由Hive管理，执行DROP TABLE命令时，Hive会同时删除表的元数据以及存储在HDFS上的数据文件；而外部表（EXTERNAL TABLE）仅由Hive管理元数据，数据文件存储在用户指定的HDFS路径上，执行DROP TABLE时只会删除元数据，数据文件保留，选择时，如果数据完全由Hive管理且不需要被其他工具直接访问，使用内部表；如果数据需要被多个工具共享（如Hive、MapReduce、Spark等），或者数据已经存在于HDFS上且不希望因删除表而丢失数据，应使用外部表。

Q2: Hive中分区表和分桶表的作用是什么？它们有什么区别？
A2: 分区表（Partitioned Table）和分桶表（Bucketed Table）都是Hive中优化查询性能的重要手段，分区表通过将数据按一个或多个列（如日期、地区）的值分割成不同的子目录存储，查询时通过WHERE子句指定分区条件，可以避免扫描全表，只读取相关分区数据，从而大幅减少I/O，分桶表则是根据指定列的哈希值将数据分成固定数量的文件（桶），适合于高效的数据采样（TABLESAMPLE）和等值连接（JOIN），因为相同哈希值的数据会被分配到同一个桶中，连接时只需在对应桶间进行，主要区别在于：分区是基于列的值范围或离散值进行逻辑分割，适合于低基数的列（如日期、地区）；分桶是基于列的哈希值进行物理分割，适合于高基数的列（如用户ID、订单ID），且分桶后的数据分布更均匀，有利于并行处理和连接优化，分区表用于减少数据扫描范围，分桶表用于优化连接和采样操作，两者可以结合使用。

Hive命令手册有哪些常用命令及用法？

99ANYc3cd6

江西高端品牌网站建设，如何打造差异化竞争力？

kdb命令如何使用？

中山永发国际招聘，具体岗位和要求是什么？

广西桂林建设设计公司有何特色？

郑州花总管招聘要求有哪些？

ipad如何创建网页连接不上，iPad创建网页为何连接不上？

C语言讲师招聘要求有哪些？

Ubnt命令有哪些常用操作？

水木社会招聘有哪些岗位？薪资待遇如何？申请流程是怎样的？

tracert命令如何精准定位网络延迟节点？其原理与实际故障排查步骤是怎样的？

营销型网站如何实现从流量到收益的高效转化？

普洱企业网站建设，如何体现专业与特色？

怀柔门户网站建设方案有何核心要点？

华为招聘的高校偏好有哪些？不同层次高校学生进入华为的门槛差异有多大？

如何在Linux系统下高效使用Emacs命令行模式，实现文本编辑与系统管理的无缝集成？

新疆web前端招聘现状如何？

Hive命令手册有哪些常用命令及用法？

相关推荐

ipad如何创建网页连接不上，iPad创建网页为何连接不上？