Hive常用命令有哪些？-菜鸟科技网

Hive作为基于Hadoop的数据仓库基础设施,提供了类SQL的查询语言HiveQL，方便用户对存储在HDFS上的大规模数据进行管理和分析，掌握Hive的常用命令是高效使用Hive的关键，这些命令涵盖了数据库操作、表管理、数据查询、视图操作、函数使用等多个方面，以下将详细介绍Hive的常用命令及其应用场景。

（图片来源网络，侵删）

数据库和表的管理是Hive操作的基础,在Hive中，数据库用于组织表，类似于传统关系型数据库中的schema，创建数据库的基本命令为CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path]，其中IF NOT EXISTS可以避免数据库已存在时报错，LOCATION可指定数据库在HDFS上的存储路径，使用数据库通过USE database_name命令，之后的所有操作将默认在该数据库下执行，删除数据库的命令为DROP DATABASE [IF EXISTS] database_name [CASCADE]，CASCADE选项会同时删除数据库下的所有表，否则若数据库中存在表会报错。

表是Hive中存储数据的基本单元,分为内部表（MANAGED TABLE）和外部表（EXTERNAL TABLE），创建内部表的语法为CREATE TABLE [IF NOT EXISTS] table_name (col_name data_type [COMMENT col_comment], ...) [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [ROW FORMAT row_format] [STORED AS file_format] [LOCATION hdfs_path]，内部表的数据由Hive管理，删除表时数据会被同时删除，而外部表通过EXTERNAL关键字定义，数据存储在用户指定的HDFS路径中，删除表时仅删除元数据，数据文件保留，创建外部表需指定LOCATION，如CREATE EXTERNAL TABLE table_name (...) LOCATION '/path/to/data'，分区表是Hive优化查询性能的重要手段，通过PARTITIONED BY定义分区列，分区列不实际存储在数据文件中，而是作为目录结构存储在HDFS上，如按日期分区PARTITIONED BY (dt STRING)，查询时可通过WHERE dt='2025-01-01'快速定位分区数据，分桶表则通过CLUSTERED BY和INTO num_buckets BUCKETS定义，适用于数据倾斜或需要高效MapJoin的场景，数据根据分桶列的哈希值分配到不同的桶文件中。

数据加载与导出是数据处理的核心环节,Hive支持多种数据加载方式：LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE table_name [PARTITION (partcol1=val1, partcol2=val2, ...)]。LOCAL表示从本地文件系统加载，否则从HDFS加载；OVERWRITE会覆盖表中原有数据，否则追加到表中，对于已存在于HDFS的数据，可直接指定INPATH路径加载，导出数据可通过INSERT OVERWRITE [LOCAL] DIRECTORY 'filepath' [ROW FORMAT row_format] [STORED AS file_format] SELECT ...命令，将查询结果导出到本地或HDFS目录，Hive还支持通过EXPORT TABLE table_name [TO 'hdfs_path']和IMPORT TABLE table_name [FROM 'hdfs_path']实现元数据和数据的完整导出与导入，便于数据迁移或备份。

HiveQL查询命令与标准SQL高度兼容,支持基本的查询操作，如SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_name [WHERE where_condition] [GROUP BY col_list] [HAVING having_condition] [ORDER BY col_list [ASC|DESC]] [CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list]] [LIMIT number]。GROUP BY用于分组聚合，HAVING对分组结果进行过滤，ORDER BY对全局结果排序（会产生reduce），而SORT BY仅在每个reduce内排序，效率更高。CLUSTER BY相当于DISTRIBUTE BY和SORT BY的组合，且分桶列和排序列相同，Hive还支持多表连接查询，如JOIN、LEFT JOIN、RIGHT JOIN、FULL OUTER JOIN等，以及子查询、公用表表达式（CTE）等高级语法，使用CTE的语法为WITH temp_table AS (SELECT ... FROM ...) SELECT ... FROM temp_table。

（图片来源网络，侵删）

视图是虚拟表,基于查询结果集创建，不存储实际数据，仅保存定义语句，创建视图的命令为CREATE VIEW [IF NOT EXISTS] view_name [(column_name, ...)] [COMMENT view_comment] AS select_statement，视图可以简化复杂查询、隐藏数据细节或限制数据访问权限，修改视图通过CREATE OR REPLACE VIEW view_name AS select_statement，删除视图则为DROP VIEW [IF EXISTS] view_name，需要注意的是，视图的查询语句中不能包含ORDER BY或LIMIT（除非在子查询中）。

Hive提供了丰富的内置函数,涵盖数学函数、字符串函数、日期函数、聚合函数、窗口函数等，数学函数ROUND(num, scale)用于四舍五入，字符串函数CONCAT(str1, str2)用于拼接字符串，日期函数DATE_FORMAT(date, pattern)用于格式化日期，聚合函数COUNT(), SUM(), AVG()等，窗口函数ROW_NUMBER(), RANK(), LAG()等用于复杂分析，用户还可以通过CREATE TEMPORARY FUNCTION function_name AS 'class_name'注册临时函数，或通过CREATE FUNCTION [IF NOT EXISTS] function_name AS 'class_name' [USING JAR|FILE|ARCHIVE 'uri']创建永久函数，扩展Hive的功能。

Hive还支持元数据管理命令,如SHOW DATABASES [LIKE 'pattern']显示所有数据库，SHOW TABLES [IN database_name] [LIKE 'pattern']显示表，SHOW COLUMNS IN table_name [LIKE 'pattern']显示列信息，SHOW PARTITIONS table_name显示分区信息，DESCRIBE [EXTENDED | FORMATTED] table_name.col_name查看列或表的详细元数据（包括存储格式、位置等），对于已存在的表，可通过ALTER TABLE table_name RENAME TO new_table_name重命名，ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)添加或替换列，ALTER TABLE table_name DROP [COLUMN] col_name删除列，ALTER TABLE table_name ADD PARTITION (partcol1=val1, ...) [LOCATION 'path']添加分区，ALTER TABLE table_name DROP PARTITION (partcol1=val1, ...)删除分区。

Hive的执行计划分析是优化查询性能的重要工具,通过EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] select_statement可以查看查询的执行计划，包括逻辑计划、物理计划、依赖关系等，帮助用户理解查询的执行过程并定位性能瓶颈。

（图片来源网络，侵删）

命令分类	常用命令	功能说明
数据库操作	`CREATE DATABASE db_name`	创建数据库
`USE db_name`	切换当前数据库
`DROP DATABASE db_name [CASCADE]`	删除数据库
表操作	`CREATE TABLE table_name (...)`	创建内部表
`CREATE EXTERNAL TABLE table_name (...) LOCATION 'hdfs_path'`	创建外部表
`CREATE TABLE table_name (...) PARTITIONED BY (dt STRING)`	创建分区表
`DROP TABLE table_name`	删除表
数据加载与导出	`LOAD DATA LOCAL INPATH 'local_path' INTO TABLE table_name`	从本地加载数据
`INSERT OVERWRITE DIRECTORY 'hdfs_path' SELECT ... FROM ...`	导出查询结果到HDFS
查询操作	`SELECT * FROM table_name WHERE col_name = 'value' GROUP BY col_name`	基本查询、过滤、分组
`SELECT * FROM table1 JOIN table2 ON table1.id = table2.id`	多表连接
视图操作	`CREATE VIEW view_name AS SELECT ... FROM ...`	创建视图
`DROP VIEW view_name`	删除视图
函数操作	`SELECT COUNT(*), AVG(score) FROM table_name`	使用聚合函数
`CREATE TEMPORARY FUNCTION my_func AS 'com.example.MyFunction'`	注册临时函数
元数据查看	`SHOW TABLES`	显示当前数据库下的表
`DESCRIBE table_name`	查看表结构
`SHOW PARTITIONS table_name`	查看表分区
执行计划	`EXPLAIN SELECT ...`	查看查询执行计划

相关问答FAQs：

问题1：Hive内部表和外部表的主要区别是什么？如何选择使用？
解答：内部表和外部表的核心区别在于数据所有权和管理方式，内部表的数据由Hive完全管理，删除表时会同时删除HDFS上的数据文件；而外部表的数据存储在用户指定的HDFS路径中，删除表时仅删除元数据，数据文件保留，选择使用时，若数据需要由Hive统一管理（如临时表、中间结果表），推荐使用内部表；若数据需要被其他工具（如Spark、MapReduce）共享，或数据需要独立于Hive生命周期管理（如原始日志数据），应选择外部表。

问题2：Hive中分区表和分桶表的作用是什么？如何合理使用？
解答：分区表和分桶表都是Hive优化查询性能的重要手段，分区表通过将数据按指定列（如日期、地区）划分为不同目录，查询时通过分区裁剪减少扫描数据量，适用于低基列的过滤场景；分桶表则通过将数据按指定列的哈希值分配到不同文件中，适用于高基列的连接操作或倾斜数据场景，可实现MapJoin或减少shuffle数据量，合理使用时，对于经常按特定列过滤的表（如按日期查询日志），应使用分区表；对于需要频繁连接或存在数据倾斜的大表，可考虑分桶表，同时分桶列应选择分布均匀且常用于连接或聚合的列。

Hive常用命令有哪些？

99ANYc3cd6

商家如何快速开通微会员？

记事本命令行

Hive常用命令有哪些？

命令提示符如何实现远程连接？

网页点击量高低意味着什么？

ipad如何创建网页连接不上，iPad创建网页为何连接不上？

盟军最强兵种是哪个？各有何独特优势？

新手用什么搭网站最简单？

搭建公司合同，公司合同如何高效搭建？

科技招聘模板如何高效匹配岗位需求？

如何查找自己的备案号？

dedecms伪静态页面设置方法是什么？

两台服务器如何搭建？步骤方法是什么？

微信上怎么制作微招聘，微信微招聘怎么做？步骤清晰吗？

如何快速查看本机IP的cmd命令是什么？

招聘泵CFD岗，需掌握哪些核心技能？

Hive常用命令有哪些？

相关推荐

ipad如何创建网页连接不上，iPad创建网页为何连接不上？