123,123

<div id="7argw"><strong id="7argw"></strong></div><nobr id="7argw"></nobr>

<samp id="7argw"></samp>

<div id="7argw"><form id="7argw"><blockquote id="7argw"></blockquote></form></div>

<thead id="7argw"><optgroup id="7argw"><sub id="7argw"></sub></optgroup></thead>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 大數(shù)據(jù) > 正文

學(xué)會hive中的explain 能為我們在生產(chǎn)實踐中帶來哪些便利？

2021-03-13 09:09

這兩個執(zhí)行計劃樹里面包含這條sql語句的 operator：

map端第一個操作肯定是加載表，所以就是 TableScan 表掃描操作，常見的屬性：

alias：表名稱

Statistics：表統(tǒng)計信息，包含表中數(shù)據(jù)條數(shù)，數(shù)據(jù)大小等

Select Operator：選取操作，常見的屬性：

expressions：需要的字段名稱及字段類型

outputColumnNames：輸出的列名稱

Statistics：表統(tǒng)計信息，包含表中數(shù)據(jù)條數(shù)，數(shù)據(jù)大小等

Group By Operator：分組聚合操作，常見的屬性：

aggregations：顯示聚合函數(shù)信息

mode：聚合模式，值有 hash：隨機聚合，就是hash partition；partial：局部聚合；final：最終聚合

keys：分組的字段，如果沒有分組，則沒有此字段

outputColumnNames：聚合之后輸出列名

Statistics：表統(tǒng)計信息，包含分組聚合之后的數(shù)據(jù)條數(shù)，數(shù)據(jù)大小等

Reduce Output Operator：輸出到reduce操作，常見屬性：

sort order：值為空不排序；值為＋正序排序，值為－倒序排序；值為＋－排序的列為兩列，第一列為正序，第二列為倒序

Filter Operator：過濾操作，常見的屬性：

predicate：過濾條件，如sql語句中的where id＞＝1，則此處顯示（id ＞＝ 1）

Map Join Operator：join 操作，常見的屬性：

condition map：join方式，如Inner Join 0 to 1 Left Outer Join0 to 2

keys： join 的條件字段

outputColumnNames： join 完成之后輸出的字段

Statistics： join 完成之后生成的數(shù)據(jù)條數(shù)，大小等

File Output Operator：文件輸出操作，常見的屬性

compressed：是否壓縮

table：表的信息，包含輸入輸出文件格式化方式，序列化方式等

Fetch Operator 客戶端獲取數(shù)據(jù)操作，常見的屬性：

limit，值為－1 表示不限制條數(shù)，其他值為限制的條數(shù)

好，學(xué)到這里再翻到上面 explain 的查詢結(jié)果，是不是感覺基本都能看懂了。

實踐

本節(jié)介紹 explain 能夠為我們在生產(chǎn)實踐中帶來哪些便利及解決我們哪些迷惑

1． join 語句會過濾 null 的值嗎？

現(xiàn)在，我們在hive cli 輸入以下查詢計劃語句

select a．id，b．user＿name from test1 a join test2 b on a．id＝b．id；

問：上面這條 join 語句會過濾 id 為 null 的值嗎

執(zhí)行下面語句：

explain select a．id，b．user＿name from test1 a join test2 b on a．id＝b．id；

我們來看結(jié)果（為了適應(yīng)頁面展示，僅截取了部分輸出信息）：

TableScan
alias： a
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate： id is not null （type： boolean）
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）
outputColumnNames：＿col0
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
HashTable Sink Operator
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
．．．

從上述結(jié)果可以看到 predicate： id is not null 這樣一行，說明 join 時會自動過濾掉關(guān)聯(lián)字段為 null值的情況，但 left join 或 full join 是不會自動過濾的，大家可以自行嘗試下。

2． group by 分組語句會進行排序嗎？

看下面這條sql

select id，max（user＿name） from test1 group by id；

問：group by 分組語句會進行排序嗎

直接來看 explain 之后結(jié)果（為了適應(yīng)頁面展示，僅截取了部分輸出信息）

TableScan
alias： test1
Statistics： Num rows： 9 Data size： 108 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）， user＿name （type： string）
outputColumnNames： id， user＿name
Statistics： Num rows： 9 Data size： 108 Basic stats： COMPLETE Column stats： NONE
Group By Operator
aggregations： max（user＿name）
keys： id （type： int）
mode： hash
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 9 Data size： 108 Basic stats： COMPLETE Column stats： NONE
Reduce Output Operator
key expressions：＿col0 （type： int）
sort order：＋
Map－reduce partition columns：＿col0 （type： int）
Statistics： Num rows： 9 Data size： 108 Basic stats： COMPLETE Column stats： NONE
value expressions：＿col1 （type： string）
．．．

我們看 Group By Operator，里面有 keys： id （type： int）說明按照 id 進行分組的，再往下看還有 sort order：＋，說明是按照 id 字段進行正序排序的。

3．哪條sql執(zhí)行效率高呢？

觀察兩條sql語句

SELECT
a．id，
b．user＿name
FROM
test1 a
JOIN test2 b ON a．id ＝ b．id
WHERE
a．id ＞ 2；
SELECT
a．id，
b．user＿name
FROM
（SELECT ＊ FROM test1 WHERE id ＞ 2） a
JOIN test2 b ON a．id ＝ b．id；

這兩條sql語句輸出的結(jié)果是一樣的，但是哪條sql執(zhí)行效率高呢
有人說第一條sql執(zhí)行效率高，因為第二條sql有子查詢，子查詢會影響性能
有人說第二條sql執(zhí)行效率高，因為先過濾之后，在進行join時的條數(shù)減少了，所以執(zhí)行效率就高了

到底哪條sql效率高呢，我們直接在sql語句前面加上 explain，看下執(zhí)行計劃不就知道了嘛

在第一條sql語句前加上 explain，得到如下結(jié)果

hive （default）＞ explain select a．id，b．user＿name from test1 a join test2 b on a．id＝b．id where a．id ＞2；
OK
Explain
STAGE DEPENDENCIES：
Stage－4 is a root stage
Stage－3 depends on stages： Stage－4
Stage－0 depends on stages： Stage－3
STAGE PLANS：
Stage： Stage－4
Map Reduce Local Work
Alias －＞ Map Local Tables：
＄hdt＄＿0：a
Fetch Operator
limit：－1
Alias －＞ Map Local Operator Tree：
＄hdt＄＿0：a
TableScan
alias： a
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）
outputColumnNames：＿col0
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
HashTable Sink Operator
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
Stage： Stage－3
Map Reduce
Map Operator Tree：
TableScan
alias： b
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）， user＿name （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Map Join Operator
condition map：
Inner Join 0 to 1
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
outputColumnNames：＿col0，＿col2
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions：＿col0 （type： int），＿col2 （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
File Output Operator
compressed： false
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
table：
input format： org．a(chǎn)pache．hadoop．mapred．SequenceFileInputFormat
output format： org．a(chǎn)pache．hadoop．hive．ql．io．HiveSequenceFileOutputFormat
serde： org．a(chǎn)pache．hadoop．hive．serde2．lazy．LazySimpleSerDe
Local Work：
Map Reduce Local Work
Stage： Stage－0
Fetch Operator
limit：－1
Processor Tree：
ListSink

在第二條sql語句前加上 explain，得到如下結(jié)果

hive （default）＞ explain select a．id，b．user＿name from（select ＊ from test1 where id＞2 ） a join test2 b on a．id＝b．id；
OK
Explain
STAGE DEPENDENCIES：
Stage－4 is a root stage
Stage－3 depends on stages： Stage－4
Stage－0 depends on stages： Stage－3
STAGE PLANS：
Stage： Stage－4
Map Reduce Local Work
Alias －＞ Map Local Tables：
＄hdt＄＿0：test1
Fetch Operator
limit：－1
Alias －＞ Map Local Operator Tree：
＄hdt＄＿0：test1
TableScan
alias： test1
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）
outputColumnNames：＿col0
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
HashTable Sink Operator
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
Stage： Stage－3
Map Reduce
Map Operator Tree：
TableScan
alias： b
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）， user＿name （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Map Join Operator
condition map：
Inner Join 0 to 1
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
outputColumnNames：＿col0，＿col2
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions：＿col0 （type： int），＿col2 （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
File Output Operator
compressed： false
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
table：
input format： org．a(chǎn)pache．hadoop．mapred．SequenceFileInputFormat
output format： org．a(chǎn)pache．hadoop．hive．ql．io．HiveSequenceFileOutputFormat
serde： org．a(chǎn)pache．hadoop．hive．serde2．lazy．LazySimpleSerDe
Local Work：
Map Reduce Local Work
Stage： Stage－0
Fetch Operator
limit：－1
Processor Tree：
ListSink

大家有什么發(fā)現(xiàn)，除了表別名不一樣，其他的執(zhí)行計劃完全一樣，都是先進行 where 條件過濾，在進行 join 條件關(guān)聯(lián)。說明 hive 底層會自動幫我們進行優(yōu)化，所以這兩條sql語句執(zhí)行效率是一樣的。

最后

以上僅列舉了3個我們生產(chǎn)中既熟悉又有點迷糊的例子，explain 還有很多其他的用途，如查看stage的依賴情況、排查數(shù)據(jù)傾斜、hive 調(diào)優(yōu)等，小伙伴們可以自行嘗試。

<上一頁 1 2

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機器人產(chǎn)業(yè)大會
4月17日
立即報名 >> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術(shù)峰會

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

日本黄色网站无马赛克免费看亚洲福利精品亚洲乱码日产精品BD 国产99视频精品免视看7

<dfn id="nxkxc"><progress id="nxkxc"><optgroup id="nxkxc"></optgroup></progress></dfn>