Allion Labs / Franck Chen

在上一篇文章中,我們大致介紹了目前主要的語音助理應用、未來發展趨勢、潛在風險以及百佳泰的測試能量。本篇將分享評測結果與分析。

如同上篇所提到的測試規劃如下:

  1. 語音助理響應速度與穩定度測試
  2. 語音助理執行率與正確率測試 – 簡單情境
  3. 語音助理執行率與正確率測試 – 普通情境

[Test-1] 語音助理響應速度與穩定度測試

 測試情境 

– [Step-1] 在電視主畫面(Home Screen)下,按下<語音按鍵>。

– [Step-2] 電視顯示語音助理介面。

 測試項目 

從 [Step-1] “按下<語音按鍵>” 到 [Step-2] “電視顯示完整語音助理介面” 之時間。反覆執行操作,總計執行300次。

 量測結果 

 結果分析 

1. 平均響應速度:

表現最佳 Amazon TV – Alexa,是唯一低於反應靈敏建議值(1,000 ms)以內的組別,整體反應含UI呈現都相當靈敏與直覺。

表現最差 LG TV – AI ThinQ,許多數據已貼近或大於1,500 ms,達到足以令人察覺到有點延遲的臨界值,其整體流暢度有待提升。

2. 相同語音助理在不同電視作業系統之比較:

以Alexa為例,在Samsung TV上平均1,234 ms的表現遠不及於在Amazon TV上平均446ms的表現,因此可以推斷整體響應速度主要還是受到該電視效能與設計上的影響,並非同一個語音助理系統在不同系統上的表現都會一樣消費者在選購時應特別留意。

[Test-2] 語音助理執行率與正確率測試 – 簡單情境

 測試情境 

– [Step-1] 在電視主畫面(Home Screen)下,按下<語音按鍵>喚醒語音助理。

– [Step-2] 語音輸入“Go to YouTube”後等待10秒

– [Step-3] 按下<Home> key回到電視主畫面Home Screen。

 測試項目 

– [Step-1] 語音助理是否能正確喚醒。

– [Step-2] YouTube是否能透過語音助理正確開啟。

 量測結果 (300次) 

在使用百佳泰開發的ACSTS測試套件執行測試下輕鬆得到測試結果,若是透過一般人工檢測難以發現此潛在問題,更遑論取得關鍵log進行分析與改善。

 結果分析 

1. 表現總評

表現最佳Samsung TV-Bixby/Alexa。每一個組別的語音助理執行率與正確率皆有達到要求95%以上,其中又以Samsung TV-Bixby/Alexa表現最佳,沒有出現任何錯誤。

表現最差 Amazon TV-Alexa,總計出現了最多錯誤(6次),並且有連續4次發生“語音助理沒有喚醒”的嚴重問題,絕對會讓消費者有不好的使用體驗。

2. 相同語音助理在不同電視作業系統之比較

⇨以Alexa為例,在Samsung TV上的表現優於在Amazon TV上的表現,同樣呼應[Test-1]之結果,並非同一個語音助理在不同電視系統上的表現都會一樣

⇨可能影響的因素包含各家遙控器的收音能力、語音資料傳輸能力、電視系統/UI設計、抗干擾能力….等等因素而造成語音助理整體表現上的落差。廠商在開發時不能只依賴語音助理本身的能力,而是要搭配使用者實際的情境應用做全方位的模擬測試。

 問題摘要 

  • Sony TV-Google Assistant

數次出現辨識到語音指令”go to YouTube”,但是下一刻卻又無所適從的窘況。

  • Amazon TV-Alexa

出現幾次語音助理啟動後,卻執行錯誤的問題。

僅執行上面簡單的情境驗證便產生了一些問題和差異化,以下透過複雜一點的使用者情境進一步實測,其結果會是如何呢?

[Test-3] 語音助理執行率與正確率測試 – 普通情境

 測試情境 

– [Step-1] 將電視關機後等待5分鐘

– [Step-2] 將電視開機後等待30

– [Step-3] 按下<語音>按鍵,語音輸入“Open Netflix”後等待10秒

– [Step-4] 按下<語音>按鍵,語音輸入“Go to YouTube”後等待30秒 → Go to [Step-1]

 測試項目 

– [Step-3] : 語音助理能正常喚醒、Netflix能透過語音助理正確開啟…1st Accuracy

– [Step-4] : 語音助理能正常喚醒、YouTube能透過語音助理正確開啟…2nd Accuracy

 量測結果 (100次) 

 結果分析 

1. 表現總評

表現最佳為Amazon TV – Alexa、Sony TV – Google Assistant兩者表現不分軒輊,開機後第一個語音執行正確率都有達到標準,而第二個語音執行甚至沒有任何錯誤發生。

表現最差 LG TV – AI ThinQ、Samsung TV – Bixby

  • LG – AI ThinQ

第一個語音指令執行正確率僅有76%,第二個語音指令執行正確率雖有提升至82%,但距離標準95%仍有一大段距離。主要問題除了”語音助理沒有喚醒”外,也發生多次”可進行語音辨識,但執行結果錯誤”的問題:

  • Samsung TV – Bixby

第一個語音指令執正確率只有1%,主要原因是即使在電視開機後等待30秒,喚醒語音助理時仍然都顯示為loading中的相關訊息而無法使用(左下圖),導致第一個語音指令幾乎全都失敗。有時候即使已顯示“Go on, I’m ready”的資訊介面(右下圖),但實際上沒有辨識功能

第二個語音指令執行正確率有大幅提升至91%,但因為發生了多次語音助理在有喚起的狀態下(左下圖),卻發生無法辨識或無法執行的問題(右下圖),讓整體執行正確率僅剩91%低於需求的95%以上。

測試總結與目前排名

目前的排名由Amazon TV-Alexa取得領先,而LG- AI ThinQ則是處於落後局面。

[進階測試與分析]

由於LG-AI 、SAMSUNG Bixby這三台在普通情境出現嚴重問題,基於實驗精神,我們進一步將這三台做進階測試以利分析原因。我們將[Test-3]當中的”[Step-2] 將電視開機後等待30秒”延長至40秒及60秒進行驗證。

 結果分析 

  • LG – AI ThinQ

將開機後等待時間延長至40秒、60秒後,無論是第一或第二個語音指令,整體正確率並無明顯提升仍低於要求的95%。顯示電視關機/開機後整體處理程序影響到了語音助理的功能性。

  • Samsung TV – Bixby

1. 將開機後等待時間延長至40秒

⇨第一個語音指令:語音助理loading時間過久的問題大幅減少,然而伴隨而來的問題是語音助理無法識別語音,造成整體正確率仍是0%

⇨第二個語音指令:語音助理無法辨識的問題大幅減少,但整體89%的正確率仍低於要求標準(95%)。

2. 將開機後等待時間延長至60秒

⇨第一個語音指令:語音助理loading時間過久的問題僅剩1次,然而伴隨而來的是語音助理無法識別語音,造成整體正確率仍是0%

⇨第二個語音指令:語音助理無法辨識的問題僅剩2次,整體正確率提升至97%合乎標準(95%)。

  • Samsung TV – Alexa

將開機後等待時間延長至60秒的情境驗證在Samsung-Alexa

⇨第一個語音指令:發生了語音助理無法喚醒或是可進行語音辨識,但執行結果錯誤的問題,造成整體正確率同樣是0%

⇨第二個語音指令:沒有發生任何問題,語音指令執行正確率大幅提升至100%

由上述驗證幾乎可以得到一個結果即是,該Samsung TV無論是使用Bixby或是Alexa在關/開機後的第一次的語音助理功能皆有問題,對比Amazon TV-Alexa的實測結果,再次證明並非同一個語音助理在不同電視系統上的表現都會一樣,無論您是語音助理系統廠商或是電視製造商在開發階段或是消費者在選購上都應特別留意此部分

還在為怎麼設計情境化測試煩惱嗎?

從以上簡單的實驗案例可以了解到,若要執行精確量測以及提早在產品上市前攔截機率性嚴重問題,除了需要善用自動化工具外,情境設計也是至關重要的一環,兩者缺一不可。語音助理事關智慧電視是否能真正「展現」智慧的重要關鍵,百佳泰擁有自動化工具開發能力及多年的電視檢測技術及經驗,可協助設計及模擬全方位的關鍵情境,能事半功倍替您的電視品質做嚴格的把關、提升市場競爭力。

若您對於我們的測試方案有興趣的話,可直接填寫諮詢表單,將會有專人與您聯繫。

立即加入百佳泰 LINE官方帳號,隨時掌握技術新訊

延伸閱讀▶

預估2026智慧電視普及率高達51%,四篇案例直擊UX/UI設計不可忽略的細節

智慧電視一點都不智慧? 透過關鍵情境測試揪出真正元凶

媲美F1賽事的團隊戰略!百佳泰以「探索性測試」助你快、狠、準地找出智慧電視潛在的問題!

智慧電視Wi-Fi連線問題千百種,該如何找出潛在問題?