Amazon Comprehend - 開發人員指南

559
Amazon Comprehend 開發人員指南

Transcript of Amazon Comprehend - 開發人員指南

Amazon Comprehend開發人員指南

Amazon Comprehend 開發人員指南

Amazon Comprehend: 開發人員指南Copyright © Amazon Web Services, Inc. and/or its affiliates. All rights reserved.

Amazon 的商標和商業外觀不得用於任何非 Amazon 的產品或服務,也不能以任何可能造成客戶混淆、任何貶低或使Amazon 名譽受損的方式使用 Amazon 的商標和商業外觀。所有其他非 Amazon 擁有的商標均為其各自擁有者的財產,這些擁有者可能隸屬於 Amazon,或與 Amazon 有合作關係,亦或受到 Amazon 贊助。

Amazon Comprehend 開發人員指南

Table of Contents什麼是 Amazon Comprehend? ............................................................................................................ 1

Amazon Comprehend 洞見 .......................................................................................................... 1Amazon Comprehend 定制 .......................................................................................................... 2文件叢集 (主題建模) .................................................................................................................... 2範例 .......................................................................................................................................... 2優勢 .......................................................................................................................................... 2Amazon Comprehend 定價 .......................................................................................................... 3您是第一次使用 Amazon Comprehend 嗎? .................................................................................... 3

運作方式 ............................................................................................................................................ 4深入分析 .................................................................................................................................... 4

實體 .................................................................................................................................. 4事件 .................................................................................................................................. 6關鍵短語 .......................................................................................................................... 10主要語言 .......................................................................................................................... 11情緒 ................................................................................................................................ 15目標情緒 .......................................................................................................................... 16語法分析 .......................................................................................................................... 24

Amazon Comprehend ................................................................................................................ 26主題建模 .................................................................................................................................. 27文件處理模型 ............................................................................................................................ 29

單一文件處理 .................................................................................................................... 29多文檔同步處理 ................................................................................................................. 29非同步批次處理 ................................................................................................................. 31

支援的語言 ....................................................................................................................................... 32支援的語言 ............................................................................................................................... 32Amazon Comprehend 功能支援的語言 ......................................................................................... 32

設定 ................................................................................................................................................ 34註冊 AWS ................................................................................................................................ 34建立 IAM 使用者 ....................................................................................................................... 34設定 AWS CLI .......................................................................................................................... 35

入門 ................................................................................................................................................ 36使用主控台 ....................................................................................................................................... 37

即時分析 .................................................................................................................................. 37實體 ................................................................................................................................ 38關鍵短語 .......................................................................................................................... 38語言 ................................................................................................................................ 39個人身分識別資訊 (PII) ....................................................................................................... 40情緒 ................................................................................................................................ 42語法 ................................................................................................................................ 43

分析任務 (主控台) ..................................................................................................................... 43使用 API .......................................................................................................................................... 45

即時分析 .................................................................................................................................. 45檢測主導語言 .................................................................................................................... 45偵測具名實體 .................................................................................................................... 47偵測關鍵片語 .................................................................................................................... 50決定情緒 .......................................................................................................................... 52偵測語法 .......................................................................................................................... 54即時批次 API .................................................................................................................... 58

非同步分析工作 (API) ................................................................................................................ 62Amazon Comprehend 洞察 ................................................................................................. 62目標情緒 .......................................................................................................................... 66事件偵測 .......................................................................................................................... 67主題建模 .......................................................................................................................... 70

個人識別資訊 (PII) ............................................................................................................................. 76

iii

Amazon Comprehend 開發人員指南

偵測 PII 實體體 ......................................................................................................................... 76尋找 PII 實體體 ................................................................................................................. 76編輯 PII 實體體體體體 ....................................................................................................... 77PII 通用實體類型 ............................................................................................................... 77特定國家的 PII 實體類型 .................................................................................................... 79

標示 PII 實體 ............................................................................................................................ 80即時分析 (主控台) ..................................................................................................................... 81

OFSETS .......................................................................................................................... 40標籤 ................................................................................................................................ 41

非同步分析任務 (主控台) ............................................................................................................ 83即時分析 .................................................................................................................................. 84

尋找 PII 即時實體 (API) ..................................................................................................... 84標記 PII 即時實體 (API) ..................................................................................................... 85

非同步分析工作 (API) ................................................................................................................ 86尋找 PII 實體體體 .............................................................................................................. 86編輯 PII 實體體體體 .......................................................................................................... 89

自訂分類 .......................................................................................................................................... 92準備訓練資料 ............................................................................................................................ 92

多類別模式 ....................................................................................................................... 92多標記模式 ....................................................................................................................... 94

訓練分類模型 ............................................................................................................................ 96訓練自訂分類器 (主控台) .................................................................................................... 96訓練和執行自訂分類器 (API) ............................................................................................... 98指標訓練資料 .................................................................................................................. 102指標 .............................................................................................................................. 103

執行自訂分類器 ....................................................................................................................... 108即時分析 (主控台) ............................................................................................................ 108非同步任務的輸入和輸出 ................................................................................................... 110分析任務 (主控台) ............................................................................................................ 113

自訂實體辨識 .................................................................................................................................. 115準備培訓資料 .......................................................................................................................... 115

註釋 .............................................................................................................................. 116實體清單 ........................................................................................................................ 116註釋或實體列表? ............................................................................................................ 116註釋 .............................................................................................................................. 117實體清單 ........................................................................................................................ 125

訓練辨識器模型 ....................................................................................................................... 127訓練自訂辨識器 (主控台) ................................................................................................... 127訓練和執行自訂辨識器 (API) .............................................................................................. 130指標 .............................................................................................................................. 134

執行自訂辨識器 ....................................................................................................................... 136影像檔的最佳實務 ............................................................................................................ 136即時分析 (主控台) ............................................................................................................ 137分析任務 (主控台) ............................................................................................................ 139

管理自訂模型 .................................................................................................................................. 144使用 Amazon Comprehend 模型版本控制 .................................................................................... 144在之間複製自訂模型AWS帳戶 .................................................................................................... 146

共用自訂模型 .................................................................................................................. 147匯入自訂模型 .................................................................................................................. 152

管理端點 ........................................................................................................................................ 157端點概觀 ................................................................................................................................ 157監控端點 ................................................................................................................................ 158更新端點 ................................................................................................................................ 159使用 Trusted Advisor ............................................................................................................... 160

Amazon Comprehend 使用率不足的端點 ............................................................................. 160Amazon Comprehend 端點訪問風險 ................................................................................... 161

刪除端點 ................................................................................................................................ 162

iv

Amazon Comprehend 開發人員指南

隨端點自動調整規模 ................................................................................................................. 162目標追蹤 ........................................................................................................................ 163排程擴展 ........................................................................................................................ 165

標記 .............................................................................................................................................. 168標記新的資源 .......................................................................................................................... 168檢視、編輯和刪除標籤 .............................................................................................................. 169

安全性 ........................................................................................................................................... 171資料保護 ................................................................................................................................ 171

Amazon Comprehend 中的 KMS 加密 ................................................................................ 172預防跨服務混淆代理人 ...................................................................................................... 174使用 Virtual Private Cloud (VPC) 端 (VPC) .......................................................................... 175VPC 端點 (AWS PrivateLink) ............................................................................................ 179

身分驗證與存取控制 ................................................................................................................. 180身分驗證 ........................................................................................................................ 180存取控制 ........................................................................................................................ 181管理存取概觀 .................................................................................................................. 181將以身分為基礎的政策 (IAM 政策) 用於 Amazon Comprehend ................................................ 183Amazon Comprehend API 許可參考 ................................................................................... 188AWS 受管政策 ................................................................................................................ 188

使用記錄 Amazon Comprehend API 呼叫AWS CloudTrail .............................................................. 190Amazon Comprehend 資訊 CloudTrail ................................................................................ 191範例:Amazon Comprehend 日誌檔案項目 .......................................................................... 193

合規驗證 ................................................................................................................................ 199恢復能力 ................................................................................................................................ 199基礎設施安全性 ....................................................................................................................... 199自訂非同步分析工作所需的權限 ................................................................................................. 200

指導方針 ........................................................................................................................................ 201支援的區域 ............................................................................................................................. 201整體配額 ................................................................................................................................ 201單一交易的節流 ....................................................................................................................... 201多個文件操作 .......................................................................................................................... 202並行作用中非同步工作 .............................................................................................................. 202非同步工作 ............................................................................................................................. 202目標情緒 ................................................................................................................................ 203文件分類 ................................................................................................................................ 203語言偵測 ................................................................................................................................ 204事件 ...................................................................................................................................... 204主題建模 ................................................................................................................................ 204實體辨識 ................................................................................................................................ 205

教學課程 ........................................................................................................................................ 207分析評論中的洞察 .................................................................................................................... 207

先決條件 ........................................................................................................................ 208步驟 1:將文件新增到 Amazon S3 ..................................................................................... 209步驟 2:(僅限 CLI) 建立身分與存取權管理角色 ..................................................................... 212步驟 3:執行分析任務 ...................................................................................................... 214步驟 4:準備輸出 ............................................................................................................ 217步驟 5:可視化輸出 ......................................................................................................... 224

針對 PII 使用 S3 物件 Lambda 存取點 ........................................................................................ 228使用 PII 控制對文件的存取 ................................................................................................ 229從文件編輯 PII ................................................................................................................ 230

使用中分析文字 OpenSearch ..................................................................................................... 231API 參考 ........................................................................................................................................ 232

動作 ...................................................................................................................................... 232BatchDetectDominantLanguage ......................................................................................... 235BatchDetectEntities .......................................................................................................... 237BatchDetectKeyPhrases ................................................................................................... 240BatchDetectSentiment ...................................................................................................... 243

v

Amazon Comprehend 開發人員指南

BatchDetectSyntax .......................................................................................................... 246ClassifyDocument ............................................................................................................ 249ContainsPiiEntities ........................................................................................................... 252CreateDocumentClassifier ................................................................................................. 254CreateEndpoint ............................................................................................................... 259CreateEntityRecognizer .................................................................................................... 263DeleteDocumentClassifier ................................................................................................. 268DeleteEndpoint ............................................................................................................... 270DeleteEntityRecognizer .................................................................................................... 272DeleteResourcePolicy ...................................................................................................... 274DescribeDocumentClassificationJob ................................................................................... 276DescribeDocumentClassifier .............................................................................................. 279DescribeDominantLanguageDetectionJob ............................................................................ 282DescribeEndpoint ............................................................................................................ 285DescribeEntitiesDetectionJob ............................................................................................ 287DescribeEntityRecognizer ................................................................................................. 290DescribeEventsDetectionJob ............................................................................................. 293DescribeKeyPhrasesDetectionJob ...................................................................................... 295DescribePiiEntitiesDetectionJob ......................................................................................... 298DescribeResourcePolicy ................................................................................................... 301DescribeSentimentDetectionJob ......................................................................................... 303DescribeTargetedSentimentDetectionJob ............................................................................ 306DescribeTopicsDetectionJob ............................................................................................. 309DetectDominantLanguage ................................................................................................. 311DetectEntities ................................................................................................................. 313DetectKeyPhrases ........................................................................................................... 317DetectPiiEntities .............................................................................................................. 320DetectSentiment .............................................................................................................. 322DetectSyntax .................................................................................................................. 325ImportModel ................................................................................................................... 327ListDocumentClassificationJobs ......................................................................................... 331ListDocumentClassifiers .................................................................................................... 334ListDocumentClassifierSummaries ...................................................................................... 337ListDominantLanguageDetectionJobs ................................................................................. 339ListEndpoints .................................................................................................................. 342ListEntitiesDetectionJobs .................................................................................................. 345ListEntityRecognizers ....................................................................................................... 348ListEntityRecognizerSummaries ......................................................................................... 352ListEventsDetectionJobs ................................................................................................... 354ListKeyPhrasesDetectionJobs ............................................................................................ 357ListPiiEntitiesDetectionJobs ............................................................................................... 360ListSentimentDetectionJobs .............................................................................................. 363ListTagsForResource ....................................................................................................... 366ListTargetedSentimentDetectionJobs .................................................................................. 368ListTopicsDetectionJobs ................................................................................................... 371PutResourcePolicy .......................................................................................................... 374StartDocumentClassificationJob ......................................................................................... 377StartDominantLanguageDetectionJob ................................................................................. 382StartEntitiesDetectionJob .................................................................................................. 386StartEventsDetectionJob ................................................................................................... 391StartKeyPhrasesDetectionJob ............................................................................................ 395StartPiiEntitiesDetectionJob ............................................................................................... 400StartSentimentDetectionJob .............................................................................................. 404StartTargetedSentimentDetectionJob .................................................................................. 409StartTopicsDetectionJob ................................................................................................... 414StopDominantLanguageDetectionJob ................................................................................. 419StopEntitiesDetectionJob .................................................................................................. 421

vi

Amazon Comprehend 開發人員指南

StopEventsDetectionJob ................................................................................................... 423StopKeyPhrasesDetectionJob ............................................................................................ 425StopPiiEntitiesDetectionJob ............................................................................................... 427StopSentimentDetectionJob .............................................................................................. 429StopTargetedSentimentDetectionJob .................................................................................. 431StopTrainingDocumentClassifier ........................................................................................ 433StopTrainingEntityRecognizer ............................................................................................ 435TagResource .................................................................................................................. 437UntagResource ............................................................................................................... 439UpdateEndpoint .............................................................................................................. 441

資料類型 ................................................................................................................................ 443AugmentedManifestsListItem ............................................................................................. 445BatchDetectDominantLanguageItemResult .......................................................................... 447BatchDetectEntitiesItemResult ........................................................................................... 448BatchDetectKeyPhrasesItemResult ..................................................................................... 449BatchDetectSentimentItemResult ....................................................................................... 450BatchDetectSyntaxItemResult ............................................................................................ 451BatchItemError ................................................................................................................ 452ClassifierEvaluationMetrics ................................................................................................ 453ClassifierMetadata ........................................................................................................... 455DocumentClass ............................................................................................................... 456DocumentClassificationJobFilter ......................................................................................... 457DocumentClassificationJobProperties ................................................................................. 458DocumentClassifierFilter ................................................................................................... 461DocumentClassifierInputDataConfig .................................................................................... 462DocumentClassifierOutputDataConfig ................................................................................. 464DocumentClassifierProperties ............................................................................................ 465DocumentClassifierSummary ............................................................................................. 469DocumentLabel ............................................................................................................... 471DocumentReaderConfig .................................................................................................... 472DominantLanguage .......................................................................................................... 473DominantLanguageDetectionJobFilter ................................................................................. 474DominantLanguageDetectionJobProperties .......................................................................... 475EndpointFilter ................................................................................................................. 478EndpointProperties .......................................................................................................... 479EntitiesDetectionJobFilter .................................................................................................. 482EntitiesDetectionJobProperties .......................................................................................... 483Entity ............................................................................................................................. 486EntityLabel ..................................................................................................................... 488EntityRecognizerAnnotations ............................................................................................. 489EntityRecognizerDocuments .............................................................................................. 490EntityRecognizerEntityList ................................................................................................. 491EntityRecognizerEvaluationMetrics ..................................................................................... 492EntityRecognizerFilter ...................................................................................................... 493EntityRecognizerInputDataConfig ....................................................................................... 494EntityRecognizerMetadata ................................................................................................ 496EntityRecognizerMetadataEntityTypesListItem ...................................................................... 497EntityRecognizerProperties ............................................................................................... 498EntityRecognizerSummary ................................................................................................ 501EntityTypesEvaluationMetrics ............................................................................................ 503EntityTypesListItem .......................................................................................................... 504EventsDetectionJobFilter .................................................................................................. 505EventsDetectionJobProperties ........................................................................................... 506InputDataConfig .............................................................................................................. 509KeyPhrase ..................................................................................................................... 510KeyPhrasesDetectionJobFilter ........................................................................................... 511KeyPhrasesDetectionJobProperties .................................................................................... 512

vii

Amazon Comprehend 開發人員指南

OutputDataConfig ............................................................................................................ 515PartOfSpeechTag ............................................................................................................ 516PiiEntitiesDetectionJobFilter .............................................................................................. 517PiiEntitiesDetectionJobProperties ....................................................................................... 518PiiEntity ......................................................................................................................... 521PiiOutputDataConfig ........................................................................................................ 523RedactionConfig .............................................................................................................. 524SentimentDetectionJobFilter .............................................................................................. 525SentimentDetectionJobProperties ....................................................................................... 526SentimentScore ............................................................................................................... 529SyntaxToken .................................................................................................................. 530Tag ............................................................................................................................... 531TargetedSentimentDetectionJobFilter .................................................................................. 532TargetedSentimentDetectionJobProperties .......................................................................... 533TopicsDetectionJobFilter ................................................................................................... 536TopicsDetectionJobProperties ........................................................................................... 537VpcConfig ...................................................................................................................... 540

常見參數 ................................................................................................................................ 540常見錯誤 ................................................................................................................................ 542

文件歷史紀錄 .................................................................................................................................. 544AWS 詞彙表 ................................................................................................................................... 550...................................................................................................................................................... dli

viii

Amazon Comprehend 開發人員指南Amazon Comprehend 洞見

什麼是 Amazon Comprehend?Amazon Comprehend 使用自然語言處理 (NLP) 來擷取文件內容的洞見。它可透過識別文件中的實體、關鍵片語、語言、情感和其他常見元素,以此形成洞見。使用 Amazon Comprehend 建立以了解文件結構為基礎的新產品。例如,使用 Amazon Comprehend,您可以搜尋社交網路摘要以取得產品的提及,或掃描整個文件儲存庫中的關鍵片語。

您可以使用亞馬遜主控台或使用 Amazon Comprehend API 存取 Amazon Comprehend 文件分析功能。您可以針對小型工作負載執行即時分析,也可以針對大型文件集啟動非同步分析工作。您可以使用 AmazonComprehend 提供的預先訓練模型,也可以訓練自己的自訂模型以進行分類和實體辨識。

Amazon Comprehend 的所有功能都可以將 UTF-8 文本文檔分析為輸入文件。此外,自定義實體識別可以分析圖像文件,PDF 文件和 Word 文件。

Amazon Comprehend 可以檢查和分析各種語言的文件,具體取決於特定功能。如需詳細資訊,請參閱Amazon Comprehend 中支援的語言 (p. 32)。Amazon Comprehend主要語言 (p. 11)能力可以檢查文檔並確定更廣泛的語言選擇的主要語言。

主題• Amazon Comprehend 洞見 (p. 1)• Amazon Comprehend 定制 (p. 2)• 文件叢集 (主題建模) (p. 2)• 範例 (p. 2)• 優勢 (p. 2)• Amazon Comprehend 定價 (p. 3)• 您是第一次使用 Amazon Comprehend 嗎? (p. 3)

Amazon Comprehend 洞見Amazon Comprehend 使用預先訓練的模型來檢查和分析一份文件或一組文件,以收集有關該模型的見解。此模型會在大型文字上持續進行訓練,因此您不需要提供訓練資料。

亞馬遜收集以下類型的見解:

• 實體— 參照文件中包含的人員、地點、項目和位置的名稱。• 關鍵短語— 出現在文件中的片語。例如,關於籃球比賽的文件可能會傳回球隊名稱、場地名稱和最終得

分。• 個人識別資訊 (PII)— 可以識別個人的個人數據,例如地址,銀行帳戶號碼或電話號碼。• 語言— 文件的主要語言。• 情緒— 文件的主要情緒,可以是正面、中性、負面或混合。• 目標情緒— 與文件中特定實體相關聯的情緒。每個實體出現的情緒可以是正面、負面、中性或混合。• 語法— 文件中每個字詞的語音部分。

如需詳細資訊,請參閱 深入分析 (p. 4)。

1

Amazon Comprehend 開發人員指南Amazon Comprehend 定制

Amazon Comprehend 定制您可以根據自己的特定需求自訂 Amazon Comprehend,而不必具備建置機器學習型 NLP 解決方案所需的技能組合。Amazon Comprehend 自訂可使用自動機器學習或 AutoML,使用您現有的資料代表您建立自訂的NLP 模型。

自訂分類— 建立自訂分類模型 (分類器),將文件組織成您自己的類別。

自訂實體辨識— 創建自定義實體識別模型(識別器),該模型可以分析特定術語和基於名詞的短語的文本。

如需詳細資訊,請參閱 Amazon Comprehend (p. 26)。

文件叢集 (主題建模)您也可以使用 Amazon Comprehend 來檢查文件的語料庫,以根據其中的類似關鍵字來組織文件。文件叢集(主題模型) 有助於將大型文件語料庫組織成以字詞頻率為基礎的類似主題或叢集。如需詳細資訊,請參閱 主題建模 (p. 27)。

範例下列範例示範如何在現有應用程式中使用 Amazon Comprehend 操作。

Example 1:尋找有關主旨的文件

使用亞馬遜主題建模來尋找有關特定主題的文件。掃描一組文件以決定討論的主題,並尋找與每個主題相關聯的文件。您可以指定 Amazon Comprehend 應該從文件集傳回的主題數目。

Example 2: 了解客戶對您產品的感受

如果您的公司發佈目錄,請讓 Amazon Comprehend 告訴您客戶對您產品的看法。將每個客戶評論發送到DetectSentiment操作,它會告訴您客戶對產品的感覺是否正面,消極,中性或混合。

Example 3: 探索對您的客戶最重要的事項

使用 Amazon Comprehend 主題模型來探索客戶在論壇和留言板上討論的主題,然後使用實體偵測來判斷與主題相關聯的人員、地點和事物。最後,使用情緒分析來判斷客戶對某個主題的看法。

優勢使用 Amazon Comprehend 的一些優點包括:

• 將強大的自然語言處理整合至您的應用程式— Amazon Comprehend 讓您能輕鬆在現有應用程式中建置文字分析功能,操作不再繁瑣複雜;只需透過簡單的 API,即可擁有強大且精確的自然語言處理。您不需要文字分析專業知識,就能利用 Amazon Comprehend 產生的深入解析。

• 以深度學習為基礎的自然語言處理— Amazon Comprehend 使用深度學習技術精確地分析文字。我們的模型經過不斷訓練,涵蓋多個領域的新資料,以提高準確性。

• 可擴充的自然語言處理— Amazon Comprehend 可讓您分析數百萬份文件,以便探索其中包含的深入解析。

• 將與其他 AWS 服務整合— Amazon Comprehend 是為與 Amazon S3 等其它 AWS 服務無縫整合而設計之功能。AWS KMS,以及AWS Lambda。將您的文件存放在 Amazon S3 中,或使用 Kinesis 資料防火

2

Amazon Comprehend 開發人員指南Amazon Comprehend 定價

管分析即時資料。支援AWS Identity and Access Management(IAM) 讓您能輕鬆、安全地控制 AmazonComprehend 操作的存取權。您可以使用 IAM 來建立和管理 AWS 使用者和群組,並提供開發人員與終端使用者適當的存取權限。

• 加密輸出結果和磁碟區資料— Amazon S3 已經使您能夠加密輸入文檔,而 Amazon Comprehend 將其擴展得更遠。透過使用自己的 KMS 金鑰,您不僅可以加密任務的輸出結果,還可以加密連接至處理分析工作之運算執行個體的儲存磁碟區上的資料。結果顯著增強了安全性。

• 低成本— 使用 Amazon Comprehend,沒有最低費用或者預付款項。您需要支付您分析的文件以及訓練的自訂模型。

Amazon Comprehend 定價執行即時或非同步分析工作需支付使用費。您需要付費訓練自訂模型,而且需要支付自訂模型管理費用。對於使用自訂模型的即時請求,您需要從啟動端點開始支付端點費用,直到刪除端點為止。

如需費率和其他詳細資訊,請參閱http://aws.amazon.com/comprehend/pricing。

您是第一次使用 Amazon Comprehend 嗎?如果您是第一次使用 Amazon Comprehend,我們建議您依序閱讀以下章節:

1. 運作方式 (p. 4)— 本節介紹 Amazon Comprehend 概念。2. 設定 (p. 34)— 本節說明如何建立 IAM 使用者並設定AWS CLI。3. Amazon Comprehend 入門 (p. 36)— 在本節中,您執行 Amazon Comprehend 分析任務。4. 教學課程:使用亞馬遜分析客戶評論中的洞察 (p. 207)— 在本節中,您會執行情緒和實體分析,並視覺

化結果。5. API 參考 (p. 232) — 在本節中,您將找到有關亞馬遜運營的參考文檔。

AWS提供下列資源,以了解 Amazon Comprehend 服務:

• 所以此AWSMachine Learning 部落格包括關於 Amazon Comprehend 的有用文章。• Amazon Comprehend 資源提供有關 Amazon Comprehend 的有用視頻和教程。

3

Amazon Comprehend 開發人員指南深入分析

運作方式Amazon Comprehend 使用預先訓練模型進行收集見解關於文件或一組文件。此模型會在大型文字上持續訓練,因此您不需要提供訓練資料。

您可以使用 Amazon Comprehend 建立自己的自訂模型用於自訂分類和自訂實體辨識。

Amazon Comprehend主題建模使用內建模型。主題建模會檢查文件的語料庫,並根據其中的類似關鍵字來組織文件。

Amazon Comprehend 提供同步和異步文件處理模式。使用同步模式處理一份文件或最多 25 份文件的批次。使用非同步工作來處理大量文件。

Amazon Comprehend 的作品AWS Key Management Service(AWS KMS)為您的數據提供增強的加密。如需詳細資訊,請參閱 Amazon Comprehend 中的 KMS 加密 (p. 172)。

重要概念• 深入分析 (p. 4)• Amazon Comprehend (p. 26)• 主題建模 (p. 27)• 文件處理模型 (p. 29)

深入分析Amazon Comprehend 可以分析一份文件或一組文件,以收集有關文件的見解。Amazon Comprehend 針對文件開發的一些見解包括:

• 實體 (p. 4)— Amazon Comprehend 會傳回文件中識別的實體清單,例如人員、地點和位置。• 事件 (p. 6)— Amazon Comprehend 可偵測特定類型的事件和相關詳細資料。• 關鍵短語 (p. 10)— Amazon Comprehend 提取出現在文檔中的關鍵短語。例如,關於籃球比賽的文件

可能會傳回球隊名稱、場地名稱和最終得分。• 個人識別資訊 (PII) (p. 76)— Amazon Comprehend 會分析文件以偵測可識別個人身分的個人資料,例

如地址、銀行帳號或電話號碼。• 主要語言 (p. 11)— Amazon Comprehend 識別文檔中的主要語言。Amazon Comprehend 可以識別

100 種語言。• Comprehend (p. 15)— Amazon Comprehend 決了文檔的主要情緒。情緒可以是正面、中性、負面或混

合。• 目標情緒 (p. 16)— Amazon Comprehend 會決定文件中提及之特定實體的情緒。每次提及的情緒可以

是正面、中性、負面還是混合。• 語法分析 (p. 24)— Amazon Comprehend 會剖析文件中的每個單字,並決定單字的語音部分。例如,

在句子「今天在西雅圖下雨」中,「它」被識別為代詞,「下雨」被識別為動詞,「西雅圖」被識別為專有名詞。

實體同時實體是對真實世界物件 (例如人物、地點和商業項目) 的唯一名稱的文字參考,以及對諸如日期和數量之類的度量的精確參考。

例如,在文本「約翰在 2012 年搬到 1313 只知更鳥巷」中,「約翰」可能被認為是PERSON,「1313 知更鳥巷」可能被認為是LOCATION和「2012」可能被認為是DATE。

4

Amazon Comprehend 開發人員指南實體

每個實體也有一個分數,指出 Amazon Comprehend 正確偵測到實體類型的信賴程度。您可以篩選出分數較低的實體,以降低使用錯誤偵測的風險。

下表列出圖元類型。

類型 描述

商業項目 品牌產品

DATE 完整日期(例如,2017 年 11 月 25 日)、日(星期二)、月份(五月)或時間(上午 8 時 30 分)

EVENT 活動,例如節日,音樂會,選舉等。

LOCATION 特定位置,例如國家,城市,湖泊,建築物等。

組織 大型組織,例如政府,公司,宗教,運動隊等。

OTHER 不符合任何項目標的實體其他實體類別

人 個人,人群,暱稱,虛構人物

數量 量化金額,例如貨幣、百分比、數字、位元組等。

標題 任何創作或創作作品(例如電影,書籍,歌曲等)的正式名稱。

偵測實體操作可以使用 Amazon Comprehend 支援的任何主要語言來執行。這僅包括預先定義的(非自訂)實體偵測。所有文件必須使用相同語言。

您可以使用下列任何 API 作業來偵測文件或一組文件中的實體。

• DetectEntities (p. 313)• BatchDetectEntities (p. 237)• StartEntitiesDetectionJob (p. 386)

操作傳回清單Entity (p. 486)物件,一個用於文件中的每個實體。所以此BatchDetectEntities操作傳回清單Entity物件,批次中每個文件都有一個清單。所以此StartEntitiesDetectionJob操作啟動一個異步作業,該作業生成一個包含列表的文件Entity工作中每個文件的物件。

以下是來自的回應範例DetectEntitiesoperation.

{ "Entities": [ { "Text": "today", "Score": 0.97, "Type": "DATE", "BeginOffset": 14, "EndOffset": 19 }, { "Text": "Seattle", "Score": 0.95, "Type": "LOCATION", "BeginOffset": 23, "EndOffset": 30 } ],

5

Amazon Comprehend 開發人員指南事件

"LanguageCode": "en"}

事件使用事件偵測分析文字文件,找出特定類型的事件及其相關實體。Amazon Comprehend 使用非同步分析任務,支援跨大型文件集合的事件偵測。如需事件的詳細資訊,包括事件分析工作的範例,請參閱「」。宣布推出 Amazon Comprehend 活動

實體

Amazon Comprehend 會從輸入文字中擷取與偵測到的事件相關的實體清單。同時實體可以是真實世界的物體,例如人物、地點或位置;實體也可以是概念,例如度量、日期或數量。實體的每個實體都是依提到,這是輸入文字中實體的文字參照。對於每個唯一實體,所有提及都會分組到一個清單中。此清單提供輸入文字中實體出現的每個位置的詳細資訊。Amazon Comprehend 只會偵測與支援的事件類型相關聯的實體。

與支援的事件類型相關聯的每個實體都會傳回下列相關詳細資訊:

• Mentions:輸入文字中每次出現相同實體的詳細資訊。• BeginOffset:輸入文字中的字元偏移量,顯示提及的開始位置 (第一個字元位於 0 位置)。• EndOffset:輸入文字中的字元偏移量,顯示提及結束位置。• 分數:Amazon Comprehend 對於實體類型準確性的可信度。• GroupScore:Amazon Comprehend 對於提及已正確分組與相同實體的其他提及項目的信心程度。• Text (文字):實體的文字。• 類型:實體的類型。如需所有支援的實體類型,請參閱實體類型 (p. 7)。

事件

Amazon Comprehend 會傳回在輸入文字中偵測到的事件 (受支援的事件類型) 清單。每個事件都會傳回下列相關詳細資訊:

• 類型:事件的類型。如需所有支援的事件類型,請參閱Event types (事件類型) (p. 8)。• Arguments (引數):與偵測到的事件有關的引數清單。同時爭論由與偵測到的事件相關的實體所組成。參

數的角色描述了關係,例如誰做到了什麼、哪裡和何時。• EntityIndex:一種索引值,可從 Amazon Comprehend 為此分析傳回的實體清單中識別實體。• 角色:引數類型,說明此引數的實體與事件的關係。如需所有支援的引數類型,請參閱引數類

型 (p. 8)。• 分數:Amazon Comprehend 對於角色偵測準確性的可信度。

• 觸發:偵測到的事件的觸發清單。一個觸發器是指示事件發生的單一文字或片語。• BeginOffset:輸入文字中的字元偏移量,顯示觸發器的開始位置 (第一個字元位於 0 位置)。• EndOffset:輸入文字中的字元偏移量,顯示觸發器結束的位置。• 分數:Amazon Comprehend 對於偵測準確性的可信度。• Text (文字):觸發器的文字。• GroupScore:Amazon Comprehend 對於觸發程序與相同事件的其他觸發器正確分組的信賴程度。• 類型:此觸發器所指示的事件類型。

偵測事件結果格式事件偵測任務完成後,Amazon Comprehend 會將分析結果寫入您在開始任務時指定的 Amazon S3 輸出位置。

6

Amazon Comprehend 開發人員指南事件

對於每個偵測精確的事件,輸出會依下列格式提供詳細資訊:

{ "Entities": [ { "Mentions": [ { "BeginOffset": number, "EndOffset": number, "Score": number, "GroupScore": number, "Text": "string", "Type": "string" }, ... ] }, ... ], "Events": [ { "Type": "string", "Arguments": [ { "EntityIndex": number, "Role": "string", "Score": number }, ... ], "Triggers": [ { "BeginOffset": number, "EndOffset": number, "Score": number, "Text": "string", "GroupScore": number, "Type": "string" }, ... ] }, ... ] }

實體、事件和引數的支援類型實體類型

類型 描述

DATE 對日期或時間的任何引用,無論是特定的還是一般。

設施 建築物、機場、公路、橋樑和其他永久性人造結構和房地產改善工程。

LOCATION 物理位置,例如街道,城市,州,國家,水體或地理坐標。

貨幣價值 美國或其他貨幣的價值。該值可以是特定的或近似值。

組織 公司和一個建立的組織結構定義的人的其他群體。

7

Amazon Comprehend 開發人員指南事件

類型 描述

人 個人或虛構角色的姓名或暱稱。

人物標題 描述一個人的任何職稱,通常是僱傭類別(例如CEO)或尊敬的(例如 Mr.)。

數量 數字或值以及測量單位。

股票代碼 股票代碼,例如 AMZN、國際證券識別號碼(ISIN)、統一證券識別程序委員會 (CUSIP) 或證券交易所每日正式名單 (SEDOL)。

Event types (事件類型)

類型 描述

破產 涉及無法償還未償還債務的人士或公司的法律程序。

就業 當僱員被僱用,解僱,退休,或以其他方式改變就業狀態時發生。

企業收購 當一家公司獲得另一家公司的大部分或全部股份或實物資產的擁有以獲得該公司的控制權時發生。

一般投資 當個人或公司購買具有 future 收入或升值的前景的資產時發生。

企業合併 當兩個或兩個以上的公司團結創建一個新的法律實體時發生。

IPO 私人公司在新股發行中向公眾發行的股份的首次公開發行(IPO)。

權利問題 向現有股東提供一組權利,以按其現有持有的比例購買額外股票(稱為認購權證)。

次要提供項目 公司股東的要約證券。

擱置提供 一項證券交易委員會 (SEC) 條款,允許發行人在一段時間內註冊新發行的證券並出售部分發行品,而無需重新註冊證券或遭受罰款。也稱為架子登記。

招標提供 購買公司部分或全部股東股份的要約。

股票 _ 分割 當公司的董事會通過向當前股東發行更多股份來增加流通的股份數量時發生。此事件也適用於反向股票分割。

引數類型

破產的論據類型

引數類型 描述

文件管理員 申請破產的人士或公司。

8

Amazon Comprehend 開發人員指南事件

引數類型 描述

DATE 破產的日期或時間。

地方 破產發生(或最接近的地方)的地點或設施。

雇用的引數類型

類型 描述

僱員 受僱於公司的人。

員工職稱 員工的職稱。

雇主 僱用該僱員的個人或公司。

結束日期 僱用的開始日期或時間。

START_DATE 僱用的結束日期或時間。

企業的論據類型 _ 收購、投資 _ 一般

類型 描述

量 與交易相關聯的貨幣價值。

被投資者 與投資有關的人士或公司。

投資者 投資資產的個人或公司。

DATE 收購或投資的日期或時間。

地方 收購或投資發生的地點(或最接近的地方)。

公司合併的引數類型

類型 描述

DATE 合併的日期或時間。

新公司 合併產生的新法人實體。

參與者 涉及合併的公司。

IPO、權利問題、次要提供項目、擱置提供項目、招標提供的引數類型

類型 描述

到期日 提供項目的到期日或時間。

投資者 投資資產的個人或公司。

受要約人 接受發售的人士或公司。

提供金額 與訂購項目有關的貨幣價值。

提供日期 提供項目的日期或時間。

9

Amazon Comprehend 開發人員指南關鍵短語

類型 描述

要約人 發起提供的人或公司。

要約者總價值 與訂購項目有關的總貨幣價值。

記錄日期 提供項目的記錄日期或時間。

銷售代理 促進銷售該項要約的人士或公司。

股價 與股價相關的貨幣價值。

分享數量 與發行項目相關的股份數目。

承銷商 與發行的承銷有關的公司。

股票 _ 分割的引數類型

類型 描述

公司 該公司發行股票拆分的股份。

DATE 股票分割的日期或時間。

分割比率 在股票分割前增加新的流通股數量與當前股份數量的比率。

關鍵短語一個关键短语是一個包含描述特定事物的名詞短語的字符串。它通常由一個名詞和區分它的修飾符組成。例如,「日」是一個名詞;「美麗的一天」是一個名詞短語,其中包含文章(「a」)和形容詞(「美麗」)。每個關鍵片語都包含一個分數,表示 Amazon Comprehend 對該字串是名詞片語的信心程度。您可以使用分數來判斷偵測是否對您的應用程式具有足夠的信賴度。

偵測關鍵片語操作可以使用 Amazon Comprehend 支援的任何主要語言來執行。所有文件必須使用相同語言。

您可以使用下列任何操作來偵測文件或文件集中的關鍵片語。

• DetectKeyPhrases (p. 317) />• BatchDetectKeyPhrases (p. 240)• StartKeyPhrasesDetectionJob (p. 395)

操作傳回清單KeyPhrase (p. 510)物件,文件中每個關鍵片語都有一個物件。所以此BatchDetectKeyPhrases傳回操作清單KeyPhrase物件,批次中的每個文件都有一個物件。所以此StartKeyPhrasesDetectionJob操作啟動一個異步作業,該作業生成一個包含列表的文件KeyPhrase工作中每個文件的物件。

下列範例是來自的回應DetectKeyPhrasesoperation.

{ "LanguageCode": "en", "KeyPhrases": [ { "Text": "today", "Score": 0.89,

10

Amazon Comprehend 開發人員指南主要語言

"BeginOffset": 14, "EndOffset": 19 }, { "Text": "Seattle", "Score": 0.91, "BeginOffset": 23, "EndOffset": 30 } ]}

主要語言您可以使用 Amazon Comprehend 來檢查文字,以判斷主要語言。Amazon Comprehend 使用來自 RFC5646 的識別碼來識別語言 — 如果有兩個字母的 ISO 639-1 識別碼,並在必要時具有區域子標籤,則會使用該識別碼。否則,它會使用 ISO 639-2 3 個字母的代碼。如需的詳細資訊,請參閱用於識別語言的標籤在IETF 工具網站。

回應包含一個分數,指出 Amazon Comprehend 具有特定語言是文件中主要語言的信賴等級。每個分數都獨立於其他分數,並不表示某種語言構成了文件的特定百分比。

如果長文件 (如書籍) 是以多種語言撰寫的,您可以將較長的文件分成較小的部分,然後執行DetectDominantLanguage操作上的各個部分。然後,您可以彙總結果,以決定較長文件中每種語言的百分比。

Amazon Comprehend 可以偵測下列語言。

Code 語言

af 南非荷蘭文

am 阿姆哈拉文

ar Arabic

如 阿薩姆

az 亞塞拜然文

BA 巴什基爾

是 白俄羅斯

bn 孟加拉文

bs 波士尼亞文

bg 保加利亞文

ca 加泰隆

CEB 宿雾

cs 捷克文

CV 楚瓦什

CY 威爾斯文

da 丹麥文

11

Amazon Comprehend 開發人員指南主要語言

Code 語言

de 德文

el Greek

zh 英文

共和國 世界語

et Estonian

歐盟 巴斯克語

fa 波斯文

fi 芬蘭文

fr French

GD 苏格兰盖尔语

GA 愛爾蘭人

gl 加利西亞語

顾 古吉拉特

ht 海地人

he Hebrew

ha 豪沙文

hi 北印度文

hr 克羅埃西亞文

hu 匈牙利文

HY 亞美尼亞人

伊洛 伊洛克

id 印尼文

是 冰島文

it 義大利文

合資 爪哇語

ja 日文

kn 坎那達

ka 喬治亞文

kk 哈薩克人

公里 中央高棉

肯塔基州 吉尔吉斯

12

Amazon Comprehend 開發人員指南主要語言

Code 語言

ko 韓文

ku 庫爾德人

lo 寮國

la 拉丁語

lv 拉脫維亞文

LT 立陶宛

磅 卢森堡语

毫升 马拉雅拉姆语

山 馬爾濟斯

先生 马拉地语

MK 馬其頓語

mg 馬達加斯加的

錳 Mongolian

ms 馬來文

我的 緬甸語

NE 尼泊爾人

全新 紐瓦里

nl 荷蘭文

否 挪威文

或 奧里亞

OM 奧羅莫

pa 旁遮普

pl Polish

pt 葡萄牙文

ps 普什托

瞿 克丘亞

ro 羅馬尼亞文

ru 俄文

sa 梵文

si 僧伽羅語

sk 斯洛伐克文

13

Amazon Comprehend 開發人員指南主要語言

Code 語言

sl 斯洛維尼亞文

sd 信德

so 索馬利亞文

es 西班牙文

sq 阿爾巴尼亞文

sr 塞爾維亞文

蘇 巽他人

sw 史瓦西里文

sv 瑞典文

ta 坦米爾文

tt 鞑靼语

TE 泰盧固

TG 塔吉克人的

tl 他加祿文

th Thai

tk 土庫曼

tr Turkish

UG 维吾尔族

uk 烏克蘭文

ur 烏都文

UZ 烏茲別克

vi Vietnamese

彝 意第緒語

喲 約魯巴

zh 簡體中文

zh-TW 繁體中文

您可以使用下列任何操作來偵測文件或一組文件中的主要語言。

• DetectDominantLanguage (p. 311)• BatchDetectDominantLanguage (p. 235)• StartDominantLanguageDetectionJob (p. 382)

14

Amazon Comprehend 開發人員指南情緒

所以此DetectDominantLanguage操作會傳回DominantLanguage (p. 473)物件。所以此BatchDetectDominantLanguage操作會傳回清單DominantLanguage物件,批次中的每個文件都有一個物件。所以此StartDominantLanguageDetectionJob操作啟動一個異步作業,該作業生成一個包含列表的文件DominantLanguage物件,一個用於工作中的每個文件。

以下是來自的回應範例DetectDominantLanguageoperation.

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9793661236763 } ]}

情緒使用 Amazon Comprehend 來判斷文件的情緒。例如,您可以使用情緒分析來判斷部落格貼文上留言的情緒,以判斷您的讀者是否喜歡該貼文。

您可以使用 Amazon Comprehend 支援的任何主要語言來判斷文件的情緒。一個任務中的所有文件都必須使用相同語言。

情緒判定會傳回下列值:

• 正數— 文本表達了整體的積極情緒。• 負數— 文字表示整體的負面情緒。• 混合— 文本表達了積極和消極的情緒。• Neutral— 文本不表達積極或消極的情緒。

您可以使用下列任何 API 作業來偵測文件或一組文件的情緒。

• DetectSentiment (p. 322) />• BatchDetectSentiment (p. 243)• StartSentimentDetectionJob (p. 404)

這些操作會傳回文字最有可能的情緒,以及每個情緒的分數。分數代表正確偵測到的情緒的可能性。例如,在下面的示例中,文本具有 95% 的可能性Positive情緒。有一個小於 1% 的可能性,該文本具有Negative情緒。您可以使用SentimentScore以判斷偵測的準確性是否符合應用程式的需求。

所以此DetectSentiment操作會傳回物件,其中包含偵測到的情緒,以及SentimentScore (p. 529)物件。所以此BatchDetectSentiment操作會傳回情緒清單,SentimentScore物件,批次中的每個文件都有一個物件。所以此StartSentimentDetectionJob操作啟動一個異步作業,該作業生成一個包含情緒列表的文件,SentimentScore物件,一個用於工作中的每個文件。

下列範例是來自的回應DetectSentimentoperation.

{"SentimentScore": { "Mixed": 0.030585512690246105, "Positive": 0.94992071056365967, "Neutral": 0.0141543131828308, "Negative": 0.00893945890665054 }, "Sentiment": "POSITIVE", "LanguageCode": "en"

15

Amazon Comprehend 開發人員指南目標情緒

}

目標情緒目標情緒提供您在輸入文件中與特定實體 (例如品牌或產品) 相關聯的情緒的詳細瞭解。

目標情緒與之間的差異情緒 (p. 15)是輸出資料中的粒度層級。情緒分析會決定每個輸入文件的主要情緒,但不提供資料以供進一步分析。目標情緒分析會決定每個輸入文件中特定實體的實體層級情緒。您可以分析輸出數據,以確定獲得正面或負面反饋的特定產品和服務。

例如,在一組餐廳評論中,顧客會提供以下評論:「炸玉米餅很美味,工作人員很友好。」 分析此檢閱會產生下列結果:

• 情緒分析決定每個餐廳評論的整體情緒是正面、負面、負面、負面、中性、中性還是混合。在此範例中,整體情緒是正面的。

• 目標情緒分析決定顧客在評論中提及之餐廳實體和屬性的情緒。在這個例子中,客戶對「炸玉米餅」和「員工」做出了積極的評論)。

目標情緒為每個分析工作提供下列輸出:

• 在文件中提到的實體的身份。• 每個實體提及的實體類型分類。• 每個實體提及的情緒分數和情緒分數。• 對應於單一實體的提及群組 (共同參照群組)。

您可以使用安慰 (p. 43)或API (p. 66)執行目標情緒分析。若要執行目標情緒,您必須啟動非同步分析工作;即時分析不適用於目標情緒。

Amazon Comprehend 支援英文文件的目標情緒。

如需目標情緒的相關資訊,包括教學課程,請參閱使用 Amazon 理解目標情緒擷取文字中的精細情緒。

主題• 實體類型 (p. 16)• 共同參考群組 (p. 17)• Output file name 組織 (p. 17)• 目標情緒範例 (p. 19)

實體類型目標情緒可識別下列實體類型。如果實體不屬於任何其他類別,它分配實體類型 Other。輸出檔案中的每個實體提及都包含實體類型,例如"Type": "PERSON"。

實體類型定義

實體類型 定義

人 例子包括個人,人群,暱稱,虛構人物和動物名稱。

LOCATION 地理位置,如國家, 城市, 州, 地址, 地質構造, 水體, 自然地標, 和天文位置.

組織 例子包括政府,公司,體育隊和宗教。

設施 建築物、機場、公路、橋樑和其他永久性人造結構和房地產改善工程。

16

Amazon Comprehend 開發人員指南目標情緒

實體類型 定義

品牌 特定商業項目或產品系列的組織、群組或製造者。

商業項目 任何非通用可購買或可取得的物品,包括車輛,以及只生產一件商品的大型產品。

電影 電影或電視節目。實體可以是全名、暱稱或副標題。

音樂 全部或部分歌曲。此外,個別音樂創作的集合,例如專輯或選集。

書 一本書,專業出版或自行出版。

軟體 正式發行的軟體產品。

遊戲 遊戲,例如視頻遊戲,棋盤遊戲,常見遊戲或運動。

個人標題 官方頭銜和榮譽,例如總統,博士或博士。

EVENT 例子包括節日,音樂會,選舉,戰爭,會議和促銷活動。

DATE 對日期或時間的任何引用,無論是特定的還是一般的,無論是絕對還是相對的。

數量 所有測量及其單位(貨幣,百分比,數字,字節等)。

ATTRIBUTE 實體的屬性,特徵或特徵,例如產品的「質量」,電話的「價格」或 CPU 的「速度」。

OTHER 不屬於任何其他類別的實體。

共同參考群組目標情緒可識別每個輸入文件中的共同參照群組。共同參照群組是文件中對應於一個真實實體的提及群組。

Example

在下列客戶檢閱範例中,「spa」是具有實體類型的實體FACILITY。該實體還有另外兩個提及作為代詞(「it」)。

I enjoyed visiting the spa. It was very comfortable. But it was also expensive.

Output file name 組織目標情緒分析工作會建立 JSON 文字輸出檔案。該文件包含每個輸入文檔的一個 JSON 對象。每個 JSON物件都包含下列欄位:

• 實體— 在文件中找到的實體陣列。• File (檔案)— 輸入文件的檔案名稱。• 行— 如果輸入檔案是每行一個文件,實體包含檔案中文件的行號。

下列範例顯示實體用於具有三行輸入的輸入文件。輸入格式是一個 _ 文檔在線,所以每一行輸入都是一個文檔。

{ "Entities":[ {entityA}, {entityB}, {entityC} ],

17

Amazon Comprehend 開發人員指南目標情緒

"File": "TargetSentimentInputDocs.txt", "Line": 0}{ "Entities": [ {entityD}, {entityE} ], "File": "TargetSentimentInputDocs.txt", "Line": 1}{ "Entities": [ {entityF}, {entityG} ], "File": "TargetSentimentInputDocs.txt", "Line": 2}

中的實體實體array 包括在文件中偵測到的實體提及的邏輯群組 (稱為共同參照群組)。每個實體具有以下整體結構:

{"DescriptiveMentionIndex": [0], "Mentions": [ {mentionD}, {mentionE} ]}

實體包含下列欄位:

• Mentions— 文件中實體的提及陣列。陣列代表共同參照群組。如需範例,請參閱the section called “共同參考群組” (p. 17)。「提及」陣列中提及的順序就是它們在文件中的位置 (偏移) 順序。每個提及都包含該提及的情緒分數和群組分數。群組分數表示這些提及屬於相同實體的信賴等級。

• DescriptiveMentionIndex—「提及」陣列中的一或多個索引,可為實體群組提供最佳名稱。例如,一個實體可以有三個提及Text (文字)價值為「ABC 酒店」,「ABC 酒店」和「它」。最好的名字是「ABC 酒店」,它有 DescriptiveMentionIndex [0,1] 的值。

每個提及都包含下列欄位

• BeginOffset— 文件文字中提及開始處的偏移量。• EndOffset— 文件文字中提及結束處的偏移量。• GroupScore— 該組中提到的所有實體與相同實體相關的信心。• Text (文字)— 文件中識別實體的文字。• 類型— 實體類型。Amazon Comprehend 支持多種實體類型 (p. 16)。• 分數— 模型信心,該實體是相關的。值範圍是零到一,其中一個是最高可信度。• MentionSentiment— 包含提及的情緒和情緒分數。• 情緒— 情緒的情緒。數值包含:正面,中性,消極和混合。• SentimentScore— 為每個可能的情緒提供模型信心。值範圍是零到一,其中一個是最高可信度。

所以此情緒值有下列意義:

• 正數— 實體提及表達了積極的情緒。• 負值— 實體提及表示負面情緒。• 混合— 實體提及表達了積極和消極的情緒。• Neutral— 實體提及不表達正面或負面的情緒。

18

Amazon Comprehend 開發人員指南目標情緒

在下列範例中,實體在輸入文件中只有一個提及,因此 DescriptiveMentionIndex為零 (提及陣列中的第一個提及)。識別的實體是名稱為「I」的個人。 情緒分數是中立的。

{"Entities":[ { "DescriptiveMentionIndex": [0], "Mentions": [ { "BeginOffset": 0, "EndOffset": 1, "Score": 0.999997, "GroupScore": 1, "Text": "I", "Type": "PERSON", "MentionSentiment": { "Sentiment": "NEUTRAL", "SentimentScore": { "Mixed": 0, "Negative": 0, "Neutral": 1, "Positive": 0 } } } ] } ], "File": "Input.txt", "Line": 0}

目標情緒範例下列範例顯示來自目標情緒分析工作的輸出檔案。輸入文件由三個簡單的文檔組成:

The burger was very flavorful and the burger bun was excellent. However, customer service was slow.My burger was good, and it was warm. The burger had plenty of toppings.The burger was cooked perfectly but it was cold. The service was OK.

來自此輸入文件分析的輸出文件

{"Entities":[ { "DescriptiveMentionIndex": [ 0 ], "Mentions": [ { "BeginOffset": 4, "EndOffset": 10, "Score": 0.999991, "GroupScore": 1, "Text": "burger", "Type": "OTHER", "MentionSentiment": { "Sentiment": "POSITIVE", "SentimentScore": { "Mixed": 0, "Negative": 0, "Neutral": 0, "Positive": 1

19

Amazon Comprehend 開發人員指南目標情緒

} } } ] }, { "DescriptiveMentionIndex": [ 0 ], "Mentions": [ { "BeginOffset": 38, "EndOffset": 44, "Score": 1, "GroupScore": 1, "Text": "burger", "Type": "OTHER", "MentionSentiment": { "Sentiment": "NEUTRAL", "SentimentScore": { "Mixed": 0.000005, "Negative": 0.000005, "Neutral": 0.999591, "Positive": 0.000398 } } } ] }, { "DescriptiveMentionIndex": [ 0 ], "Mentions": [ { "BeginOffset": 45, "EndOffset": 48, "Score": 0.961575, "GroupScore": 1, "Text": "bun", "Type": "OTHER", "MentionSentiment": { "Sentiment": "POSITIVE", "SentimentScore": { "Mixed": 0.000327, "Negative": 0.000286, "Neutral": 0.050269, "Positive": 0.949118 } } } ] }, { "DescriptiveMentionIndex": [ 0 ], "Mentions": [ { "BeginOffset": 73, "EndOffset": 89, "Score": 0.999988, "GroupScore": 1, "Text": "customer service", "Type": "ATTRIBUTE", "MentionSentiment": {

20

Amazon Comprehend 開發人員指南目標情緒

"Sentiment": "NEGATIVE", "SentimentScore": { "Mixed": 0.000001, "Negative": 0.999976, "Neutral": 0.000017, "Positive": 0.000006 } } } ] } ], "File": "TargetSentimentInputDocs.txt", "Line": 0}{ "Entities": [ { "DescriptiveMentionIndex": [ 0 ], "Mentions": [ { "BeginOffset": 0, "EndOffset": 2, "Score": 0.99995, "GroupScore": 1, "Text": "My", "Type": "PERSON", "MentionSentiment": { "Sentiment": "NEUTRAL", "SentimentScore": { "Mixed": 0, "Negative": 0, "Neutral": 1, "Positive": 0 } } } ] }, { "DescriptiveMentionIndex": [ 0, 2 ], "Mentions": [ { "BeginOffset": 3, "EndOffset": 9, "Score": 0.999999, "GroupScore": 1, "Text": "burger", "Type": "OTHER", "MentionSentiment": { "Sentiment": "POSITIVE", "SentimentScore": { "Mixed": 0.000002, "Negative": 0.000001, "Neutral": 0.000003, "Positive": 0.999994 } } }, { "BeginOffset": 24,

21

Amazon Comprehend 開發人員指南目標情緒

"EndOffset": 26, "Score": 0.999756, "GroupScore": 0.999314, "Text": "it", "Type": "OTHER", "MentionSentiment": { "Sentiment": "POSITIVE", "SentimentScore": { "Mixed": 0, "Negative": 0.000003, "Neutral": 0.000006, "Positive": 0.999991 } } }, { "BeginOffset": 41, "EndOffset": 47, "Score": 1, "GroupScore": 0.531342, "Text": "burger", "Type": "OTHER", "MentionSentiment": { "Sentiment": "POSITIVE", "SentimentScore": { "Mixed": 0.000215, "Negative": 0.000094, "Neutral": 0.00008, "Positive": 0.999611 } } } ] }, { "DescriptiveMentionIndex": [ 0 ], "Mentions": [ { "BeginOffset": 52, "EndOffset": 58, "Score": 0.965462, "GroupScore": 1, "Text": "plenty", "Type": "QUANTITY", "MentionSentiment": { "Sentiment": "NEUTRAL", "SentimentScore": { "Mixed": 0, "Negative": 0, "Neutral": 1, "Positive": 0 } } } ] }, { "DescriptiveMentionIndex": [ 0 ], "Mentions": [ { "BeginOffset": 62, "EndOffset": 70,

22

Amazon Comprehend 開發人員指南目標情緒

"Score": 0.998353, "GroupScore": 1, "Text": "toppings", "Type": "OTHER", "MentionSentiment": { "Sentiment": "NEUTRAL", "SentimentScore": { "Mixed": 0, "Negative": 0, "Neutral": 0.999964, "Positive": 0.000036 } } } ] } ], "File": "TargetSentimentInputDocs.txt", "Line": 1}{ "Entities": [ { "DescriptiveMentionIndex": [ 0 ], "Mentions": [ { "BeginOffset": 4, "EndOffset": 10, "Score": 1, "GroupScore": 1, "Text": "burger", "Type": "OTHER", "MentionSentiment": { "Sentiment": "POSITIVE", "SentimentScore": { "Mixed": 0.001515, "Negative": 0.000822, "Neutral": 0.000243, "Positive": 0.99742 } } }, { "BeginOffset": 36, "EndOffset": 38, "Score": 0.999843, "GroupScore": 0.999661, "Text": "it", "Type": "OTHER", "MentionSentiment": { "Sentiment": "NEGATIVE", "SentimentScore": { "Mixed": 0, "Negative": 0.999996, "Neutral": 0.000004, "Positive": 0 } } } ] }, { "DescriptiveMentionIndex": [ 0

23

Amazon Comprehend 開發人員指南語法分析

], "Mentions": [ { "BeginOffset": 53, "EndOffset": 60, "Score": 1, "GroupScore": 1, "Text": "service", "Type": "ATTRIBUTE", "MentionSentiment": { "Sentiment": "NEUTRAL", "SentimentScore": { "Mixed": 0.000033, "Negative": 0.000089, "Neutral": 0.993325, "Positive": 0.006553 } } } ] } ], "File": "TargetSentimentInputDocs.txt", "Line": 2} }

語法分析使用語法分析來剖析文件中的單字,並針對文件中的每個單字傳回語音或語法函數的一部分。您可以識別文檔中的名詞,動詞,形容詞等。使用此資訊可以更深入地瞭解文件內容,並瞭解文件中字詞的關係。

例如,您可以在文件中尋找名詞,然後尋找與這些名詞相關的動詞。在「我祖母移動了沙發」之類的句子中,您可以看到名詞,「祖母」和「沙發」以及動詞「移動」。您可以使用此資訊來建置應用程式,以分析您感興趣的文字組合的文字。

為了開始分析,Amazon Comprehend 會剖析來源文字,以尋找文字中的個別單字。剖析文字之後,會為每個單字指派來源文字中的語音部分。

Amazon Comprehend 可以識別語音的以下部分。

權杖 部分語音

調整 形容詞

通常會修改名詞的字詞。

ADP 沉積

序詞或後置片語的頭部。

冒險 副詞

通常修改動詞的單詞。他們也可以修改形容詞和其他副詞。

AUX 輔助

伴隨動詞短語動詞的功能詞。

CCONJ 協調結合

24

Amazon Comprehend 開發人員指南語法分析

權杖 部分語音協調連詞會將句子中的單字、片語或子句連接起來,而不會將其中一個與另一個從屬。

連詞 連接詞

連詞會連接句子中的單字、片語或子句。

DET 判斷詞

指定特定名詞短語的文章和其他單詞。

INTJ 感言詞

用作感嘆號或感嘆號的一部分的單詞。

名詞 名詞

指定人物、地點、事物、動物或想法的字詞。

NUM 數值

表示數字的單詞,通常是決定詞,形容詞或代詞。

O 其他

無法指派為語音類別一部分的單字。

PART 助詞

與另一個單詞或短語相關聯的功能詞來賦予意義。

普朗 代詞

替代名詞或名詞短語的單詞。

PROPN 名詞

一個名詞,是一個特定的個人,地點或對象的名字。

關鍵的 标点符号

分隔文字的非字母字元。

SCONJ 次級結合

將相依子句連接到句子的結合。下屬連詞的一個例子是「因為」。

25

Amazon Comprehend 開發人員指南Amazon Comprehend

權杖 部分語音

SYM 符號

類似字詞的實體,例如貨幣符號($) 或數學符號。

動詞 動詞

表示事件和動作的單詞。

如需語音部分的詳細資訊,請參閱Universal POS 標籤在Universal 相依性網站。

操作返回標記,用於標識單詞在文本中表示的單詞和語音部分。每個標記代表來源文字中的一個字。它提供單字在來源中的位置、單字在文字中使用的語音部分、Amazon Comprehend 確定語音部分已正確識別的信心,以及從來源文字剖析的單字。

以下是語法令牌列表的結構。針對文件中的每個字詞,產生一個語法 Token。

{ "SyntaxTokens": [ { "BeginOffset": number, "EndOffset": number, "PartOfSpeech": { "Score": number, "Tag": "string" }, "Text": "string", "TokenId": number } ]}

每個 Token 提供下列資訊:

• BeginOffset和EndOffset提供單字在輸入文字中的位置。• PartOfSpeech提供兩項資訊,Tag識別語音部分Score這代表 Amazon Comprehend 語法對於語音部分

已正確識別的信心。• Text提供已識別的字詞。• TokenId提供權杖的識別碼。標識符是令牌在令牌列表中的位置。

Amazon Comprehend您可以根據自己的特定需求自訂 Amazon Comprehend,而不必具備建置機器學習型 NLP 解決方案所需的技能組合。Comprehend 自訂使用自動機器學習或 AutoML,使用您提供的訓練資料代表您建立自訂的 NLP 模型。

自訂分類— 建立自訂分類模型 (分類器),將文件組織成您自己的類別。針對每個分類標籤,提供一組最能代表該標籤的文件,並在其上訓練您的分類器。訓練完成後,可以在任意數量的未標籤文件集上使用分類器。您可以使用主控台享受無程式碼的體驗,或安裝最新的 AWS 開發套件。如需詳細資訊,請參閱 自訂分類 (p. 92)。

自訂實體辨識— 創建自定義實體識別模型(識別器),該模型可以分析特定術語和基於名詞的短語的文本。您可以訓練辨識者擷取諸如政策編號之類的詞彙,或暗示客戶升級的詞組。若要訓練模型,您需要提供實體

26

Amazon Comprehend 開發人員指南主題建模

清單以及包含這些實體的一組文件。模型訓練完畢後,您可以針對該模型提交分析工作,以擷取其自訂實體。如需詳細資訊,請參閱自訂實體辨識 (p. 115)。

主題建模您可以使用 Amazon Comprehend 來檢查文件集合的內容,以判斷常見的主題。例如,您可以為 AmazonComprehend 提供新聞文章的集合,它將確定主題,例如體育,政治或娛樂。文件中的文字不需要加上註解。

Amazon Comprehend 使用潛在的狄利克雷分配基於學習模型,可判斷一組文件中的主題。它檢查每個文檔以確定單詞的上下文和含義。在整個文件設定中,經常屬於相同前後關聯的字組成了一個主題。

根據該主題在文件中的普遍程度,以及主題與單字的親和程度,單字與文件中的主題相關聯。根據特定文檔中的主題分佈,同一個單詞可以與不同文檔中的不同主題相關聯。

例如,主要談論運動的文章中的「葡萄糖」一詞可以指定給「運動」主題,而有關「醫學」的文章中的相同單詞將被指定給「醫學」主題。

與主題相關聯的每個字都會有一個權重,指出該字詞有多少幫助定義主題。寬度是指出單字在整個文件集中出現在主題中與主題中其他字詞相比的次數。

為了獲得最準確的結果,您應該向 Amazon Comprehend 提供可以使用的最大可能語料庫。為了獲得最佳結果:

• 您應該在每個主題建模工作中使用至少 1,000 個文件。• 每個文件應至少有 3 個句子長。• 如果一個文檔主要由數字數據組成,你應該從語料庫中刪除它。

主題建模是一種非同步的程序。您可以使用 Amazon Comprehend S3 儲存貯體提交文件清單至Amazon S3 儲存貯體使用StartTopicsDetectionJob (p. 414)operation. 此方法會傳送至 AmazonS3 儲存貯體。您可以配置輸入和輸出存儲桶。取得已使用ListTopicsDetectionJobs (p. 371)使用DescribeTopicsDetectionJob (p. 309)operation. 傳遞至 Amazon S3 儲存貯體的內容可能包含客戶內容。如需移除敏感資料的詳細資訊,請參閱如何清空 S3 儲存貯體?或如何刪除 S3 儲存貯體?。

文件必須是屬於 UTF-8 格式的文字檔案必須為格式 您可以通過兩種方式提交文件。下表顯示選項。

格式 描述

每個檔案一個文件 每個檔案都包含一個輸入文件。這是最適合大型文檔的集合。

每行一個文件 輸入為單一檔案。檔案中的每一行都會視為文件。這最適合短文件,例如社交媒體張貼。

每行必須以換行符 (LF,\ n)、回車符 (CR,\ r) 或兩者結尾 (CRLF,\ r\ n)。無法使用 Unicode 行分隔符號(u+2028) 來結束一行。

如需詳細資訊,請參閱 。InputDataConfig (p. 509)資料類型。

Amazon Comprehend 處理您的文件收集之後,會傳回一個包含兩個檔案的壓縮存檔,topic-terms.csv和doc-topics.csv。如需詳細資訊,請參閱。OutputDataConfig (p. 515)。

第一個輸出文件,topic-terms.csv,是集合中主題的清單。對於每個主題,根據預設,清單會根據主題的重量包含最上層的術語。例如,如果您為 Amazon Comprehend 提供一系列報紙文章,它可能會傳回下列內容來描述集合中的前兩個主題:

27

Amazon Comprehend 開發人員指南主題建模

主題 術語 Weight

000 球隊 0.118533

000 game 0.106072

000 player 0.031625

000 季節 0.023633

000 玩耍 0.021118

000 碼 0.024454

000 教練 0.016012

000 遊戲 0.016191

000 足球 0.015049

000 組織指揮人 0.014239

001 杯 0.205236

001 食品 0.040686

001 分鐘 0.036062

001 add 0.029697

001 湯匙 0.028789

001 石油 0.021254

001 胡椒 0.022205

001 茶匙 0.020040

001 酒 0.016588

001 糖 0.015101

此方法會根據特定主題中所出現字詞詞句號碼的概率分佈。由於 Amazon Comprehend 只返回每個主題的前10 個單詞的權重不會總和為 1.0。在少數情況下,主題中少於 10 個單詞,權重將總和為 1.0。

這些單詞通過查看所有主題中的出現情況按其歧視力進行排序。通常,這與它們的重量相同,但在某些情況下,例如表中的單詞「玩」和「碼」,這會導致與重量不相同的順序。

您可以指定要傳回的主題數。例如,如果您要求 Amazon Comprehend 返回 25 個主題,它會返回集合中 25個最突出的主題。Amazon Comprehend 多可以檢測到一個集合中 100 個主題。根據您對域的了解選擇主題的數量。可能需要一些實驗才能到達正確的號碼。

第二個檔案,doc-topics.csv,列出與主題相關聯的文件,以及與該主題相關的文件比例。如果您指定ONE_DOC_PER_FILE文件由檔案名稱識別。如果您指定ONE_DOC_PER_LINE該文檔由文件名和文件中的0 索引行號標識。例如,針對以每個檔案一份文件提交的文件集合,Amazon Comprehend 可能會傳回以下內容:

文件 主題 比例

示例文檔 1 000 0.999330137

28

Amazon Comprehend 開發人員指南文件處理模型

文件 主題 比例

示例文檔 2 000 0.998532187

示例文檔 3 000 0.998384574

...    

。範例文件 000 3.57E-04

Amazon Comprehend 利用從信息通過 MBM 語法化列出數據集,這是提供這裡在下方開放資料庫授權(ODBL) v1.0。

文件處理模型Amazon Comprehend 支持三種文檔處理模式。您選擇的模式取決於您需要處理的文件數量以及您需要如何立即查看結果:

• 單一文件同步— 您可以使用單一文件呼叫 Amazon Comprehend,並收到同步回應,並立即傳送至您的應用程式 (或主控台)。

• 多文檔同步— 您可以使用最多 25 份文件的集合呼叫 Amazon Comprehend API,並收到同步回應。• 非同步批次— 對於大量文件集合,請將文件放入 Amazon S3 儲存貯體,然後啟動非同步任務 (使用主控台

或 API 操作) 以分析文件。Amazon Comprehend 會將分析結果存放在您在請求中指定的 S3 儲存貯體/資料夾中。

主題• 單一文件處理 (p. 29)• 多文檔同步處理 (p. 29)• 非同步批次處理 (p. 31)

單一文件處理單一文件作業是將文件分析結果直接傳回至您的應用程式的同步作業。當您建立一次處理一個文件的互動式應用程式時,請使用單一文件同步作業。

如需同步 API 操作的詳細資訊,請參閱。使用內建模型進行即時分析 (p. 37)(用於控制台)和使用 API進行即時分析 (p. 45)。

多文檔同步處理當您有多個要處理的文件時,可以使用Batch*API 操作可一次將多個文檔發送到 Amazon Comprehend。您最多可以在每個請求中傳送 25 份文件。Amazon Comprehend 會傳回一份回應清單,請求中的每個文件各一份。透過這些操作所提出的要求為同步。您的應用程式會呼叫作業,然後等待來自服務的回應。

使用Batch*操作與調用請求中的每個文檔的單個文檔 API 相同。使用這些 API 可以為您的應用程式帶來更好的效能。

每個 API 的輸入都是 JSON 結構,其中包含要處理的文件。對於除以外的所有操作BatchDetectDominantLanguage,您必須設定輸入語言。您只能針對每個請求設定一種輸入語言。例如,以下是輸入到BatchDetectEntitiesoperation. 它包含兩個文件,是英文的。

{

29

Amazon Comprehend 開發人員指南多文檔同步處理

"LanguageCode": "en", "TextList": [ "I have been living in Seattle for almost 4 years", "It is raining today in Seattle" ]}

來自的回應Batch*作業包含兩個清單,ResultList與ErrorList。所以此ResultList針對每個已成功處理的文件,包含一筆記錄。要求中每個文件的結果與您在文件上執行單一文件作業時所得到的結果相同。系統會根據輸入檔案中文件的順序,為每個文件的結果指派索引。來自的回應BatchDetectEntities操作為:

{ "ResultList" : [ { "Index": 0, "Entities": [ { "Text": "Seattle", "Score": 0.95, "Type": "LOCATION", "BeginOffset": 22, "EndOffset": 29 }, { "Text": "almost 4 years", "Score": 0.89, "Type": "QUANTITY", "BeginOffset": 34, "EndOffset": 48 } ] }, { "Index": 1, "Entities": [ { "Text": "today", "Score": 0.87, "Type": "DATE", "BeginOffset": 14, "EndOffset": 19 }, { "Text": "Seattle", "Score": 0.96, "Type": "LOCATION", "BeginOffset": 23, "EndOffset": 30 } ] } ], "ErrorList": []}

當請求中發生錯誤時,響應包含ErrorList識別包含錯誤的文件。該文檔由其在輸入列表中的索引來標識。例如,透過以下輸入BatchDetectLanguage操作包含無法處理的文檔:

{ "TextList": [ "hello friend", "$$$$$$",

30

Amazon Comprehend 開發人員指南非同步批次處理

"hola amigo" ] }

來自 Amazon Comprehend 的回應包含一個錯誤清單,用來識別包含錯誤的文件:

{ "ResultList": [ { "Index": 0, "Languages":[ { "LanguageCode":"en", "Score": 0.99 } ] }, { "Index": 2 "Languages":[ { "LanguageCode":"es", "Score": 0.82 } ] } ], "ErrorList": [ { "Index": 1, "ErrorCode": "InternalServerException", "ErrorMessage": "Unexpected Server Error. Please try again." } ]}

如需同步批次 API 操作的詳細資訊,請參閱。即時批次 API (p. 58)。

非同步批次處理若要分析大型文件和大型文件集合,請使用 Amazon Comprehend 非同步操作。

若要分析文件集合,您通常可以執行下列步驟:

1. 將文件存放在 Amazon S3 儲存貯體中。2. 啟動一或多個分析工作以分析文件。3. 監控分析工作的進度。4. 任務完成時,從 S3 儲存貯體擷取分析結果。

如需使用非同步 API 操作的詳細資訊,請參閱。使用主控台執行分析任務 (p. 43)(主控台) 和使用 API 的非同步分析任務 (p. 62)。

31

Amazon Comprehend 開發人員指南支援的語言

Amazon Comprehend 中支援的語言Amazon Comprehend 支援多種語言,支援多種語言,支援多種語言。支援的語言以及支援這些語言的功能可以在下表中看到。

主題• 支援的語言 (p. 32)• Amazon Comprehend 功能支援的語言 (p. 32)

支援的語言Amazon Comprehend(除了檢測主導語言功能) 支援下列語言的一個或多個功能。

Code 語言

de 德文

zh 英文

es 西班牙文

it 義大利文

pt 葡萄牙文

fr French

ja 日文

ko 韓文

hi 北印度文

ar Arabic

zh 簡體中文

zh-TW 繁體中文

Note

Amazon Comprehend 使用來自 RFC 5646 的識別碼來識別語言 — 如果有兩個字母的 ISO 639-1識別碼,並在必要時具有區域子標籤,則會使用該識別碼。否則,它會使用 ISO 639-2 3 個字母的代碼。如需 RFC 5646 的詳細資訊,請參閱IETF 工具網站。

Amazon Comprehend 功能支援的語言功能 支援的語言

主要語言 (p. 11) 請參閱主要語言 (p. 11)。

32

Amazon Comprehend 開發人員指南Amazon Comprehend 功能支援的語言

功能 支援的語言

實體 (p. 4) 所有支援的語言。

關鍵短語 (p. 10) 所有支援的語言。

偵測 PII 實體體 (p. 76) 英文。

標示 PII 實體 (p. 80) 英文。

情緒 (p. 15) 所有支援的語言。

目標情緒 (p. 16) 英文。

語法分析 (p. 24) 德文 (de)、英文 (en)、西班牙文 (es)、法文 (fr)、義大利文 (it) 和葡萄牙文 (pt)。

主題建模 (p. 27) 不依賴於使用的語言。不支援中文、日文和韓文等字元語言。

自訂分類 (p. 92) 德文 (de)、英文 (en)、西班牙文 (es)、法文 (fr)、義大利文 (it) 和葡萄牙文 (pt)。

自訂實體辨識 (p. 115) 德文 (de)、英文 (en)、西班牙文 (es)、法文 (fr)、義大利文 (it) 和葡萄牙文 (pt)。

PDF 和 Word 的自訂實體辨識僅支援英文文件。

33

Amazon Comprehend 開發人員指南註冊 AWS

設定初次使用 Amazon Comprehend 之前,請先完成下列作業:

設定任務• 註冊 AWS (p. 34)• 建立 IAM 使用者 (p. 34)• 設定AWS Command Line Interface(AWS CLI) (p. 35)

註冊 AWS註冊 Amazon Web Services prehend 的所有 AWS 服務,包括 Amazon Comprehend。您只需針對所使用的服務付費。

使用 Amazon Comprehend 時,您僅需按使用的資源量付費。如果您是 AWS 新客戶,可免費開始使用Amazon Comprehend。如需詳細資訊,請參閱「」AWS 免費用量方案。

若您已經擁有 AWS 帳戶,請跳至下一節。

建立 AWS 帳戶

1. 開啟 https://portal.aws.amazon.com/billing/signup。2. 請遵循線上指示進行。

部分註冊程序需接收來電,並在電話鍵盤輸入驗證碼。

記錄您的 AWS 帳戶 ID,因為您需要它進行下一個任務。

建立 IAM 使用者AWS 服務,例如 Amazon Comprehend,會在您進行存取時,要求您提供登入資料。這可讓服務判斷您是否擁有存取該服務資源的許可。

強烈建議您使用 AWS 存取 AWSAWS Identity and Access Management(IAM),而非您 AWS 帳戶的登入資料。若要使用 IAM 來存取 AWS,請建立 IAM 使用者、將使用者新增至擁有管理許可的 IAM 群組,然後將管理許可授予 IAM 使用者。然後您就可以使用特殊 URL 與 IAM 使用者的登入資料來存取 AWS。

本指南中的入門練習假設您有一個具備管理員權限的使用者 adminuser。

建立管理員使用者並登入主控台

1. 在您的 AWS 帳戶中建立一個名為 adminuser 的管理員使用者。如需說明,請參閱「」建立您的第一個 IAM 使用者和管理員群組中的IAM User Guide。

2. 使用特殊 URL 登入 AWS Management Console。如需詳細資訊,請參閱「」使用者如何登入您的帳戶中的IAM User Guide。

如需 IAM 的詳細資訊,請參閱下列各項:

34

Amazon Comprehend 開發人員指南設定 AWS CLI

• AWS Identity and Access Management (IAM)• 入門• IAM 使用者指南

設定AWS Command Line Interface(AWS CLI)您不需要 AWS CLI 執行入門練習中的步驟。不過,本指南中的一些其他練習則需要它。如果您願意,可略過此步驟,然後移至Amazon Comprehend 入門 (p. 36),然後設定AWS CLI後來。

設定 AWS CLI

1. 下載和設定 AWS CLI。如需說明,請參閱《AWS Command Line Interface 使用者指南》中的下列主題:

• 設定 AWS Command Line Interface• 設定 AWS Command Line Interface

2. 在 中AWS CLI組態檔,為管理員使用者新命名設定檔:。

[profile adminuser]aws_access_key_id = adminuser access key IDaws_secret_access_key = adminuser secret access keyregion = aws-region

當您執行 AWS CLI 命令時,使用此設定檔。如需具名描述檔的詳細資訊,請參閱《AWS CommandLine Interface 使用者指南》中的具名描述檔。的清單AWS區域,請參閱區域與端點中的Amazon WebServices 一般參考。

3. 在命令提示字元中輸入以下說明命令以驗證設定:

aws help

35

Amazon Comprehend 開發人員指南

Amazon Comprehend 入門以下練習使用 Amazon Comprehend 主控台建立和執行非同步實體偵測任務。

建立實體偵測任務

1. 登入AWS Management Console開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇分析任務,接著選擇建立任務。3. UNUNUNderJob 設定,為工作命名。在區域和帳戶中,名稱必須是唯一的。4. 適用於分析型態,選擇實體。5. UNUNUNder輸入資料,為資料來源,選擇範例文件:。主控台會將 S3 位置設定為包含公用範例的資料

夾。6. 在 中選擇 IAM 角色區段中,選取建立新的 IAM 角色。主控台會建立具有適當許可的新 IAM 角色,讓

Amazon Comprehend 存取輸入和輸出值區。7. 當您完成填寫表單時,請選擇建立任務以建立並啟動主題偵測工作。

新工作會顯示在工作清單中,而狀態欄位顯示工作的狀態。該字段可以是IN_PROGRESS對於正在處理的工作,COMPLETED已成功完成的工作,以及FAILED發生錯誤的任務。

8. 選擇要開啟的工作Job 詳細資訊面板。9. UNUNUNder輸出,中輸出資料位置選擇開啟 Amazon S3 主控台的連結。10. 在 Amazon S3 主控台中,選擇下載並保存output.tar.gzfile.11. 解壓縮檔案並儲存為 Json 檔案。12. 請參閱the section called “實體” (p. 4)以取得實體類型的說明,以及每個偵測到的實體的欄位。

36

Amazon Comprehend 開發人員指南即時分析

使用亞馬遜控制台進行分析您可以使用 Amazon Comprehend 主控台來即時分析文件或執行非同步分析任務。

使用內建模型的即時分析,您可以辨識實體、擷取關鍵片語、偵測主要語言、偵測 PII、判斷情緒,以及分析語法。

您可以使用內建模型執行分析工作,以尋找實體、事件、片語、主要語言、情緒、目標情緒和個人識別資訊(PII) 等見解。您也可以執行主題建模任務。

該控制台還支持使用自定義模型的實時和異步分析。如需詳細資訊,請參閱 自訂分類 (p. 92) 和 自訂實體辨識 (p. 115)。

主題• 使用內建模型進行即時分析 (p. 37)• 使用主控台執行分析任務 (p. 43)

使用內建模型進行即時分析您可以使用 Amazon Comprehend 主控台對 UTF-8 編碼的文字文件執行即時分析。該文件可以是英文,也可以是 Amazon Comprehend 支援的其他語言之一。結果會顯示在主控台中,以便您可以檢閱分析。

若要開始分析文件,請登入AWS Management Console開啟Amazon Comprehend ConprehendConprehend 主控

您可以用自己的文本替換示例文本,然後選擇分析以獲取對您的文本的分析。在分析的文本下面,個結果窗格顯示有關文字的詳細資訊。

使用內建模型執行即時分析

1. 前往登入AWS Management Console開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇即時分析。3. Under輸入類型,選擇內建為了分析類型。4. 輸入您想要分析的文字。5. 選擇分析。控制台顯示文本分析結果深入分析面板。所以此深入分析面板包含每個見解類型的索引標

籤。下列小節說明分析類型的結果。

主題• 實體 (p. 38)• 關鍵短語 (p. 38)• 語言 (p. 39)• 個人身分識別資訊 (PII) (p. 40)• 情緒 (p. 42)• 語法 (p. 43)

37

Amazon Comprehend 開發人員指南實體

實體所以此實體索引標籤會列出每個實體、其類別,以及 Amazon Comprehend 在輸入文字中偵測到的可信度等級。結果會以顏色標示,以指出不同的實體類型,例如組織、地點、日期和人員。如需詳細資訊,請參閱 實體 (p. 4)。

關鍵短語所以此關鍵短語索引標籤會列出 Amazon Comprehend 在輸入文字和相關聯的信賴等級中偵測到的關鍵名詞片語。如需詳細資訊,請參閱 關鍵短語 (p. 10)。

38

Amazon Comprehend 開發人員指南語言

語言所以此語言索引標籤會顯示文字的主要語言,以及 Amazon Comprehend 已正確偵測到主要語言的信心程度。Amazon Comprehend 可以識別 100 種語言。如需詳細資訊,請參閱 主要語言 (p. 11)。

39

Amazon Comprehend 開發人員指南個人身分識別資訊 (PII)

個人身分識別資訊 (PII)所以此PII索引標籤會列出您輸入文字中包含個人身分識別資訊 (PII) 的實體。PII 實體是個人資料的文字參考,可用來識別個人身分,例如地址、銀行帳號或電話號碼。如需詳細資訊,請參閱 偵測 PII 實體體 (p. 76)。

所以此PII標籤提供了兩種分析模式:

• Offset (位移)• 標籤

Offset (位移)所以此Offset (位移)分析模式可識別文字文件中 PII 的位置。如需詳細資訊,請參閱 尋找 PII 實體體 (p. 76)。

40

Amazon Comprehend 開發人員指南個人身分識別資訊 (PII)

標籤所以此標籤分析模式會檢查文字文件中是否存在 PII,並傳回已識別之 PII 實體類型的標籤。如需詳細資訊,請參閱 標示 PII 實體 (p. 80)。

41

Amazon Comprehend 開發人員指南情緒

情緒所以此情緒索引標籤顯示文字的主要情緒。情緒分別為中性、正數、負面或混合情緒。在這種情況下,每個情緒都有一個信心評級,提供 Amazon Comprehend 對該情緒佔主導地位的估計值。如需詳細資訊,請參閱情緒 (p. 15)。即時分析不會提供目標情緒。

42

Amazon Comprehend 開發人員指南語法

語法所以此語法索引標籤會顯示文字中每個元素的劃分,以及其語音部分和相關聯的置信度分數。如需詳細資訊,請參閱 語法分析 (p. 24)。

使用主控台執行分析任務您可以使用 Amazon Comprehend 主控台來建立和管理非同步分析任務。您的任務會分析存放在 AmazonS3 中的文件,以尋找實體,例如事件、片語、主要語言、情緒或個人識別資訊 (PII)。

建立分析工作

1. 登入AWS Management Console並開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇分析任務然後選擇建立任務。

43

Amazon Comprehend 開發人員指南分析任務 (主控台)

3. UNJob 設定,為分析任務設定唯一的名稱。4. 適用於分析類型,選擇其中一位使用者內建分析類型。

如果選擇主要語言、個人識別資訊 (PII), 或主題建模,您可以跳過下一步。5. 取決於分析類型您選擇的主控台會顯示下列其他一或多個其他欄位:

• 語言除了以外,所有內建分析類型都需要主要語言和主題建模。

選擇您的輸入文件的語言。• 目標事件類型是必要的活動分析類型。

選取要在輸入文件中偵測的事件類型。如需支援事件類型的詳細資訊,請參閱。Event types (事件類型) (p. 8)。

• PII 偵測設定是必要的PII分析類型。

選擇輸出模式。如需 PII 偵測設定的詳細資訊,請參閱偵測 PII 實體體 (p. 76)。6. UN輸入資料」下方,指定輸入文件在 Amazon S3 中的位置:

• 若要分析您自己的文件,請選擇我的文件,然後選擇瀏覽 S3,以提供包含檔案的值區或資料夾的路徑。

• 若要分析亞馬遜提供的樣本,請選擇範例文件。在這種情況下,Amazon Comprehend 會使用由以下所管理的儲存貯體AWS,而且您不需要指定位置。

7. (可選)對於輸入格式,為您的輸入檔案指定下列其中一個格式:

• 每個檔案一個文件— 每個檔案包含一個輸入文件。這是最適合大型文檔的集合。• 每行一個文件— 輸入是一或多個檔案。檔案中的每一行都被視為一個文件。這最適合短文件,例如

社交媒體張貼。每行必須以換行符 (LF,\ n)、回車符 (CR,\ r) 或兩者結尾 (CRLF,\ r\ n)。您不能使用UTF-8 行分隔符(u+2028)來結束一行。

8. UN輸出資料,選擇瀏覽 S3。選擇您希望 Amazon Comprehend 寫入分析產生的輸出資料的 AmazonS3 儲存貯體或資料夾。

9. (選擇性) 若要加密工作的輸出結果,請選擇Encryption (加密)。然後,選擇要使用與目前帳戶關聯的KMS 金鑰,還是使用與其他帳戶相關聯的 KMS 金鑰:• 如果您是使用與目前帳戶關聯的金鑰,請選擇金鑰別名或 IDKMS 金鑰 ID ID。• 如果您使用與其他帳戶相關聯的金鑰,請在下方輸入金鑰別名或 ID 的 ARNKMS 金鑰 ID ID。

Note

如需建立和使用 KMS 金鑰和相關加密的詳細資訊,請參閱。金鑰管理服務 (KMS)。10. UN許可存取,請提供 IAM 角色,以便:

• 授予對您的輸入文件的 Amazon S3 位置的讀取權限。• 授予對您的輸出文件的 Amazon S3 位置的存取權限。• 包含信任政策,允許comprehend.amazonaws.com服務主體擔任角色並取得其許可。

如果您還沒有具備這些許可和適當信任政策的 IAM 角色,請選擇建立 IAM創建一個角色。11. 當您完成填寫表單後,選擇建立任務以建立並啟動主題偵測工作。

新工作會顯示在工作清單中,而狀態欄位顯示工作的狀態。該字段可以是IN_PROGRESS對於正在處理的工作,COMPLETED已成功完成的工作,以及FAILED適用於發生錯誤的任務。您可以按一下工作以取得有關該工作的詳細資訊,包括任何錯誤訊息。

任務完成後,Amazon Comprehend 會將分析結果存放在您為該任務指定的輸出 Amazon S3 位置。如需每種洞察力類型之分析結果的描述,請參閱。深入分析 (p. 4)。

44

Amazon Comprehend 開發人員指南即時分析

使用 Amazon Comprehend APIAmazon Comprehend API 支援執行即時 (同步) 分析和操作的操作,以啟動和管理非同步分析任務。

您可以直接使用 Amazon Comprehend API 運算子,或使用 CLI 或其中一個開發套件。本章中的範例使用CLI、Python SDK 和 Java SDK。

執行AWS CLI和 Python 的例子,您必須安裝AWS CLI。如需詳細資訊,請參閱 設定AWS Command LineInterface(AWS CLI) (p. 35)。

若要執行 Java 範例,您必須安裝AWS SDK for Java。如需安裝適用於 Java 的開發套件的詳細資訊,請參閱設定適用於 Java 的 AWS 開發套件。

主題• 使用 API 進行即時分析 (p. 45)• 使用 API 的非同步分析任務 (p. 62)

使用 API 進行即時分析以下範例示範如何使用 Amazon Comprehend API 進行即時分析,AWS CLI、爪哇和蟒蛇。使用這些範例,以了解 Amazon Comprehend 同步操作,以及做為自己應用程式的建置區塊。

主題• 檢測主導語言 (p. 45)• 偵測具名實體 (p. 47)• 偵測關鍵片語 (p. 50)• 決定情緒 (p. 52)• 偵測語法 (p. 54)• 即時批次 API (p. 58)

檢測主導語言若要判斷文字中使用的主要語言,請使用DetectDominantLanguage (p. 311)operation. 若要在批次中偵測最多 25 份文件中的主要語言,請使用BatchDetectDominantLanguage (p. 235)operation. 如需詳細資訊,請參閱 即時批次 API (p. 58)。

主題• 使用AWS Command Line Interface (p. 45)• 使用AWS SDK for Java (p. 46)• 使用AWS SDK for Python (Boto) (p. 46)• 使用AWS SDK for .NET (p. 47)

使用AWS Command Line Interface下列範例示範的是使用DetectDominantLanguage搭配運算AWS CLI。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

45

Amazon Comprehend 開發人員指南檢測主導語言

aws comprehend detect-dominant-language \ --region region \ --text "It is raining today in Seattle."

Amazon Comprehend 回應下列項目:

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9793661236763 } ]}

使用AWS SDK for Java下列範例使用DetectDominantLanguage使用 Java 進行操作。

import com.amazonaws.auth.AWSCredentialsProvider;import com.amazonaws.auth.DefaultAWSCredentialsProviderChain;import com.amazonaws.services.comprehend.AmazonComprehend;import com.amazonaws.services.comprehend.AmazonComprehendClientBuilder;import com.amazonaws.services.comprehend.model.DetectDominantLanguageRequest;import com.amazonaws.services.comprehend.model.DetectDominantLanguageResult;

public class App{ public static void main( String[] args ) {

String text = "It is raining today in Seattle";

// Create credentials using a provider chain. For more information, see // https://docs.aws.amazon.com/sdk-for-java/v1/developer-guide/credentials.html AWSCredentialsProvider awsCreds = DefaultAWSCredentialsProviderChain.getInstance();

AmazonComprehend comprehendClient = AmazonComprehendClientBuilder.standard() .withCredentials(awsCreds) .withRegion("region") .build();

// Call detectDominantLanguage API System.out.println("Calling DetectDominantLanguage"); DetectDominantLanguageRequest detectDominantLanguageRequest = new DetectDominantLanguageRequest().withText(text); DetectDominantLanguageResult detectDominantLanguageResult = comprehendClient.detectDominantLanguage(detectDominantLanguageRequest); detectDominantLanguageResult.getLanguages().forEach(System.out::println); System.out.println("Calling DetectDominantLanguage\n"); System.out.println("Done"); }}

使用AWS SDK for Python (Boto)下列範例示範的是使用DetectDominantLanguage使用 Python 進行操作。

import boto3

46

Amazon Comprehend 開發人員指南偵測具名實體

import json

comprehend = boto3.client(service_name='comprehend', region_name='region')text = "It is raining today in Seattle"

print('Calling DetectDominantLanguage')print(json.dumps(comprehend.detect_dominant_language(Text = text), sort_keys=True, indent=4))print("End of DetectDominantLanguage\n")

使用AWS SDK for .NET本節中的 .NET 範例使用AWS SDK for .NET。您可以使用 AWS Toolkit for Visual Studio 使用 .NET 開發AWS 應用程式。它包含用於部署應用程式和管理服務的有用範本和 AWS Explorer。如需 AWS 的 .NET 開發人員觀點,請參閱適用於 .NET 開發人員的 AWS 指南。

using System;using Amazon.Comprehend;using Amazon.Comprehend.Model;

namespace Comprehend{ class Program { static void Main(string[] args) { String text = "It is raining today in Seattle";

AmazonComprehendClient comprehendClient = new AmazonComprehendClient(Amazon.RegionEndpoint.USWest2);

// Call DetectDominantLanguage API Console.WriteLine("Calling DetectDominantLanguage\n"); DetectDominantLanguageRequest detectDominantLanguageRequest = new DetectDominantLanguageRequest() { Text = text }; DetectDominantLanguageResponse detectDominantLanguageResponse = comprehendClient.DetectDominantLanguage(detectDominantLanguageRequest); foreach (DominantLanguage dl in detectDominantLanguageResponse.Languages) Console.WriteLine("Language Code: {0}, Score: {1}", dl.LanguageCode, dl.Score); Console.WriteLine("Done"); } }}

偵測具名實體若要決定文件中的具名實體,請使用DetectEntities (p. 313)operation. 若要在一個批次中偵測最多25 個文件中的實體,請使用BatchDetectEntities (p. 237)operation. 如需詳細資訊,請參閱 即時批次API (p. 58)。

主題• 使用偵測具名實體AWS Command Line Interface (p. 48)• 使用偵測具名實體AWS SDK for Java (p. 48)• 使用偵測具名實體AWS SDK for Python (Boto) (p. 49)• 使用偵測圖元AWS SDK for .NET (p. 49)

47

Amazon Comprehend 開發人員指南偵測具名實體

使用偵測具名實體AWS Command Line Interface下列範例示範的是使用DetectEntities使用AWS CLI。您必須指定輸入文字的語言。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend detect-entities \ --region region \ --language-code "en" \ --text "It is raining today in Seattle."

Amazon Comprehend 回應下列項目:

{ "Entities": [ { "Text": "today", "Score": 0.97, "Type": "DATE", "BeginOffset": 14, "EndOffset": 19 }, { "Text": "Seattle", "Score": 0.95, "Type": "LOCATION", "BeginOffset": 23, "EndOffset": 30 } ], "LanguageCode": "en"}

使用偵測具名實體AWS SDK for Java下列範例使用DetectEntities使用 Java 進行操作。您必須指定輸入文字的語言。

import com.amazonaws.auth.AWSCredentialsProvider;import com.amazonaws.auth.DefaultAWSCredentialsProviderChain;import com.amazonaws.services.comprehend.AmazonComprehend;import com.amazonaws.services.comprehend.AmazonComprehendClientBuilder;import com.amazonaws.services.comprehend.model.DetectEntitiesRequest;import com.amazonaws.services.comprehend.model.DetectEntitiesResult;

public class App{ public static void main( String[] args ) {

String text = "It is raining today in Seattle";

// Create credentials using a provider chain. For more information, see // https://docs.aws.amazon.com/sdk-for-java/v1/developer-guide/credentials.html AWSCredentialsProvider awsCreds = DefaultAWSCredentialsProviderChain.getInstance();

AmazonComprehend comprehendClient = AmazonComprehendClientBuilder.standard() .withCredentials(awsCreds) .withRegion("region") .build();

48

Amazon Comprehend 開發人員指南偵測具名實體

// Call detectEntities API System.out.println("Calling DetectEntities"); DetectEntitiesRequest detectEntitiesRequest = new DetectEntitiesRequest().withText(text) .withLanguageCode("en"); DetectEntitiesResult detectEntitiesResult = comprehendClient.detectEntities(detectEntitiesRequest); detectEntitiesResult.getEntities().forEach(System.out::println); System.out.println("End of DetectEntities\n"); }}

使用偵測具名實體AWS SDK for Python (Boto)下列範例使用DetectEntities使用 Python 進行操作。您必須指定輸入文字的語言。

import boto3import json

comprehend = boto3.client(service_name='comprehend', region_name='region')text = "It is raining today in Seattle"

print('Calling DetectEntities')print(json.dumps(comprehend.detect_entities(Text=text, LanguageCode='en'), sort_keys=True, indent=4))print('End of DetectEntities\n')

使用偵測圖元AWS SDK for .NET本節中的 .NET 範例使用AWS SDK for .NET。您可以使用 AWS Toolkit for Visual Studio 使用 .NET 開發AWS 應用程式。它包含用於部署應用程式和管理服務的有用範本和 AWS Explorer。如需 AWS 的 .NET 開發人員觀點,請參閱適用於 .NET 開發人員的 AWS 指南。

using System;using Amazon.Comprehend;using Amazon.Comprehend.Model;

namespace Comprehend{ class Program { static void Main(string[] args) { String text = "It is raining today in Seattle";

AmazonComprehendClient comprehendClient = new AmazonComprehendClient(Amazon.RegionEndpoint.USWest2);

// Call DetectEntities API Console.WriteLine("Calling DetectEntities\n"); DetectEntitiesRequest detectEntitiesRequest = new DetectEntitiesRequest() { Text = text, LanguageCode = "en" }; DetectEntitiesResponse detectEntitiesResponse = comprehendClient.DetectEntities(detectEntitiesRequest); foreach (Entity e in detectEntitiesResponse.Entities) Console.WriteLine("Text: {0}, Type: {1}, Score: {2}, BeginOffset: {3}, EndOffset: {4}",

49

Amazon Comprehend 開發人員指南偵測關鍵片語

e.Text, e.Type, e.Score, e.BeginOffset, e.EndOffset); Console.WriteLine("Done"); } }}

偵測關鍵片語若要判斷文字中使用的關鍵名詞片語,請使用DetectKeyPhrases (p. 317)operation. 若要在一個批次中偵測多達 25 個文件中的關鍵名詞片語,請使用BatchDetectKeyPhrases (p. 240)operation. 如需詳細資訊,請參閱 即時批次 API (p. 58)。

主題• 使用偵測關鍵片語AWS Command Line Interface (p. 50)• 使用偵測關鍵片語AWS SDK for Java (p. 50)• 使用偵測關鍵片語AWS SDK for Python (Boto) (p. 51)• 使用偵測關鍵片語AWS SDK for .NET (p. 51)

使用偵測關鍵片語AWS Command Line Interface下列範例示範的是使用DetectKeyPhrases搭配運算AWS CLI。您必須指定輸入文字的語言。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend detect-key-phrases \ --region region \ --language-code "en" \ --text "It is raining today in Seattle."

Amazon Comprehend 回應下列項目:

{ "LanguageCode": "en", "KeyPhrases": [ { "Text": "today", "Score": 0.89, "BeginOffset": 14, "EndOffset": 19 }, { "Text": "Seattle", "Score": 0.91, "BeginOffset": 23, "EndOffset": 30 } ]}

使用偵測關鍵片語AWS SDK for Java下列範例使用DetectKeyPhrases使用 Java 進行操作。您必須指定輸入文字的語言。

import com.amazonaws.auth.AWSCredentialsProvider;

50

Amazon Comprehend 開發人員指南偵測關鍵片語

import com.amazonaws.auth.DefaultAWSCredentialsProviderChain;import com.amazonaws.services.comprehend.AmazonComprehend;import com.amazonaws.services.comprehend.AmazonComprehendClientBuilder;import com.amazonaws.services.comprehend.model.DetectKeyPhrasesRequest;import com.amazonaws.services.comprehend.model.DetectKeyPhrasesResult;

public class App{ public static void main( String[] args ) {

String text = "It is raining today in Seattle";

// Create credentials using a provider chain. For more information, see // https://docs.aws.amazon.com/sdk-for-java/v1/developer-guide/credentials.html AWSCredentialsProvider awsCreds = DefaultAWSCredentialsProviderChain.getInstance();

AmazonComprehend comprehendClient = AmazonComprehendClientBuilder.standard() .withCredentials(awsCreds) .withRegion("region") .build();

// Call detectKeyPhrases API System.out.println("Calling DetectKeyPhrases"); DetectKeyPhrasesRequest detectKeyPhrasesRequest = new DetectKeyPhrasesRequest().withText(text) .withLanguageCode("en"); DetectKeyPhrasesResult detectKeyPhrasesResult = comprehendClient.detectKeyPhrases(detectKeyPhrasesRequest); detectKeyPhrasesResult.getKeyPhrases().forEach(System.out::println); System.out.println("End of DetectKeyPhrases\n"); }}

使用偵測關鍵片語AWS SDK for Python (Boto)下列範例使用DetectKeyPhrases使用 Python 進行操作。您必須指定輸入文字的語言。

import boto3import json

comprehend = boto3.client(service_name='comprehend', region_name='region')

text = "It is raining today in Seattle"

print('Calling DetectKeyPhrases')print(json.dumps(comprehend.detect_key_phrases(Text=text, LanguageCode='en'), sort_keys=True, indent=4))print('End of DetectKeyPhrases\n')

使用偵測關鍵片語AWS SDK for .NET本節中的 .NET 範例使用AWS SDK for .NET。您可以使用 AWS Toolkit for Visual Studio 使用 .NET 開發AWS 應用程式。它包含用於部署應用程式和管理服務的有用範本和 AWS Explorer。如需 AWS 的 .NET 開發人員觀點,請參閱適用於 .NET 開發人員的 AWS 指南。

using System;using Amazon.Comprehend;using Amazon.Comprehend.Model;

51

Amazon Comprehend 開發人員指南決定情緒

namespace Comprehend{ class Program { static void Main(string[] args) { String text = "It is raining today in Seattle";

AmazonComprehendClient comprehendClient = new AmazonComprehendClient(Amazon.RegionEndpoint.USWest2);

// Call DetectKeyPhrases API Console.WriteLine("Calling DetectKeyPhrases"); DetectKeyPhrasesRequest detectKeyPhrasesRequest = new DetectKeyPhrasesRequest() { Text = text, LanguageCode = "en" }; DetectKeyPhrasesResponse detectKeyPhrasesResponse = comprehendClient.DetectKeyPhrases(detectKeyPhrasesRequest); foreach (KeyPhrase kp in detectKeyPhrasesResponse.KeyPhrases) Console.WriteLine("Text: {1}, Type: {1}, BeginOffset: {2}, EndOffset: {3}", kp.Text, kp.Text, kp.BeginOffset, kp.EndOffset); Console.WriteLine("Done"); } }}

決定情緒Amazon Comprehend 提供下列 API 操作以分析情緒。

• DetectSentiment (p. 322)— 決定文件的整體情緒。• BatchDetectSentiment (p. 243)— 判斷一批最多 25 個文件中的整體情緒。如需詳細資訊,請參閱「」即

時批次 API (p. 58)• StartSentimentDetectionJob (p. 404)— 為文件集合啟動情緒偵測任務。• ListSentimentDetectionJobs (p. 363)— 傳回已提交的情緒偵測任務清單。• DescribeSentimentDetectionJob (p. 303)— 取得與指定情緒偵測工作相關聯的內容 (包括狀態)。• StopSentimentDetectionJob (p. 429)— 停止指定的進行中情緒工作。

主題• 使用判斷情緒AWS Command Line Interface (p. 52)• 使用判斷情緒AWS SDK for Java (p. 53)• 使用判斷情緒AWS SDK for Python (Boto) (p. 53)• 使用判斷情緒AWS SDK for .NET (p. 54)

使用判斷情緒AWS Command Line Interface下列範例示範的是使用DetectSentiment搭配運算AWS CLI。此範例會指定輸入文字的語言。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend detect-sentiment \ --region region \

52

Amazon Comprehend 開發人員指南決定情緒

--language-code "en" \ --text "It is raining today in Seattle."

Amazon Comprehend 回應下列項目:

{ "SentimentScore": { "Mixed": 0.014585512690246105, "Positive": 0.31592071056365967, "Neutral": 0.5985543131828308, "Negative": 0.07093945890665054 }, "Sentiment": "NEUTRAL", "LanguageCode": "en"}

使用判斷情緒AWS SDK for Java下面的例子 Java 程序檢測輸入文本的情緒。您必須指定輸入文字的語言。

import com.amazonaws.auth.AWSCredentialsProvider;import com.amazonaws.auth.DefaultAWSCredentialsProviderChain;import com.amazonaws.services.comprehend.AmazonComprehend;import com.amazonaws.services.comprehend.AmazonComprehendClientBuilder;import com.amazonaws.services.comprehend.model.DetectSentimentRequest;import com.amazonaws.services.comprehend.model.DetectSentimentResult;

public class App{ public static void main( String[] args ) {

String text = "It is raining today in Seattle";

// Create credentials using a provider chain. For more information, see // https://docs.aws.amazon.com/sdk-for-java/v1/developer-guide/credentials.html AWSCredentialsProvider awsCreds = DefaultAWSCredentialsProviderChain.getInstance();

AmazonComprehend comprehendClient = AmazonComprehendClientBuilder.standard() .withCredentials(awsCreds) .withRegion("region") .build();

// Call detectSentiment API System.out.println("Calling DetectSentiment"); DetectSentimentRequest detectSentimentRequest = new DetectSentimentRequest().withText(text) .withLanguageCode("en"); DetectSentimentResult detectSentimentResult = comprehendClient.detectSentiment(detectSentimentRequest); System.out.println(detectSentimentResult); System.out.println("End of DetectSentiment\n"); System.out.println( "Done" ); }}

使用判斷情緒AWS SDK for Python (Boto)下面的 Python 程序檢測輸入文本的情緒。您必須指定輸入文字的語言。

53

Amazon Comprehend 開發人員指南偵測語法

import boto3import json

comprehend = boto3.client(service_name='comprehend', region_name='region')

text = "It is raining today in Seattle"

print('Calling DetectSentiment')print(json.dumps(comprehend.detect_sentiment(Text=text, LanguageCode='en'), sort_keys=True, indent=4))print('End of DetectSentiment\n')

使用判斷情緒AWS SDK for .NET本節中的 .NET 範例使用AWS SDK for .NET。您可以使用 AWS Toolkit for Visual Studio 使用 .NET 開發AWS 應用程式。它包含用於部署應用程式和管理服務的有用範本和 AWS Explorer。如需 AWS 的 .NET 開發人員觀點,請參閱適用於 .NET 開發人員的 AWS 指南。

本節中的 .NET 範例使用AWS SDK for .NET。

using System;using Amazon.Comprehend;using Amazon.Comprehend.Model;

namespace Comprehend{ class Program { static void Main(string[] args) { String text = "It is raining today in Seattle";

AmazonComprehendClient comprehendClient = new AmazonComprehendClient(Amazon.RegionEndpoint.USWest2);

// Call DetectKeyPhrases API Console.WriteLine("Calling DetectSentiment"); DetectSentimentRequest detectSentimentRequest = new DetectSentimentRequest() { Text = text, LanguageCode = "en" }; DetectSentimentResponse detectSentimentResponse = comprehendClient.DetectSentiment(detectSentimentRequest); Console.WriteLine(detectSentimentResponse.Sentiment); Console.WriteLine("Done"); } }}

偵測語法若要剖析文字以擷取個別單字,並決定每個單字的語音部分,請使用DetectSyntax (p. 325)operation. 若要剖析批次中最多 25 個文件的語法,請使用BatchDetectSyntax (p. 246)operation. 如需詳細資訊,請參閱即時批次 API (p. 58)。

主題• 使用偵測語法AWS Command Line Interface。 (p. 55)• 使用偵測語法AWS SDK for Java (p. 56)

54

Amazon Comprehend 開發人員指南偵測語法

• 使用偵測語音的部分AWS SDK for Python (Boto) (p. 57)• 使用偵測語法AWS SDK for .NET (p. 57)

使用偵測語法AWS Command Line Interface。下列範例示範的是使用DetectSyntax搭配運算AWS CLI。此範例會指定輸入文字的語言。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend detect-syntax \ --region region \ --language-code "en" \ --text "It is raining today in Seattle."

Amazon Comprehend 回應下列項目:

{ "SyntaxTokens": [ { "Text": "It", "EndOffset": 2, "BeginOffset": 0, "PartOfSpeech": { "Tag": "PRON", "Score": 0.8389829397201538 }, "TokenId": 1 }, { "Text": "is", "EndOffset": 5, "BeginOffset": 3, "PartOfSpeech": { "Tag": "AUX", "Score": 0.9189288020133972 }, "TokenId": 2 }, { "Text": "raining", "EndOffset": 13, "BeginOffset": 6, "PartOfSpeech": { "Tag": "VERB", "Score": 0.9977611303329468 }, "TokenId": 3 }, { "Text": "today", "EndOffset": 19, "BeginOffset": 14, "PartOfSpeech": { "Tag": "NOUN", "Score": 0.9993606209754944 }, "TokenId": 4 }, { "Text": "in",

55

Amazon Comprehend 開發人員指南偵測語法

"EndOffset": 22, "BeginOffset": 20, "PartOfSpeech": { "Tag": "ADP", "Score": 0.9999061822891235 }, "TokenId": 5 }, { "Text": "Seattle", "EndOffset": 30, "BeginOffset": 23, "PartOfSpeech": { "Tag": "PROPN", "Score": 0.9940338730812073 }, "TokenId": 6 }, { "Text": ".", "EndOffset": 31, "BeginOffset": 30, "PartOfSpeech": { "Tag": "PUNCT", "Score": 0.9999997615814209 }, "TokenId": 7 } ]}

使用偵測語法AWS SDK for Java下面的 Java 程序檢測輸入文本的語法。您必須指定輸入文字的語言。

import com.amazonaws.auth.AWSCredentialsProvider;import com.amazonaws.auth.DefaultAWSCredentialsProviderChain;import com.amazonaws.services.comprehend.AmazonComprehend;import com.amazonaws.services.comprehend.AmazonComprehendClientBuilder;import com.amazonaws.services.comprehend.model.DetectSyntaxRequest;import com.amazonaws.services.comprehend.model.DetectSyntaxResult;

public class App{ public static void main( String[] args ) {

String text = "It is raining today in Seattle."; String region = "region"

// Create credentials using a provider chain. For more information, see // https://docs.aws.amazon.com/sdk-for-java/v1/developer-guide/credentials.html AWSCredentialsProvider awsCreds = DefaultAWSCredentialsProviderChain.getInstance();

AmazonComprehend comprehendClient = AmazonComprehendClientBuilder.standard() .withCredentials(awsCreds) .withRegion(region) .build();

// Call detectSyntax API System.out.println("Calling DetectSyntax"); DetectSyntaxRequest detectSyntaxRequest = new DetectSyntaxRequest() .withText(text)

56

Amazon Comprehend 開發人員指南偵測語法

.withLanguageCode("en"); DetectSyntaxResult detectSyntaxResult = comprehendClient.detectSyntax(detectSyntaxRequest); detectSyntaxResult.getSyntaxTokens().forEach(System.out::println); System.out.println("End of DetectSyntax\n"); System.out.println( "Done" ); }}

使用偵測語音的部分AWS SDK for Python (Boto)下面的 Python 程序檢測在輸入文本語音的部分。您必須指定輸入文字的語言。

import boto3import json

comprehend = boto3.client(service_name='comprehend', region_name='region')text = "It is raining today in Seattle"

print('Calling DetectSyntax')print(json.dumps(comprehend.detect_syntax(Text=text, LanguageCode='en'), sort_keys=True, indent=4))print('End of DetectSyntax\n')

使用偵測語法AWS SDK for .NET本節中的 .NET 範例使用AWS SDK for .NET。您可以使用 AWS Toolkit for Visual Studio 使用 .NET 開發AWS 應用程式。它包含用於部署應用程式和管理服務的有用範本和 AWS Explorer。如需 AWS 的 .NET 開發人員觀點,請參閱適用於 .NET 開發人員的 AWS 指南。

using System;using Amazon.Comprehend;using Amazon.Comprehend.Model;

namespace Comprehend{ class Program { static void Main(string[] args) { String text = "It is raining today in Seattle";

AmazonComprehendClient comprehendClient = new AmazonComprehendClient(Amazon.RegionEndpoint.region);

// Call DetectSyntax API Console.WriteLine("Calling DetectSyntax\n"); DetectSyntaxRequest detectSyntaxRequest = new DetectSyntaxRequest() { Text = text, LanguageCode = "en" }; DetectSyntaxResponse detectSyntaxResponse = comprehendClient.DetectSyntax(detectSyntaxRequest); foreach (SyntaxToken s in detectSyntaxResponse.SyntaxTokens) Console.WriteLine("Text: {0}, PartOfSpeech: {1}, Score: {2}, BeginOffset: {3}, EndOffset: {4}", e.Text, e.PartOfSpeech, e.Score, e.BeginOffset, e.EndOffset); Console.WriteLine("Done"); } }

57

Amazon Comprehend 開發人員指南即時批次 API

}

即時批次 API若要傳送最多 25 份文件的批次,您可以使用 Amazon Comprehend 即時批次操作。呼叫批次作業與呼叫要求中每個文件的單一文件 API 相同。使用批次 API 可以為您的應用程式帶來更好的效能。如需詳細資訊,請參閱 多文檔同步處理 (p. 29)。

主題• 使用 SDK for Java 進行 Batch 處理 (p. 58)• 使用 Batch 處理AWS SDK for .NET (p. 59)• 使用 Batch 處理AWS CLI (p. 60)

使用 SDK for Java 進行 Batch 處理以下範例程式示範如何使用BatchDetectEntities (p. 237)使用 SDK for Java 進行操作。伺服器的回應包含一個BatchDetectEntitiesItemResult (p. 448)已成功處理的每個文件的物件。如果處理文件時發生錯誤,則會在回應中錯誤清單中顯示記錄。該示例獲取每個帶有錯誤的文檔並重新發送它們。

import com.amazonaws.auth.AWSStaticCredentialsProvider;import com.amazonaws.auth.DefaultAWSCredentialsProviderChain;import com.amazonaws.services.comprehend.AmazonComprehend;import com.amazonaws.services.comprehend.AmazonComprehendClientBuilder;import com.amazonaws.services.comprehend.model.BatchDetectEntitiesItemResult;import com.amazonaws.services.comprehend.model.BatchDetectEntitiesRequest;import com.amazonaws.services.comprehend.model.BatchDetectEntitiesResult;import com.amazonaws.services.comprehend.model.BatchItemError;

public class App{ public static void main( String[] args ) {

// Create credentials using a provider chain. For more information, see // https://docs.aws.amazon.com/sdk-for-java/v1/developer-guide/credentials.html AWSCredentialsProvider awsCreds = DefaultAWSCredentialsProviderChain.getInstance();

AmazonComprehend comprehendClient = AmazonComprehendClientBuilder.standard() .withCredentials(awsCreds) .withRegion("region") .build();

String[] textList = {"I love Seattle", "Today is Sunday", "Tomorrow is Monday", "I love Seattle"};

// Call detectEntities API System.out.println("Calling BatchDetectEntities"); BatchDetectEntitiesRequest batchDetectEntitiesRequest = new BatchDetectEntitiesRequest().withTextList(textList) .withLanguageCode("en"); BatchDetectEntitiesResult batchDetectEntitiesResult = client.batchDetectEntities(batchDetectEntitiesRequest);

for(BatchDetectEntitiesItemResult item : batchDetectEntitiesResult.getResultList()) { System.out.println(item); }

58

Amazon Comprehend 開發人員指南即時批次 API

// check if we need to retry failed requests if (batchDetectEntitiesResult.getErrorList().size() != 0) { System.out.println("Retrying Failed Requests"); ArrayList<String> textToRetry = new ArrayList<String>(); for(BatchItemError errorItem : batchDetectEntitiesResult.getErrorList()) { textToRetry.add(textList[errorItem.getIndex()]); }

batchDetectEntitiesRequest = new BatchDetectEntitiesRequest().withTextList(textToRetry).withLanguageCode("en"); batchDetectEntitiesResult = client.batchDetectEntities(batchDetectEntitiesRequest);

for(BatchDetectEntitiesItemResult item : batchDetectEntitiesResult.getResultList()) { System.out.println(item); }

} System.out.println("End of DetectEntities"); }}

使用 Batch 處理AWS SDK for .NET以下範例程式示範如何使用BatchDetectEntities (p. 237)搭配運算AWS SDK for .NET。伺服器的回應包含一個BatchDetectEntitiesItemResult (p. 448)已成功處理的每個文件的物件。如果處理文件時發生錯誤,則會在回應中錯誤清單中顯示記錄。該示例獲取每個帶有錯誤的文檔並重新發送它們。

本節中的 .NET 範例使用AWS SDK for .NET。您可以使用 AWS Toolkit for Visual Studio 使用 .NET 開發AWS 應用程式。它包含用於部署應用程式和管理服務的有用範本和 AWS Explorer。如需 AWS 的 .NET 開發人員觀點,請參閱適用於 .NET 開發人員的 AWS 指南。

using System;using System.Collections.Generic;using Amazon.Comprehend;using Amazon.Comprehend.Model;

namespace Comprehend{ class Program { // Helper method for printing properties static private void PrintEntity(Entity entity) { Console.WriteLine(" Text: {0}, Type: {1}, Score: {2}, BeginOffset: {3} EndOffset: {4}", entity.Text, entity.Type, entity.Score, entity.BeginOffset, entity.EndOffset); }

static void Main(string[] args) { AmazonComprehendClient comprehendClient = new AmazonComprehendClient(Amazon.RegionEndpoint.USWest2);

List<String> textList = new List<String>() { { "I love Seattle" }, { "Today is Sunday" },

59

Amazon Comprehend 開發人員指南即時批次 API

{ "Tomorrow is Monday" }, { "I love Seattle" } };

// Call detectEntities API Console.WriteLine("Calling BatchDetectEntities"); BatchDetectEntitiesRequest batchDetectEntitiesRequest = new BatchDetectEntitiesRequest() { TextList = textList, LanguageCode = "en" }; BatchDetectEntitiesResponse batchDetectEntitiesResponse = comprehendClient.BatchDetectEntities(batchDetectEntitiesRequest);

foreach (BatchDetectEntitiesItemResult item in batchDetectEntitiesResponse.ResultList) { Console.WriteLine("Entities in {0}:", textList[item.Index]); foreach (Entity entity in item.Entities) PrintEntity(entity); }

// check if we need to retry failed requests if (batchDetectEntitiesResponse.ErrorList.Count != 0) { Console.WriteLine("Retrying Failed Requests"); List<String> textToRetry = new List<String>(); foreach(BatchItemError errorItem in batchDetectEntitiesResponse.ErrorList) textToRetry.Add(textList[errorItem.Index]);

batchDetectEntitiesRequest = new BatchDetectEntitiesRequest() { TextList = textToRetry, LanguageCode = "en" };

batchDetectEntitiesResponse = comprehendClient.BatchDetectEntities(batchDetectEntitiesRequest);

foreach(BatchDetectEntitiesItemResult item in batchDetectEntitiesResponse.ResultList) { Console.WriteLine("Entities in {0}:", textList[item.Index]); foreach (Entity entity in item.Entities) PrintEntity(entity); } } Console.WriteLine("End of DetectEntities"); } }}

使用 Batch 處理AWS CLI這些範例會示範如何使用批次 API 操作AWS Command Line Interface。除外的所有操作BatchDetectDominantLanguage使用下列名為的 JSON 檔案process.json作為輸入。對於該操作LanguageCode不包括實體。

JSON 檔案中的第三個文件 ("$$$$$$$$") 會在批次處理期間導致錯誤。它包括在內,以便操作將包括BatchItemError (p. 452)在回應中。

{

60

Amazon Comprehend 開發人員指南即時批次 API

"LanguageCode": "en", "TextList": [ "I have been living in Seattle for almost 4 years", "It is raining today in Seattle", "$$$$$$$$" ]}

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

主題• 使用批次偵測主要語言 (AWS CLI) (p. 61)• 使用批次偵測實體 (AWS CLI) (p. 62)• 使用批處理檢測關鍵短語(AWS CLI) (p. 62)• 使用批次偵測情緒 (AWS CLI) (p. 62)

使用批次偵測主要語言 (AWS CLI)所以此BatchDetectDominantLanguage (p. 235)操作會決定批次中每份文件的主要語言。如需Amazon Comprehend 可偵測到的語言清單,請參閱主要語言 (p. 11)。如下所示AWS CLI指令會呼叫BatchDetectDominantLanguageoperation.

aws comprehend batch-detect-dominant-language \ --endpoint endpoint \ --region region \ --cli-input-json file://path to input file/process.json

的回應如下。BatchDetectDominantLanguage運算:

{ "ResultList": [ { "Index": 0, "Languages":[ { "LanguageCode":"en", "Score": 0.99 } ] }, { "Index": 1 "Languages":[ { "LanguageCode":"en", "Score": 0.82 } ] } ], "ErrorList": [ { "Index": 2, "ErrorCode": "InternalServerException", "ErrorMessage": "Unexpected Server Error. Please try again." } ]}

61

Amazon Comprehend 開發人員指南非同步分析工作 (API)

使用批次偵測實體 (AWS CLI)

使用BatchDetectEntities (p. 237)操作查找存在於一批文檔中的實體。如需實體的詳細資訊,請參閱實體 (p. 4)。如下所示AWS CLI指令會呼叫BatchDetectEntitiesoperation.

aws comprehend batch-detect-entities \ --endpoint endpoint \ --region region \ --cli-input-json file://path to input file/process.json

使用批處理檢測關鍵短語(AWS CLI)

所以此BatchDetectKeyPhrases (p. 240)操作返回一批文檔中的關鍵名詞短語。如下所示AWS CLI指令會呼叫BatchDetectKeyNounPhrasesoperation.

aws comprehend batch-detect-key-phrases --endpoint endpoint --region region --cli-input-json file://path to input file/process.json

使用批次偵測情緒 (AWS CLI)

使用偵測批次文件的整體情緒BatchDetectSentiment (p. 243)operation. 如下所示AWS CLI指令會呼叫BatchDetectSentimentoperation.

aws comprehend batch-detect-sentiment \ --endpoint endpoint \ --region region \ --cli-input-json file://path to input file/process.json

使用 API 的非同步分析任務以下範例示範如何使用 Amazon Comprehend API 以執行即時分析。AWS CLI、爪哇和蟒蛇。使用以下範例以了解 Amazon Comprehend 同步操作,以及做為自己應用程式的建置區塊。

主題• Amazon Comprehend 洞見的非同步分析 (p. 62)• 針對目標情緒的非同步分析 (p. 66)• 事件偵測的非同步分析 (p. 67)• 主題建模的非同步分析 (p. 70)

Amazon Comprehend 洞見的非同步分析以下示範如何使用 Amazon Comprehend API 進行即時分析,請使用AWS CLI、爪哇和蟒蛇。請使用以下範例以了解 Amazon Comprehend 同步操作,或做為自己應用程式的建置區塊。

主題• 先決條件 (p. 63)• 開始分析工作 (p. 63)• 監控分析任務 (p. 63)

62

Amazon Comprehend 開發人員指南Amazon Comprehend 洞察

• 取得分析結果 (p. 64)

以下各節說明如何使用 Amazon Comprehend API 執行非同步操作,以獲得 Amazon Comprehend。

先決條件文件必須為 UTF-8 格式的文字檔案。您可以使用兩種格式提交文件。您使用的格式取決於您要分析的文件類型,如下表所述。

描述 格式

每個檔案都包含一個輸入文件。這是最適合大型文檔的集合。

每個檔案一個文件

輸入為一或多個檔案。檔案中的每一行都被視為一個文件。這最適合短文件,例如社交媒體張貼。

每行必須以換行符 (LF,\ n)、回車符 (CR,\ r) 或兩者結尾 (CRLF,\ r\ n)。您不能使用 UTF-8 行分隔符(u+2028)來結束一行。

每行一個文件

開始分析任務時,您可以指定輸入資料的 S3 位置。此 URI 必須與您呼叫的 API 端點位於相同的 AWS 區域。URI 可以指向單個文件,也可以是數據文件集合的前綴。如需詳細資訊,請參閱 。InputDataConfig (p. 509)資料類型。

您必須授與 Amazon Comprehend 存取包含文件收集和輸出檔案的 Amazon S3 儲存貯體。如需詳細資訊,請參閱 非同步作業所需的角色型權限 (p. 186)。

開始分析工作若要提交分析任務,請使用 Amazon Comprehend 主控台或適當的主控台。Start*操作:

• StartDominantLanguageDetectionJob (p. 382)— 啟動工作以檢測集合中每個文檔中的主要語言。如需文件中主要語言的詳細資訊,請參閱主要語言 (p. 11)。

• StartEntitiesDetectionJob (p. 386)— 啟動工作以偵測集合中每個文件中的實體。如需實體的詳細資訊,請參閱實體 (p. 4)。

• StartKeyPhrasesDetectionJob (p. 395)— 啟動工作以檢測集合中每個文檔中的關鍵短語。如需金鑰片語的詳細資訊,請參閱關鍵短語 (p. 10)。

• StartPiiEntitiesDetectionJob (p. 400)— 啟動任務以偵測集合中每個文件中的個人身分識別資訊 (PII)。如需 PII 的詳細資訊,請參閱偵測 PII 實體體 (p. 10)。

• StartSentimentDetectionJob (p. 404)— 啟動工作以偵測集合中每個文件中的情緒。如需情緒的詳細資訊,請參閱情緒 (p. 15)。

監控分析任務所以此Start*操作會傳回一個 ID,您可以使用它監控任務進度。

若要使用 API 監視進度,請根據您要監視個別工作的進度還是多個工作的進度,使用兩種作業的其中一種。

若要監控單一分析任務的進度,請使用Describe*操作。您提供傳回的工作 IDStart*operation. 來自的回應Describe*作業包含JobStatus具有工作狀態的欄位。

若要監控多個分析任務的進度,請使用List*操作。List*作業會傳回您提交給亞馬遜的任務清單。回應包括一個JobStatus告訴任務狀態的每個任務的欄位。

63

Amazon Comprehend 開發人員指南Amazon Comprehend 洞察

如果狀態欄位設定為COMPLETED或者FAILED,工作處理已完成。

若要取得個別工作的狀態,請使用Describe*您正在執行之分析的作業。

• DescribeDominantLanguageDetectionJob (p. 282)• DescribeEntitiesDetectionJob (p. 287)• DescribeKeyPhrasesDetectionJob (p. 295)• DescribePiiEntitiesDetectionJob (p. 298)• DescribeSentimentDetectionJob (p. 303)

若要取得多個任務的狀態,請使用List*您正在執行之分析的作業。

• ListDominantLanguageDetectionJobs (p. 339)• ListEntitiesDetectionJobs (p. 345)• ListKeyPhrasesDetectionJobs (p. 357)• ListPiiEntitiesDetectionJobs (p. 360)• ListSentimentDetectionJobs (p. 363)

若要將結果限制為符合特定條件的任務,請使用List*操作Filter參數。您可以篩選任務名稱、任務狀態以及提交任務的日期和時間。如需詳細資訊,請參閱 。Filter每個參數List*中的操作動作 (p. 232)參考。

取得分析結果分析工作完成後,請使用Describe*操作以取得結果的位置。如果任務狀態為COMPLETED,該響應包括OutputDataConfig包含具有輸出檔案 Amazon S3 位置的欄位的欄位。該文件,output.tar.gz,是包含分析結果的壓縮歸檔。

如果任務的狀態為FAILED,回應中包含Message說明分析工作未成功完成原因的欄位。

若要取得個別工作的狀態,請使用適當的Describe*操作:

• DescribeDominantLanguageDetectionJob (p. 282)• DescribeEntitiesDetectionJob (p. 287)• DescribeKeyPhrasesDetectionJob (p. 295)• DescribeSentimentDetectionJob (p. 303)

結果會以單一檔案傳回,每個文件都有一個 JSON 結構。每個回應檔案也包含狀態欄位設定為的任何工作的錯誤訊息FAILED。

以下各節顯示兩種輸入格式的輸出範例。

取得主要語言偵測結果

以下是偵測到主要語言之分析的輸出檔案範例。輸入的格式為每行一個文件。有關更多資訊,請參閱DetectDominantLanguage (p. 311) 操作。

{"File": "0_doc", "Languages": [{"LanguageCode": "en", "Score": 0.9514502286911011}, {"LanguageCode": "de", "Score": 0.02374090999364853}, {"LanguageCode": "nl", "Score": 0.003208699868991971}, "Line": 0}{"File": "1_doc", "Languages": [{"LanguageCode": "en", "Score": 0.9822712540626526}, {"LanguageCode": "de", "Score": 0.002621392020955682}, {"LanguageCode": "es", "Score": 0.002386554144322872}], "Line": 1}

64

Amazon Comprehend 開發人員指南Amazon Comprehend 洞察

以下是分析輸出的範例,其中輸入的格式為每個檔案一個文件:

{"File": "small_doc", "Languages": [{"LanguageCode": "en", "Score": 0.9728053212165833}, {"LanguageCode": "de", "Score": 0.007670710328966379}, {"LanguageCode": "es", "Score": 0.0028472368139773607}]}{"File": "huge_doc", "Languages": [{"LanguageCode": "en", "Score": 0.984955906867981}, {"LanguageCode": "de", "Score": 0.0026436643674969673}, {"LanguageCode": "fr", "Score": 0.0014206881169229746}]}

取得實體偵測結果

以下是分析中偵測到文件中圖元的輸出檔案範例。輸入的格式為每行一個文件。有關更多資訊,請參閱DetectEntities (p. 313) 操作。輸出包含兩個錯誤訊息,一個用於太長的文件,另一個用於不是 UTF-8 格式的文件。

{"File": "50_docs", "Line": 0, "Entities": [{"BeginOffset": 0, "EndOffset": 22, "Score": 0.9763959646224976, "Text": "Cluj-NapocaCluj-Napoca", "Type": "LOCATION"}"]}{"File": "50_docs", "Line": 1, "Entities": [{"BeginOffset": 11, "EndOffset": 15, "Score": 0.9615424871444702, "Text": "Maat", "Type": "PERSON"}}]}{"File": "50_docs", "Line": 2, "ErrorCode": "DOCUMENT_SIZE_EXCEEDED", "ErrorMessage": "Document size exceeds maximum size limit 102400 bytes."}{"File": "50_docs", "Line": 3, "ErrorCode": "UNSUPPORTED_ENCODING", "ErrorMessage": "Document is not in UTF-8 format and all subsequent lines are ignored."}

以下是分析輸出的範例,其中輸入的格式為每個檔案一個文件。輸出包含兩個錯誤訊息,一個用於太長的文件,另一個用於不是 UTF-8 格式的文件。

{"File": "non_utf8.txt", "ErrorCode": "UNSUPPORTED_ENCODING", "ErrorMessage": "Document is not in UTF-8 format and all subsequent line are ignored."}{"File": "small_doc", "Entities": [{"BeginOffset": 0, "EndOffset": 4, "Score": 0.645766019821167, "Text": "Maat", "Type": "PERSON"}]}{"File": "huge_doc", "ErrorCode": "DOCUMENT_SIZE_EXCEEDED", "ErrorMessage": "Document size exceeds size limit 102400 bytes."}

取得關鍵片語偵測結果

以下是分析中偵測到文件中關鍵片語的輸出檔案範例。輸入的格式為每行一個文件。有關更多資訊,請參閱DetectKeyPhrases (p. 317) 操作。

{"File": "50_docs", "KeyPhrases": [{"BeginOffset": 0, "EndOffset": 22, "Score": 0.8948641419410706, "Text": "Cluj-NapocaCluj-Napoca"}, {"BeginOffset": 45, "EndOffset": 49, "Score": 0.9989854693412781, "Text": "Cluj"}], "Line": 0}

以下是分析輸出的範例,其中輸入的格式為每個檔案一個文件。

{"File": "1_doc", "KeyPhrases": [{"BeginOffset": 0, "EndOffset": 22, "Score": 0.8948641419410706, "Text": "Cluj-NapocaCluj-Napoca"}, {"BeginOffset": 45, "EndOffset": 49, "Score": 0.9989854693412781, "Text": "Cluj"}]}

取得個人身分識別資訊 (PII) 偵測結果

以下是分析工作中偵測到文件中 PII 實體的輸出檔案範例。輸入的格式為每行一個文件。

{"Entities":[{"Type":"NAME","BeginOffset":40,"EndOffset":69,"Score":0.999995},{"Type":"ADDRESS","BeginOffset":247,"EndOffset":253,"Score":0.998828},{"Type":"BANK_ACCOUNT_NUMBER","BeginOffset":406,"EndOffset":411,"Score":0.693283}],"File":"doc.txt","Line":0}

65

Amazon Comprehend 開發人員指南目標情緒

{"Entities":[{"Type":"SSN","BeginOffset":1114,"EndOffset":1124,"Score":0.999999},{"Type":"EMAIL","BeginOffset":3742,"EndOffset":3775,"Score":0.999993},{"Type":"PIN","BeginOffset":4098,"EndOffset":4102,"Score":0.999995}],"File":"doc.txt","Line":1}

以下是分析輸出的範例,其中輸入的格式為每個檔案一個文件。

{"Entities":[{"Type":"NAME","BeginOffset":40,"EndOffset":69,"Score":0.999995},{"Type":"ADDRESS","BeginOffset":247,"EndOffset":253,"Score":0.998828},{"Type":"BANK_ROUTING","BeginOffset":279,"EndOffset":289,"Score":0.999999}],"File":"doc.txt"}

取得情緒偵測結果以下是來自分析的輸出檔案範例,此分析會偵測到文件中所表達的情緒。它包含一個錯誤消息,因為一個文檔太長。輸入的格式為每行一個文件。有關更多資訊,請參閱 DetectSentiment (p. 322) 操作。

{"File": "50_docs", "Line": 0, "Sentiment": "NEUTRAL", "SentimentScore": {"Mixed": 0.002734508365392685, "Negative": 0.008935936726629734, "Neutral": 0.9841893315315247, "Positive": 0.004140198230743408}}{"File": "50_docs", "Line": 1, "ErrorCode": "DOCUMENT_SIZE_EXCEEDED", "ErrorMessage": "Document size is exceeded maximum size limit 5120 bytes."}{"File": "50_docs", "Line": 2, "Sentiment": "NEUTRAL", "SentimentScore": {"Mixed": 0.0023119584657251835, "Negative": 0.0029857370536774397, "Neutral": 0.9866572022438049, "Positive": 0.008045154623687267}}

以下是分析輸出的範例,其中輸入的格式為每個檔案一個文件。

{"File": "small_doc", "Sentiment": "NEUTRAL", "SentimentScore": {"Mixed": 0.0023450672160834074, "Negative": 0.0009663937962614, "Neutral": 0.9795311689376831, "Positive": 0.017157377675175667}}{"File": "huge_doc", "ErrorCode": "DOCUMENT_SIZE_EXCEEDED", "ErrorMessage": "Document size is exceeds the limit of 5120 bytes."}

針對目標情緒的非同步分析Amazon Comprehend 提供下列 API 操作以分析目標情緒:

• StartTargetedSentimentDetectionJob (p. 409)— 為文件集合啟動非同步目標情緒偵測任務。• ListTargetedSentimentDetectionJobs (p. 368)— 傳回已提交的目標情緒偵測任務清單。• DescribeTargetedSentimentDetectionJob (p. 306)— 取得與指定目標情緒偵測工作相關聯的內容 (包括

狀態)。• StopTargetedSentimentDetectionJob (p. 431)— 停止指定的進行中目標情緒工作。

主題• 開始之前 (p. 66)• 使用分析目標情緒AWS CLI (p. 67)

開始之前開始前,請確定您有:

• 輸入和輸出儲存貯體識別您要用於輸入和輸出的 Amazon S3 儲存貯體。儲存貯體必須與您呼叫的 API 位於同一區域。

• IAM 服務角色— 您必須具有存取輸入和輸出值區之權限的 IAM 服務角色。如需詳細資訊,請參閱 非同步作業所需的角色型權限 (p. 186)。

66

Amazon Comprehend 開發人員指南事件偵測

使用分析目標情緒AWS CLI以下範例示範的是使用StartTargetedSentimentDetectionJob使用AWS CLI。本範例會指定輸入文字的語言。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend start-targeted-sentiment-detection-job \ --job-name "job name" \ --language-code "en" \ --cli-input-json file://path to JSON input file

對於cli-input-json參數,您提供包含請求資料的 JSON 檔案路徑,如以下範例所示。

{ "InputDataConfig": { "S3Uri": "s3://input bucket/input path", "InputFormat": "ONE_DOC_PER_FILE" }, "OutputDataConfig": { "S3Uri": "s3://output bucket/output path" }, "DataAccessRoleArn": "arn:aws:iam::account ID:role/data access role"}

如果啟動工作的要求成功,您會收到下列回應:

{ "JobStatus": "SUBMITTED", "JobArn": "job ARN" "JobId": "job ID"}

事件偵測的非同步分析主題

• 開始之前 (p. 67)• 使用偵測事件AWS CLI (p. 68)• 使用列出事件AWS CLI (p. 68)• 使用描述事件AWS CLI (p. 69)• 取得事件偵測結果 (p. 70)

若要偵測文件集中的事件,請使用StartEventsDetectionJob (p. 391)以啟動非同步任務。

開始之前開始前,請確定您有:

• 輸入和輸出儲存貯體識別您要用於輸入和輸出的 Amazon S3 儲存貯體。儲存貯體必須與您呼叫的 API 位於同一區域。

• IAM 服務角色— 您必須具有存取輸入和輸出值區之權限的 IAM 服務角色。如需詳細資訊,請參閱 非同步作業所需的角色型權限 (p. 186)。

67

Amazon Comprehend 開發人員指南事件偵測

使用偵測事件AWS CLI以下範例示範的是使用StartEventsDetectionJob (p. 391)使用AWS CLI

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend start-events-detection-job \ --region region \ --job-name job name \ --cli-input-json file://path to JSON input file

對於cli-input-json參數,您提供包含請求資料的 JSON 檔案路徑,如以下範例所示。

{ "InputDataConfig": { "S3Uri": "s3://input bucket/input path", "InputFormat": "ONE_DOC_PER_LINE" }, "OutputDataConfig": { "S3Uri": "s3://output bucket/output path" }, "DataAccessRoleArn": "arn:aws:iam::account ID:role/data access role" "LanguageCode": "en", "TargetEventTypes": [ "BANKRUPTCY", "EMPLOYMENT", "CORPORATE_ACQUISITION", "INVESTMENT_GENERAL", "CORPORATE_MERGER", "IPO", "RIGHTS_ISSUE", "SECONDARY_OFFERING", "SHELF_OFFERING", "TENDER_OFFERING", "STOCK_SPLIT" ]}

如果啟動事件偵測工作的要求成功,您將會收到下列回應:

{ "JobStatus": "SUBMITTED", "JobId": "job ID"}

使用列出事件AWS CLI使用ListEventsDetectionJobs (p. 354)操作,以查看已提交的事件偵測任務清單。此清單包含您使用的輸入和輸出位置以及每個偵測工作狀態的相關資訊。此範例格式適用於 Unix、Linux 和 macOS。用於 Windows時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend list-events-detection-jobs --region region

您將會收到類似下列的 JSON 以作回應:

{ "EventsDetectionJobPropertiesList": [

68

Amazon Comprehend 開發人員指南事件偵測

{ "DataAccessRoleArn": "arn:aws:iam::account ID:role/data access role", "EndTime": timestamp, "InputDataConfig": { "InputFormat": "ONE_DOC_PER_LINE", "S3Uri": "s3://input bucket/input path" }, "JobId": "job ID", "JobName": "job name", "JobStatus": "COMPLETED", "LanguageCode": "en", "Message": "message", "OutputDataConfig": { "S3Uri": "s3://output bucket/ouput path" }, "SubmitTime": timestamp, "TargetEventTypes": [ "BANKRUPTCY", "EMPLOYMENT", "CORPORATE_ACQUISITION", "INVESTMENT_GENERAL", "CORPORATE_MERGER", "IPO", "RIGHTS_ISSUE", "SECONDARY_OFFERING", "SHELF_OFFERING", "TENDER_OFFERING", "STOCK_SPLIT" ] } ], "NextToken": "next token"}

使用描述事件AWS CLI您可以使用DescribeEventsDetectionJob (p. 293)操作,以取得現有任務的狀態。此範例格式適用於Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend describe-events-detection-job \ --region region \ --job-id job ID

您將會收到下列 JSON 以作回應:

{ "EventsDetectionJobProperties": { "DataAccessRoleArn": "arn:aws:iam::account ID:role/data access role", "EndTime": timestamp, "InputDataConfig": { "InputFormat": "ONE_DOC_PER_LINE", "S3Uri": "S3Uri": "s3://input bucket/input path" }, "JobId": "job ID", "JobName": "job name", "JobStatus": "job status", "LanguageCode": "en", "Message": "message", "OutputDataConfig": { "S3Uri": "s3://output bucket/output path" },

69

Amazon Comprehend 開發人員指南主題建模

"SubmitTime": timestamp, "TargetEventTypes": [ "BANKRUPTCY", "EMPLOYMENT", "CORPORATE_ACQUISITION", "INVESTMENT_GENERAL", "CORPORATE_MERGER", "IPO", "RIGHTS_ISSUE", "SECONDARY_OFFERING", "SHELF_OFFERING", "TENDER_OFFERING", "STOCK_SPLIT" ] }}

取得事件偵測結果以下是分析工作中偵測到文件中事件的輸出檔案範例。輸入的格式是每行一個文件。

{"Entities": [{"Mentions": [{"BeginOffset": 12, "EndOffset": 27, "GroupScore": 1.0, "Score": 0.916355, "Text": "over a year ago", "Type": "DATE"}]}, {"Mentions": [{"BeginOffset": 33, "EndOffset": 39, "GroupScore": 1.0, "Score": 0.996603, "Text": "Amazon", "Type": "ORGANIZATION"}]}, {"Mentions": [{"BeginOffset": 66, "EndOffset": 77, "GroupScore": 1.0, "Score": 0.999283, "Text": "Whole Foods", "Type": "ORGANIZATION"}]}], "Events": [{"Arguments": [{"EntityIndex": 2, "Role": "INVESTEE", "Score": 0.999283}, {"EntityIndex": 0, "Role": "DATE", "Score": 0.916355}, {"EntityIndex": 1, "Role": "INVESTOR", "Score": 0.996603}], "Triggers": [{"BeginOffset": 373, "EndOffset": 380, "GroupScore": 0.999984, "Score": 0.999955, "Text": "acquire", "Type": "CORPORATE_ACQUISITION"}], "Type": "CORPORATE_ACQUISITION"}, {"Arguments": [{"EntityIndex": 2, "Role": "PARTICIPANT", "Score": 0.999283}], "Triggers": [{"BeginOffset": 115, "EndOffset": 123, "GroupScore": 1.0, "Score": 0.999967, "Text": "combined", "Type": "CORPORATE_MERGER"}], "Type": "CORPORATE_MERGER"}], "File": "doc.txt", "Line": 0}

如需事件輸出檔案結構和支援事件類型的詳細資訊,請參閱〈事件 (p. 6)。

主題建模的非同步分析若要決定文件集中的主題,請使用StartTopicsDetectionJob (p. 414)以啟動非同步任務。您可以監控以英文或西班牙文撰寫的文件中的主題。

主題• 開始之前 (p. 70)• 使用主題建模AWS Command Line Interface (p. 71)• 使用主題建模AWS SDK for Java (p. 72)• 使用主題建模AWS SDK for Python (Boto) (p. 73)• 使用主題建模AWS SDK for .NET (p. 74)

開始之前開始前,請確定您有:

• 輸入和輸出儲存貯體識別您要用於輸入和輸出的 Amazon S3 儲存貯體。儲存貯體必須與您呼叫的 API 位於同一區域。

70

Amazon Comprehend 開發人員指南主題建模

• IAM 服務角色— 您必須具有存取輸入和輸出值區之權限的 IAM 服務角色。如需詳細資訊,請參閱 非同步作業所需的角色型權限 (p. 186)。

使用主題建模AWS Command Line Interface以下範例示範的是使用StartTopicsDetectionJob使用AWS CLI

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend start-topics-detection-job \ --number-of-topics topics to return \ --job-name "job name" \ --region region \ --cli-input-json file://path to JSON input file

對於cli-input-json參數,您提供包含請求資料的 JSON 檔案路徑,如以下範例所示。

{ "InputDataConfig": { "S3Uri": "s3://input bucket/input path", "InputFormat": "ONE_DOC_PER_FILE" }, "OutputDataConfig": { "S3Uri": "s3://output bucket/output path" }, "DataAccessRoleArn": "arn:aws:iam::account ID:role/data access role"}

如果啟動主題偵測工作的要求成功,您將會收到下列回應:

{ "JobStatus": "SUBMITTED", "JobId": "job ID"}

使用ListTopicsDetectionJobs (p. 371)操作,以查看已提交的主題偵測任務清單。此清單包含您使用的輸入和輸出位置以及每個偵測工作狀態的相關資訊。此範例格式適用於 Unix、Linux 和 macOS。用於 Windows時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend list-topics-detection-jobs \-- region

您將會收到類似下列的 JSON 以作回應:

{ "TopicsDetectionJobPropertiesList": [ { "InputDataConfig": { "S3Uri": "s3://input bucket/input path", "InputFormat": "ONE_DOC_PER_LINE" }, "NumberOfTopics": topics to return, "JobId": "job ID", "JobStatus": "COMPLETED", "JobName": "job name", "SubmitTime": timestamp, "OutputDataConfig": {

71

Amazon Comprehend 開發人員指南主題建模

"S3Uri": "s3://output bucket/output path" }, "EndTime": timestamp }, { "InputDataConfig": { "S3Uri": "s3://input bucket/input path", "InputFormat": "ONE_DOC_PER_LINE" }, "NumberOfTopics": topics to return, "JobId": "job ID", "JobStatus": "RUNNING", "JobName": "job name", "SubmitTime": timestamp, "OutputDataConfig": { "S3Uri": "s3://output bucket/output path" } } ]}

您可以使用DescribeTopicsDetectionJob (p. 309)操作,以取得現有任務的狀態。此範例格式適用於Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend describe-topics-detection-job --job-id job ID

您將會收到下列 JSON 以作回應:

{ "TopicsDetectionJobProperties": { "InputDataConfig": { "S3Uri": "s3://input bucket/input path", "InputFormat": "ONE_DOC_PER_LINE" }, "NumberOfTopics": topics to return, "JobId": "job ID", "JobStatus": "COMPLETED", "JobName": "job name", "SubmitTime": timestamp, "OutputDataConfig": { "S3Uri": "s3://output bucket/ouput path" }, "EndTime": timestamp }}

使用主題建模AWS SDK for Java下面的 Java 程序檢測文檔集合中的主題。它使用StartTopicsDetectionJob (p. 414)操作開始檢測主題。接下來,它使用DescribeTopicsDetectionJob (p. 309)用於檢查主題偵測狀態的操作。最後,它呼叫ListTopicsDetectionJobs (p. 371)以顯示為該帳戶提交的所有工作清單。

import com.amazonaws.auth.AWSCredentialsProvider;import com.amazonaws.auth.DefaultAWSCredentialsProviderChain;import com.amazonaws.client.builder.AwsClientBuilder;import com.amazonaws.services.comprehend.AmazonComprehend;import com.amazonaws.services.comprehend.AmazonComprehendClientBuilder;import com.amazonaws.services.comprehend.model.DescribeTopicsDetectionJobRequest;import com.amazonaws.services.comprehend.model.DescribeTopicsDetectionJobResult;import com.amazonaws.services.comprehend.model.InputDataConfig;import com.amazonaws.services.comprehend.model.InputFormat;

72

Amazon Comprehend 開發人員指南主題建模

import com.amazonaws.services.comprehend.model.ListTopicsDetectionJobsRequest;import com.amazonaws.services.comprehend.model.ListTopicsDetectionJobsResult;import com.amazonaws.services.comprehend.model.StartTopicsDetectionJobRequest;import com.amazonaws.services.comprehend.model.StartTopicsDetectionJobResult;

public class App{ public static void main( String[] args ) { // Create credentials using a provider chain. For more information, see // https://docs.aws.amazon.com/sdk-for-java/v1/developer-guide/credentials.html AWSCredentialsProvider awsCreds = DefaultAWSCredentialsProviderChain.getInstance();

AmazonComprehend comprehendClient = AmazonComprehendClientBuilder.standard() .withCredentials(awsCreds) .withRegion("region") .build();

final String inputS3Uri = "s3://input bucket/input path"; final InputFormat inputDocFormat = InputFormat.ONE_DOC_PER_FILE; final String outputS3Uri = "s3://output bucket/output path"; final String dataAccessRoleArn = "arn:aws:iam::account ID:role/data access role"; final int numberOfTopics = 10;

final StartTopicsDetectionJobRequest startTopicsDetectionJobRequest = new StartTopicsDetectionJobRequest() .withInputDataConfig(new InputDataConfig() .withS3Uri(inputS3Uri) .withInputFormat(inputDocFormat)) .withOutputDataConfig(new OutputDataConfig() .withS3Uri(outputS3Uri)) .withDataAccessRoleArn(dataAccessRoleArn) .withNumberOfTopics(numberOfTopics);

final StartTopicsDetectionJobResult startTopicsDetectionJobResult = comprehendClient.startTopicsDetectionJob(startTopicsDetectionJobRequest);

final String jobId = startTopicsDetectionJobResult.getJobId(); System.out.println("JobId: " + jobId);

final DescribeTopicsDetectionJobRequest describeTopicsDetectionJobRequest = new DescribeTopicsDetectionJobRequest() .withJobId(jobId);

final DescribeTopicsDetectionJobResult describeTopicsDetectionJobResult = comprehendClient.describeTopicsDetectionJob(describeTopicsDetectionJobRequest); System.out.println("describeTopicsDetectionJobResult: " + describeTopicsDetectionJobResult);

ListTopicsDetectionJobsResult listTopicsDetectionJobsResult = comprehendClient.listTopicsDetectionJobs(new ListTopicsDetectionJobsRequest()); System.out.println("listTopicsDetectionJobsResult: " + listTopicsDetectionJobsResult);

}}

使用主題建模AWS SDK for Python (Boto)下面的 Python 程序檢測文檔集合中的主題。它使用StartTopicsDetectionJob (p. 414)操作開始檢測主題。接下來,它使用DescribeTopicsDetectionJob (p. 309)用於檢查主題偵測狀態的操作。最後,它呼叫ListTopicsDetectionJobs (p. 371)以顯示為該帳戶提交的所有工作清單。

73

Amazon Comprehend 開發人員指南主題建模

import boto3import jsonfrom bson import json_util

comprehend = boto3.client(service_name='comprehend', region_name='region')

input_s3_url = "s3://input bucket/input path"input_doc_format = "ONE_DOC_PER_FILE"output_s3_url = "s3://output bucket/output path"data_access_role_arn = "arn:aws:iam::account ID:role/data access role"number_of_topics = 10

input_data_config = {"S3Uri": input_s3_url, "InputFormat": input_doc_format}output_data_config = {"S3Uri": output_s3_url}

start_topics_detection_job_result = comprehend.start_topics_detection_job(NumberOfTopics=number_of_topics, InputDataConfig=input_data_config, OutputDataConfig=output_data_config, DataAccessRoleArn=data_access_role_arn)

print('start_topics_detection_job_result: ' + json.dumps(start_topics_detection_job_result))

job_id = start_topics_detection_job_result["JobId"]

print('job_id: ' + job_id)

describe_topics_detection_job_result = comprehend.describe_topics_detection_job(JobId=job_id)

print('describe_topics_detection_job_result: ' + json.dumps(describe_topics_detection_job_result, default=json_util.default))

list_topics_detection_jobs_result = comprehend.list_topics_detection_jobs()

print('list_topics_detection_jobs_result: ' + json.dumps(list_topics_detection_jobs_result, default=json_util.default))

使用主題建模AWS SDK for .NET下面的 C# 程序檢測文檔集合中的主題。它使用StartTopicsDetectionJob (p. 414)操作開始檢測主題。接下來,它使用DescribeTopicsDetectionJob (p. 309)用於檢查主題偵測狀態的操作。最後,它呼叫ListTopicsDetectionJobs (p. 371)以顯示為該帳戶提交的所有工作清單。

本節中的 .NET 範例使用AWS SDK for .NET。您可以使用 AWS Toolkit for Visual Studio 使用 .NET 開發AWS 應用程式。它包含用於部署應用程式和管理服務的有用範本和 AWS Explorer。如需 AWS 的 .NET 開發人員觀點,請參閱適用於 .NET 開發人員的 AWS 指南。

using System;using Amazon.Comprehend;using Amazon.Comprehend.Model;

namespace Comprehend{ class Program { // Helper method for printing properties static private void PrintJobProperties(TopicsDetectionJobProperties props)

74

Amazon Comprehend 開發人員指南主題建模

{ Console.WriteLine("JobId: {0}, JobName: {1}, JobStatus: {2}, NumberOfTopics: {3}\nInputS3Uri: {4}, InputFormat: {5}, OutputS3Uri: {6}", props.JobId, props.JobName, props.JobStatus, props.NumberOfTopics, props.InputDataConfig.S3Uri, props.InputDataConfig.InputFormat, props.OutputDataConfig.S3Uri); }

static void Main(string[] args) { String text = "It is raining today in Seattle";

AmazonComprehendClient comprehendClient = new AmazonComprehendClient(Amazon.RegionEndpoint.USWest2);

String inputS3Uri = "s3://input bucket/input path"; InputFormat inputDocFormat = InputFormat.ONE_DOC_PER_FILE; String outputS3Uri = "s3://output bucket/output path"; String dataAccessRoleArn = "arn:aws:iam::account ID:role/data access role"; int numberOfTopics = 10;

StartTopicsDetectionJobRequest startTopicsDetectionJobRequest = new StartTopicsDetectionJobRequest() { InputDataConfig = new InputDataConfig() { S3Uri = inputS3Uri, InputFormat = inputDocFormat }, OutputDataConfig = new OutputDataConfig() { S3Uri = outputS3Uri }, DataAccessRoleArn = dataAccessRoleArn, NumberOfTopics = numberOfTopics };

StartTopicsDetectionJobResponse startTopicsDetectionJobResponse = comprehendClient.StartTopicsDetectionJob(startTopicsDetectionJobRequest);

String jobId = startTopicsDetectionJobResponse.JobId; Console.WriteLine("JobId: " + jobId);

DescribeTopicsDetectionJobRequest describeTopicsDetectionJobRequest = new DescribeTopicsDetectionJobRequest() { JobId = jobId };

DescribeTopicsDetectionJobResponse describeTopicsDetectionJobResponse = comprehendClient.DescribeTopicsDetectionJob(describeTopicsDetectionJobRequest); PrintJobProperties(describeTopicsDetectionJobResponse.TopicsDetectionJobProperties);

ListTopicsDetectionJobsResponse listTopicsDetectionJobsResponse = comprehendClient.ListTopicsDetectionJobs(new ListTopicsDetectionJobsRequest()); foreach (TopicsDetectionJobProperties props in listTopicsDetectionJobsResponse.TopicsDetectionJobPropertiesList) PrintJobProperties(props); } }}

75

Amazon Comprehend 開發人員指南偵測 PII 實體體

個人識別資訊 (PII)您可以使用 Amazon Comprehend 控制台或 API 來檢測個人識別資訊 (PII)在英文文本文件中。PII 是個人資料的文字參考,可用於識別個人身分。PII 範例包括地址、銀行帳號和電話號碼。

使用 PII 偵測時,您可以選擇尋找 PII 實體或編輯文字中的 PII 實體。若要尋找 PII 實體,您可以使用即時分析或非同步批次工作。若要編輯 PII 實體,您必須使用非同步批次工作。

您可以使用 Amazon S3 物件 Lambda 存取點取得個人識別資訊 (PII),以控制從 Amazon S3 儲存貯體擷取文件。您可以控制存取包含 PII 的文件,並從文件中編輯個人識別資訊。如需詳細資訊,請參閱 使用Amazon S3 Object Lambda 存取點取得個人身分識別資訊 (PII) (p. 228)。

主題• 偵測 PII 實體體 (p. 76)• 標示 PII 實體 (p. 80)• PII 即時分析 (主控台) (p. 81)• PII 非同步分析工作 (主控台) (p. 83)• PII 即時分析 (API) (p. 84)• PII 非同步分析工作 (API) (p. 86)

偵測 PII 實體體您可以使用 Amazon Comprehend 檢測PII 實體在英文文本文件中。PII 實體是個人識別資訊 (PII) 的一種特定類型。使用 PII 偵測來尋找 PII 實體或編輯文字中的 PII 實體。

主題• 尋找 PII 實體體 (p. 76)• 編輯 PII 實體體體體體 (p. 77)• PII 通用實體類型 (p. 77)• 特定國家的 PII 實體類型 (p. 79)

尋找 PII 實體體若要在文字中尋找 PII 實體,您可以使用即時分析快速分析單一文件。您也可以在文件集合上啟動非同步批次工作。

您可以使用控制台或 API 對單個文檔進行實時分析。您的輸入文字可能包含 100 KB 的 UTF-8 編碼字元。

例如,您可以提交下列輸入文字來尋找 PII 實體:

你好,保羅·桑托斯。您的信用卡帳戶的最新月結單已郵寄至華盛頓州西雅圖市任意街 123 號。

輸出包括「保羅·桑托斯」具有類型的信息NAME,「1111-0000-1111」具有該類型CREDIT_DEBIT_NUMBER和「123 任何街道,西雅圖,華盛頓州 98109」具有類型ADDRESS。

76

Amazon Comprehend 開發人員指南編輯 PII 實體體體體體

Amazon Comprehend 會傳回偵測到的 PII 實體清單,其中包含每個 PII 實體的下列資訊:

• 一種評分,用於估計偵測到的文字範圍是偵測到的圖元類型的可能性。• PII 實體體體體體體體體體。• PII 實體在文件中的位置,指定為實體開頭和結尾的字元位移。

例如,先前提到的輸入文字會產生下列回應:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ]}

編輯 PII 實體體體體體若要編譯文字中的 PII 實體,可以使用主控台或 API 以啟動非同步批次處理任務。Amazon Comprehend 會傳回輸入文字的副本,其中包含每個 PII 實體的編輯。

例如,您可以提交下列輸入文字來編輯 PII 實體:

你好,保羅·桑托斯。您的信用卡帳戶的最新月結單已郵寄至華盛頓州西雅圖市任意街 123 號。

輸出檔案包含下列文字:

你好 ***** ******。您信用卡戶口最新的月結單 *********************** 已郵寄至 *** *********************。

PII 通用實體類型某些 PII 實體類型是通用的 (不特定於個別國家/地區),例如電子郵件地址和信用卡號碼。亞馬遜偵測到下列類型的通用 PII 實體:

ADDRESS

物理地址,例如「美國任何城鎮 100 大街」或「套房 #12,123 號樓」。地址可以包括街道、建築物、位置、城市、州、國家、縣、郵遞區號、分區和鄰近地區等資訊。

AGE

個人的年齡,包括數量和時間單位。例如,在「我 40 歲」這句話中,Amazon Comprehend 承認「40歲」是一個年齡。

77

Amazon Comprehend 開發人員指南PII 通用實體類型

AWS_ACCESS_KEY

與私密存取金鑰相關聯的唯一識別符;您可以使用存取金鑰 ID 和私密存取金鑰簽署程式設計的 AWS 請求。

AWS_SECRET_KEY

與存取金鑰相關聯的唯一識別碼。使用存取金鑰 ID 和私密存取金鑰簽署程式設計的 AWS 請求。信貸借記

VISA 上存在的三位數信用卡驗證碼(CVV), MasterCard,並發現信用卡和借記卡。對於美國運通信用卡或借記卡,CVV 是一個四位數的數字代碼。

信貸借記到期

信用卡或簽帳金融卡的到期日。此數字通常為四位數,通常格式為月/年或 MM/YY。AmazonComprehend 到期日期,例如 2021 年 1 月 21 日,1 月和 2021 年 1 月。

借方信用卡號

信用卡或簽帳金融卡的代碼。這些數字的長度可以從 13 到 16 位數不等。不過,當只有最後四位數字出現時,Amazon Comprehend 也會辨識信用卡或簽帳金融卡號碼。

日期時間

日期可以包括年、月、日、星期幾或一天中的時間。例如,Amazon Comprehend 確認「2020 年 1 月19 日」或「上午 11 點」作為日期。Amazon Comprehend 將識別部分日期、日期範圍和日期間隔。它還將認識到幾十年,例如「1990 年代」。

驅動程式識別碼

分配給駕駛執照的號碼,這是一份正式文件,允許個人在公共道路上操作一輛或多輛機動車輛。駕駛執照號碼由字母數字字元組成。

EMAIL

電子郵件地址,例如 [email protected]。國際銀行帳戶號碼

國際銀行帳戶號碼在每個國家/地區都有特定的格式。請參閱ibanComprehend。IP_ADDRESS

一個 IPv4 位址,例如牌照

車輛的車牌是由車輛註冊的州或國家簽發的。乘用車的格式通常為五到八位數字,由大寫字母和數字組成。格式根據發行州或國家的位置而異。

MAC_ADDRESS

媒體存取控制 (MAC) 位址是指派給網路介面控制器 (NIC) 的唯一識別碼。NAME

個人的名字。此實體類型不包括標題,例如博士、先生、太太或小姐。Amazon Comprehend 不會將此實體類型套用到屬於組織或地址的名稱。例如,Amazon Comprehend 將「約翰·多伊組織」識別為一個組織,並將「李四街」識別為地址。

PASSWORD

用作密碼的英數字串,例如「*very20 特殊 #pass *」。PHONE

電話號碼。此實體類型還包括傳真和呼叫器號碼。

78

Amazon Comprehend 開發人員指南特定國家的 PII 實體類型

PIN

一個四位數的個人識別號碼(PIN),您可以使用它來訪問您的銀行帳戶。迅捷代碼

SWIFT 代碼是銀行識別碼(BIC)的標準格式,用於指定特定的銀行或分行。銀行使用這些代碼進行匯款,例如國際電匯。

SWIFT 代碼由八個或 11 個字符組成。11 位數代碼是指特定分支機構,而 8 位數代碼(或以「XXX」結尾的 11 位數代碼)則指總部或主要辦公室。

URL

一個網址,例如:例如。USERNAME

識別帳戶的使用者名稱,例如登入名稱、螢幕名稱、暱稱或帳號。車輛識別號碼

車輛識別號碼 (VIN) 可唯一識別車輛。VIN 含量和格式在 ISO 3779 規範中定義。每個國家/地區都有VIN 的特定代碼和格式。

特定國家的 PII 實體類型某些 PII 實體類型是特定國家/地區,例如護照號碼和其他政府核發的身份證號碼。Amazon Comprehend 會偵測到下列國家/地區特定 PII 實體類型:

加健康號

加拿大 Health 服務號碼是一個 10 位數的唯一識別碼,個人需要獲得醫療保健福利。社會保險號碼

加拿大社會保險號碼 (SIN) 是九位數的唯一識別碼,個人需要使用政府計劃和福利。

該罪被格式化為三組三個數字,如 123-456-789。一個 SIN 可以通過一個簡單的檢查數字過程進行驗證,稱為Luhn 演算法。

IN_ 阿德哈爾

印度阿德哈爾(Aadhaar)是印度政府向印度居民發出的 12 位唯一身份識別號碼。Aadhaar 格式的第四個和第八位數字後面有一個空格或連字符。

因雷加

印度全國農村就業保證法(NREGA)編號由兩個字母組成,後跟 14 個數字。無永久帳戶號碼

印度永久帳戶號碼是由所得稅部門核發的 10 位數字唯一的字母數字編號。投票人數 (_)

印度選民身份證由三個字母組成,後跟七個數字。UK 國家健康服務號

英國國民 Health 服務號碼是 10-17 位數字,例如485 777 3456。目前的系統會將 10 位數字格式化,並在第三位和第六位數字之後加上空格。最後一個數字是偵測錯誤的總和檢查碼。

79

Amazon Comprehend 開發人員指南標示 PII 實體

17 位數字格式在第 10 位和 13 位數字之後有空格。英國國家保險號碼

英國國民保險號碼(NINO)為個人提供國民保險(社會安全)福利的機會。它也用於英國稅收制度的某些目的。

數字長度為九位數,以兩個字母開頭,後跟六個數字和一個字母。NINO 可以在兩個字母之後以及第二個,第四和第六位數字之後使用空格或破折號進行格式化。

UK 唯一 _ 納稅人 _ 參考編號

英國唯一納稅人參考(UTR)是一個 10 位數字,用於識別納稅人或企業。銀行帳戶號碼

美國銀行帳戶號碼,通常長度為 10 至 12 位數字。當只有最後四個數字出現時,Amazon Comprehend也會識別銀行帳戶號碼。

銀行路由

美國銀行帳戶的分行代碼。這些通常是九位數的長度,但 Amazon Comprehend 也會在只有最後四個數字出現時識別路由號碼。

護照號碼

美國護照號碼。護照號碼範圍為六至九個英數字元。使用個人稅務識別號碼

美國個人納稅識別號碼 (ITIN) 是一個九位數字,以「9」開頭,並以「7」或「8」作為第四位數字。個人納稅識別號碼可以在第三位和第四位數字之後使用空格或破折號進行格式化。

SSN

美國社會安全號碼 (SSN) 是發給美國公民、永久居民和臨時工作居民的九位數字。當只有最後四位數字出現時,Amazon Comprehend 也會辨識社會安全號碼。

標示 PII 實體當您執行 PII 偵測時,Amazon Comprehend 會傳回已識別之 PII 實體類型的標籤。例如,如果您將下列輸入文字提交 Amazon Comprehend:

你好,保羅·桑托斯。您的信用卡帳戶的最新月結單已郵寄至華盛頓州西雅圖市任意街 123 號。

輸出包括代表 PII 實體類型的標籤以及準確度的可信度分數。在這種情況下,文檔文本「保羅·桑托斯」,「1111-0000-1111-000」和「123 任何街道,西雅圖,華盛頓州 98109」生成的標籤NAME、CREDIT_DEBIT_NUMBER,以及ADDRESS分別為 PII 實體類型。如需支援之實體類型的詳細資訊,請參閱PII 通用實體類型 (p. 77)。

Amazon Comprehend 供每個標籤的下列資訊:

• PII 實體類型的標籤名稱。• 估計偵測到的文字標示為 PII 實體類型之可能性的分數。

上面的輸入文本示例導致以下 JSON 輸出。

{

80

Amazon Comprehend 開發人員指南即時分析 (主控台)

"Labels": [ { "Name": "NAME", "Score": 0.9149109721183777 }, { "Name": "CREDIT_DEBIT_NUMBER", "Score": 0.5698626637458801 } { "Name": "ADDRESS", "Score": 0.9951046109199524 } ]}

PII 即時分析 (主控台)您可以使用主控台執行 PII 即時偵測文字文件。文字大小上限為 100 KB 的 UTF-8 編碼字元。控制台顯示結果,以便您可以查看分析。

使用內建模型執行 PII 偵測即時分析

1. 登入AWS Management Console然後開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇即時分析。3. Under輸入類型,選擇內建為了分析類型。4. 輸入您想要分析的文字。5. 選擇分析。控制台顯示文本分析結果深入分析面板。所以此PII索引標籤會列出在輸入文字中偵測到的

PII 實體。

在 中深入分析面板PII標籤顯示兩種分析模式的結果:

• OFSETS— 識別文字文件中 PII 的位置。• 標籤— 識別已識別 PII 實體類型的標籤。

OFSETS所以此OFSETS分析模式可識別文字文件中 PII 的位置。如需詳細資訊,請參閱 尋找 PII 實體體 (p. 76)。

81

Amazon Comprehend 開發人員指南標籤

標籤所以此標籤分析模式會傳回已識別 PII 圖元類型的標籤。如需詳細資訊,請參閱 標示 PII 實體 (p. 80)。

82

Amazon Comprehend 開發人員指南非同步分析任務 (主控台)

PII 非同步分析工作 (主控台)您可以使用主控台建立非同步分析工作,以偵測 PII 實體。如需 PII 實體類型的詳細資訊,請參閱偵測 PII 實體體 (p. 76)。

建立分析工作

1. 登入AWS Management Console然後開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇分析任務然後選擇 (完成)建立任務。3. UnderJob 設定,為分析任務設唯一的名稱。4. 適用於分析類型,選擇個人識別資訊 (PII)。5. 從輸出模式,選取下列之一:

• OFSETS— 工作輸出會傳回每個 PII 實體的位置。• Redactions— 工作輸出會傳回每個編輯 PII 項目的輸入文字副本。

6. (選擇性) 如果您選擇Redactions作為輸出模式,您可以選取要編輯的 PII 圖元類型。7. Under輸入資料」下方,指定輸入文件在 Amazon S3 中的位置:

• 若要分析您自己的文件,請選擇My file,然後選擇請瀏覽 S3,以提供包含您檔案的值區或資料夾的路徑。

• 若要分析亞馬遜提供的樣本,請選擇範例文件:。在這種情況下,Amazon Comprehend 會使用由管理的儲存貯體。AWS,並且您不需要指定位。

8. (選擇性) 對於輸入格式,為您的輸入檔案指定下列其中一個格式:

• 每個檔案一個文件— 每個檔案包含一個輸入文件。這是最適合大型文檔的集合。

83

Amazon Comprehend 開發人員指南即時分析

• 每行一個文件— 輸入為一或多個檔案。檔案中的每一行都被視為一個文件。這最適合短文件,例如社交媒體張貼。每行必須以換行符 (LF,\ n)、回車符 (CR,\ r) 或兩者結尾 (CRLF,\ r\ n)。您不能使用UTF-8 行分隔符(u+2028)來結束一行。

9. Under輸出資料,選擇請瀏覽 S3。選擇您希望 Amazon Comprehend 寫入分析產生的輸出資料的Amazon S3 儲存貯體或資料夾。

10. (選擇性) 若要加密工作的輸出結果,請選擇Encryption (加密)。然後,選擇要使用與目前帳戶關聯的KMS 金鑰,還是使用與其他帳戶相關聯的 KMS 金鑰:• 如果您使用與目前帳戶相關聯的金鑰,請為下列項目選擇金鑰別名或 ID。KMS 金鑰 ID。• 如果您使用與其他帳戶相關聯的金鑰,請在下方輸入金鑰別名或 ID 的 ARNKMS 金鑰 ID。

Note

如需建立和使用 KMS 金鑰和相關聯加密的詳細資訊,請參閱金鑰管理服務。11. Under許可存取,請提供 IAM 角色,以便:

• 授予對輸入文件之 Amazon S3 位置的讀取存取權限。• 授予對輸出文件之 Amazon S3 位置的寫入存取權限。• 包含信任政策,允許comprehend.amazonaws.com服務主體以擔任角色並取得其許可。

如果您還沒有具備這些許可和適當信任政策和適當信任政策的 IAM 角色,請選擇建立 IAM角色來創建一個。

12. 當您完成填寫表單時,請選擇建立任務以建立並啟動主題偵測工作。

新工作會顯示在工作清單中,而狀態欄位則顯示工作的狀態。該字段可以是IN_PROGRESS對於正在處理的工作,COMPLETED已成功完成的工作,以及FAILED對於發生錯誤的任務。您可以按一下工作以取得有關該工作的詳細資訊,包括任何錯誤訊息。

任務完成後,Amazon Comprehend 會將分析結果存放在您為該任務指定的輸出 Amazon S3 位置。如需分析結果的描述,請參閱偵測 PII 實體體 (p. 76)。

PII 即時分析 (API)Amazon Comprehend 提供即時同步 API 作業,以分析文件中的個人識別資訊 (PII)。

主題• 尋找 PII 即時實體 (API) (p. 84)• 標記 PII 即時實體 (API) (p. 85)

尋找 PII 即時實體 (API)要在單個文檔中找到 PII,您可以使用 Amazon ComprehendDetectPiiEntities (p. 320)operation. 您的輸入文字可能包含 100 KB 的 UTF-8 編碼字元。

使用 (CLI) 尋找 PII以下範例使用DetectPiiEntities使用AWS CLI。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend detect-pii-entities \

84

Amazon Comprehend 開發人員指南標記 PII 即時實體 (API)

--text "Hello Paul Santos. The latest statement for your credit card \ account 1111-0000-1111-0000 was mailed to 123 Any Street, Seattle, WA \ 98109." \ --language-code en

Amazon Comprehend 回應下列項目:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

標記 PII 即時實體 (API)您可以使用即時同步 API 作業來傳回已識別之 PII 實體類型的標籤。如需詳細資訊,請參閱 標示 PII 實體 (p. 80)。

為 PII 實體加上標籤以下範例使用ContainsPiiEntities使用AWS CLI。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend contains-pii-entities \--text "Hello Paul Santos. The latest statement for your credit card \account 1111-0000-1111-0000 was mailed to 123 Any Street, Seattle, WA \ 98109." \--language-code en

Amazon Comprehend 回應下列項目:

{ "Labels": [ { "Name": "NAME", "Score": 0.9149109721183777 }, { "Name": "CREDIT_DEBIT_NUMBER", "Score": 0.8905550241470337 }

85

Amazon Comprehend 開發人員指南非同步分析工作 (API)

{ "Name": "ADDRESS", "Score": 0.9951046109199524 } ]}

PII 非同步分析工作 (API)PII 非同步分析 (API)

您可以使用非同步 API 作業來建立分析工作,以尋找或編輯 PII 實體。如需 PII 實體類型的詳細資訊,請參閱偵測 PII 實體體 (p. 76)。

主題• 使用非同步工作 (API) 尋找 PII 實體 (p. 86)• 使用非同步工作 (API) 編輯 PII 實體 (p. 89)

使用非同步工作 (API) 尋找 PII 實體執行非同步批次任務以在文件集合中尋找 PII。若要執行任務,請上傳文件至 Amazon S3,然後提交StartPiiEntitiesDetectionJob (p. 400)請求。

主題• 開始之前 (p. 86)• 輸入參數 (p. 86)• 非同步任步任務方法 (p. 87)• 輸出檔案格式 (p. 87)• 使用非同步分析AWS Command Line Interface (p. 88)

開始之前開始前,請確定您有:

• 輸入和輸出儲存貯體識別您要用於輸入檔案和輸出檔案的 Amazon S3 儲存貯體。值區必須與您呼叫的 API位於同一區域。

• IAM 服務角色— 您必須具有存取輸入和輸出值區之權限的 IAM 服務角色。如需詳細資訊,請參閱 非同步作業所需的角色型權限 (p. 186)。

輸入參數請在您的請求中包含下列必要參數:

• InputDataConfig— 提供InputDataConfig (p. 509)請求的定義,其中包括工作的輸入屬性。對於S3Uri參數中,指定輸入文件的 Amazon S3 位置。

• OutputDataConfig— 提供OutputDataConfig (p. 515)請求的定義,其中包括工作的輸出屬性。對於S3Uri參數中,指定 Amazon Comprehend 寫入其分析結果的 Amazon S3 位置。

• DataAccessRoleArn— 提供 Amazon Resource Name (ARN)AWS Identity and Access Management角色。此角色必須授與 Amazon Comprehend 對您輸入資料的讀取存取權限,以及對您在 Amazon S3 中輸出位置的寫入存取權限。如需詳細資訊,請參閱 非同步作業所需的角色型權限 (p. 186)。

86

Amazon Comprehend 開發人員指南尋找 PII 實體體體

• Mode— 將此參數設為ONLY_OFFSETS。透過此設定,輸出會提供尋找輸入文字中每個 PII 實體的字元位移。輸出還包括可信度分數和 PII 實體類型。

• LanguageCode— 將此參數設為en。Amazon Comprehend 僅支援英文文字的 PII 偵測。

非同步任步任務方法所以此StartPiiEntitiesDetectionJob會傳回工作 ID,以便您可以監視工作進度,並在工作完成時擷取工作狀態。

若要監視分析工作的進度,請將工作 ID 提供給DescribePiiEntitiesDetectionJob (p. 298)operation. 來自的回應DescribePiiEntitiesDetectionJob包含JobStatus包含任務目前狀態的欄位。成功的工作轉移至以下狀態:

提交-> 進行中-> 完成。

分析工作完成後 (JobStatus已完成、失敗或已停止)、使用DescribePiiEntitiesDetectionJob取得結果的位置。如果任務狀態為COMPLETED,該響應包括OutputDataConfig包含具有輸出檔案 Amazon S3位置的欄位的欄位。

如需 Amazon 理解非同步分析所要遵循的步驟的其他詳細資訊,請參閱非同步批次處理 (p. 31)。

輸出檔案格式輸出檔案,output.tar.gz,是包含分析結果的壓縮歸檔。

以下是分析工作中偵測到文件中 PII 實體的輸出檔案範例。輸入的格式為每行一個文件。

{ "Entities": [ { "Type": "NAME", "BeginOffset": 40, "EndOffset": 69, "Score": 0.999995 }, { "Type": "ADDRESS", "BeginOffset": 247, "EndOffset": 253, "Score": 0.998828 }, { "Type": "BANK_ACCOUNT_NUMBER", "BeginOffset": 406, "EndOffset": 411, "Score": 0.693283 } ], "File": "doc.txt", "Line": 0},{ "Entities": [ { "Type": "SSN", "BeginOffset": 1114, "EndOffset": 1124, "Score": 0.999999 }, { "Type": "EMAIL",

87

Amazon Comprehend 開發人員指南尋找 PII 實體體體

"BeginOffset": 3742, "EndOffset": 3775, "Score": 0.999993 }, { "Type": "PIN", "BeginOffset": 4098, "EndOffset": 4102, "Score": 0.999995 } ], "File": "doc.txt", "Line": 1 }

以下是分析輸出的範例,其中輸入的格式為每個檔案一個文件。

{ "Entities": [ { "Type": "NAME", "BeginOffset": 40, "EndOffset": 69, "Score": 0.999995 }, { "Type": "ADDRESS", "BeginOffset": 247, "EndOffset": 253, "Score": 0.998828 }, { "Type": "BANK_ROUTING", "BeginOffset": 279, "EndOffset": 289, "Score": 0.999999 } ], "File": "doc.txt"}

使用非同步分析AWS Command Line Interface以下範例使用StartPiiEntitiesDetectionJob搭配AWS CLI。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend start-pii-entities-detection-job \ --region region \ --job-name job name \ --cli-input-json file://path to JSON input file

對於cli-input-json參數您提供包含請求資料的 JSON 檔案路徑,如以下範例所示。

{ "InputDataConfig": { "S3Uri": "s3://input bucket/input path", "InputFormat": "ONE_DOC_PER_LINE" }, "OutputDataConfig": {

88

Amazon Comprehend 開發人員指南編輯 PII 實體體體體

"S3Uri": "s3://output bucket/output path" }, "DataAccessRoleArn": "arn:aws:iam::account ID:role/data access role" "LanguageCode": "en", "Mode": "ONLY_OFFSETS" }

若啟動事件偵測任務的請求成功,您將會收到類似以下的回應:

{ "JobId": "5d2fbe6e...e2c" "JobArn": "arn:aws:comprehend:us-west-2:123456789012:pii-entities-detection-job/5d2fbe6e...e2c" "JobStatus": "SUBMITTED", }

您可以使用DescribeEventsDetectionJob (p. 293)操作以取得現有任務的狀態。若啟動事件偵測任務的請求成功,您將會收到類似以下的回應:

aws comprehend describe-pii-entities-detection-job \ --region region \ --job-id job ID

當任務成功完成時,您會收到類似以下的回應:

{ "PiiEntitiesDetectionJobProperties": { "JobId": "5d2fbe6e...e2c" "JobArn": "arn:aws:comprehend:us-west-2:123456789012:pii-entities-detection-job/5d2fbe6e...e2c" "JobName": "piiCLItest3", "JobStatus": "COMPLETED", "SubmitTime": "2022-05-05T14:54:06.169000-07:00", "EndTime": "2022-05-05T15:00:17.007000-07:00", "InputDataConfig": { (identical to the input data that you provided with the request) }}

使用非同步工作 (API) 編輯 PII 實體若要編輯文字中的 PII 實體,請啟動非同步批次工作。若要執行任務,請上傳文件至 Amazon S3,然後提交StartPiiEntitiesDetectionJob (p. 400)請求。

主題• 開始之前 (p. 89)• 輸入參數 (p. 90)• 輸出檔案格式 (p. 90)• PII 編輯使用AWS Command Line Interface (p. 90)

開始之前開始前,請確定您有:

• 輸入和輸出儲存貯體識別您要用於輸入檔案和輸出檔案的 Amazon S3 儲存貯體。值區必須與您呼叫的 API位於同一區域。

89

Amazon Comprehend 開發人員指南編輯 PII 實體體體體

• IAM 服務角色— 您必須具有存取輸入和輸出值區之權限的 IAM 服務角色。如需詳細資訊,請參閱 非同步作業所需的角色型權限 (p. 186)。

輸入參數請在您的請求中包含下列必要參數:

• InputDataConfig— 提供InputDataConfig (p. 509)請求的定義,其中包括工作的輸入屬性。對於S3Uri參數中,指定輸入文件的 Amazon S3 位置。

• OutputDataConfig— 提供OutputDataConfig (p. 515)請求的定義,其中包括工作的輸出屬性。對於S3Uri參數中,指定 Amazon Comprehend 寫入其分析結果的 Amazon S3 位置。

• DataAccessRoleArn— 提供 Amazon Resource Name (ARN)AWS Identity and Access Management角色。此角色必須授與 Amazon Comprehend 對您輸入資料的讀取存取權限,以及對您在 Amazon S3 中輸出位置的寫入存取權限。如需詳細資訊,請參閱 非同步作業所需的角色型權限 (p. 186)。

• Mode— 將此參數設為ONLY_REDACTION。透過此設定,Amazon Comprehend 會將您的輸入文件複本寫入到 Amazon S3 中的輸出位置。在此副本中,每個 PII 實體都會編輯。

• RedactionConfig— 提供RedactionConfig (p. 524)請求的定義,其中包括密文的配置參數。指定要編輯的 PII 類型,並指定要將每個 PII 實體取代為其類型的名稱還是您選擇的字元:• 指定要在中編輯的 PII 實體類型PiiEntityTypes陣列。若要編輯所有實體類型,請將陣列值設定

為["ALL"]。• 若要以其類型取代每個 PII 實體,請設定MaskMode參數REPLACE_WITH_PII_ENTITY_TYPE。例如,

使用此設定時,PII 實體「多珍」會取代為「[NAME]」。• 若要以您選擇的字元取代每個 PII 實體中的字元,請設定MaskMode參數MASK,並設

定MaskCharacter參數設為取代字元的取代字元。僅提供單一字元。有效字元為! 、#、$、%、&、*和 @。例如,使用此設定時,PII 實體「多珍」可以取代為「**** ***」

• LanguageCode— 將此參數設為en。Amazon Comprehend 僅支援英文文字的 PII 偵測。

輸出檔案格式下列範例顯示編輯 PII 之分析工作的輸入和輸出檔案。輸入的格式為每行一個文件。

{Managing Your Accounts Primary Branch Canton John Doe Phone Number 443-573-4800 123 Main StreetBaltimore, MD 21224Online Banking HowardBank.com Telephone 1-877-527-2703 Bank 3301 Boston Street, Baltimore, MD 21224

編輯此輸入檔案的分析工作會產生下列輸出檔案。

{Managing Your Accounts Primary Branch ****** ******** Phone Number ************ **********************************Online Banking ************** Telephone ************** Bank *************************************** }

PII 編輯使用AWS Command Line Interface以下範例使用StartPiiEntitiesDetectionJob搭配AWS CLI。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

90

Amazon Comprehend 開發人員指南編輯 PII 實體體體體

aws comprehend start-pii-entities-detection-job \ --region region \ --job-name job name \ --cli-input-json file://path to JSON input file

對於cli-input-json參數您提供包含請求資料的 JSON 檔案路徑,如以下範例所示。

{ "InputDataConfig": { "S3Uri": "s3://input bucket/input path", "InputFormat": "ONE_DOC_PER_LINE" }, "OutputDataConfig": { "S3Uri": "s3://output bucket/output path" }, "DataAccessRoleArn": "arn:aws:iam::account ID:role/data access role" "LanguageCode": "en", "Mode": "ONLY_REDACTION" "RedactionConfig": { "MaskCharacter": "*", "MaskMode": "MASK", "PiiEntityTypes": ["ALL"] }}

若啟動事件偵測任務的請求成功,您將會收到類似以下的回應:

{ "JobId": "7c4fbe6e...e5b" "JobArn": "arn:aws:comprehend:us-west-2:123456789012:pii-entities-detection-job/7c4fbe6e...e5b" "JobStatus": "SUBMITTED", }

您可以使用DescribeEventsDetectionJob (p. 293)操作以取得現有任務的狀態。

aws comprehend describe-pii-entities-detection-job \ --region region \ --job-id job ID

當任務成功完成時,您會收到類似以下的回應:

{ "PiiEntitiesDetectionJobProperties": { "JobId": "7c4fbe6e...e5b" "JobArn": "arn:aws:comprehend:us-west-2:123456789012:pii-entities-detection-job/7c4fbe6e...e5b" "JobName": "piiCLIredtest1", "JobStatus": "COMPLETED", "SubmitTime": "2022-05-05T14:54:06.169000-07:00", "EndTime": "2022-05-05T15:00:17.007000-07:00", "InputDataConfig": { (identical to the input data that you provided with the request) }}

91

Amazon Comprehend 開發人員指南準備訓練資料

自訂分類使用自訂分類將您的文件組織到您定義的類別(類別)中。自訂分類程序。首先,您要訓練自訂分類模型(也稱為分類器),以辨識您感興趣的類別。然後,您可以使用模型對任意數量的文檔集進行分類

例如,您可以將支援要求的內容分類,以便將要求路由至適當的支援團隊。或者,您可以對從客戶收到的電子郵件進行分類,以針對客戶提出的請求提供指導。您可以將 Amazon Comprehend 與 Amazon Transcribe相結合,將語音轉換為文字,然後將來自支援電話的請求進行分類。

您的帳戶中可以有多個自訂分類器,每個分類器都使用不同的資料進行訓練。當您提交分類工作時,您可以選擇要使用的分類器。Amazon Comprehend 會根據該分類器、分類器的訓練方式,以及是使用多類別還是多標籤模式進行訓練,傳回結果。對於多類別模式,您可以同步 (即時) 分類單一文件,或以非同步方式分類大型文件或一組文件。多標籤模式僅支援非同步工作。

主題• 準備訓練資料 (p. 92)• 訓練分類模型 (p. 96)• 執行自訂分類器模型 (p. 108)

準備訓練資料您可以使用兩種模式來分類文件:多個類別或多標籤。每種模式的某些輸入檔案格式都不同,因此您可以在建立用於訓練模型的資料時選擇要使用的模式。

的概念概念類別用於這兩種模式。這是一個自訂類別,適用於要分析的文件。但是,每種模式使用類不同。多類模式與每個文檔僅關聯一個類。多標籤模式將多個類別與文件相關聯。每種模式的訓練資料格式也不同。

您可以使用下列任何與 Amazon Comprehend 搭配使用的語言來訓練自訂分類器:英文、西班牙文、德文、義大利文、法文或葡萄牙文。不過,您只能以一種語言訓練分類器。分類器不支援多種語言。

若要訓練自訂分類器 (自訂模型),請識別您要用於分類的類別。例如,pricing、defect 或profanity。接下來,確定每個類別的文件範例。每個班級提供至少 10 份訓練文件。例如,如果您有 10個可能的類別,則至少需要 100 個已分類的文件來訓練模型。為了獲得更準確的培訓,我們建議每個課程至少 50 份或更多文件。

Note

即使您可以在分類器中使用多個類,當您在文檔上使用分類器時,它們不會確定任何層次結構。

我們建議您針對每個班級使用 50 份以上的訓練文件來訓練模型。儘管每個班級至少需要 10 份培訓文件,但是您可以通過更多文檔獲得更高的準確性。訓練文件的總大小必須小於 5 GB。

主題• 多類別模式 (p. 92)• 多標記模式 (p. 94)

多類別模式在多類分類中,每個文檔可以有一個且只有一個類分配給它。個別類別是互斥的。例如,一個電影可以分類為紀錄片或科幻小說,但不能同時分類兩者。

92

Amazon Comprehend 開發人員指南多類別模式

訓練自訂分類器之後,您可以在非同步或同步作業中分析文件。您可以使用非同步作業一次分析大量文件。產生的分析會在單獨的檔案中傳回。使用同步操作,您只能分析單個文檔,但可以實時獲得結果。當您使用多標籤模式時,這些選項不可用。

若要訓練自訂分類器,您必須提供標籤化的訓練資料。訓練資料中的標籤應與訓練模型稍後在您提供未標籤的輸入時產生的輸出類型相似。您可以將訓練資料提供為 CSV 檔案或增強資訊清單檔案 SageMaker GroundTruth。

CSV 檔案若要訓練自訂分類器,您可以將訓練資料提供為兩欄 CSV 檔案。在其中,標籤在第一列中提供,並在第二列中提供文檔。

類別可以是任何有效的 UTF-8 字串。我們建議清晰且意義上不重疊的課程。它們可以有空格,並且可以由下劃線或連字符連接的多個單詞組成。

訓練文件必須以\ n 或\ r\ n 結尾,並且是 CSV 檔案中的有效 UTF-8。

資料必須位於兩欄中。請勿包含個別欄的標題。在檔案中包含標頭可能會導致執行階段錯誤。該文件的每一行包含一個單一的類和演示該類的文檔的文本。

CLASS,Text of document 1CLASS,Text of document 2CLASS,Text of document 3

例如,下列行屬於 CSV 檔案,該檔案會訓練自訂分類器,以偵測電子郵件訊息是否為垃圾郵件:

SPAM, "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."

擴增資訊清單檔案增強清單文件是由生成的標籤數據集 SageMaker Ground Truth。Ground Truth 是一項資料標籤服務,可協助您 (或您雇用的員工) 建置機器學習模型的訓練資料集。Amazon Comprehend 接受擴增資訊清單檔案做為自訂模型的訓練資料。當您使用 Amazon Comprehend 主控台建立自訂分類器時,您可以提供這些檔案CreateDocumentClassifier (p. 254)API 動作。

如需「Ground Truth」及其產生輸出的詳細資訊,請參閱使用 Amazon SageMaker 標籤資料的 GroundTruth中的亞馬遜 SageMaker 開發人員指南。

擴增資訊清單檔案為 JSON 行格式。在這些檔案中,每一列都是一個完整的 JSON 物件,其中包含一個訓練文件及其相關標記。下列範例為增強資訊清單檔案,可訓練自訂分類器,以判斷電子郵件訊息是否為垃圾郵件:

{"source":"Document 1 text","MultiClassJob":0,"MultiClassJob-metadata":{"confidence":0.62,"job-name":"labeling-job/multiclassjob","class-name":"not_spam","human-annotated":"yes","creation-date":"2020-05-21T17:36:45.814354","type":"groundtruth/text-classification"}}{"source":"Document 2 text","MultiClassJob":1,"MultiClassJob-metadata":{"confidence":0.81,"job-name":"labeling-job/multiclassjob","class-name":"spam","human-annotated":"yes","creation-date":"2020-05-21T17:37:51.970530","type":"groundtruth/text-classification"}}{"source":"Document 3 text","MultiClassJob":1,"MultiClassJob-metadata":{"confidence":0.81,"job-name":"labeling-job/multiclassjob","class-name":"spam","human-annotated":"yes","creation-date":"2020-05-21T17:37:51.970566","type":"groundtruth/text-classification"}}

在這個 JSON 行文件中的每一行是一個完整的 JSON 對象,其中的屬性包括文檔文本,一個單一的類名,和其他元數據 Ground Truth。下列範例是增強資訊清單檔案中的單一 JSON 物件,但已格式化以提高可讀性:

93

Amazon Comprehend 開發人員指南多標記模式

{ "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.", "MultiClassJob": 0, "MultiClassJob-metadata": { "confidence": 0.98, "job-name": "labeling-job/multiclassjob", "class-name": "spam", "human-annotated": "yes", "creation-date": "2020-05-21T17:36:45.814354", "type": "groundtruth/text-classification" }}

在此範例中,source屬性提供了培訓文檔的文本,MultiClassJob屬性從分類列表中分配一個類的索引。的名稱MultiClassJob屬性是任意的,當您在 Ground Truth 中定義標籤工作時,您可以提供您選擇的名稱。

在此範例中,MultiClassJob屬性為標記屬性名稱,這是提供「Ground Truth」工作者指派給訓練資料之標籤的屬性。當您將訓練資料提供給 Amazon Comprehend 時,您必須指定一個或多個標籤屬性名稱。您指定的屬性名稱數量取決於您的增強資訊清單檔案是單一標籤工作的輸出還是連結的標籤工作的輸出。

如果您的檔案是單一標籤工作的輸出,請指定在 Ground Truth 中建立工作時使用的單一標籤屬性名稱。

如果您的檔案是鏈結標籤工作的輸出,請為鏈結中的一或多個工作指定標籤屬性名稱。每個標籤屬性名稱均提供個別工作的註釋。您最多可以為由鏈結標籤工作產生的增強資訊清單檔案指定其中 5 個屬性。

在擴增資訊清單檔案中,標籤屬性名稱通常在source金鑰。如果檔案是鏈結工作的輸出,則會有多個標籤屬性名稱。當您將訓練資料提供給 Amazon Comprehend 時,請僅提供那些包含與模型相關註釋的屬性。請勿指定以「-metadata」結尾的屬性。

若要取得有關鏈結標示工作的更多資訊,以及它們產生的輸出範例,請參閱鏈結標記任務在 AmazonSageMaker 開發人員指南。

多標記模式在多標籤分類中,單個類代表不同的類別,但這些類別在某種程度上是相關的,並且不是相互排斥的。因此,每個文件至少有一個指派給它的類別,但可以有更多的類別。例如,電影可以只是動作片,也可以是動作片、科幻電影和喜劇,全部同時進行。

對於培訓,多標籤模式支持多達 100 萬個示例,其中包含多達 100 個獨特的課程。

您可以將訓練資料提供為 CSV 檔案或 Amazon 提供的增強資訊清單檔案 SageMaker Ground Truth。

CSV 檔案

若要訓練自訂分類器,您可以將訓練資料提供為兩欄 CSV 檔案。在其中,標籤在第一列中提供,並在第二列中提供文檔。

請勿包含個別欄的標題。在 CSV 檔案中包含標頭可能會導致執行階段錯誤。檔案的每一行都包含一或多個類別以及訓練文件的文字。多個類可以通過在每個類之間使用分隔符(如 |)來表示。

CLASS,Text of document 1CLASS,Text of document 2CLASS|CLASS|CLASS,Text of document 3

例如,下列行屬於 CSV 檔案,該檔案會訓練自訂分類器以偵測電影摘要中的類型:

94

Amazon Comprehend 開發人員指南多標記模式

COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"

類別名稱之間的預設分隔符號是縱線 (|)。不過,您可以使用不同的字元做為分隔符號。分隔符號不能是類別名稱的一部分。例如,如果您的類是 CLASS_1,CLASS_2 和 CLASS_3,則下劃線(_) 是類別名稱的一部分。然後,您不能使用下劃線作為分隔類名稱的分隔符。

擴增資訊清單檔案

增強清單文件是由生成的標籤數據集 SageMaker Ground Truth。Ground Truth 是一項資料標籤服務,可協助您 (或您雇用的員工) 建置機器學習模型的訓練資料集。Amazon Comprehend 接受擴增資訊清單檔案做為自訂模型的訓練資料。當您使用 Amazon Comprehend 主控台建立自訂分類器時,您可以提供這些檔案CreateDocumentClassifier (p. 254)API 動作。

如需「Ground Truth」及其產生輸出的詳細資訊,請參閱使用 Amazon ATruth SageMaker 標籤資料的Ground Truth中的亞馬遜 SageMaker 開發人員指南。

擴增資訊清單檔案為 JSON 行格式。在這些檔案中,每一行都是包含訓練文件及其相關標記的完整 JSON 物件。以下示例是一個增強的清單文件,它訓練自定義分類器以檢測電影摘要中的類型:

{"source":"Document 1 text","MultiLabelJob":[0,4],"MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob","class-map":{"0":"action","4":"drama"},"human-annotated":"yes","creation-date":"2020-05-21T19:02:21.521882","confidence-map":{"0":0.66},"type":"groundtruth/text-classification-multilabel"}}{"source":"Document 2 text","MultiLabelJob":[3,6],"MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob","class-map":{"3":"comedy","6":"horror"},"human-annotated":"yes","creation-date":"2020-05-21T19:00:01.291202","confidence-map":{"1":0.61,"0":0.61},"type":"groundtruth/text-classification-multilabel"}}{"source":"Document 3 text","MultiLabelJob":[1],"MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob","class-map":{"1":"action"},"human-annotated":"yes","creation-date":"2020-05-21T18:58:51.662050","confidence-map":{"1":0.68},"type":"groundtruth/text-classification-multilabel"}}

在這個 JSON 行文件中的每一行是一個完整的 JSON 對象,其中的屬性包括文檔文本,一個或多個類名,以及其他元數據 Ground Truth。下列範例是增強資訊清單檔案中的單一 JSON 物件,但已格式化以提高可讀性:

{ "source": "A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?", "MultiLabelJob": [ 3, 8, 10, 11 ], "MultiLabelJob-metadata": { "job-name": "labeling-job/multilabeljob", "class-map": { "3": "comedy", "8": "mystery", "10": "science_fiction", "11": "teen" }, "human-annotated": "yes", "creation-date": "2020-05-21T19:00:01.291202", "confidence-map": { "3": 0.95,

95

Amazon Comprehend 開發人員指南訓練分類模型

"8": 0.77, "10": 0.83, "11": 0.92 }, "type": "groundtruth/text-classification-multilabel" }}

在此範例中,source屬性提供了培訓文檔的文本,MultiLabelJob屬性從分類列表中分配幾個類的索引。的名稱MultiLabelJob屬性是任意的,當您在 Ground Truth 中定義標籤工作時,您可以提供您選擇的名稱。

在此範例中,MultiLabelJob屬性是標記屬性名稱,這是提供「Ground Truth」工作者指派給訓練資料之標籤的屬性。當您將訓練資料提供給 Amazon Comprehend 時,您必須指定一個或多個標籤屬性名稱。您指定的屬性名稱數量取決於您的增強資訊清單檔案是單一標籤工作的輸出還是連結的標籤工作的輸出。

如果您的檔案是單一標籤工作的輸出,請指定在 Ground Truth 中建立工作時使用的單一標籤屬性名稱。

如果您的檔案是鏈結標籤工作的輸出,請為鏈結中的一或多個工作指定標籤屬性名稱。每個標籤屬性名稱均提供個別工作的註釋。您最多可以為由鏈結標籤工作產生的增強資訊清單檔案指定其中 5 個屬性。

在擴增資訊清單檔案中,標籤屬性名稱通常會在source金鑰。如果檔案是鏈結工作的輸出,則會有多個標籤屬性名稱。當您將訓練資料提供給 Amazon Comprehend 時,請僅提供那些包含與模型相關註釋的屬性。請勿指定以「-metadata」結尾的屬性。

若要取得有關鏈結標示工作的更多資訊,以及它們產生的輸出範例,請參閱鏈結標記任務在 Amazon GroundTruth SageMaker 開發人員指南。

訓練分類模型在多類或多標籤模式下訓練您的自定義分類器模型。的概念類別用於這兩種模式。這是一個自訂類別,適用於要分析的文件。但是,每種模式使用類別的方式都不同。多類模式與每個文檔僅關聯一個類。多標籤模式將多個類別與文件相關聯。每種模式的訓練資料格式也不同。

您可以使用下列任何與 Amazon Comprehend 搭配使用的語言來訓練自訂分類器:英文、西班牙文、德文、義大利文、法文或葡萄牙文。不過,您只能訓練一種語言的分類器。分類器不支援多種語言。

建立自訂分類器之後,您可以使用DescribeDocumentClassifier (p. 279)operation. OnceStatus欄位是TRAINED然後,您可以使用分類器對文件進行分類。

主題• 訓練自訂分類器 (主控台) (p. 96)• 訓練和執行自訂分類器 (API) (p. 98)• 指標訓練資料 (p. 102)• 自訂分類器指標 (p. 103)

訓練自訂分類器 (主控台)您可以使用控制台創建和訓練自定義分類器,然後使用自定義分類器來分析您的文檔。

若要訓練自訂分類器,您需要一組訓練文件。您可以使用您希望文件分類器辨識的類別來標示這些文件。如需這些訓練文件的詳細資訊,請參閱自訂分類 (p. 92)。

96

Amazon Comprehend 開發人員指南訓練自訂分類器 (主控台)

建立並訓練文件分類器

1. 登入AWS Management Console並開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇自訂,然後選擇自訂分類。3. 選擇建立新模型。4. 指定分類器名稱。此名稱在您的帳戶和目前的地區中無相同名稱。5. 選取訓練文件的語言。您可以使用任何與 Amazon Comprehend 搭配使用的語言來訓練文件分類器。

不過,您只能使用一種語言訓練分類器。如需進一步了解,請參閱Amazon Comprehend 支援的語言。 (p. 32)

6. (選擇性) 如果您想要在處理訓練工作時加密儲存磁碟區中的資料,請選擇分類器加密然後選擇要使用與您目前帳戶相關聯的 KMS 金鑰,還是使用另一個帳戶的 KMS 金鑰。

• 若您使用目前帳戶的金鑰 IDKMS 金鑰 ID。• 若您使用的金鑰 ID,請輸入金鑰 ID,請輸入金鑰 IDKMS 金鑰 ARN。

Note

如需建立和使用 KMS 金鑰和相關加密的詳細資訊,請參閱金鑰管理服務 (KMS)。7. UND資料規格,選擇要使用的分類器模式。

• 單標模式:如果您指派給文件的類別是互斥的,而且您正在訓練分類器為每個文件指派一個且僅有一個標籤,請選擇此選項。

• 多標籤模式 如果多個類別可以同時套用至文件,而且您正在訓練分類器為每個文件指派一個、多個、全部或沒有標籤,請選擇此選項。

8. 如果您選擇多標籤,選擇當每行有多個標籤時要用於分隔標籤的字元分隔符號標籤的分隔符號。9. UND資料格式,選擇訓練文件的格式:

• CSV 檔案— 兩欄 CSV 檔案,其中第一欄會提供標籤,第二欄提供文件。• 擴增資訊— 由亞馬遜生產的標籤數據集 SageMaker Ground Truth. 這個文件是 JSON 行格式。每一

列都是一個包含訓練文件及其相關標籤的完整 JSON 物件。

如需這些格式的詳細資訊,請參閱準備訓練資料 (p. 92)。10. UND訓練資料集,輸入包含訓練文件的 Amazon S3 儲存貯體。選擇資料夾。您用於培訓任務的 IAM 角

色必須具備 S3 儲存貯體的讀取許可。11. UND測試資料集選取您要如何評估訓練模型的效能-您可以針對註釋和圖元清單訓練類型執行此操作。

• 自動分割:自動拆分自動選擇您提供的訓練數據的 10% 用作測試數據• (選用)客戶提供:當您選擇提供的客戶時,您可以準確指定要使用的測試數據。如果您選取客戶提供

的測試資料集,請在 Amazon S3 中輸入註釋檔案的 URL。您也可以導覽至 Amazon S3 中註釋檔案所在的儲存貯體或資料夾,然後選擇選擇資料夾。

12. (選擇性) 如果您希望 Amazon Comprehend 建立混淆矩陣以提供分類器在訓練期間執行的程度指標,請輸入 Amazon S3 儲存貯體的儲存位置。如需詳細資訊,請參閱 Conprehend (p. 106)。

(選擇性) 如果您選擇加密訓練工作的輸出結果,請選擇Encryption (加密),然後選擇使用目前帳戶關聯的KMS 金鑰。

• 如果您使用目前帳戶關聯的金鑰,請選擇金鑰別名KMS 金鑰 ID。• 如果您使用與其他帳戶相關聯的金鑰,請在下方輸入金鑰別名或 ID 的 ARNKMS 金鑰 ID。

13. 選擇選擇現有 IAM 角色,然後選擇具有包含訓練文件之 S3 儲存貯體讀取許可的現有 IAM 角色。只有具有以理解開頭的信任原則的角色才有效。

如果您的內還沒有具備這些許可的 IAM 角色,請選擇建立 IAM 角色做一個。選擇要授與此角色的存取權限,然後選擇名稱尾碼,以區分該角色與帳戶中的 IAM 角色。

97

Amazon Comprehend 開發人員指南訓練和執行自訂分類器 (API)

Note

如果輸入文件已加密,則使用的 IAM 角色也必須具有kms:Decrypt許可。如需詳細資訊,請參閱 使用 KMS 加密所需的權限 (p. 183)。

14. (選擇性) 若要從 VPC 將您的資源啟動至 Amazon Comprehend,請在下方輸入 VPC 識別碼VPC或從下拉式清單中,選擇 ID。

1. 選擇下方的子網路子網。選取第一個子網路後,您可以選擇其他子網路。2. UND安全群組,如果您已指定安全性群組,請選擇要使用的安全性群組。選取第一個安全性群組後,

您可以選擇其他群組。

Note

當您將 VPC 與分類工作搭配使用時,DataAccessRole用於「建立」和「開始」作業必須具有存取輸入文件和輸出值區的 VPC 權限。

15. (選用) 若要將標籤新增標籤標籤。選擇 Add tag (新增標籤)。若要在建立分類器之前移除此配對,請選擇移除標籤。如需詳細資訊,請參閱 標記您的資源 (p. 168)。

16. 選擇 Create (建立)。

然後,新的分類器將出現在列表中,顯示其狀態。它將首先顯示為Submitted。然後它會顯示Training對於正在處理培訓文檔的分類器,Trained對於準備使用的分類器,並且In error針對發生錯誤的分類器。您可以按一下工作以取得有關分類器的詳細資訊,包括任何錯誤訊息。

訓練和執行自訂分類器 (API)若要建立和訓練自訂分類器,請使用CreateDocumentClassifier (p. 254)operation. 若要識別文件語料庫中的自訂分類器,請使用StartDocumentClassificationJob (p. 377)operation.

主題• 搭配使用自訂分類AWS Command Line Interface (p. 98)• 使用自訂分類AWS SDK for Java (p. 100)• 使用自訂分類AWS SDK for Python (Boto) (p. 101)

搭配使用自訂分類AWS Command Line Interface以下範例示範一些動作的CreateDocumentClassifier操作,StartDocumentClassificationJob操作和其他自定義分類器 APIAWS CLI。

98

Amazon Comprehend 開發人員指南訓練和執行自訂分類器 (API)

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

建立自訂分類器create-document-classifieroperation.

aws comprehend create-document-classifier \ --region region \ --document-classifier-name testDelete \ --language-code en \ --input-data-config S3Uri=s3://S3Bucket/docclass/file name \ --data-access-role-arn arn:aws:iam::account number:role/testDeepInsightDataAccess

使用文檔分類器 ARN 獲取有關自定義分類器的信息DescribeDocumentClassifieroperation.

aws comprehend describe-document-classifier \ --region region \ --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/file name

刪除自訂分類器DeleteDocumentClassifieroperation.

aws comprehend delete-document-classifier \ --region region \ --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/testDelete

列出帳戶中使用的所有自訂分類器ListDocumentClassifiersoperation.

aws comprehend list-document-classifiers --region region

使用執行自訂分類工作StartDocumentClassificationJoboperation.

aws comprehend start-document-classification-job \ --region region \ --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/testDelete \ --input-data-config S3Uri=s3://S3Bucket/docclass/file name,InputFormat=ONE_DOC_PER_LINE \ --output-data-config S3Uri=s3://S3Bucket/output \ --data-access-role-arn arn:aws:iam::account number:role/resource name

使用DescribeDocumentClassificationJoboperation.

aws comprehend describe-document-classification-job \ --region region \ --job-id job id

列出您帳戶中所有的自訂分類工作ListDocumentClassificationJobsoperation.

aws comprehend list-document-classification-jobs --region region

使用建立與特定自訂模型相關聯的端點CreateEndpointoperation.

aws comprehend create-endpoint \ --desired-inference-units number of inference units \

99

Amazon Comprehend 開發人員指南訓練和執行自訂分類器 (API)

--endpoint-name endpoint name \ --model-arn arn:aws:comprehend:region:account-id:model/example \ --tags Key=My1stTag,Value=Value1

使用端點執行自訂分類要求ClassifyDocumentoperation.

aws comprehend classify-document \ --endpoint-arn arn:aws:comprehend:region:account-id:endpoint/endpoint name \ --text 'text.'

使用更新端點UpdateEndpointoperation.

aws comprehend update-endpoint \ --desired-inference-units updated number of inference units \ --endpoint-arn arn:aws:comprehend:region:account-id:endpoint/endpoint name

使用刪除端點DeleteEndpointoperation.

aws comprehend delete-endpoint \ --endpoint-arn arn:aws:comprehend:region:account-idendpoint/endpoint name

取得端點 Arn 的端點資訊,使用DescribeEndpointoperation.

aws comprehend describe-endpoint \ --endpoint-arn arn:aws:comprehend:region:account-id:endpoint/endpoint name

使用列出您帳戶中的所有端點ListEndpointsoperation.

aws comprehend list-endpoint \ --filter status=Ready --max-results 50

使用自訂分類AWS SDK for Java此示例創建一個自定義分類器並使用 Java 對其進行培訓

import com.amazonaws.services.comprehend.AmazonComprehend;

import com.amazonaws.services.comprehend.AmazonComprehendClientBuilder;import com.amazonaws.services.comprehend.model.CreateDocumentClassifierRequest;import com.amazonaws.services.comprehend.model.CreateDocumentClassifierResult;import com.amazonaws.services.comprehend.model.DescribeDocumentClassifierRequest;import com.amazonaws.services.comprehend.model.DescribeDocumentClassifierResult;import com.amazonaws.services.comprehend.model.DocumentClassifierInputDataConfig;import com.amazonaws.services.comprehend.model.LanguageCode;import com.amazonaws.services.comprehend.model.ListDocumentClassifiersRequest;import com.amazonaws.services.comprehend.model.ListDocumentClassifiersResult;

public class DocumentClassifierDemo {

public static void main(String[] args) { final AmazonComprehend comprehendClient = AmazonComprehendClientBuilder.standard() .withRegion("us-west-2") .build();

final String dataAccessRoleArn = "arn:aws:iam::account number:role/resource name";

100

Amazon Comprehend 開發人員指南訓練和執行自訂分類器 (API)

final CreateDocumentClassifierRequest createDocumentClassifierRequest = new CreateDocumentClassifierRequest() .withDocumentClassifierName("SampleCodeClassifier") .withDataAccessRoleArn(dataAccessRoleArn) .withLanguageCode(LanguageCode.En) .withInputDataConfig(new DocumentClassifierInputDataConfig() .withS3Uri("s3://S3Bucket/docclass/file name"));

final CreateDocumentClassifierResult createDocumentClassifierResult = comprehendClient.createDocumentClassifier(createDocumentClassifierRequest); final String documentClassifierArn = createDocumentClassifierResult.getDocumentClassifierArn();

System.out.println("Document Classifier ARN: " + documentClassifierArn);

final DescribeDocumentClassifierRequest describeDocumentClassifierRequest = new DescribeDocumentClassifierRequest() .withDocumentClassifierArn(documentClassifierArn); final DescribeDocumentClassifierResult describeDocumentClassifierResult = comprehendClient.describeDocumentClassifier(describeDocumentClassifierRequest); System.out.println("DescribeDocumentClassifierResult: " + describeDocumentClassifierResult);

final ListDocumentClassifiersRequest listDocumentClassifiersRequest = new ListDocumentClassifiersRequest();

final ListDocumentClassifiersResult listDocumentClassifiersResult = comprehendClient .listDocumentClassifiers(listDocumentClassifiersRequest); System.out.println("ListDocumentClassifierResult: " + listDocumentClassifiersResult ); }}

使用自訂分類AWS SDK for Python (Boto)此示例創建一個自定義分類器並使用 Python 對其進行培訓

import boto3

# Instantiate Boto3 SDK:client = boto3.client('comprehend', region_name='region')

# Create a document classifiercreate_response = client.create_document_classifier( InputDataConfig={ 'S3Uri': 's3://S3Bucket/docclass/file name' }, DataAccessRoleArn='arn:aws:iam::account number:role/resource name', DocumentClassifierName='SampleCodeClassifier1', LanguageCode='en')print("Create response: %s\n", create_response)

# Check the status of the classifierdescribe_response = client.describe_document_classifier( DocumentClassifierArn=create_response['DocumentClassifierArn'])print("Describe response: %s\n", describe_response)

# List all classifiers in accountlist_response = client.list_document_classifiers()print("List response: %s\n", list_response)

101

Amazon Comprehend 開發人員指南指標訓練資料

此示例使用 Python 運行自定義分類器作業

import boto3

# Instantiate Boto3 SDK:client = boto3.client('comprehend', region_name='region')

start_response = client.start_document_classification_job( InputDataConfig={ 'S3Uri': 's3://srikad-us-west-2-input/docclass/file name', 'InputFormat': 'ONE_DOC_PER_LINE' }, OutputDataConfig={ 'S3Uri': 's3://S3Bucket/output' }, DataAccessRoleArn='arn:aws:iam::account number:role/resource name', DocumentClassifierArn= 'arn:aws:comprehend:region:account number:document-classifier/SampleCodeClassifier1')

print("Start response: %s\n", start_response)

# Check the status of the jobdescribe_response = client.describe_document_classification_job(JobId=start_response['JobId'])print("Describe response: %s\n", describe_response)

# List all classification jobs in accountlist_response = client.list_document_classification_jobs()print("List response: %s\n", list_response)

指標訓練資料在訓練模型之後,Amazon Comprehend 會測試自訂分類器模型。如果您未提供測試資料,AmazonComprehend 會使用 90% 的訓練資料來訓練模型,並保留 10% 的訓練資料用於測試。

測試模型為您提供指標,您可以使用這些指標來判斷模型訓練是否足以滿足您的目的。這些指標會顯示分類器效能的 區段分類器詳細資料主控台中的頁面。他們也被返回Metrics由傳回的欄位DescribeDocumentClassifier (p. 279)operation.

例如,在下面的培訓數據樣本中,有 5 個標籤,紀錄片,紀錄片,科幻小說,紀錄片,浪漫喜劇。有3 獨特的類:紀錄片, 科幻, 浪漫喜劇.

column 1 2 (欄)

紀錄片 文件文字 1

紀錄片 文件文字 2

科幻小說 文件文字 3

紀錄片 文件文字 4

浪漫喜劇 文件文字 5

例如, 如果數據包含 1000 紀錄片類的實例, 900 科學小說的實例, 和浪漫喜劇類的單個實例, 那麼測試集將大約是 100 紀錄片和 90 科幻實例. 由於只有一個可用的例子,所以 ROMANTIC_TOMISTIC_TOMY 類不會包含在測試集中。這是因為在這樣的設置中,您不太可能在預測/推論期間看到被歸類為 ROMANTIC_TOMIT的文檔。

102

Amazon Comprehend 開發人員指南指標

完成模型訓練後,訓練指標可以為您提供資訊,讓您可以使用這些資訊來決定模型是否已根據您的需求進行足夠的訓練。

自訂分類器指標Amazon Comprehend 提供指標,協助您估算自訂分類器在工作上的運作效率。它們以訓練分類器模型為基礎,因此雖然它們在訓練期間準確地表示模型的效能,但它們只是分類期間模型效能的近似值。

每當傳回訓練過的自訂分類器中的中繼資料時,都會包含指標。

Note

請參閱指標:精確度,召回和 fScore以瞭解基礎精確度、召回和 F1 評分量度。這些測量結果是在類別層次定義。我們已經使用過巨集平均結合這些指標在一起拿出測試集 P,R,F1,如下所述。

Amazon Comprehend 創建一個Conprehend (p. 106)作為自定義分類器模型培訓的一部分。這會放置在指定的輸出檔案中CreateDocumentClassifier (p. 254)操作,可用於評估模型的工作原理。

主題• 指標 (p. 103)• 提高自定義分類器的性能 (p. 106)• Conprehend (p. 106)

指標Amazon Comprehend 支援下列指標:

主題• 正確性 (p. 104)• 精確度(宏觀精度) (p. 104)• 召回(宏調用) (p. 104)• F1 得分(宏 F1 得分) (p. 105)• 漢明損失 (p. 105)• 微型精確度 (p. 105)• 微調用 (p. 105)• 微型 F1 分數 (p. 106)

這些可以在分類器詳細資料主控台中的頁面。

103

Amazon Comprehend 開發人員指南指標

正確性

準確度指示來自測試資料的標籤百分比,這些資料是由模型預測完全正確的。換句話說,這是正確識別的標籤的分數。它是通過除以測試文檔中的標籤的總數正確識別的測試文檔中的標籤的數量來計算的。

例如

實際標籤 預測的標籤 對/錯

1 1 Right (右)

0 1 錯誤

2 3 錯誤

3 3 Right (右)

2 2 Right (右)

1 1 Right (右)

3 3 Right (右)

準確度包括「權利」的數量除以整體測試樣本的數量 = 5/7 = 0.714,或 71.4%

精確度(宏觀精度)

精度是測試數據中分類器結果的有用性的度量。它被定義為正確分類的文檔數量,除以類的分類總數。高精度意味著分類器返回的結果比不相關的結果更具相關性。

所以此Precision指標也稱為巨集精確度。

這會在以下測試集中示範:

標籤 容量 Label

標籤 400 0.75

商標貼紙 _2 300 0.80

商標貼紙 _3 30000 0.90 版

商標貼紙 _4 20 0.50

商標貼紙 _5 10 0.40

因此,模型的精確度 (巨集精確度) 公制為:

Macro Precision = (0.75 + 0.80 + 0.90 + 0.50 + 0.40)/5 = 0.67

召回(宏調用)

這表示模型可以預測的文字中正確類別的百分比。此指標來自所有可用標籤的召回分數的平均值。召回是測試數據分類器結果的完整程度。

高召回意味著分類器返回了大部分相關結果。

104

Amazon Comprehend 開發人員指南指標

所以此Recall指標也稱為巨集調用。

這會在以下測試集中示範:

標籤 容量 標籤調用

標籤 400 0.70

商標貼紙 _2 300 0.70

商標貼紙 _3 30000 0.98

商標貼紙 _4 20 0.80

商標貼紙 _5 10 0.10

因此,模型的召回 (巨集重新叫用) 量度為:

Macro Recall = (0.70 + 0.70 + 0.98 + 0.80 + 0.10)/5 = 0.656

F1 得分(宏 F1 得分)F1 分數來自Precision和Recall有效值。它測量分類器的整體精確度。最高分為 1,最低分數為 0。

Amazon Comprehend 計算巨集。它是 F1 分數標籤的未加權平均值。使用以下測試集作為示例:

標籤 容量 F1 分數

標籤 400 0.724

商標貼紙 _2 300 0.824

商標貼紙 _3 30000 0.94

商標貼紙 _4 20 0.62

商標貼紙 _5 10 0.16

模型的 F1 分數 (巨集 F1 分數) 的計算方式如下:

Macro F1 Score = (0.724 + 0.824 + 0.94 + 0.62 + 0.16)/5 = 0.6536

漢明損失不正確預測的標籤分數。與標籤總數相比,也被視為錯誤標籤的分數。分數接近零越好。

微型精確度原始的:

如上所述的 Precision,除了所有可用標籤的精確度分數的平均值之外,這是根據加在一起的所有精確度分數的整體分數而定。

微調用如上所述,除了所有標籤的召回分數的平均值之外,這是基於所有召回分數加在一起的總分數。

105

Amazon Comprehend 開發人員指南指標

微型 F1 分數如 F1 分數以上,而是微精度和微調回指標的組合。

提高自定義分類器的性能這些指標可讓您深入瞭解自訂分類器在分類工作期間的執行方式。如果指標很低,則分類模型很可能對您的使用案例無效。如果發生這種情況,您有幾個選項可以提高分類器性能。

1. 在您的訓練資料中,提供更具體的資料,以便輕鬆區隔類別。例如,提供最能以唯一字詞/句子來表示標籤的文件。

2. 在訓練資料中為代表不足的標籤新增更多資料。3. 嘗試減少類別中的歪斜。如果資料中最大的標籤超過最小標籤中文件的 10 倍以上,請嘗試增加最小的文

件數量,並確保在高度代表和最少代表的類別之間將歪斜比率降至至少 10:1。您也可以嘗試從高度表示的類中刪除一些文檔。

Conprehend訓練自訂分類器模型時,Amazon Comprehend 會建立混淆矩陣,提供有關模型在訓練中執行效能的指標。這可讓您評估分類器在執行時執行的效能。此矩陣會顯示模型預測的標籤矩陣 (與實際標籤相比),並使用提交來測試訓練模型的文件的 10% 到 20% 來建立。

混淆矩陣可以對添加更多數據將有助於建模性能的類提供非常好的指示。沿著矩陣對角線顯示的標籤的較高部分樣本表示分類器能夠更準確地對該標籤進行分類。如果此數字較低(如果標籤類別在矩陣的非對角部分中具有較高的樣本部分),則可以嘗試添加更多樣本。例如,如果 40% 的標籤 A 樣本被分類為標籤 D,則為標籤 A 和標籤 D 添加更多樣本將提高分類器的性能。如需詳細資訊,請參閱 Conprehend (p. 106)。

產生的混淆矩陣的格式會有所不同,具體取決於您是否使用多類或多標籤模式訓練分類器。

多類模式的混淆矩陣回想一下,在多類分類中,單個類是相互排斥的,並且每個文檔都預計有一個並且只有一個標籤分配給它。例如,動物可以是一隻狗,但不能同時指定。

請考慮下列範例:

A B X Y <-(predicted label)A 1 2 0 4B 0 3 0 1X 0 0 1 0Y 1 1 1 1^|(actual label)

在這種情況下,模型預測了以下情況:

• 一個「A」標籤被正確識別,兩個「A」標籤被錯誤地識別為實際「B」標籤,四個「A」標籤被錯誤地識別為「Y」標籤。

• 三個「B」標籤被正確識別,一個「B」標籤被錯誤地識別為「Y」標籤。• 正確識別了一個「X」。• 一個「Y」標籤被錯誤地識別為「A」標籤,一個標籤被錯誤地識別為「B」標籤,一個被錯誤地識別為

「X」標籤,並且一個被正確地識別為「Y」標籤。

在此矩陣中,正確識別的標籤顯示在對角線上(A:A,B:B,X:X 和 Y:Y),因此您可以輕鬆地檢查表中的預測錯誤,因為它們將被表示為此對角線之外的值。在這種情況下,您可以看到模型正確識別「X」標

106

Amazon Comprehend 開發人員指南指標

籤(儘管樣本非常小),並且可以正確識別 75% 的時間「B」標籤。但是,它錯誤地識別「A」標記了 86%的時間,並以不比隨機機會更好的速度正確識別「Y」標籤。

混淆矩陣以 JSON 格式呈現,上述範例如下所示:

{ "type": "multi_class", "confusion_matrix": [ [1, 2, 0,4], [0, 3, 0, 1], [0, 0, 1, 0], [1, 1, 1, 1]], "labels": ["A", "B", "X", "Y"], "all_labels": ["A", "B", "X", "Y"]}

多標籤模式的混淆矩陣

回想一下,在多標籤分類中,個別標示代表不同的品類,但這些品類在某種程度上是相關的。例如,電影可以只是動作片,也可以是動作片、科幻電影和喜劇,全部同時進行。

請考慮下列範例。

在此範例中,有三種可能的標籤:Comedy、Action,以及Drama。與多類混淆矩陣不同,多標籤混淆矩陣為每個標籤創建一個 2x2 矩陣,如下所示。

Comedy Action Drama No Yes No Yes No Yes <-(predicted label) No 2 1 No 1 1 No 3 0 Yes 0 2 Yes 2 1 Yes 1 1 ^ ^ ^ | | | |-----------(was this label actually used)--------|

在此情況下,模型會傳回下列ComedyLabel:

• 兩個執行個體Comedy標籤不存在,並且正確地預測不存在。真否定 (TN)。• 零執行個體,其中Comedy標籤預計存在,但不存在。假肯定 (FP)。• 一個執行個體Comedy標籤預計缺席,但存在。假否定 (FN)。• 兩個執行個體Comedy標籤存在正確地預測存在。真肯定 (TP)。

與上面的多類混淆矩陣一樣,此處正確識別的標籤顯示在對角線上(是:是和否:否)。您可以輕鬆地檢查表格中的預測錯誤,因為它們將表示為此對角線之外的值。在這種情況下,您可以看到模型是否正確識別Comedy標籤作為目前 40% 的時間,並且可以正確地識別他們的缺席相同程度(40%)。但是,它錯誤地識別Comedy標籤存在 20% 的時間。它沒有錯誤地識別Comedy標籤作為缺席時,它不是。

混淆矩陣以 JSON 格式呈現,上述範例如下所示:

{"type": "multi_label","confusion_matrix": [ [[2, 1], [0, 2]], [[1, 1],

107

Amazon Comprehend 開發人員指南執行自訂分類器

[2, 1]], [[3, 0], [1, 1]]], "labels": ["Comedy", "Action", "Drama"]"all_labels": ["Comedy", "Action", "Drama"]}

所以此 CreateDocumentClassifier API

執行時,混淆矩陣可用CreateDocumentClassifier (p. 254)API。執行作業時,混淆矩陣會顯示在confusion_matrix.json檔案,位於s3://user-defined-path/unique-value/output/output.tar.gz位置 user-defined-path 是S3Uri的OutputDataConfig中的參數CreateDocumentClassifier (p. 254)operation.

執行自訂分類器模型訓練自訂分類器模型之後,您可以執行即時或非同步自訂分類。您需要建立端點,才能使用自訂模型執行即時分析。

主題• 自訂分類的即時分析 (主控台) (p. 108)• 非同步分類工作的輸入和輸出 (p. 110)• 自訂分類的分析工作 (主控台) (p. 113)

自訂分類的即時分析 (主控台)建立並訓練自訂分類器模型之後,您可以針對自訂分類執行即時 (同步) 分析。由於分析是同步的,因此您可以使用自訂模型建置即時應用程式。

您可以建立端點以使用自訂模型執行即時分析。端點包含受管資源,可讓您的自訂模型可用於即時推論。指派給端點的輸送量等級是以推論單位,每一個代表每秒 100 個字元的資料輸送量。您最多可以使用 10 個推論單元佈建端點。您可以透過更新端點來擴展或縮減端點輸送量。

完成即時分析後,請刪除端點,因為只要端點處於作用中狀態,該端點的費用就會繼續進行。當您準備好執行進一步的即時分析時,您可以建立另一個端點。

如需端點成本的詳細資訊,請參閱Amazon Comprehend Mend Mend Mend。

建立端點後,您可以使用 Amazon 對其進行監控 CloudWatch,更新它以變更其推論單位,或在不再需要時將它刪除。如需詳細資訊,請參閱 Amazon Comprehend Mend Mend Mend (p. 157)。

主題• 建立自訂分類的端點 (p. 108)• 執行即時自訂分類 (p. 109)

建立自訂分類的端點您需要建立端點,才能使用自訂模型執行即時分析。

建立端點 (主控台)

1. 前往登入AWS Management Console開啟Amazon Comprehend 主控台。

108

Amazon Comprehend 開發人員指南即時分析 (主控台)

2. 在左側功能表中,選擇端點並選擇建立端點按鈕。一個建立端點畫面開啟。3. 指定端點名稱。此名稱在 AWS 區域和帳戶中必須是唯一的。4. 選擇您要連接新端點的自訂模型。從下拉菜單中,您可以按型號名稱進行搜索。

Note

您需要先建立模型,才能將端點連接至模型。如果您尚未有模特兒,請前往前往前往登入自訂分類或者自訂圖元辨識建立一個。

5. (選用) 若要將標籤新增至端點,請在標籤並選擇新增標籤。若要在建立端點之前移除此配對,請選擇移除標籤

6. 輸入要指派給端點的推論單元 (IU) 數目。每個單位代表每秒 100 個字元的輸送量,最多每秒 2 個文件。7. (選擇性) 如果要建立新端點,您可以選擇使用 IU 估算器。您可能很難瞭解您需要多少個推論單位,具體

取決於輸送量或每秒要分析的字元數,尤其是在大規模上。此選擇性步驟可協助您判斷要請求的 IU 數目。

Note

可用的 IU 的範圍是 1 到 10。每秒可分析的字元數上限為 1000 個。8. 來自購買摘要,檢閱您估計的每小時、每日和每月端點成本。9. 如果您了解從端點啟動到刪除為止,將向您收取該端點費用,請選取此核取方塊。10. 選擇建立端點

建立端點 (端點)AWS CLI)

以下範例示範使用CreateEndpoint使用 AWS CLI 進行操作。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend create-endpoint \ --desired-inference-units number of inference units \ --endpoint-name endpoint name \ --model-arn arn:aws:comprehend:region:account-id:model/example \ --tags Key=My1stTag,Value=Value1

Amazon Comprehend 回應下列項目:

{ "EndpointArn": "Arn"}

執行即時自訂分類建立端點後,您可以使用自訂模型執行即時分析。有兩種不同的方式可以從主控台執行即時分析,如下所示,以及 CLI 方法。

(程序 A) 使用自訂模型 (主控台) 執行即時分析

1. 前往登入AWS Management Console開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇即時分析。3. UNER輸入類型,選擇自訂為了分析類型。4. 適用於選擇端點下,選擇您想要使用的端點。此端點連結至特定的自訂模型。5. 輸入您想要分析的文字;

109

Amazon Comprehend 開發人員指南非同步任務的輸入和輸出

6. 選擇分析。會顯示以您自訂模型為基礎的文字分析,以及分析的可信度評估。

(程序 B) 使用自訂模型 (主控台) 執行即時分析

1. 前往登入AWS Management Console開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇自訂然後選擇自訂分類。3. 來自分類器清單中,選擇您要更新端點的自訂模型名稱,然後遵循連結。系統會顯示自訂模型詳細資訊

頁面。4. 導覽至 。端點列表中,選擇您要用於即時分析的端點名稱,然後按照連結進行操作。系統會顯示端點詳

細資訊頁面。5. 選擇用於即時分析。6. 適用於輸入文字下,輸入您想要分析的文字;7. 選擇分析。會顯示以您自訂模型為基礎的文字分析,以及分析的可信度評估。

若要使用自訂模型執行即時分析 (AWS CLI)

以下範例示範使用ClassifyDocument使用 AWS CLI 進行操作。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend classify-document \ --endpoint-arn arn:aws:comprehend:region:account-id:endpoint/endpoint name \ --text 'From the Tuesday, April 16th, 1912 edition of The Guardian newspaper: The maiden voyage of the White Star liner Titanic, the largest ship ever launched ended in disaster. The Titanic started her trip from Southampton for New York on Wednesday. Late on Sunday night she struck an iceberg off the Grand Banks of Newfoundland. By wireless telegraphy she sent out signals of distress, and several liners were near enough to catch and respond to the call.'

Amazon Comprehend 回應下列項目:

{ "Classes": [ { "Name": "string", "Score": 0.9793661236763 } ]}

非同步分類工作的輸入和輸出訓練完模型後,您的自訂分類器可用於非同步使用來分類未標籤的文件。

Note

如果在多類模式下進行培訓,您的客戶分類器也可以用於對文檔的實時見解。不過,即時分析一次只能套用至單一文件。如需詳細資訊,請參閱 自訂分類的即時分析 (主控台) (p. 108)。

對於非同步分析,所有文件必須是 UTF-8 格式的文字檔案。雖然您只能訓練您的自訂分類模型onedocument per line格式,您可以以該格式或提交您的文件one document per file。您使用的格式,取決於您要分析的文件類型,如下所述。

110

Amazon Comprehend 開發人員指南非同步任務的輸入和輸出

描述 格式

每個檔案都包含一個輸入文件。這最適合大型文件的集合,例如報紙文章或科學論文。

每個檔案一個文件

輸入為一或多個檔案。檔案中的每一行都被視為一個文件。這最適合短文件,例如文字訊息或社交媒體貼文。

每行必須以換行符 (LF,\ n)、回車符 (CR,\ r) 或兩者結尾 (CRLF,\ r\ n)。您不能使用 UTF-8 行分隔符(u+2028)來結束一行。

每行一個文件

每行一個文件

使用One document per line方法中,每個文檔被放置在一個單獨的行,不使用標題。標籤不包含在每一行(因為您還不知道文檔的標籤)。檔案的每一行 (個別文件的結尾) 必須以換行符 (LF,\ n)、歸位字元 (CR,\r) 或兩者結尾 (CRLF,\ r\ n)。

輸入檔案的格式可以看出如下:

Text of document 1 \nText of document 2 \nText of document 3 \nText of document 4 \n

準備文件檔案之後,您可以將該檔案放在用於輸入資料的 S3 儲存貯體中。

每個檔案一個文件

與先前的方法一樣,用於此方法的文件必須是 UTF-8 格式的文本文件。其中每一個都放置在用於輸入資料的S3 儲存貯體中。

輸入資料儲存貯體包含用於執行分類工作的檔案。每個檔案代表一個文件。

開始分類任務時,您將為輸入資料指定此 Amazon S3 位置。此 URI 必須與您呼叫的 API 端點位於同一個AWS 區域。URI 可以指向單個文件(如使用「每行一個文檔」方法時,也可以是數據文件集合的前綴。

例如,如果您使用 URIS3://bucketName/prefix,如果前置詞是單一檔案,Amazon Comprehend 會使用該檔案做為輸入。如果有多個檔案以前綴開頭,Amazon Comprehend 會使用所有這些檔案作為輸入。

授與 Amazon Comprehend 存取權限,存取其中包含文件收集和輸出檔案的 S3 儲存貯體。如需詳細資訊,請參閱 非同步作業所需的角色型權限 (p. 186)。

分類任務使用StartDocumentClassificationJob (p. 377)操作開始分類未標籤的文檔。您提供包含要分類文件的 S3 儲存貯體、應放置輸出的 S3 儲存貯體,以及要使用的分類器。

自訂分類為非同步分類。一旦您開始工作,請使用DescribeDocumentClassificationJob (p. 276)操作來監視其進度。當Status回應中的欄位顯示COMPLETED,您可以在您指定的位置存取輸出。

分類任務輸出

對於非同步分析,所有文件必須是 UTF-8 格式的文字檔案。雖然您只能訓練您的自訂分類模型onedocument per line格式,您可以以該格式或提交您的文件one document per file。您使用的格式,取決於您要分析的文件類型,如下所述。

111

Amazon Comprehend 開發人員指南非同步任務的輸入和輸出

分類工作的輸出不僅取決於您使用的資料集。輸出還取決於您使用的分類器是針對多類還是多標籤模式進行了訓練。推論 (分類工作) 直接依賴於使用的分類器模型訓練模式。

無論使用的模式為何,工作輸出都包含一個名為的單一檔案output.tar.gz。它是一個壓縮的歸檔文件,其中包含帶有輸出的文本文件。

多類別輸出

當您使用在多類模式下訓練的分類器時,您的結果將按以下方式顯示classes。每個這些classes是訓練分類器時用來建立類別集合的類別。

下列範例會使用下列互斥類別。

DOCUMENTARYSCIENCE_FICTIONROMANTIC_COMEDYSERIOUS_DRAMAOTHER

如果您的輸入資料格式為每行一個文件,輸出檔案會針對輸入中的每一行包含一行。每一行都有文件名,從零開始的輸入行的行號,文檔中找到的一個或多個類。最終結果是 Amazon Comprehend 確信個別執行個體已正確分類。

例如:

{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}{"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}{"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]}{"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

如果您的輸入資料格式為每個檔案一個文件,則輸出檔案會針對每個文件包含一行。每一行都有檔案的名稱,以及在文件中找到的一個或多個類別。最終結果是 Amazon Comprehend 確信個別執行個體已正確分類。

例如:

{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}{"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}{"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]}{"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

多標籤輸出

當您使用在多標籤模式下訓練的分類器時,您的結果會以下列方式顯示:labels。每個這些labels是訓練分類器時用於創建類別集的標籤。

下列範例使用這些唯一的標籤。

SCIENCE_FICTIONACTION

112

Amazon Comprehend 開發人員指南分析任務 (主控台)

DRAMACOMEDYROMANCE

如果您的輸入資料格式為每行一個文件,輸出檔案會針對輸入中的每一行包含一行。每一行都有文件名,從零開始的輸入行的行號,文檔中找到的一個或多個類。最終結果是 Amazon Comprehend 確信個別執行個體已正確分類。

例如:

{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}{"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}{"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}{"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

如果您的輸入資料格式為每個檔案一個文件,則輸出檔案會針對每個文件包含一行。每一行都有檔案的名稱,以及在文件中找到的一個或多個類別。最終結果是 Amazon Comprehend 確信個別執行個體已正確分類。

例如:

{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}{"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}{"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}{"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

Note

如需非同步分析任務格式的詳細資訊,請參閱非同步批次處理 (p. 31)

自訂分類的分析工作 (主控台)建立並培訓自訂文件分類器,您可以使用它來運行自定義分類器作業。

建立自訂分類任務

1. 前往登入AWS Management Console並開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇分析任務,接著選擇建立任務。3. 指定分類任務名稱。此名稱必須是您的帳戶和目前區域的唯一名稱。4. UNTER分析類型,選擇自訂分類。5. 從選擇分類器」中,選擇要使用的自訂分類器。6. (選擇性) 如果您選擇在處理分類工作時加密儲存磁碟區中的資料,請選擇Job 加密接著選擇是使用目前

帳戶的 KMS 金鑰,還是使用其他帳戶的 KMS 金鑰。

• 如果您使用與目前帳戶相關的金鑰,請選擇金鑰 IDKMS 金鑰 ID。• 如果您使用的金鑰與其他帳戶相關聯的金鑰,請在以下位置輸入金鑰 ID 的 ARNKMS 金鑰 ARN。

113

Amazon Comprehend 開發人員指南分析任務 (主控台)

Note

如需建立和使用 KMS 金鑰以及相關加密的詳細資訊,請參閱金鑰管理服務。7. UNTER輸入資料中,輸入包含輸入文件的 Amazon S3 儲存貯體位置,或選擇以導覽至該儲存貯體請瀏

覽 S3。此儲存貯體必須與您呼叫的 API 位於相同的區域。您用來分類任務的 IAM 角色必須具備 S3 儲存貯體的讀取許可。

8. (選擇性) 選擇要分類的文件格式輸入格式。這些可以是每個文件一個文檔,也可以是單個文件中的每行一個文檔。

9. UNTER輸出資料」中,輸入 Amazon S3 儲存貯體所在的位置寫入任務 Amazon Comprehend 輸出資料,或透過選擇導覽至該儲存貯體請瀏覽 S3。此儲存貯體必須與您呼叫的 API 位於相同的區域。您用來分類任務的存取許可的 IAM 角色必須具備 S3 儲存貯體的寫入許可。

10. (選擇性) 如果您選擇加密工作的輸出結果,請選擇Encryption (加密)接著選擇是使用目前帳戶的 KMS 金鑰,還是使用其他帳戶的 KMS 金鑰。

• 如果您使用與目前帳戶相關的金鑰,請選擇金鑰別名或 IDKMS 金鑰 ID。• 如果您使用與其他帳戶相關聯的金鑰,請在下方輸入金鑰別名或 ID 的 ARNKMS 金鑰 ID。

11. (選擇性) 若要從 VPC 將您的資源啟動至 Amazon Comprehend,請在下方輸入 VPC 識別碼VPC或從下拉式清單中選擇 ID。

1. 選擇下方的子網路子網路。選取第一個子網路後,您可以選擇其他子網路。2. UNTER安全群組,如果您已指定安全性群組,請選擇要使用的安全性群組。選取第一個安全性群組

後,您可以選擇其他群組。

Note

當您將 VPC 與分類工作搭配使用時,DataAccessRole用於「建立」和「開始」作業必須具有存取輸出值區的 VPC 權限。

12. 選擇建立任務以建立文件分類任務。

114

Amazon Comprehend 開發人員指南準備培訓資料

自訂實體辨識自訂實體辨識功能可協助您識別不在預設集中的特定新實體類型,藉此擴充 Amazon Comprehend 的功能一般圖元類型。這表示您可以分析文件,並擷取符合您特定需求的產品代碼或業務特定實體等實體。

自行建置精確的自訂實體辨識器可能是一個複雜的程序,需要準備大量手動註解的訓練文件集,以及選取正確的演算法和參數來進行模型訓練。Amazon Comprehend 透過提供自動註釋和模型開發來建立自訂實體辨識模型,協助降低複雜性。

建立自訂實體辨識模型比使用字串比對或規則運算式從文件擷取實體更有效的方法。例如,若要擷取文件中的 ENGINEER 名稱,很難列舉所有可能的名稱。此外,如果沒有上下文,區分工程師名稱和分析師名稱也很難。自訂圖元辨識模型可以瞭解這些名稱可能出現的前後關聯。此外,字串比對不會偵測具有錯別字或遵循新命名慣例的實體,而這是可能的,使用自訂模型。

您有兩個建立自訂模型的選項:

1. 註釋 — 提供包含已註解實體的資料集,以進行模型訓練。2. 實體清單 (僅限純文字)-提供實體清單及其類型標籤 (例如PRODUCT_CODES以及一組未註釋的文件,其中

包含用於模型訓練的那些實體。

當您使用帶註解的 PDF 檔案建立自訂實體辨識器時,您可以使用具有多種輸入檔案格式的辨識器:純文字、影像檔案 (JPG、PNG、TIFF)、PDF 檔案和 Word 文件,無需預先處理或文件平面化。AmazonComprehend 不支持圖像文件或 Word 文檔的註釋。

Note

使用帶註釋 PDF 檔案的自訂實體辨識器僅支援英文文件。

您一次最多可以訓練 25 個自訂實體的模型。如需詳細資訊,請參閱「」。指導方針和配額頁面。

模型訓練完畢後,您可以使用模型進行即時實體偵測和實體偵測工作。

主題• 準備培訓資料 (p. 115)• 訓練辨識器模型 (p. 127)• 執行自訂辨識器模型 (p. 136)

準備培訓資料若要訓練成功的自訂實體辨識模型,請務必提供高品質資料作為輸入的模型訓練員。如果沒有良好的數據,模型將無法學習如何正確識別實體。

您可以選擇以下兩種方式之一,將資料提供給 Amazon Comprehend,以訓練自訂實體辨識模型:

• 註釋 (p. 117)在多個文件中提供實體的位置,以便 Amazon Comprehend 可以在實體及其上下文上進行訓練。要創建用於分析圖像文件,PDF 或 Word 文檔的模型,您必須使用 PDF 註釋訓練識別器。

• 實體清單 (僅限純文字) (p. 125)列出特定實體,以便 Amazon Comprehend 可以訓練識別您的自訂實體。請注意:實體清單只能用於純文字文件。

在這兩種情況下,Amazon Comprehend 都會學習文件的種類和實體出現的環境,並建立辨識器,以便在您分析文件時一般偵測新實體。

建立自訂模型 (或訓練新版本) 時,您可以提供測試資料集。如果您未提供測試資料,Amazon Comprehend會保留 10% 的輸入文件來測試模型。Amazon Comprehend 訓練與其餘文件的模型。

115

Amazon Comprehend 開發人員指南註釋

註釋透過與文件一起提交註釋,您可以提高模型的準確性。有了 Annotations,您不只是提供您要尋找的實體的位置,而且還為您要尋找的自訂實體提供更準確的內容。

例如,如果您正在搜尋名稱 John Johnson,使用實體類型 REVICE,提供您的註解可能有助於模型瞭解您要尋找的人是法官。如果它能夠使用上下文,那麼 Amazon Comprehend 將找不到名為約翰·約翰遜的人是律師或證人。Amazon Comprehend 將在不提供註釋的情況下建立自己的註釋版本,但在僅包括評審方面的效果不會那麼有效。提供您自己的註釋可能有助於獲得更好的結果,並在提取自定義實體時生成能夠更好地利用上下文的模型。

文件和註釋的最小數目會根據註釋的類型而有所不同:

• PDF 註解— 每個實體至少提供 250 個輸入文件和至少 100 個註釋。• 純文字註解— 每個實體至少提供三個輸入文件和至少 25 個註釋。如果您提供的註解總數少於 50

個,Amazon Comprehend 會保留 10% 以上的輸入文件來測試模型 (除非您在訓練請求中提供了測試資料集)。

如果您的輸入只包含幾個訓練文件,您可能會遇到錯誤,即訓練輸入資料包含的文件太少,提及其中一個實體。使用提及實體的其他文件再次提交工作。

另外,不要忘記最小文檔語料庫大小為 5 KB。

實體清單透過自訂實體辨識功能,Amazon Comprehend 可協助您使用實體清單訓練模型。如果您想要使用實體清單,您需要提供兩個資訊:實體名稱清單及其對稱自訂實體類型,以及預期實體會出現的未註解文件集合。這是比註釋選項更直接的選擇,但可能會導致更粗糙,不太具體的結果。這是因為註釋為 AmazonComprehend 提供了更多的上下文,以便在訓練模型時使用。如果沒有這種情況,Amazon Comprehend 會在嘗試識別實體時產生較多的誤報。

當您提供實體清單時,Amazon Comprehend 會使用智慧型演算法偵測文件中實體的出現次數,以做為訓練自訂實體辨識器模型的基礎。

例如,如果您正在使用實體類型 REVICE 搜索名稱 John Johnson,則使用實體列表將使您能夠識別其名稱的實例。但是,如果沒有註釋約翰強生或判斷的確切位置,Amazon Comprehend 可能會檢視名稱約翰·約翰遜的所有執行個體,包括與您自訂實體具有相同名稱相符的其他員工。

對於實體清單,請在實體清單中為每個實體提供至少 200 個實體相符項目。

註釋或實體列表?提供您自己的註釋需要更多的工作,但可以顯著更細緻。不使用自己的註釋會更快,工作密集更少,但結果不太精緻且不太準確。

在某些情況下,它使更具商業意義,以避免使用註釋的更高費用和工作負載。例如,John Johnson 這個名字對您的搜尋很重要,但這個名稱是否確切的個人並不相關。或者,使用實體列表時的指標足以為您提供所需的識別器結果。在這種情況下,使用實體列表可以是更有效的選擇。

在下列情況下,我們建議您使用註釋模式:

• 如果您打算對影像檔案、PDF 或 Word 文件執行推論。在這個案例中,您會使用帶註解的 PDF 檔案來訓練模型,並使用模型來執行影像檔、PDF 和 Word 文件的推論工作。

• 當實體的含義可能是模糊的和上下文相關的。例如,術語亞馬遜可以指巴西的河流, 或在線零售商Amazon.com. 當您構建自定義實體識別器以識別業務實體時,例如亞馬遜,您應該使用註釋而不是實體列表,因為此方法更好地使用上下文來查找實體。

• 當您舒適地設置一個獲取註釋的過程時,這可能需要一些努力。

116

Amazon Comprehend 開發人員指南註釋

我們建議在下列情況下使用實體清單:

• 當你已經有一個實體列表,或者當它是相對容易的組成一個完整的實體列表。如果您使用實體清單,清單應該是完整的,或至少涵蓋了您提供訓練之文件中可能出現的大多數有效實體。

• 對於首次使用的用戶,通常建議使用實體列表,因為這需要比構建註釋更小的努力。但是,請務必注意,訓練過的模型可能不像您使用註釋一樣精確。

主題• 註釋 (p. 117)• 實體清單 (僅限純文字) (p. 125)

註釋註釋會將您的自訂實體類型與訓練文件中出現的位置相關聯,來標示前後關聯中的實體。

您可以將訓練資料提供為 CSV 檔案 (來自的增強資訊清單檔案) SageMakerGround Truth,或 PDF。

註解最佳實務在使用註釋時,有許多事情需要考慮以獲得最佳結果,包括:

• 小心註釋您的數據,並驗證您是否對實體的每次提及進行註釋。不精確的註釋可能會導致結果不佳。• 輸入數據不應包含重複項,例如要註釋的 PDF 副本。存在重複樣本可能會導致測試集污染,並可能對訓練

過程、模型指標和模型行為產生負面影響。• 確保您的所有文檔都被註釋,並且沒有註釋的文檔是由於缺乏合法實體,而不是由於疏忽。例如,如果您

有一份文件上寫著「J Doe 擔任工程師已有 14 年」,則您還應該為「J Doe」和「Doe」提供註釋。如果不這樣做會使模型混淆,並可能導致模型無法將「J Doe」識別為「工程師」。這應該是相同的文檔和跨文檔一致的。

• 一般來說,更多的註釋會導致更好的結果。• 您可以使用最小數目 (p. 205)的文檔和註釋,但添加數據通常可以改善模型。我們建議將已註解資料的數

量增加 10%,以提高模型的精確度。您可以在測試資料集上執行推論,該資料集保持不變,而且可由不同的模型版本進行測試。然後,您可以比較連續模型版本的量度。

• 盡可能提供類似實際使用案例的文件。應避免具有重複模式的合成數據。輸入數據應盡可能多樣化,以避免過度擬合並幫助底層模型更好地概括在實際示例中。

• 重要的是,文檔在字數方面應該是多樣化的。例如,如果訓練資料中的所有文件都很短,則產生的模型可能難以預測較長文件中的實體。

• 嘗試為訓練提供與實際偵測自訂實體時預期使用的相同資料分佈 (推論時間)。例如,在推論時,如果您希望傳送給我們沒有實體的文件,這也應該是訓練文件集的一部分。

如需其他建議,請參閱改善自訂實體辨識器效能。

CSV 檔案 (僅限純文字)使用逗號分隔值 (CSV) 檔案作為註釋時,CSV 檔案必須包含下列欄:

檔案 行 開始位移 終點位移 類型

含有文件的檔案名稱。例如,如果其中一個文件檔案位於s3://my-S3-bucket/

包含實體的行號,從行 0 開始。

顯示實體開始位置的輸入文字中的字元偏移量 (相對於行的開頭)。第一個字元在位置 0。

顯示實體結束位置的輸入文字中的字元偏移量。

客戶定義的實體類型。實體類型必須是大寫、下劃線分隔的字串。我們建議使用描

117

Amazon Comprehend 開發人員指南註釋

檔案 行 開始位移 終點位移 類型test-files/documents.txt,中的值File列將documents.txt。您必須包含檔案擴展名 (在此案例中為 '.txt') 做為檔案名稱的一部分。

述性實體類型,例如MANAGER、SENIOR_MANAGER,或PRODUCT_CODE。每個模型最多可訓練 25 個實體類型。

範例如下:

該文件documents.txt包含四行 (第 0、1、2、3 列):

Diego Ramirez is an engineer in the high tech industry.Emilio Johnson has been an engineer for 14 years.J Doe is a judge on the Washington Supreme Court.Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.

包含註釋清單的 CSV 檔案如下所示:

File, Line, Begin Offset, End Offset, Typedocuments.txt, 0, 0, 13, ENGINEERdocuments.txt, 1, 0, 15, ENGINEERdocuments.txt, 3, 25, 38, MANAGER

Note

在註釋檔案中,包含圖元的行號以 0 行開始。在此範例中,第 2 行不存在於 CSV 檔案中,因為第 2行中沒有實體documents.txt。

建立您的資料檔案

請務必將註解放在正確設定的 CSV 檔案中,以降低發生錯誤的風險。若要手動設定 CSV 檔案,必須符合下列條件:

• UTF-8 編碼必須明確指定,即使在大多數情況下將其用作默認編碼也是如此。• 第一行必須包含列標題:File、Line、Begin Offset、End Offset、Type。

我們強烈建議以程式設計方式產生 CSV 輸入檔案,以避免潛在的問題。

下列範例會使用 Python 為上述註解產生 CSV:

import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])

擴增資訊清單檔案增強清單文件是由生成的標籤數據集 SageMaker Ground Truth。Ground Truth 是一項資料標籤服務,可協助您 (或您雇用的員工) 建置機器學習模型的訓練資料集。Amazon Comprehend 接受擴增資訊清單檔案做為

118

Amazon Comprehend 開發人員指南註釋

自訂模型的訓練資料。當您使用 Amazon Comprehend 主控台建立自訂實體辨識器時,您可以提供這些檔案CreateEntityRecognizer (p. 263)API 動作。

您可以使用 Ground Truth 內建工作類型「命名實體辨識」來建立標籤工作,讓 Worker 識別文字中的實體。如需進一步了解,請參閱具名實體辨識中的亞馬遜 SageMaker 開發人員指南。進一步了解 Amazon TruthSageMaker Ground Truth,請參閱使用 Amazon (Amazon) SageMaker 標籤資料的 Ground Truth。

擴增資訊清單檔案為 JSON 行格式。在這些檔案中,每一列都是一個完整的 JSON 物件,其中包含訓練文件及其相關標記。以下示例是一個增強的清單文件,它訓練實體識別器以檢測文本中提到的個人的職業:

{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}}{"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}}{"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}

這個 JSON 行文件中的每一行都是一個完整的 JSON 對象,其中的屬性包括文檔文本,註釋和其他元數據Ground Truth。下列範例是增強資訊清單檔案中的單一 JSON 物件,但已格式化以提高可讀性:

{ "source": "Diego Ramirez is an engineer in the high tech industry.", "NamedEntityRecognitionDemo": { "annotations": { "entities": [ { "endOffset": 13, "startOffset": 0, "label": "ENGINEER" } ], "labels": [ { "label": "ENGINEER" } ] } }, "NamedEntityRecognitionDemo-metadata": { "entities": [ { "confidence": 0.92 } ], "job-name": "labeling-job/namedentityrecognitiondemo", "type": "groundtruth/text-span", "creation-date": "2020-05-14T21:45:27.175903", "human-annotated": "yes" }

119

Amazon Comprehend 開發人員指南註釋

}

在此範例中,source屬性提供了培訓文檔的文本,NamedEntityRecognitionDemo屬性為文字中的圖元提供註釋。的名稱NamedEntityRecognitionDemo屬性是任意的,當您在 Ground Truth 中定義標籤工作時,您可以提供您選擇的名稱。

在此範例中,NamedEntityRecognitionDemo屬性為標記屬性名稱,這是提供「Ground Truth」工作者指派給訓練資料之標籤的屬性。當您將訓練資料提供給 Amazon Comprehend 時,您必須指定一個或多個標籤屬性名稱。您指定的屬性名稱數量取決於您的增強資訊清單檔案是單一標籤工作的輸出還是鏈結的標籤工作。

如果您的檔案是單一標籤工作的輸出,請指定在 Ground Truth 中建立工作時使用的單一標籤屬性名稱。

如果您的檔案是鏈結標籤工作的輸出,請為鏈結中的一或多個工作指定標籤屬性名稱。每個標籤屬性名稱均提供個別工作的註釋。您最多可以為由鏈結標籤工作產生的增強資訊清單檔案指定其中 5 個屬性。

在擴增資訊清單檔案中,標籤屬性名稱通常會在source索引鍵。如果檔案是鏈結工作的輸出,則會有多個標籤屬性名稱。當您將訓練資料提供給 Amazon Comprehend 時,請僅提供那些包含與模型相關註釋的屬性。請勿指定以「-metadata」結尾的屬性。

若要取得有關鏈結標示工作的更多資訊,以及它們產生的輸出範例,請參閱鏈結標記任務在 Amazon SroundTruth SageMaker 開發人員指南。

為 PDF 檔案加上註在您可以註解訓練 PDF 之前 SageMaker Ground Truth,您需要完成一些先決條件:

• 安裝 python3.8.x• 安裝AWSCLI

如果您使用的是 us-east-1 區域,您可以略過安裝AWSCLI,因為它已經與您的 Python 環境一起安裝。在這種情況下,您將創建一個虛擬環境來使用 Python 3.8AWSCloud9。

• 安裝jq• 設定您的AWS證書• 建立私有SageMaker Ground Truth 人力以支援標註

確保在新的私人員工中記錄您選擇的工作團隊名稱,因為在安裝過程中需要使用它。

主題• 設定您的環境 (p. 120)• 上傳 PDF 至 S3 儲存貯體 (p. 122)• 建立註釋工作 (p. 122)• 使用標記 SageMaker Ground Truth (p. 123)

設定您的環境

1. 如果使用視窗,請安裝賽格溫;若使用 Linux 或 Mac,請略過此步驟。2. 下載註到人工因素從 GitHub。解壓縮檔案。3. 在終端窗口中,導航到解壓縮的資料夾 (amazon-comprehend-semi-structured-documents-annotation-

tools-main。此資料夾包含Makefile您可以運行以安裝依賴關係,設置 Python 虛擬信件並部署所需的資源。

4. 執行下列命令來安裝AWSCLI、派彭夫、AWS SAM、其他相依性,並設定虛擬環境:

make bootstrap

120

Amazon Comprehend 開發人員指南註釋

5. 下面的命令運行基本的 python 檢查樣式和 cnf-lint,並構建AWS CloudFormation使用範本AWSSAMCLI:

make build

6. 欲建立並部署 CloudFormation 堆疊中,執行以下命令。它封裝AWS CloudFormation要準備好部署的範本,並啟動AWS SAM具有互動式指引的部署命令:

make deploy-guided

此指令會顯示一組組態選項。確保你的AWS區域是正確的。對於其他欄位,您可以接受預設值或填寫自訂值。如果您修改AWS CloudFormation堆疊名稱,請在後續步驟中將其寫下來。

該命令定義了一個 CloudFormation 堆疊。這一個 CloudFormation 堆棧將創建和管理AWSLambda、AWS IAM角色,以及AWS S3註記任務所需的儲存貯體。

您可以在堆疊詳細資料頁面中檢閱這些資源 CloudFormation 主控台。7. 該命令會提示您啟動部署。 CloudFormation 會在指定區域中建立所有資源。

當 CloudFormation 堆棧狀態轉換為創建完成,資源已準備就緒可以使用。

121

Amazon Comprehend 開發人員指南註釋

上傳 PDF 至 S3 儲存貯體

在步驟中Step 6 (p. 121),您部署了 CloudFormation 建立一個名為的 S3 儲存貯體comprehend-semi-structured-documents-$ {AWS::Region}-${AWS::AccountId}。您現在可以將來源 PDF 文件上傳到此值區。

Note

此儲存貯體包含標記任務所需的資料。Lambda 執行角色政策授予 Lambda 函數存取此儲存貯體的權限。您可以在中找到 S3 儲存貯體名稱CloudFormation 堆疊詳細資訊使用'SemiStructuredDocumentsS3 儲存貯體'金鑰。

1. 在 S3 儲存貯體中建立新資料夾。將此新資料夾命名為 'src'.2. 將您的 PDF 源文件添加到您的 'src'folder。在後續步驟中,您會為這些檔案加上標記,以訓練您的辨識

器。3. (選用) 這是AWS您可以使用將來源文件從本機目錄上傳到 S3 儲存貯體的 CLI 範例:

aws s3 cp --recursive local-path-to-your-source-docs s3://deploy-guided/src/

或者,使用您的地區和帳戶 ID:

aws s3 cp --recursive local-path-to-your-source-docs s3://deploy-guided-Region-AccountID/src/

4. 您現在有私有人力 SageMaker Ground Truth 人力並將您的原始碼檔案上傳到 S3 儲存貯體、部署指南/src/; 您已準備好開始標註。

建立註釋工作

所以此comprehend-ssie-annotation-tool-cli.py在中編寫指令碼bin目錄是一個簡單的包裝命令,可以簡化創建 SageMaker Ground Truth 標記任務。python 腳本從 S3 存儲桶讀取源文檔,並創建一個對應的單頁清單文件,每行包含一個源文檔。然後,指令碼會建立標籤工作,這需要資訊清單檔案做為輸入。

蟒蛇腳本使用 S3 存儲桶和 CloudFormation 您配置的堆棧Step 6 (p. 121)。指令碼的必要輸入參數包括:

• 輸入-S3 路徑:S3 Uri 至您上傳至 S3 儲存貯體的來源文件。例如:s3://deploy-guided/src/。 您也可以將區域和帳戶 ID 新增至此路徑。例如:s3://deploy-guided-Region-AccountID/src/。

• 光源名稱:所以此 CloudFormation 堆疊名稱。如果您在中使用預設值Step 6 (p. 121),你的 cfn 名字是sam-app。

• work-team-name:您在建立私人員工時建立的勞動力名稱 SageMaker Ground Truth。• job-name-prefix:字首碼 SageMaker Ground Truth 標記任務。請注意,此欄位有 29 個字元的限制。時間

戳記會附加至此值。例如:my-job-name-20210902T232116。• 實體類型:您想要在標記任務期間使用的實體 (以逗號分隔)。此清單必須包含您要在訓練資料集中註解的

所有實體。「Ground Truth」標籤工作僅顯示這些實體,供註解者標示 PDF 文件中的內容。

若要檢視指令碼支援的其他引數,請使用-h顯示說明內容的選項。

• 使用上一個清單中所述的輸入參數執行下列指令碼。

python bin/comprehend-ssie-annotation-tool-cli.py \--input-s3-path s3://deploy-guided-Region-AccountID/src/ \--cfn-name sam-app \--work-team-name my-work-team-name \--region us-east-1 \--job-name-prefix my-job-name-20210902T232116 \

122

Amazon Comprehend 開發人員指南註釋

--entity-types "EntityA, EntityB, EntityC" \--annotator-metadata "key=info,value=sample,key=Due Date,value=12/12/2021"

該指令碼會產生以下的輸出:

Downloaded files to temp local directory /tmp/a1dc0c47-0f8c-42eb-9033-74a988ccc5aaDeleted downloaded temp files from /tmp/a1dc0c47-0f8c-42eb-9033-74a988ccc5aaUploaded input manifest file to s3://comprehend-semi-structured-documents-us-west-2-123456789012/input-manifest/my-job-name-20220203-labeling-job-20220203T183118.manifestUploaded schema file to s3://comprehend-semi-structured-documents-us-west-2-123456789012/comprehend-semi-structured-docs-ui-template/my-job-name-20220203-labeling-job-20220203T183118/ui-template/schema.jsonUploaded template UI to s3://comprehend-semi-structured-documents-us-west-2-123456789012/comprehend-semi-structured-docs-ui-template/my-job-name-20220203-labeling-job-20220203T183118/ui-template/template-2021-04-15.liquidSagemaker GroundTruth Labeling Job submitted: arn:aws:sagemaker:us-west-2:123456789012:labeling-job/my-job-name-20220203-labeling-job-20220203t183118(amazon-comprehend-semi-structured-documents-annotation-tools-main) user@3c063014d632 amazon-comprehend-semi-structured-documents-annotation-tools-main %

使用標記 SageMaker Ground Truth

現在,您已經配置了所需的資源並創建了標籤工作,您可以登錄到標籤門戶並為 PDF 添加註釋。

1. 登錄到SageMaker 安慰使用鉻或火狐瀏覽器。2. 選擇標記人力並選擇私有。3. UNder私人勞動力摘要」下方,選取您使用私人員工建立的入口網站登入網址標籤。請使用適當的使用

者名稱和密碼登录。

如果您沒有看到任何列出的工作,請不要擔心,這可能需要一段時間才能更新,具體取決於您上傳以進行註釋的檔案數量。

4. 選擇您的任務,然後在右上角,選擇開始工作以開啟註釋螢幕。

您會在註釋螢幕中看到其中一個開啟的文件,以及您在設定期間提供的實體類型 (在其上方)。在實體類型的右側,有一個箭頭可用來瀏覽文件。

123

Amazon Comprehend 開發人員指南註釋

為開啟的文件加上註解。您也可以在每份文件上移除、還原或 auto 標記註解;這些選項可在註解工具的右側面板中找到。

124

Amazon Comprehend 開發人員指南實體清單

若要使用 auto 動標籤,請為其中一個實體的例證加上註解;然後會自動以該圖元類型註解該特定單字的所有其他例證。

完成後,請選擇SUBMITLE在右下角,然後使用導航箭頭移動到下一個文檔。重複此步驟,直到為所有PDF 加上註解。

在註解所有訓練文件之後,您可以在 Amazon S3 儲存貯體的這個位置找到 JSON 格式的註釋:

/output/your labeling job name/annotations/

輸出資料夾也包含輸出資訊清單檔案,其中會列出訓練文件中的所有註釋。您可以在以下位置找到輸出清單文件。

/output/your labeling job name/manifests/

實體清單 (僅限純文字)自訂實體辨識的實體清單需要逗號分隔值 (CSV) 檔案,包含下列欄:

• Text (文字)— 與隨附文件語料庫中所顯示的項目範例文字完全相同。• 類型客戶定義的實體類型。實體類型必須使用大寫、下劃線分隔的字串,例如管理員或

SIENOR_MANAGER。每個模型最多可訓練 25 個實體類型。

125

Amazon Comprehend 開發人員指南實體清單

該文件documents.txt包含四行:

Jo Brown is an engineer in the high tech industry.John Doe has been a engineer for 14 years.Emilio Johnson is a judge on the Washington Supreme Court.Our latest new employee, Jane Smith, has been a manager in the industry for 4 years.

具有實體清單的 CSV 檔案具有以下幾行:

Text, TypeJo Brown, ENGINEERJohn Doe, ENGINEERJane Smith, MANAGER

Note

在實體清單中,埃米利奧·約翰遜的項目不存在,因為它不包含工程師或經理實體。

實體清單中的每個實體至少需要 200 個實體相符項目,才能訓練模型以進行自訂實體辨識。

建立您的資料檔案

您的實體清單必須放在正確設定的 CSV 檔案中,因此您的實體清單檔案出現問題的機會很小。若要手動設定您的 CSV 檔案,必須符合下列條件:

• UTF-8 編碼必須明確指定,即使在大多數情況下將其用作默認編碼也是如此。• 它必須包括列名:Type和Text。

我們強烈建議以程式設計方式產生 CSV 輸入檔案,以避免潛在的問題。

下列範例會使用 Python 為上述註解產生 CSV:

import csv with open("./entitylist/entitylist.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["Text", "Type"]) csv_writer.writerow(["Jo Brown", "ENGINEER"]) csv_writer.writerow(["John Doe", "ENGINEER"]) csv_writer.writerow(["Jane Smith", "MANAGER"])

最佳實務在使用實體列表時,需要考慮許多事情才能獲得最佳結果,包括:

• 清單中實體的順序對模型訓練沒有影響。• 使用涵蓋未註釋文件語料庫中所提及之正面實體範例的 80%-100% 的實體清單項目。• 移除常用字詞和片語,避免符合文件語料庫中非實體的實體範例。即使是少數不正確的相符項目,也會顯

著影響產生的模型的準確性。例如,像這樣的詞該在實體列表中將導致大量匹配項,這些匹配不太可能是您正在尋找的實體,因此會嚴重影響您的準確性。

• 輸入數據不應包含重複項。存在重複樣本可能會導致測試集污染,因此對訓練過程、模型指標和行為產生負面影響。

• 盡可能提供與實際使用案例相似的文件。不要將玩具數據或合成數據用於生產系統。輸入數據應盡可能多樣化,以避免過度擬合並幫助底層模型更好地概括在真實的例子中。

• 實體清單區分大小寫,目前不支援規則運算式。但是,即使實體與實體清單中提供的外殼不完全相符,訓練過的模型通常仍可辨識實體。

126

Amazon Comprehend 開發人員指南訓練辨識器模型

• 如果您的實體是另一個實體的子字串 (例如「Smith」和「Jane Smith」),請在實體清單中同時提供這兩者。

您可以在找到其他建議改善自訂實體辨識器效能 (p. 136)

訓練辨識器模型自訂實體辨識器只會識別您訓練模型時包含的實體類型。它不會自動包括預設圖元類型。如果您也想要識別預設實體類型,例如「位置」、「日期」或「人員」,則需要為這些實體提供額外的訓練資料。

當您使用帶註解的 PDF 檔案建立自訂實體辨識器時,您可以將辨識器與多種輸入檔案格式搭配使用:純文字、影像檔案 (JPG、PNG、TIFF)、PDF 檔案和 Word 文件,無需預先處理或文件平面化。AmazonComprehend 不支持圖像文件或 Word 文檔的註釋。

Note

使用帶註釋 PDF 檔案的自訂實體辨識器僅支援英文文件。

建立自訂實體辨識器之後,您可以使用DescribeEntityRecognizer (p. 290)operation. OnceStatus欄位是TRAINED,辨識器模型已準備好用於自訂實體辨識。

主題• 訓練自訂辨識器 (主控台) (p. 127)• 訓練和執行自訂辨識器 (API) (p. 130)• 自訂實體辨識器指標 (p. 134)

訓練自訂辨識器 (主控台)您可以使用 Amazon Comprehend 主控台建立自訂實體辨識器。本節說明如何建立和訓練自訂實體辨識器。

使用主控台建立自訂實體辨識器-CSV 格式

若要建立自訂實體辨識器,請先提供資料集來訓練模型。在此資料集中,包括下列其中一項:一組已註解的文件或實體清單及其類型標籤,以及包含這些實體的一組文件。如需詳細資訊,請參閱「」自訂實體辨識 (p. 115)

使用 CSV 檔案訓練自訂實體辨識器

1. 前往登入AWS Management Console開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇客製化然後選擇自訂實體辨識。3. 選擇建立新模型。4. 指定辨識器名稱。該名稱在區域和帳戶中必須是唯一的。5. 選取語言。6. UNDER自訂實體類型」下方,輸入您希望辨識器在資料集中尋找的自訂標籤。

實體類型必須是大寫的,如果它由一個以上的單詞組成,則用底線分隔單詞。7. 選擇新增類型。8. 如果您要新增其他實體類型,請輸入它,然後選擇新增類型。如果您要移除其中一個已新增的實體類

型,請選擇移除類型,然後選擇要從清單中移除的圖元類型。最多可列出 25 個圖元類型。9. 若要加密您的訓練工作,請選擇辨識器加密器然後選擇是使用與目前帳戶關聯的 KMS 金鑰,還是使用

其他帳戶的 KMS 金鑰。

127

Amazon Comprehend 開發人員指南訓練自訂辨識器 (主控台)

• 如果您使用與目前帳戶相關聯的金鑰,則會針對KMS 金鑰 ID選擇金鑰 ID。• 如果您使用與其他帳戶相關聯的金鑰,KMS 金鑰 ARN輸入金鑰識別碼的 ARN。

Note

如需建立和使用 KMS 金鑰和相關聯加密的詳細資訊,請參閱。AWS Key ManagementService。

10. UNDER資料規格,選擇訓練文件的格式:

• CSV 檔案— 補充您的培訓文件的 CSV 文件。CSV 檔案包含訓練過的模型將偵測到的自訂實體的相關資訊。所需的檔案格式取決於您是提供註釋還是實體清單。

• 擴增資訊清單— 由亞馬遜生產的標籤數據集 SageMaker Ground Truth 標記 這個文件是 JSON 行格式。每一列都是一個完整的 JSON 物件,其中包含訓練文件及其標籤。每個標籤都會在訓練文件中註解一個具名實體。您最多可以提供 5 個擴增資訊清單檔案。

如需可用格式的詳細資訊,以及範例,請參閱。訓練辨識器模型 (p. 127)。11. UNDER訓練類型,選擇要使用的訓練類型:

• 使用註釋和訓練文件• 使用實體清單和訓練文件

如果選擇註釋,請在 Amazon S3 中輸入註釋檔案的網址。您也可以導覽至 Amazon S3 中註釋檔案所在的儲存貯體或資料夾,然後選擇請瀏覽 S3。

如果選擇實體清單,請在 Amazon S3 中輸入實體清單的網址。您也可以導覽至實體清單所在的Amazon S3 儲存貯體或資料夾,然後選擇請瀏覽 S3。

12. 輸入包含 Amazon S3 中訓練文件之輸入資料集的 URL。您也可以導覽至 Amazon S3 中訓練文件所在的儲存貯體或資料夾,然後選擇選擇資料夾。

13. UNDER測試資料集選取您要如何評估訓練模型的效能-您可以針對註釋和圖元清單訓練類型執行此操作。

• 自動分割:自動分割會自動選取您提供的訓練資料的 10% 作為測試資料• (選用)客戶提供:當您選擇提供的客戶時,您可以準確指定要使用的測試數據。

14. 如果您選取客戶提供的測試資料集,請在 Amazon S3 中輸入註釋檔案的 URL。您也可以導覽至Amazon S3 中註釋檔案所在的儲存貯體或資料夾,然後選擇選擇資料夾。

15. 在 中選擇 IAM 角色區段中,選取現有 IAM 角色或建立新 IAM 角色。

• 選擇現有 IAM 角色— 如果您已經擁有具備存取輸入和輸出 Amazon S3 儲存貯體的權限的 IAM 角色。

• 建立新的 IAM 角色— 當您想要建立具有適當許可的新 IAM 角色,讓 Amazon Comprehend 存取輸入和輸出值區時,請選取此選項。

Note

如果輸入文件已加密,則使用的 IAM 角色必須具有kms:Decrypt許可。如需詳細資訊,請參閱 使用 KMS 加密所需的權限 (p. 183)。

16. (選擇性) 若要從 VPC 將您的資源啟動至 Amazon Comprehend,請在下方輸入 VPC 識別碼VPC或從下拉式清單中選擇 ID。

1. 選擇下方的子網路子網路。選取第一個子網路後,您可以選擇其他子網路。2. UNDER安全群組,如果您已指定安全性群組,請選擇要使用的安全性群組。選取第一個安全性群組

後,您可以選擇其他群組。

128

Amazon Comprehend 開發人員指南訓練自訂辨識器 (主控台)

Note

當您將 VPC 與自訂實體辨識工作搭配使用時,DataAccessRole用於「建立」和「開始」作業必須具有存取輸入文件和輸出值區的 VPC 權限。

17. (選用) 若要將標籤新增至自訂實體辨識器,請在底下輸入鍵/值對。標籤。選擇 Add tag (新增標籤)。若要在建立辨識器之前移除此配對,請選擇移除標籤籤籤。

18. 選擇訓練。

然後,新的辨識器會出現在清單中,並顯示其狀態。它將首先顯示為Submitted。然後它會顯示Training對於正在處理培訓文檔的分類器,Trained對於準備使用的分類器,以及In error對於發生錯誤的分類器。您可以按一下工作以取得有關辨識器的詳細資訊,包括任何錯誤訊息。

使用控制台創建自定義實體識別器-增強清單

使用純文字、PDF 或 Word 文件訓練自訂實體辨識器

1. 前往登入AWS Management Console開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇客製化然後選擇自訂實體辨識。3. 選擇訓練辨識器。4. 指定辨識器名稱。該名稱在區域和帳戶中必須是唯一的。5. 選取語言。請注意:如果您正在訓練 PDF 或 Word 文件,則支援英文。6. UNDER自訂實體類型」下方,輸入您希望辨識器在資料集中尋找的自訂標籤。

實體類型必須是大寫的,如果它由一個以上的單詞組成,則用底線分隔單詞。7. 選擇新增類型。8. 如果您要新增其他實體類型,請輸入它,然後選擇新增類型。如果您要移除其中一個已新增的實體類

型,請選擇移除類型,然後選擇要從清單中移除的圖元類型。最多可列出 25 個圖元類型。9. 若要加密您的訓練工作,請選擇辨識器加密器然後選擇是使用與目前帳戶關聯的 KMS 金鑰,還是使用

其他帳戶的 KMS 金鑰。

• 如果您使用與目前帳戶相關聯的金鑰,則會針對KMS 金鑰 ID選擇金鑰 ID。• 如果您使用與其他帳戶相關聯的金鑰,KMS 金鑰 ARN輸入金鑰識別碼的 ARN。

Note

如需建立和使用 KMS 金鑰和相關聯加密的詳細資訊,請參閱。AWS Key ManagementService。

10. UNDER訓練資料,選擇擴增資訊清單作為資料格式:

• 擴增資訊清單— 是由亞馬遜生產的標籤數據集 SageMaker Ground Truth 標記 這個文件是 JSON 行格式。檔案中的每一列都是一個完整的 JSON 物件,其中包含訓練文件及其標籤。每個標籤都會在訓練文件中註解一個具名實體。您最多可以提供 5 個擴增資訊清單檔案。如果您使用 PDF 文件做為訓練資料,則必須選取擴增資訊清單。您最多可以提供 5 個擴增資訊清單檔案。對於每個檔案,您最多可以命名 5 個屬性作為訓練資料。

如需可用格式的詳細資訊,以及範例,請參閱。訓練辨識器模型 (p. 127)。11. 選取訓練模型類型。

如果您已選取純文字文件下方輸入位置,進入 Amazon 亞馬遜的亞馬遜 S3URL 號碼頭。SageMakerGround 真相增強清單檔案。您也可以導覽至 Amazon S3 中增強資訊清單所在的儲存貯體或資料夾,然後選擇選擇資料夾。

129

Amazon Comprehend 開發人員指南訓練和執行自訂辨識器 (API)

12. UNDER屬性名稱」中輸入包含註釋的屬性名稱。如果檔案包含來自多個鏈結標籤工作的註釋,請為每個工作新增一個屬性。在這種情況下,每個屬性都包含來自標籤工作的一組註釋。請注意:每個檔案最多可以提供 5 個屬性名稱。

13. 選擇 Add (新增)。14. 如果您已選取PDF, 文字文件下輸入位置,進入 Amazon 亞馬遜的亞馬遜 S3URL 號碼頭。 SageMaker

Ground Truth 增強清單文件。您也可以導覽至 Amazon S3 中增強資訊清單所在的儲存貯體或資料夾,然後選擇選擇資料夾。

15. 輸入您的 S3 前綴。註釋資料檔案中)。這些是您標記的 PDF 文件。16. 輸入您的 S3 前綴。來源文件中)。這些是您為標籤工作提供給 Ground Truth 的原始 PDF 文檔(數據對

象)。

17. 輸入包含註釋的屬性名稱。請注意:每個檔案最多可以提供 5 個屬性名稱。系統會忽略檔案中未指定的任何屬性。

18. 在 IAM 角色區段中,選取現有 IAM 角色或建立新 IAM 角色。

• 選擇現有 IAM 角色— 如果您已經擁有具備存取輸入和輸出 Amazon S3 儲存貯體的權限的 IAM 角色。

• 建立新的 IAM 角色— 當您想要建立具有適當許可的新 IAM 角色,讓 Amazon Comprehend 存取輸入和輸出值區時,請選取此選項。

Note

如果輸入文件已加密,則使用的 IAM 角色必須具有kms:Decrypt許可。如需詳細資訊,請參閱 使用 KMS 加密所需的權限 (p. 183)。

19. (選擇性) 若要從 VPC 將您的資源啟動至 Amazon Comprehend,請在下方輸入 VPC 識別碼VPC或從下拉式清單中選擇 ID。

1. 選擇下方的子網路子網路。選取第一個子網路後,您可以選擇其他子網路。2. UNDER安全群組,如果您已指定安全性群組,請選擇要使用的安全性群組。選取第一個安全性群組

後,您可以選擇其他群組。

Note

當您將 VPC 與自訂實體辨識工作搭配使用時,DataAccessRole用於「建立」和「開始」作業必須具有存取輸入文件和輸出值區的 VPC 權限。

20. (選用) 若要將標籤新增至自訂實體辨識器,請在底下輸入鍵/值對。標籤。選擇 Add tag (新增標籤)。若要在建立辨識器之前移除此配對,請選擇移除標籤籤籤。

21. 選擇訓練。

然後,新的辨識器會出現在清單中,並顯示其狀態。它將首先顯示為Submitted。然後它會顯示Training對於正在處理培訓文檔的分類器,Trained對於準備使用的分類器,以及In error對於發生錯誤的分類器。您可以按一下工作以取得有關辨識器的詳細資訊,包括任何錯誤訊息。

訓練和執行自訂辨識器 (API)要在文檔中創建自定義實體,請使用 Amazon ComprehendCreateEntityRecognizer (p. 263)以建立實體辨識器。若要識別這些自訂實體,請使用StartEntitiesDetectionJob (p. 386)operation.

主題• 使用建立和偵測自訂實體AWS Command Line Interface (p. 131)• 使用偵測自訂實體AWS SDK for Java (p. 131)• 使用適用於 Python 的 AWS 開發套件 (Boto3) 偵測自訂實體 (p. 133)

130

Amazon Comprehend 開發人員指南訓練和執行自訂辨識器 (API)

使用建立和偵測自訂實體AWS Command Line Interface以下範例示範使用CreateEntityRecognizer運算,StartEntitiesDetectionJob作業,以及其他與AWS CLI。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

使用建立自訂實體辨識器CreateEntityRecognizeroperation.

aws comprehend create-entity-recognizer \ --language-code en \ --recognizer-name test-6 \ --data-access-role-arn "arn:aws:iam::account number:role/service-role/AmazonComprehendServiceRole-role" \ --input-data-config "EntityTypes=[{Type=PERSON}],Documents={S3Uri=s3://Bucket Name/Bucket Path/documents}, Annotations={S3Uri=s3://Bucket Name/Bucket Path/annotations}" \ --region region

使用列出區域中的所有實體辨識器ListEntityRecognizersoperation.

aws comprehend list-entity-recognizers \ --region region

檢查自訂實體辨識器的 Job 狀態DescribeEntityRecognizeroperation.

aws comprehend describe-entity-recognizer \ --entity-recognizer-arn arn:aws:comprehend:region:account number:entity-recognizer/test-6 \ --region region

使用啟動自訂實體辨識工作StartEntitiesDetectionJoboperation.

aws comprehend start-entities-detection-job \ --entity-recognizer-arn "arn:aws:comprehend:region:account number:entity-recognizer/test-6" \ --job-name infer-1 \ --data-access-role-arn "arn:aws:iam::account number:role/service-role/AmazonComprehendServiceRole-role" \ --language-code en \ --input-data-config "S3Uri=s3://Bucket Name/Bucket Path" \ --output-data-config "S3Uri=s3://Bucket Name/Bucket Path/" \ --region region

使用偵測自訂實體AWS SDK for Java此範例會建立自訂實體辨識器、訓練模型,然後使用 Java 在實體辨識器工作中執行該模型

import com.amazonaws.auth.AWSCredentialsProvider;import com.amazonaws.auth.DefaultAWSCredentialsProviderChain;import com.amazonaws.services.comprehend.AmazonComprehend;import com.amazonaws.services.comprehend.AmazonComprehendClientBuilder;import com.amazonaws.services.comprehend.model.CreateEntityRecognizerRequest;import com.amazonaws.services.comprehend.model.CreateEntityRecognizerResult;import com.amazonaws.services.comprehend.model.DescribeEntityRecognizerRequest;import com.amazonaws.services.comprehend.model.DescribeEntityRecognizerResult;

131

Amazon Comprehend 開發人員指南訓練和執行自訂辨識器 (API)

import com.amazonaws.services.comprehend.model.EntityRecognizerAnnotations;import com.amazonaws.services.comprehend.model.EntityRecognizerDocuments;import com.amazonaws.services.comprehend.model.EntityRecognizerInputDataConfig;import com.amazonaws.services.comprehend.model.EntityTypesListItem;import com.amazonaws.services.comprehend.model.InputDataConfig;import com.amazonaws.services.comprehend.model.LanguageCode;import com.amazonaws.services.comprehend.model.OutputDataConfig;import com.amazonaws.services.comprehend.model.StartEntitiesDetectionJobRequest;import com.amazonaws.services.comprehend.model.StartEntitiesDetectionJobResult;

public class CustomEntityRecognizerDemo {

public static void main(String[] args) { // Create credentials using a provider chain. For more information, see // https://docs.aws.amazon.com/sdk-for-java/v1/developer-guide/credentials.html AWSCredentialsProvider awsCreds = DefaultAWSCredentialsProviderChain.getInstance();

AmazonComprehend comprehendClient = AmazonComprehendClientBuilder.standard() .withCredentials(awsCreds) .withRegion("region") .build();

final String dataAccessRoleArn = "arn:aws:iam::account number:role/service-role/AmazonComprehendServiceRole-role";

final CreateEntityRecognizerRequest createEntityRecognizerRequest = new CreateEntityRecognizerRequest() .withRecognizerName("recognizer name") .withDataAccessRoleArn(dataAccessRoleArn) .withLanguageCode(LanguageCode.En) .withInputDataConfig(new EntityRecognizerInputDataConfig() .withEntityTypes(new EntityTypesListItem().withType("PERSON")) .withDocuments(new EntityRecognizerDocuments() .withS3Uri("s3://Bucket Name/Bucket Path/documents")) .withAnnotations(new EntityRecognizerAnnotations() .withS3Uri("s3://Bucket Name/Bucket Path/annotations")));

final CreateEntityRecognizerResult createEntityRecognizerResult = comprehendClient.createEntityRecognizer(createEntityRecognizerRequest); final String entityRecognizerArn = createEntityRecognizerResult.getEntityRecognizerArn(); System.out.println("Entity Recognizer ARN: " + entityRecognizerArn);

DescribeEntityRecognizerRequest describeEntityRecognizerRequest = new DescribeEntityRecognizerRequest() .withEntityRecognizerArn(entityRecognizerArn); final DescribeEntityRecognizerResult describeEntityRecognizerResult = comprehendClient.describeEntityRecognizer(describeEntityRecognizerRequest); System.out.println("describeEntityRecognizerResult: " + describeEntityRecognizerResult);

if ("TRAINED".equals(describeEntityRecognizerResult.getEntityRecognizerProperties().getStatus())) { // After model gets trained, launch an job to extract entities. final StartEntitiesDetectionJobRequest startEntitiesDetectionJobRequest = new StartEntitiesDetectionJobRequest() .withJobName("Inference Job Name") .withEntityRecognizerArn(entityRecognizerArn) .withDataAccessRoleArn(dataAccessRoleArn) .withLanguageCode(LanguageCode.En) .withInputDataConfig(new InputDataConfig() .withS3Uri("s3://Bucket Name/Bucket Path")) .withOutputDataConfig(new OutputDataConfig() .withS3Uri("s3://Bucket Name/Bucket Path/"));

132

Amazon Comprehend 開發人員指南訓練和執行自訂辨識器 (API)

final StartEntitiesDetectionJobResult startEntitiesDetectionJobResult = comprehendClient.startEntitiesDetectionJob(startEntitiesDetectionJobRequest); System.out.println("startEntitiesDetectionJobResult: " + startEntitiesDetectionJobResult); } }

}

使用適用於 Python 的 AWS 開發套件 (Boto3) 偵測自訂實體實例化博托 3 SDK:

import boto3import uuidcomprehend = boto3.client("comprehend", region_name="region")

建立實體辨識器:

response = comprehend.create_entity_recognizer( RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="Role ARN", InputDataConfig={ "EntityTypes": [ { "Type": "ENTITY_TYPE" } ], "Documents": { "S3Uri": "s3://Bucket Name/Bucket Path/documents" }, "Annotations": { "S3Uri": "s3://Bucket Name/Bucket Path/annotations" } })recognizer_arn = response["EntityRecognizerArn"]

列出所有辨識器:

response = comprehend.list_entity_recognizers()

等待辨識器達到訓練狀態:

while True: response = comprehend.describe_entity_recognizer( EntityRecognizerArn=recognizer_arn )

status = response["EntityRecognizerProperties"]["Status"] if "IN_ERROR" == status: sys.exit(1) if "TRAINED" == status: break

time.sleep(10)

133

Amazon Comprehend 開發人員指南指標

啟動實體偵測工作:

response = comprehend.start_entities_detection_job( EntityRecognizerArn=recognizer_arn, JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="Role ARN", InputDataConfig={ "InputFormat": "ONE_DOC_PER_LINE", "S3Uri": "s3://Bucket Name/Bucket Path/documents" }, OutputDataConfig={ "S3Uri": "s3://Bucket Name/Bucket Path/output" })

自訂實體辨識器指標Amazon Comprehend 為您提供指標,協助您估計實體辨識器在您的工作上應如何運作。它們是以訓練辨識器模型為基礎,因此雖然它們在訓練期間準確地表示模型的效能,但它們只是實體探索期間 API 效能的近似值。

只要傳回經過訓練的實體辨識器的中繼資料,就會傳回指標。

亞馬遜支援一次訓練多達 25 個實體的模型。從訓練過的實體辨識器傳回指標時,系統會針對辨識器整體 (全域量度) 和每個個別實體 (實體指標) 來計算分數。

有三種量度可供使用,包括全域和實體量度:

• 精確度

這表示系統產生的圖元已正確識別並正確標示的部分。這顯示了模型的實體識別是真正良好的識別的次數。這是識別總數的百分比。

亦即,精確度是基於真正陽性 (TP)和誤報 (fp)計算方式精度 = TP/(TP + FP)。

例如,如果一個模型預測實體的兩個例子存在於一個文件中,其中實際上只有一個,結果是一個真正的正值和一個假陽性。在此案例中,精確度 = 1/(1 + 1)。精確度為 50%,因為在模型所識別的兩個圖元中,有一個圖元是正確的。

• 取回

這表示存在於由系統正確識別和標記的文件中實體的分數。在數學上,這是根據正確識別的總數來定義真正陽性 (TP)並已漏接的身分假陰性 (fn)。

計算方式:召回 = TP/(TP + FN)。例如,如果模型正確地識別了一個實體,但遺漏了存在該實體的其他兩個實例,則結果為一個真正的正值和兩個假負數。在此案例中,召回 = 1/(1 + 2)。召回的是33.33%,因為一個實體在可能的三個例子中是正確的。

• F1 比分

這是「精確度」和「召回」量度的組合,用於測量自訂實體辨識模型的整體精確度。F1 分數是「精確度」與「召回」量度的調和平均值:F1 = 2 * 精度 * 召回/(精度 + 召回)。

Note

直覺上,諧波平均值比簡單的平均值或其他方式更加懲罰極端(例如:precision=0,recall= 1 可以通過預測所有可能的跨度來輕鬆實現。 在這裡,簡單的平均值將是 0.5,但F1會懲罰它為 0)。

134

Amazon Comprehend 開發人員指南指標

在上面的例子中,precision= 50% 和recall因此,等於 33.33%F1= 2 * 0.5 * 0.3333/(0.5 +0.3333)。一級方案的得分是 .3975 或 39.75%。

全域和個別實體量度

分析下列句子的實體時,可以看到全域和個別實體量度之間的關係地方或一個人

John Washington and his friend Smith live in San Francisco, work in San Diego, and own a house in Seattle.

在我們的例子中,該模型進行了以下預測。

John Washington = PersonSmith = PlaceSan Francisco = PlaceSan Diego = PlaceSeattle = Person

但是,預測應該是以下幾點。

John Washington = PersonSmith = Person San Francisco = PlaceSan Diego = PlaceSeattle = Place

此項目的個別實體指標為:

entity: Person True positive (TP) = 1 (because John Washington is correctly predicted to be a Person). False positive (FP) = 1 (because Seattle is incorrectly predicted to be a Person, but is actually a Place). False negative (FN) = 1 (because Smith is incorrectly predicted to be a Place, but is actually a Person). Precision = 1 / (1 + 1) = 0.5 or 50% Recall = 1 / (1+1) = 0.5 or 50% F1 Score = 2 * 0.5 * 0.5 / (0.5 + 0.5) = 0.5 or 50% entity: Place TP = 2 (because San Francisco and San Diego are each correctly predicted to be a Place). FP = 1 (because Smith is incorrectly predicted to be a Place, but is actually a Person). FN = 1 (because Seattle is incorrectly predicted to be a Person, but is actually a Place). Precision = 2 / (2+1) = 0.6667 or 66.67% Recall = 2 / (2+1) = 0.6667 or 66.67% F1 Score = 2 * 0.6667 * 0.6667 / (0.6667 + 0.6667) = 0.6667 or 66.67%

這個全局指標將是:

全域:

Global: TP = 3 (because John Washington, San Francisco and San Diego are predicted correctly.

135

Amazon Comprehend 開發人員指南執行自訂辨識器

This is also the sum of all individual entity TP). FP = 2 (because Seattle is predicted as Person and Smith is predicted as Place. This is the sum of all individual entity FP). FN = 2 (because Seattle is predicted as Person and Smith is predicted as Place. This is the sum of all individual FN). Global Precision = 3 / (3+2) = 0.6 or 60% (Global Precision = Global TP / (Global TP + Global FP)) Global Recall = 3 / (3+2) = 0.6 or 60% (Global Recall = Global TP / (Global TP + Global FN)) Global F1Score = 2 * 0.6 * 0.6 / (0.6 + 0.6) = 0.6 or 60% (Global F1Score = 2 * Global Precision * Global Recall / (Global Precision + Global Recall))

改善自訂實體辨識器效能這些指標可讓您深入瞭解訓練過的模型在您使用模型識別實體時執行的準確程度。如果指標低於預期,您可以使用以下幾個選項來改善指標:

1. 取決於您是否使用註釋 (p. 117)或者實體清單 (僅限純文字) (p. 125),請務必遵循相應文件中的準則,以改善資料品質。如果您在改善資料並重新訓練模型之後觀察到更好的指標,您可以持續反覆運算並改善資料品質,以達到更好的模型效能。

2. 如果您正在使用「實體清單」,請考慮改用註釋。手動註釋通常可以改善您的結果。3. 如果您確定沒有數據質量問題,但指標仍然不合理地低,請提交支持請求。

執行自訂辨識器模型訓練自訂辨識器模型之後,您可以執行即時或非同步自訂實體辨識。您需要建立端點,才能使用自訂模型執行即時分析。

開始之前

您需要自訂實體辨識模型 (也稱為辨識器),才能偵測自訂實體。使用純文字註解訓練的辨識器僅支援純文字文件的實體偵測。使用 PDF 文件註釋訓練的辨識器支援純文字文件、影像、PDF 檔案和Word 文件的實體偵測。如需這些模型的詳細資訊,請參閱the section called “訓練辨識器模型” (p. 127)。

主題• 影像檔的最佳實務 (p. 136)• 自訂實體辨識的即時分析 (主控台) (p. 137)• 自訂實體辨識的分析工作 (主控台) (p. 139)

影像檔的最佳實務若要分析影像檔案以進行自訂圖元辨識,請使用下列準則以取得最佳結果:

• 提供高質量的圖像,理想情況下至少為 150 DPI。• 如果輸入文件已經是其中一種支援的檔案格式 (影像的是 TIFF、JPEG 或 PNG),請勿在將文件上傳到

Amazon S3 之前對其進行轉換或縮減取樣。

為了在從文件中的表格擷取文字時獲得最佳結果,請確定:

• 文件中的表格會在視覺上與頁面上周圍的元素分開。例如,表格不會覆蓋到影像或複雜圖案上。

136

Amazon Comprehend 開發人員指南即時分析 (主控台)

• 表格中的文字是直立的。例如,文字不會相對於頁面上的其他文字旋轉。

從表格擷取文字時,在以下情況可能會看到不一致的結果:

• 合併的表格儲存格會跨越多個欄。• 表格具有與同一表格的其他部分不同的儲存格、列或欄。

自訂實體辨識的即時分析 (主控台)使用 Amazon Comprehend,您可以透過執行即時分析,快速偵測個別文字文件中的自訂實體。與分析大型文件或大型文件集的非同步批次工作不同,即時分析對於在送達時處理小型文字本體的應用程式非常有用。例如,您可以立即偵測社交媒體貼文、支援票證或客戶評論中的自訂實體。

在偵測自訂實體之前,您必須訓練自訂圖元辨識模型。如需這些模型的詳細資訊,請參閱訓練辨識器模型 (p. 127)。

您可以建立端點以使用自訂模型執行即時分析。建立端點之後,您的自訂模型就可以進行即時分析,而且您可以使用亞馬遜主控台 (Amazon Comprehend API) 來偵測實體AWS CLI,或AWS開發套件。

建立用於自訂實體偵測的端點您可以建立端點,讓您的自訂模型可用於即時分析。

為了滿足您的文本處理需求,請進行分配inference 單位到端點,每個單位允許每秒 100 個字元的輸送量,最多每秒 2 個文件。然後,您可以向上或向下調整輸送量。

即時分析的成本取決於端點的輸送量以及端點處於作用中狀態的持續時間。如需端點成本的詳細資訊,請參閱Amazon Comprehend 定價。

在您建立端點之後,即可使用 Amazon 對其進行監控 CloudWatch,請將它更新為變更其推論單位,當您已不需要它時,您應該更新它。如需詳細資訊,請參閱 Amazon Comprehend Mend Mend Mend (p. 157)。

使用主控台建立端點

建立端點 (主控台)

1. 登入AWS Management Console並開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇端點並選擇CREATE ENDPOINT按鈕。一個CREATE ENDPOINT畫面開啟。3. 指定端點名稱。此名稱在 AWS 區域和帳戶中必須是唯一的。4. 選擇要連接新端點的自訂模型。從下拉菜單中,您可以按型號名稱進行搜索。

Note

您需要先建立模型,才能將端點連接至。如果您還沒有模特,請前往自訂圖元辨識建立一個。5. (選用) 若要將標籤新增至端點,請在 ENDPOINT 中輸入鍵/值對標籤並選擇新增標籤。若要在建立端點

之前移除此配對,請選擇移除標籤6. 輸入要指派給端點的推斷單元 (IU) 數。每個單位代表每秒 100 個字元的輸送量,最多每秒 2 個文件。7. (選擇性) 如果要建立新端點,您可以選擇使用 IU 估算器。您可能很難瞭解您需要多少個推論單位,具體

取決於輸送量或每秒要分析的字元數,尤其是在大規模上。此選擇性步驟可協助您判斷要請求的 IU 數目。

Note

IU 的範圍是 1 到 10。您每秒可分析的字元數上限為 1000 個。

137

Amazon Comprehend 開發人員指南即時分析 (主控台)

8. 來自購買摘要,檢閱您估計的每小時、每日和每月端點成本。9. 如果您了解從端點啟動到刪除為止,將向您收取該端點費用,請選取此核取方塊。10. 選擇CREATE ENDPOINT

使用建立端點AWS CLI

使用建立端點AWS CLI,使用create-endpoint命令

$ aws comprehend create-endpoint \> --desired-inference-units number of inference units \> --endpoint-name endpoint name \> --model-arn arn:aws:comprehend:region:account-id:model/example \> --tags Key=Key,Value=Value

如果您的命令成功,Amazon Comprehend 會使用端點 ARN 回應:

{ "EndpointArn": "Arn"}

如需有關此命令、其參數引數及其輸出的詳細資訊,請參閱create-endpoint中的AWS CLI命令參考

執行即時自訂實體偵測為自訂實體辨識器模型建立端點後,您可以執行即時分析,以快速偵測個別文字內文中的實體。

使用主控台偵測實體

使用 Amazon Comprehend 主控台完成下列步驟以偵測文字中的自訂實體。

1. 登入AWS Management Console並打開 Amazon Comprehend 控制台https://console.aws.amazon.com/comprehend/。

2. 在左側功能表中,選擇即時分析。3. 在 中輸入文字區段,為分析類型,選擇自訂。4. 適用於選擇端點,選擇與您要使用的實體偵測模型相關聯的端點。5. UND輸入文字,請提供您要分析的文字。6. 選擇分析。會顯示以您自訂模型為基礎的文字分析,以及分析的可信度評估。

偵測圖元AWS CLI

若要使用偵測自訂實體AWS CLI,使用detect-entities命令

$ aws comprehend detect-entities \> --endpoint-arn arn \> --language-code en \> --text "Andy Jassy is the CEO of Amazon."

如果您的命令成功,Amazon Comprehend 會回應分析。對於 Amazon Comprehend 偵測到的每個實體,它都會提供實體類型、文字、位置和可信度分數。

如需有關此命令、其參數引數及其輸出的詳細資訊,請參閱detect-entities中的AWS CLI命令參考

138

Amazon Comprehend 開發人員指南分析任務 (主控台)

自訂實體辨識的分析工作 (主控台)您可以執行非同步分析工作,以偵測一或多個文件集中的自訂實體。輸入文件可以包括文本文件,圖像文件,PDF 或 Word 文檔。對於文字檔案以外的檔案,Amazon Comprehend 會在進行分析之前執行文字擷取。

若要開始任務,請執行下列步驟:

1. 將文件存放在 Amazon S3 儲存貯體中。2. InvokeStartEntitiesDetectionJob (p. 386)用於啟動非同步作業的 API 操作。3. 監視分析任務進度。4. 任務完成後,從您開始工作時指定的 S3 儲存貯體擷取分析結果。

自訂實體辨識工作會搜尋模型訓練要尋找的所有圖元。

主題• 啟動自訂實體偵測任務 (p. 140)• 設定文字擷取選項 (p. 143)

建立自訂實體辨識任務

1. 登入AWS Management Console並開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇分析任務然後選擇建立任務。3. 指定分類任務名稱。此名稱必須是您的帳戶和目前區域。4. UNTER分析類型,選擇自訂實體辨識。5. 從辨識器型號」中,選擇要使用的自訂實體辨識器。6. 從版本下一步,選擇要使用的辨識器版本。7. (選擇性) 如果您選擇在處理實體辨識工作時加密儲存磁碟區中的資料,請選擇Job 加密然後選擇要使用

與目前帳戶相關聯的 KMS 金鑰,還是使用其他帳戶的 KMS 金鑰。

• 如果您使用與目前帳戶相關聯的金鑰,請選擇金鑰 IDKMS 金鑰 ID。• 如果您使用與不同帳戶相關聯的金鑰,請輸入金鑰 ID 的 ARNKMS 金鑰 ARN。

Note

如需建立和使用 KMS 金鑰和相關加密的詳細資訊,請參閱金鑰管理服務。8. UNTER輸入資料中,輸入包含輸入文件的 Amazon S3 儲存貯體位置,或透過選擇導覽至該儲存貯體請

瀏覽 S3。此儲存貯體必須與您呼叫的 API 位於相同的區域。您用來分類任務存取許可的 IAM 角色必須具備 S3 儲存貯體的讀入許可。

9. (選擇性) 選擇要分類的文件格式輸入格式。這些文件可以是每個文件一個文檔,也可以是單個文件中的每行一個文檔。

10. UNTER輸出資料」中,輸入 Amazon S3 儲存貯體所在的位置寫入任務 Amazon Comprehend 輸出資料,或透過選擇導覽至該儲存貯體請瀏覽 S3。此儲存貯體必須與您呼叫的 API 位於相同的區域。您用來分類任務存取許可的 IAM 角色必須具備 S3 儲存貯體的寫入許可。

11. (選擇性) 如果您選擇加密工作的輸出結果,請選擇Encryption (加密)然後選擇要使用與目前帳戶相關聯的KMS 金鑰,還是使用其他帳戶的 KMS 金鑰。

• 如果您使用與目前帳戶相關聯的金鑰,請選擇金鑰別名或 IDKMS 金鑰 ID。• 如果您使用與其他帳戶相關聯的金鑰,請在下方輸入金鑰別名或 ID 的 ARNKMS 金鑰 ID。

12. (選擇性) 若要從 VPC 將您的資源啟動至 Amazon Comprehend,請在下方輸入 VPC 識別碼VPC或從下拉式清單中選擇 ID。

139

Amazon Comprehend 開發人員指南分析任務 (主控台)

1. 選擇下面的子網子網路。選取第一個子網路後,您可以選擇其他子網路。2. UNTER安全群組,如果您已指定安全性群組,請選擇要使用的安全性群組。選取第一個安全性群組

後,您可以選擇其他群組。

Note

當您將 VPC 與分析工作搭配使用時,DataAccessRole用於「建立」和「開始」作業必須具有存取輸出值區的 VPC 權限。

13. 選擇建立任務以建立實體辨識工作。

啟動自訂實體偵測任務啟動自訂實體偵測工作StartEntitiesDetectionJob (p. 386)操作時,您必須提供EntityRecognizerArn,也就是訓練模型的 Amazon Resource Name (ARN)。您可以在回應中找到此ARNCreateEntityRecognizer (p. 263)operation.

以下範例適用於 Unix、Linux 和 macOS 環境。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix接續字元斜線 (\)。若要偵測文件集中的自訂實體,請使用下列要求語法:

aws comprehend start-entities-detection-job \ --entity-recognizer-arn "entity recognizer arn" \ --job-name job name \ --data-access-role-arn "data access role arn" \ --language-code en \ --input-data-config "S3Uri=s3://Bucket Name/Bucket Path" \ --output-data-config "S3Uri=s3://Bucket Name/Bucket Path/" \ --region region

Amazon Comprehend 與響應JobID和JobStatus並將傳回您在請求中指定 S3 儲存貯體中任務的輸出。

Example 純文字和 PDF 文件的自訂實體偵測工作輸出範例

Plain text

{ "File": "50_docs", "Line": 0, "Entities": [ { "BeginOffset": 0, "EndOffset": 22, "Score": 0.9763959646224976, "Text": "John Johnson", "Type": "JUDGE" } ] } { "File": "50_docs", "Line": 1, "Entities": [ { "BeginOffset": 11, "EndOffset": 15, "Score": 0.9615424871444702,

140

Amazon Comprehend 開發人員指南分析任務 (主控台)

"Text": "Thomas Kincaid", "Type": "JUDGE" } ] }

PDF

{ "Blocks": [ { "BlockType": "LINE", "Geometry": { "BoundingBox": { "Height": 0.012575757575757575, "Left": 0.0, "Top": 0.0015063131313131314, "Width": 0.02262091503267974 }, "Polygon": [ { "X": 0.0, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.014082070707070706 }, { "X": 0.0, "Y": 0.014082070707070706 } ] }, "Id": "4330efed-6334-4fc4-ba48-e050afa95c8d", "Page": 1, "Relationships": [ { "ids": [ "f343ce48-583d-4abe-b84b-a232e266450f" ], "type": "CHILD" } ], "Text": "S-3" }, { "BlockType": "WORD", "Geometry": { "BoundingBox": { "Height": 0.012575757575757575, "Left": 0.0, "Top": 0.0015063131313131314,

141

Amazon Comprehend 開發人員指南分析任務 (主控台)

"Width": 0.02262091503267974 }, "Polygon": [ { "X": 0.0, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.014082070707070706 }, { "X": 0.0, "Y": 0.014082070707070706 } ] }, "Id": "f343ce48-583d-4abe-b84b-a232e266450f", "Page": 1, "Relationships": [], "Text": "S-3" } ], "DocumentMetadata": { "PageNumber": 1, "Pages": 1 }, "DocumentType": "NativePDF", "Entities": [ { "BlockReferences": [ { "BeginOffset": 25, "BlockId": "4330efed-6334-4fc4-ba48-e050afa95c8d", "ChildBlocks": [ { "BeginOffset": 1, "ChildBlockId": "cbba5534-ac69-4bc4-beef-306c659f70a6", "EndOffset": 6 } ], "EndOffset": 30 } ], "Score": 0.9998825926329088, "Text": "0.001", "Type": "OFFERING_PRICE" }, { "BlockReferences": [ { "BeginOffset": 41, "BlockId": "f343ce48-583d-4abe-b84b-a232e266450f", "ChildBlocks": [

142

Amazon Comprehend 開發人員指南分析任務 (主控台)

{ "BeginOffset": 0, "ChildBlockId": "292a2e26-21f0-401b-a2bf-03aa4c47f787", "EndOffset": 9 } ], "EndOffset": 50 } ], "Score": 0.9809727537330395, "Text": "6,097,560", "Type": "OFFERED_SHARES" } ], "File": "example.pdf", "Version": "2021-04-30" }

設定文字擷取選項如果您的輸入檔案包含影像檔案、PDF 或 Word 文件,您可以指定文字擷取的選項。在中StartEntitiesDetectionJob (p. 386)作業中,設定DocumentReaderConfig中的參數InputDataConfig以指定下列選項:

• DocumentReadMode— 如果您設定為SERVICE_DEFAULT時,Amazon Comprehend 會根據輸入文件類型自動選取文字擷取動作。如果您設定為FORCE_DOCUMENT_READ_ACTION,Amazon Comprehend 使用Amazon Textract 取 API 來解析 PDF,Word 或圖像文件。

• DocumentReadAction— 設定為TEXTRACT_DETECT_DOCUMENT_TEXTAmazon Comprehend 調用 Amazon TextractDetectDocumentTextAPI。設定TEXTRACT_ANALYZE_DOCUMENTAmazonComprehend 調用 Amazon TextractAnalyzeDocumentAPI。

如果您設置DocumentReadMode至SERVICE_DEFAULT,您不需要設定DocumentReadAction。

您可以通過InputDataConfig參數StartEntitiesDetectionJob作為 JSON 檔案。下列範例顯示JSON 檔案的使用DetectDocumentTextAPI:

Example InputDataConfig檔案中的參數 myInputDataconfig.json

"InputDataConfig": { "S3Uri": s3://Bucket Name/Bucket Path", "InputFormat": "ONE_DOC_PER_FILE", "DocumentReaderConfig": { "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT", "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION" }}

在 中StartEntitiesDetectionJob操作中,指定參數作為一個文件:

--input-data-config file://myInputDataConfig.json

如需 Amazon Textract 選項的詳細資訊,請參閱DocumentReaderConfig (p. 472)。

143

Amazon Comprehend 開發人員指南使用 Amazon Comprehend 模型版本控制

建立和管理自訂模型Amazon Comprehend 包含 NLP (自然語言處理) 模型,可用於分析見解或主題建模。您也可以使用 AmazonComprehend 建立用於實體辨識和文件分類的自訂模型。

使用模型版本控制,您可以追蹤建模歷程記錄。當您使用其他資料或不同的資料集執行模型時,您也可以追蹤與模型相關聯的分數。

您也可以透過允許其他方式共用自訂模型AWS 帳戶以匯入模型的副本。

主題• 使用 Amazon Comprehend 模型版本控制 (p. 144)• 在之間複製自訂模型AWS帳戶 (p. 146)

使用 Amazon Comprehend 模型版本控制人工智能和機器學習(AI/ML)是所有關於快速實驗。使用 Amazon Comprehend,您可以訓練和建置模型,以取得對資料的洞察力。使用模型版本控制,您可以在提供更多或不同的資料集時,追蹤模型歷史記錄和與模型執行結果相關聯的分數。您可以將版本控制與自訂分類模型或自訂實體辨識模型搭配使用。隨著時間的推移查看您的不同版本,您可以深入了解它們的成功程度,並深入了解您用來獲得成功狀態的參數。

當您訓練現有自訂分類器模型或實體辨識模型的新版本時,您需要做的就是從模型詳細資訊頁面建立新版本,並為您填入所有詳細資訊。新版本將與您之前的模型(我們稱之為 VersionID)具有相同的名稱,儘管您在創建過程中會為其提供唯一的版本名稱。當您將新版本新增至模型時,您可以從模型詳細資訊頁面在一個檢視中查看所有先前版本及其詳細資訊。使用版本控制,您可以在對訓練資料集進行變更時,查看模型效能如何變更。

144

Amazon Comprehend 開發人員指南使用 Amazon Comprehend 模型版本控制

建立新自訂分類器Version (主控台)

1. 登入AWS Management Console開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇自訂然後選擇自訂分類。3. 來自分類器清單中,選擇您要從中建立新版本的自訂模型的名稱。系統會顯示自訂模型詳細資訊頁面。4. 在右上角的,選擇建立新模型。會開啟一個畫面,其中包含父項自訂分類模型中預先填入的詳細資訊。5. UNERVersion Name (名稱新版本中新增唯一名稱。6. 在版本詳細資料下,您可以變更與新模型相關聯的語言和標籤數量。7. 在 下方資料規格部分配置如何將數據提供給新版本-確保提供完整數據,其中包括先前模型的文檔和新

文檔。您無法變更分類器模式(單標籤或多標籤),資料格式(CSV 文件,增強清單),您的訓練資料集,以及您的測試資料集(自動拆分,或您的自定義測試數據配置)。

8. (選擇性) 更新輸出資料的 S3 位置9. UNER許可存取,建立或使用現有 IAM 角色。10. (選擇性) 更新您的 VPC 設定11. (可選)將標籤添加到新版本以幫助跟踪詳細信息。

如需建立自訂分類器的詳細資訊,請參閱建立自訂分類器 (p. 96)

145

Amazon Comprehend 開發人員指南在之間複製自訂模型AWS帳戶

建立新自訂實體辨識器Version (主控台)

1. 登入AWS Management Console開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇自訂然後選擇自訂實體辨識。3. 來自辨識器模型清單中,選擇您要從中建立新版本的辨識器的辨識器的名稱。系統會顯示「詳細資訊」

頁面。4. 在右上角的,選擇訓練新版本。螢幕會開啟,其中包含來自父實體辨識器的預先填入詳細資訊。5. UNERVersion Name (名稱新版本中新增唯一名稱。6. 在「自訂實體類型」下,新增您希望辨識器在資料集中識別的自訂標籤或標籤,然後選取新增類型。從

您提供的註釋或實體清單中選擇自訂實體類型。然後,辨識器將使用所有包含的實體類型,在執行工作時識別資料集中的實體。如果每個實體類型使用多個單字,每個實體類型都必須是大寫,並以及下劃線分隔。最多允許 25 種類型。

7. (選用) 選取辨識器加密,以在處理工作時加密儲存磁碟區中的資料。8. 在「訓練資料」區段下,指定註解和資料格式詳細資料 (CSV 檔案、增強資訊清單) 單一標籤或多標

籤)、資料格式(CSV、增強資訊清單),您的訓練資料集,以及您的測試資料集(自動拆分,或您的自定義測試數據配置)。

9. (選擇性) 更新輸出資料的 S3 位置10. UNER許可存取,建立或使用現有 IAM 角色。11. (選擇性) 更新您的 VPC 設定12. (可選)將標籤添加到新版本以幫助跟踪詳細信息。

若要進一步了解自訂實體辨識器,請參閱自訂實體辨識 (p. 115)和使用主控台建立自訂實體辨識器 (p. 127)。

在之間複製自訂模型AWS帳戶亞馬遜使用者可以在之間複製訓練過的自訂模型AWS兩個步驟程序中的帳戶。首先,一個使用者AWS帳戶(帳戶 A),分享他們帳戶中的自定義模型。然後,另一個用戶AWS帳戶 (帳戶 B)進口該模型進入他們的帳戶。帳戶 B 使用者不需要訓練模型,也不需要複製 (或存取) 原始訓練資料或測試資料。

若要在帳戶 A 中共用自訂模型,使用者會附加AWS Identity and Access Management(IAM) 政策至模型版本。此政策授權帳戶 B 中的實體 (例如 IAM 使用者或角色) 將模型版本匯入其中的 AmazonComprehendAWS帳戶。帳戶 B 使用者必須將模型匯入至AWS區域作為原始模型。

若要匯入帳戶 B 中的模型,此帳戶的使用 Amazon Comprehend 將提供必要的詳細資訊,例如模型的Amazon Resource Name (ARN)。透過匯入模型,此使用者會在其中建立新的自訂模型AWS複製他們匯入的模型的帳戶。此模型經過完整訓練,可供推論工作使用,例如文件分類或具名實體辨識。

在下列情況下,複製自訂模型很有用:

• 您屬於使用多個組織AWS帳戶。例如,您的組織可能有AWS說明每個開發階段,例如建置、階段、測試和部署。或者,它可能有不同的AWS佔商業功能,例如數據科學和工程。

• 您的組織與另一個組織合作,例如AWS在 Amazon Comprehend 中訓練自訂模型的合作夥伴,並將其作為客戶提供給您。

在這種情況下,您可以從一個快速複製訓練有素的自定義實體識別器或文檔分類器AWS帳戶到另一個。以這種方式複製模型比替代方法更容易,您可以在其間複製訓練資料AWS用於訓練重複模型的帳戶。

主題• 與另一個模型共用自訂模型AWS帳戶 (p. 147)

146

Amazon Comprehend 開發人員指南共用自訂模型

• 從其他模型匯入自訂模型AWS帳戶 (p. 152)

與另一個模型共用自訂模型AWS帳戶使用 Amazon Comprehend,您可以與其他人共用您的自訂模型,以便他們可以將您的模型匯入他們的模型AWS帳戶。當使用者匯入您的其中一個自訂模型時,他們會在其帳戶中建立新的自訂模型。他們的新模型會複製您共用的模型。

若要共用自訂模型,您可以將原則附加至該模型,以授權其他人匯入該模型。然後,您可以為這些用戶提供他們所需的詳細信息。

Note

當其他使用者匯入您已共用的自訂模型時,他們必須使用相同的模型AWS包含您模型的區域 (例如,US East (N. Virginia)。

主題• 開始之前 (p. 147)• 自訂模型的以資源為基礎的政策 (p. 150)• 步驟 1:將以資源為基礎的政策新增至自訂模型 (p. 150)• 步驟 2:提供其他人需要導入的詳細信息 (p. 152)

開始之前在您可以共用模型之前,您必須在您的 Amazon Comprehend 中擁有訓練有素的自訂分類器或自訂實體辨識器AWS帳戶。如需訓練自訂模型的詳細資訊,請參閱自訂分類 (p. 92)或者自訂實體辨識 (p. 115)。

必要許可

IAM 政策聲明

在您可以將以資源為基礎的策略新增至自訂模型之前,您需要中的權限AWS Identity and AccessManagement(IAM). 您的 IAM 使用者或群組必須附加政策,以便您可以建立、取得和刪除模型政策,如下列範例所示。

Example 管理自訂模型資源型政策的 IAM 政策

{ "Effect": "Allow", "Action": [ "comprehend:PutResourcePolicy", "comprehend:DeleteResourcePolicy", "comprehend:DescribeResourcePolicy" ], "Resource": "arn:aws:comprehend:us-west-2:111122223333:document-classifier/foo/version/*"}

如需有關建立 IAM 政策的詳細資訊,請參閱建立 IAM 政策中的IAM User Guide。如需連接 IAM 政策的詳細資訊,請參閱新增和移除 IAM 身分許可中的IAM User Guide。

AWS KMS金鑰型政策聲明

如果您要共用加密模型,則可能需要為AWS KMS。此需求取決於您在 Amazon Comprehend 中用來加密模型的 KMS 金鑰類型。

147

Amazon Comprehend 開發人員指南共用自訂模型

同時AWS 擁有的金鑰由擁有和管理AWS服務。如果您使用AWS 擁有的金鑰,您不需要為以下項目新增許可AWS KMS,您可以略過本節。

一個客戶受管金鑰是您在中建立、擁有和管理的金鑰AWS帳戶。如果您使用客戶受管金鑰,則您必須將陳述式新增到 KMS 金鑰政策。

政策聲明授權一個或多個實體 (例如 IAM 使用者或AWS帳戶)執行AWS KMS解密模型所需的作業。

您可以使用條件鍵來協助防止混淆代理人問題。如需詳細資訊,請參閱 the section called “預防跨服務混淆代理人” (p. 174)。

使用原則中的下列條件金鑰來驗證存取 KMS 金鑰的實體。當使用者匯入模型時,AWS KMS檢查來源模型版本的 ARN 是否符合條件。如果您未在原則中包含條件,指定的主體可以使用您的 KMS 金鑰來解密任何模型版本:

• AWS:SourceArn— 使用此條件鍵與kms:GenerateDataKey和kms:Decrypt動作。• kms.EncryptionContext— 使用此條件鍵與kms:GenerateDataKey、kms:Decrypt,以

及kms:CreateGrant動作。

在下列範例中,原則授權AWS 帳戶 444455556666使用所擁有的指定分類器模型的版本 1AWS帳戶111122223333。

Example 存取特定分類器模型版本的 KMS 金鑰原則

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::444455556666:root" }, "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*", "Condition": { "StringEquals": { "aws:SourceArn": "arn:aws:comprehend:us-west-2:111122223333:document-classifier/classifierName/version/1" } } }, { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::444455556666:root" }, "Action": "kms:CreateGrant", "Resource": "*", "Condition": { "StringEquals": { "kms:EncryptionContext:aws:comprehend:arn": "arn:aws:comprehend:us-west-2:111122223333:document-classifier/classifierName/version/1" } } } ]

148

Amazon Comprehend 開發人員指南共用自訂模型

}

下列範例政策授權使用者ExampleUser 從AWS 帳戶 444455556666和ExampleRole從AWS 帳戶123456789012通過 Amazon Comprehend 服務訪問此 KMS 密鑰。

Example 允許存取 Amazon Comprehend 服務的 KMS 金鑰政策 (替代方案 1)。

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "AWS": [ "arn:aws:iam::444455556666:user/ExampleUser", "arn:aws:iam::123456789012:role/ExampleRole" ] }, "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*", "Condition": { "StringLike": { "aws:SourceArn": "arn:aws:comprehend:*"

} } }, { "Effect": "Allow", "Principal": { "AWS": [ "arn:aws:iam::444455556666:user/ExampleUser", "arn:aws:iam::123456789012:role/ExampleRole" ] }, "Action": "kms:CreateGrant", "Resource": "*", "Condition": { "StringLike": { "kms:EncryptionContext:aws:comprehend:arn": "arn:aws:comprehend:*" } } } ]}

以下範例政策授權AWS 帳戶 444455556666使用上一個範例的替代語法,透過 Amazon Comprehend 服務存取此 KMS 金鑰。

Example 允許存取 Amazon Comprehend 服務的 KMS 金鑰政策 (替代方案 2)。

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::444455556666:root" }, "Action": [

149

Amazon Comprehend 開發人員指南共用自訂模型

"kms:Decrypt", "kms:GenerateDataKey", "kms:CreateGrant" ], "Resource": "*", "Condition": { "StringLike": { "kms:EncryptionContext:aws:comprehend:arn": "arn:aws:comprehend:*" } } } ]}

如需詳細資訊,請參閱《AWS Key Management Service 開發人員指南》中的在 AWS KMS 中使用金鑰政策。

自訂模型的以資源為基礎的政策在另一個 Amazon Comprehend 用戶之前AWS帳戶可以從您的AWS帳戶,您必須授權他們這樣做。要授權他們,您可以添加一個資源為基礎的政策到您想要共用的模型版本。以資源為基礎的政策是連接到中的資源的 IAM 政策AWS。

當您將資源政策附加到自訂模型版本時,該政策會授權一個或多個實體,例如 IAM 使用者或AWS帳戶,以執行comprehend:ImportModel模型版本的動作。

Example 自訂模型版本的以資源為基礎的政策

此範例指定中的授權實體Principal屬性。資源「*」是指您附加策略的特定模型版本。

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "comprehend:ImportModel", "Resource": "*", "Principal": { "AWS": [ "arn:aws:iam::111122223333:root", "arn:aws:iam::444455556666:user/ExampleUser", "arn:aws:iam::123456789012:role/ExampleRole" ] } } ]}

對於您附加至自訂模型的原則,comprehend:ImportModel是亞馬遜支援的唯一動作。

如需以資源為基礎的政策詳細資訊,請參閱以身分為基礎和以資源為基礎的政策中的IAM User Guide。

步驟 1:將以資源為基礎的政策新增至自訂模型您可以使用新增以資源為基礎的政策AWS Management Console、AWS CLI,或 Amazon ComprehendAPI。

AWS Management Console

您可以使用 Amazon Comprehend 在AWS Management Console。

150

Amazon Comprehend 開發人員指南共用自訂模型

新增以資源為基礎的政策

1. 前往登入AWS Management Console並開啟Amazon Comprehend 主控台。2. 在左側的導覽功能表中,客製化中,選擇包含您自訂模型的頁面:

a. 如果您要共用自訂文件分類器,請選擇自訂分類。b. 如果您要共用自訂實體辨識器,請選擇自訂實體辨識。

3. 在模型清單中,請選擇模型名稱來開啟它的詳細資訊頁面。4. Under版本,選擇您要共用的模型版本名稱。5. 在版本詳細資訊頁面上,選擇標籤, VPC & 政策標籤。6. 在 中以資源為基礎政策區段中,選擇Edit (編輯)。7. 在「」編輯以資源為基礎的政策頁面,執行下列作業:

a. 適用於政策名稱,輸入可以協助您在建立政策之後辨識的名稱。b. Under授權中,指定下列一或多個圖元以授權它們匯入模型:

欄位 定義與範例

服務主體 可存取此模型版本之服務的服務主體識別碼。例如:

理解. 亞馬遜

AWS帳戶 ID AWS 帳戶可以訪問此模型版本。授權屬於帳戶的所有使用者。例如:

111122223333、123456789012

IAM 實體 適用於 IAM 使用者的 ARN,或可存取此模型版本的角色。例如:

arn: iam: 1111212122333: 使用者/ExampleUser,arn: iam:444455555666: Role/ExampleRole

8. Under分享,您可以複製模型版本的 ARN,以協助您與將匯入模型的人員共用該模型。當有人從不同的AWS 帳戶匯入自訂模型時,需要模型版本 ARN。

9. 選擇 Save (儲存)。Amazon Comprehend 會建立以資源為基礎的政策,並將其附加到您的模型。

AWS CLI

使用AWS CLI,使用PutResourcePolicy指令。該 命令會使用下列參數:

• resource-arn— 自訂模型的 ARN,包括模型版本。• resource-policy— 定義以資源為基礎的原則以附加至自訂模型的 JSON 檔案。

您也可以將原則提供為內嵌 JSON 字串。若要為您的政策提供有效的 JSON,請使用雙引號括住屬性名稱和值。如果 JSON 主體也用雙引號括起來,您可以逸出原則內的雙引號。

• policy-revision-id— Amazon Comprehend 指派給您正在更新之政策的修訂識別碼。如果您要建立沒有先前版本的新原則,請勿使用此參數。Amazon Comprehend 為您創建修訂 ID。

Example 將以資源為基礎的政策新增至自訂模型put-resource-policy命令

此範例定義名為的 JSON 檔案中的原則策略文件並將原則與模型相關聯。該模型是版本v2一個名為的分類器麥氏菌素 1。

151

Amazon Comprehend 開發人員指南匯入自訂模型

$ aws comprehend put-resource-policy \> --resource-arn arn:aws:comprehend:us-west-2:111122223333:document-classifier/mycf1/version/v2 \> --resource-policy file://policyFile.json \> --policy-revision-id revision-id

資源策略的 JSON 檔案包含下列內容:

• Action— 原則會授權具名的主參與者使用comprehend:ImportModel。• 資源— 自訂模型的 ARN。資源「*」是指您在put-resource-policy指令。• Principal— 該策略授權用戶jane從AWS 帳戶以及所有來自的使用者AWS 帳戶123456789089012.

{"Version":"2012-10-17", "Statement":[ {"Sid":"ResourcePolicyForImportModel", "Effect":"Allow", "Action":["comprehend:ImportModel"], "Resource":"*", "Principal": {"AWS": ["arn:aws:iam::444455556666:user/jane", "123456789012"] } } ]}

Amazon Comprehend API

若要使用 Amazon Comprehend API 將以資源為基礎的政策新增至自訂模型,請使用PutResourcePolicyAPI操作。

您也可以在建立模型的 API 要求中,將原則新增至自訂模型。若要這麼做,請提供原則 JSON ModelPolicy當您提交一個參數CreateDocumentClassifier或者CreateEntityRecognizer請求。

步驟 2:提供其他人需要導入的詳細信息現在您已將以資源為基礎的政策新增至自訂模型,您已授權其他 Amazon Comprehend 使用者將您的模型匯入他們的模型AWS帳戶。但是,在匯入之前,您必須提供下列詳細資訊:

• 模型版本的 Amazon Resource Name (ARN)。• 所以此AWS包含模型的區域。任何導入模型的人都必須使用相同的AWS區域。• 模型是否已加密,如果是,則為類型AWS KMS您使用的密鑰:AWS 擁有的金鑰或客戶受管金鑰。• 如果您的模型使用客戶受管金鑰加密,則您必須提供 KMS 金鑰的 ARN。匯入模型的任何人都必須在他們

的 IAM 服務角色中包含 ARNAWS帳戶。此角色授權 Amazon Comprehend 在匯入期間使用 KMS 金鑰解密模型。

如需其他使用者如何匯入模型的詳細資訊,請參閱從其他模型匯入自訂模型AWS帳戶 (p. 152)。

從其他模型匯入自訂模型AWS帳戶在 Amazon Comprehend 域,您可以導入一個自定義模型,這是在另一個AWS帳戶。匯入模型時,您會在帳戶中建立新的自訂模型。您的新自訂模型是您匯入模型的完整訓練複本。

主題

152

Amazon Comprehend 開發人員指南匯入自訂模型

• 開始之前 (p. 153)• 匯入自訂模型 (p. 155)

開始之前從另一個模型匯入自訂模型之前AWS帳戶中,請確定與您共用模型的人執行下列動作:

• 授權您執行匯入。此授權會在附加至模型版本的以資源為基礎的原則中授與。如需詳細資訊,請參閱 自訂模型的以資源為基礎的政策 (p. 150)。

• 提供下列資訊:• 模型版本的 Amazon Resource Name (ARN)。• 所以此AWS包含模型的區域。您必須使用相同的AWS匯入時的區域。• 模型是否使用AWS KMSkey,如果是,則為所使用的金鑰類型。

如果模型已加密,您可能需要採取其他步驟,具體取決於所使用的 KMS 金鑰類型:

• AWS 擁有的金鑰— 此類型的 KMS 金鑰由擁有和管理AWS。如果模型使用AWS 擁有的金鑰,無須採取額外的步驟。

• 客戶受管金鑰— 此類型的 KMS 金鑰由建立、擁有和管理AWS客戶在他們的AWS帳戶。如果使用客戶管理的金鑰加密模型,則共用模型的人員必須:• 授權您解密模型。此授權會在客戶受管金鑰的 KMS 金鑰原則中授與。如需詳細資訊,請參閱 AWS

KMS金鑰型政策聲明 (p. 147)。• 提供客戶受管金鑰的 ARN。當您建立 IAM 服務角色時,您可以使用此 ARN。此角色授權 Amazon

Comprehend 使用 KMS 金鑰解密模型。

必要許可

您或您的管理員必須在中授權所需動作,才能匯入自訂模型AWS Identity and Access Management(IAM). 身為 Amazon Comprehend 使用者,您必須獲得 IAM 政策聲明的授權才能匯入。如果在匯入期間需要加密或解密,則必須獲得 Amazon Comprehend 的授權才能使用必要的AWS KMS鑰匙。

IAM 政策聲明

您的 IAM 使用者或群組必須附加允許ImportModel動作,如下列範例所示。

Example 用於匯入自訂模型的 IAM 政策

{ "Effect": "Allow", "Action": [ "comprehend:ImportModel" ], "Resource": "arn:aws:comprehend:us-west-2:111122223333:document-classifier/foo/version/*"}

如需建立 IAM 政策的詳細資訊,請參閱建立 IAM 政策中的IAM User Guide。如需有關連接 IAM 政策的詳細資訊,請參閱新增和移除 IAM 身分許可中的IAM User Guide。

的 IAM 服務角色AWS KMS加密

匯入自訂模型時,您必須授 Amazon Comprehend 用AWS KMS下列任一案例中的金鑰:

• 您正在匯入以客戶受管金鑰加密的自訂模型AWS KMS。在這種情況下,Amazon Comprehend 需要存取KMS 金鑰,以便在匯入期間解密模型。

153

Amazon Comprehend 開發人員指南匯入自訂模型

• 您想要加密透過匯入建立的新自訂模型,而且想要使用客戶管理的金鑰。在這種情況下,AmazonComprehend 需要存取您的 KMS 金鑰,以便能夠加密新模型。

要授權 Amazon Comprehend 使用這些AWS KMS鍵,您創建一個IAM 服務角色。這種類型的 IAM 角色允許AWS代表您存取其他服務中的資源。如需服務角色的詳細資訊,請參閱建立角色以將許可委派給 AWS 服務中的IAM User Guide。

如果您使用 Amazon Comprehend 主控台匯入,您可以讓 Amazon Comprehend 為您建立服務角色。否則,您必須在 IAM 中建立服務角色,然後再匯入。

IAM 服務角色必須具有許可政策和信任政策,如下列範例所示。

Example 許可政策

下列許可政策允許AWS KMSAmazon Comprehend 用來加密和解密自訂模型的作業。它會授與兩個 KMS 金鑰的存取權:

• 一個 KMS 金鑰位於AWS包含要匯入的模型的帳戶。它被用來加密模型,而 Amazon Comprehend 使用它來在導入過程中解密模型。

• 另一個 KMS 金鑰位於AWS匯入模型的帳戶。Amazon Comprehend 使用此金鑰來加密匯入所建立的新自訂模型。

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:CreateGrant" ], "Resource": [ "arn:aws:kms:us-west-2:111122223333:key/key-id", "arn:aws:kms:us-west-2:444455556666:key/key-id" ] }, { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDatakey" ], "Resource": [ "arn:aws:kms:us-west-2:111122223333:key/key-id", "arn:aws:kms:us-west-2:444455556666:key/key-id" ], "Condition": { "StringEquals": { "kms:ViaService": [ "s3.us-west-2.amazonaws.com" ] } } } ]}

Example 信任政策

下列信任政策允許 Amazon Comprehend 擔任角色並取得其許可。它允許comprehend.amazonaws.com服務主體執行sts:AssumeRoleoperation. 的說明預防

154

Amazon Comprehend 開發人員指南匯入自訂模型

混淆代理人 (p. 174)時,您可以使用一或多個全域條件內容索引鍵來限制權限範圍。適用於aws:SourceAccount」下方,指定匯入模型之使用者的帳號 ID。

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "comprehend.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "444455556666" } } } ]}

匯入自訂模型您可以使用匯入自訂模型AWS Management Console、AWS CLI,或 Amazon Comprehend API。

AWS Management Console

您可以使用 Amazon ComprehendAWS Management Console。

匯入自訂模型

1. 登入AWS Management Console並開啟Amazon Comprehend 控制台。2. 在左側的導覽功能表中,下自訂,選擇您要匯入之模型類型的頁面:

a. 如果您要匯入自訂文件分類器,請選擇自訂分類。b. 如果您要匯入自訂實體辨識器,請選擇自訂實體辨識。

3. 選擇匯入版本。4. 在「」匯入模型版本頁面上,輸入以下詳細資訊:

• 模型 ARN-要匯入的模型版本 ARN。• 模型名稱-匯入所建立之新模型的自訂名稱。• 版本名稱-匯入所建立之新模型版本的自訂名稱。

5. 適用於模型加密中,選擇用於加密您透過匯入建立的新自訂模型的 KMS 金鑰類型:

• 使用AWS擁有的金鑰— Amazon Comprehend 過使用密鑰對您的模型進行加密AWS KeyManagement Service(AWS KMS),由 AWS 代表您建立、管理和使用。

• 選擇不同的AWS KMS鍵 (進階)— Amazon Comprehend 使用您在其中管理的客戶受管金鑰來加密您的模型AWS KMS。

如果您選擇此選項,請選取您的 KMS 金鑰AWS帳戶,或建立新的帳戶建立AWS KMS鍵。6. 在 中服務存取部分, 授予 Amazon Comprehend 任何訪問權限AWS KMS它需要的鑰匙:

• 解密您匯入的自訂模型。• 加密您使用匯入建立的新自訂模型。

您可以透過 IAM 服務角色授予存取權,該角色允許 Amazon Comprehend 使用 KMS 金鑰。

155

Amazon Comprehend 開發人員指南匯入自訂模型

適用於服務角色,執行下列其中一項:• 如果您想要使用現有的服務角色,請按一下使用現有的 IAM 角色。然後,在下面選擇它角色名稱。• 如果您希望 Amazon Comprehend,請按一下建立 IAM 角色。

7. 如果您選擇讓 Amazon Comprehend 為您建立角色,請執行下列動作:

a. 適用於角色名稱下,輸入角色名稱後綴,以便您稍後辨識角色。b. 適用於源碼 KMS 金鑰 ARN下,輸入用於加密您要匯入的模型之 KMS 金鑰的 ARN。Amazon

Comprehend 使用此密鑰在導入過程中解密模型。8. (選擇性) 在標籤區段中,您可以將標籤新增至透過匯入建立的新自訂模型。如需標記自訂模型的詳細資

訊,請參閱標記新的資源 (p. 168)。9. 選擇 Confirm (確認)。

AWS CLI

您可以執行命令搭配來使用 Amazon ComprehendAWS CLI。

Example 匯入模型指令

若要匯入自訂模型,請使用import-model命令

$ aws comprehend import-model \> --source-model arn:aws:comprehend:us-west-2:111122223333:document-classifier/foo/version/bar \> --model-name importedDocumentClassifier \> --version-name versionOne \> --data-access-role-arn arn:aws:iam::444455556666:role/comprehendAccessRole \> --model-kms-key-id kms-key-id

此範例使用下列參數:

• source-model— 要匯入的自訂模型 ARN。• model-name-匯入所建立之新模型的自訂名稱。• version-name-匯入所建立之新模型版本的自訂名稱。• data-access-role-arn— IAM 服務角色的 ARN,可讓 Amazon Comprehend 使用必要的AWS KMS

用於加密或解密自訂模型的金鑰。• model-kms-key-id— Amazon Comprehend 用來加密您透過此匯入建立的自訂模型的 KMS 金鑰的

ARN 或識別碼。此鍵必須AWS KMS在您的AWS帳戶。

Amazon Comprehend API

若要使用 Amazon Comprehend API 匯入自訂模型,請使用ImportModelAPI 動作。

156

Amazon Comprehend 開發人員指南端點概觀

Amazon Comprehend Mend MendMend

在 Amazon Comprehend 中,端點可讓您的自訂模型用於即時分類或實體偵測。在您建立端點後,您便可以在您的業務需求發展時對其進行變更。例如,您可以監控端點使用率並套用自 auto 擴展來自動設定端點佈建以符合您的容量需求。您可以從單一檢視管理所有端點,當您不再需要端點時,可以將其刪除以節省成本。

您必須先建立一個端點,才能管理端點。如需詳細資訊,請參閱下列程序:

• 建立自訂分類的端點 (p. 108)• 建立用於自訂實體偵測的端點 (p. 137)

主題• Amazon Comprehend 點的概觀 (p. 157)• 監控 Amazon Comprehend 端點 (p. 158)• Amazon Comprehend 端點 (p. 159)• 使用Trusted AdvisorAmazon Comprehend (p. 160)• 刪除 Amazon Comprehend 端點 (p. 162)• 隨端點自動調整規模 (p. 162)

Amazon Comprehend 點的概觀Amazon Comprehend 主控台的端點頁面可讓您全域檢視端點。在端點概觀頁面中,您可以在一個位置查看所有端點,以了解端點使用情況與實際資源使用情況。在端點頁面的右上角,您可以指定要檢視的端點 — 所有端點、自訂分類器端點或自訂實體端點。

您可以從此頁面建立、更新、監控和刪除端點。在端點概觀區段中,您可以檢視端點清單、端點託管的自訂模型、它們的建立時間、佈建的輸送量以及端點的狀態。當您從端點概觀表格中選取特定端點時,會顯示端點詳細資訊。

另外,如果你是AWS 商業 Support 的或一個AWS 企業 Support 的客戶,您可以存取特定於您的端點的Trusted Advisor 檢查。如需進一步了解,請參閱 使用Trusted AdvisorAmazon Comprehend (p. 160)。如需檢查和說明的完整清單,請參閱Trusted Advisor。

如需有關管理您的端點的詳細資訊,請參閱下列主題。

• 監控 Amazon Comprehend 端點 (p. 158)• Amazon Comprehend 端點 (p. 159)• 使用Trusted AdvisorAmazon Comprehend (p. 160)• 刪除 Amazon Comprehend 端點 (p. 162)

Important

即時自訂分類的成本取決於您設定的輸送量和端點處於作用中狀態的時間長度。如果您不再使用該端點,或者長時間未使用該端點,則應設定 auto 擴展政策以降低成本。或者,如果您不再

157

Amazon Comprehend 開發人員指南監控端點

使用某個端點,即應將其刪除以避免產生額外的費用。如需詳細資訊,請參閱隨端點自動調整規模 (p. 162)。

監控 Amazon Comprehend 端點根據需求,您可能需要在建立端點之後,根據需求。這可以通過更新端點的推論單元(IU)來實現。編輯端點時,可以將更多 IU 新增至端點,也可以減少 IU。單一端點可以有 1 到 10 個 IU。

如需更新端點的詳細資訊,請參閱the section called “更新端點” (p. 159)。

若要檢視所有端點,請參閱the section called “端點概觀” (p. 157)。

您可以透過 Amazon 監控端點的使用情況,決定如何最佳調整端點的輸送量 CloudWatch 主控台。

監控您的端點使用情況 CloudWatch

1. 登入 AWS Management Console 並開啟 CloudWatch 主控台。2. 在左側, 選擇指標並選取所有量度。3. Under所有量度,選擇Comprehend。

所以此 CloudWatch 主控台會顯示量度的維度。4. 選擇EndpointArn維度。

主控台會顯示ConsumedInferenceUnits、ProvisionedInferenceUnits,以及InferenceUtilization為您的每個端點。

5. 設定的統計資料欄ConsumedInferenceUnits和InferenceUtilization至總和。6. 設定的統計資料欄ProvisionedInferenceUnits至平均數。

158

Amazon Comprehend 開發人員指南更新端點

7. 將所有測量結果的「期間」欄變更為1 分鐘。8. 選擇InferenceUtilization並選擇箭頭將其移動到單獨的Y 軸。

您的圖表已準備好進行分析。

根據 CloudWatch 指標,您還可以設置自 auto 擴展以自動調整端點的吞吐量。如需有關搭配使用 auto 擴展的詳細資訊,請參閱隨端點自動調整規模 (p. 162)。

• ProvisionedInferenceUnits-此量度代表提出要求時的平均佈建 IU 數目。• ConsumedInferenceUnits-這是根據提交至成功處理之服務的每個要求的使用情況而定。這將會很有幫

助,這將會很有幫助。此量度的值是以處理的字元數除以 1 IU 可在一分鐘內處理的字元數來計算。• InferenceUtilization-這是每個請求發出。此值是透過取用中定義的已耗用 IU 來計

算ConsumedInferenceUnits並將其除以ProvisionedInferenceUnits並轉換為 100 的百分比。

Note

只有成功的要求才會發出所有量度。如果量度來自限制的要求或失敗,並出現內部伺服器錯誤或客戶錯誤,則不會顯示該量度。

Amazon Comprehend 端點建立端點後,您需要的輸送量等級通常會變更,或是您第一次估計需求時會發生變更。發生這種情況時,可能需要更新您的端點以調高或降低輸送量。輸送量是由您佈建端點的推論單元數量所控制。每個推論單元代表每秒 100 個字元的輸送量,每秒最多 2 個文件。您可能還想要更新與端點關聯的模型版本。編輯端點時,您可以為端點選擇不同的模型版本。

將標籤添加到端點以幫助保持組織也很有幫助。這也可以在更新端點時完成。如需端點的詳細資訊,請參閱標記您的資源 (p. 168)

更新端點 (主控台)

1. 登入AWS Management Console並開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇端點。3. 從分類器」清單中,選擇您要從中更新端點的自訂模型的名稱,然後遵循連結。模型詳細資訊頁面隨即

顯示。4. 在模型詳細資訊頁面中,選取版本詳細資訊。端點清單隨即顯示。5. 選取端點的端點核取方塊。在端點表格右上方,選取動作圖示。6. 選擇 Edit (編輯)。您可以更新已佈建的 IU 和編輯標籤。7. 儲存您的變更。8. 若要編輯用於佈建端點的推論單元數目,請選擇Edit (編輯)。9. 輸入要指派給端點的推論單元的更新數目。每個單位代表每秒 100 個字元的輸送量。每個端點最多可以

指派 10 個推論單元。

Note

使用端點的成本取決於操作時間和輸送量(基於推論單元的數量)。因此,增加推論單元的數量會增加操作成本。如需詳細資訊,請參閱「」Amazon Comprehend 定價。

10. 選擇編輯端點。系統會顯示端點詳細資訊頁面。11. 從頁面頂端的導覽路徑中選擇模型名稱,確認端點正在更新。在自訂模型詳細資訊頁面上,導覽至端

點列出並確認它顯示更新在端點旁邊。當更新完成時,系統會顯示備妥。

159

Amazon Comprehend 開發人員指南使用 Trusted Advisor

以下範例示範的是使用UpdateEndpoint使用 AWS CLI 進行操作。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的Unix 接續字元斜線 (\)。

aws comprehend update-endpoint \ --desired-inference-units updated number of inference units \ --desired-model-arn arn:aws:comprehend:region:account-id:model type/model name \ --desired-data-access-role-arn arn:aws:iam:account id:role/role name --endpoint-arn arn:aws:comprehend:region:account id:endpoint/endpoint name

如果動作成功,Amazon Comprehend 會使用空 HTTP 內文的 HTTP 200 回應來回應。12. 若要編輯連接到端點的自訂模型,請從自訂模型詳細資料頁面導覽至端點清單。13. 選取您要變更的端點並選取Edit (編輯)。14. 從端點設定頁面的下選取分類器型號或者選取辨識器型號視您的端點而定,您可以在下拉式清單中搜尋

模型。選取您要設定的模型。15. UNER選擇版本您可以搜索所需的模型版本。選取版本。16. 選擇編輯端點儲存。

使用Trusted AdvisorAmazon ComprehendAWS Trusted Advisor這個線上工具可提供您的建議,來協助您佈建下資源AWS最佳實務。

如果您有基本或開發人員支援計劃,可以透過 Trusted Advisor 主控台存取服務配額類別中的所有檢查,以及安全性類別中的六項檢查。如果您有商業或企業 Support 方案,可以使用Trusted Advisor主控台和AWSSupportAPI訪問所有Trusted Advisor檢查。

Amazon Comprehend 支持以下內容Trusted Advisor透過提供可行的建議,進行檢查,協助客戶最佳化其Amazon Comprehend 端點的成本和安全性。

Amazon Comprehend 使用率不足的端點所以此Amazon Comprehend 使用率不足的端點check (檢查) 會評估端點的輸送量組態。此檢查會在端點未主動用於即時推論請求時提醒您。未使用超過 15 天的端點會被視為未充分利用。所有端點都會根據設定的輸送量和端點處於作用中的時間長度來計算費用。對於過去 15 天未使用過該端點,建議您使用 Scaling 定義資源的擴展政策應用程式自動擴展。對於過去 30 天未使用過且確實定義了 auto 擴展政策的端點,我們建議您使用非同步推論或將其刪除。這些檢查結果會每天自動重新整理一次,並可在CostOptimization上的類別Trusted Advisorconsole (含)。

若要檢視所有端點的使用狀態和對應的建議

1. 登入 AWS Management Console 並開啟 Trusted Advisor 主控台。2. 在導覽窗格中,選擇CostOptimization檢查類別。3. 在類別頁面上,您可以檢視每個檢查類別的摘要:

• Action recommended (建議採取動作) (紅色) - Trusted Advisor 建議為檢查執行的動作。• Investigation recommended (建議進行調查) (黃色) - Trusted Advisor 偵測到可能的檢查問題。• No problems detected (未偵測到問題) (綠色) - Trusted Advisor 沒有偵測到檢查的問題。• 排除的項目 (灰色)-具有已排除項目的檢查數目,例如您想要檢查忽略的資源。

4. 選擇Amazon Comprehend 使用率不足的端點以檢視檢查說明及下列詳細資訊:

160

Amazon Comprehend 開發人員指南Amazon Comprehend 端點訪問風險

• Alert Criteria (提醒條件) - 說明檢查狀態變更的臨界值。• Recommended Action (建議動作) - 說明此檢查的建議動作。• 資源表 此表格會根據您的建議列出端點詳細資訊,以及每個端點的狀態。

5. 在「資源」表中,如果端點被標記為調查推薦因為最近 30 天未使用警告時,您可以導覽至 AmazonConprehend 主控台上的端點詳細資料頁面。• 如果您不想再使用此端點,請選擇刪除。• 選擇 Delete (刪除) 以確認刪除。系統會顯示自訂模型詳細資訊頁面。確認顯示您刪除的端點刪除在

它旁邊。當它已刪除後,該端點便從端點清單。6. 在「資源」表中Trusted Advisor主控台 (如果端點已使用調查推薦狀態,因為它在過去的 15 天沒有被使

用,如果它有 AutoScaling 停用時,您可以導覽至 Amazon Comprehend 主控台上的端點詳細資料頁面以調整端點。• 如果要降低為此端點設定的輸送量,請按一下Edit (編輯)。輸入要指派給端點的更新推論單元數

目,然後選取核取方塊以確認,然後選擇編輯端點。當更新完成時,狀態會顯示為備妥。• 如果您想要在端點上自動設定端點佈建,而不是手動調整輸送量組態,建議您使用應用程式自動擴

展。7. 在「資源」表中Trusted Advisor主控台 (如果端點已使用未偵測到問題狀態,因為積極使用原因,這意味

著端點正在積極地用於運行實時推論請求,並且不建議採取任何操作。

範例如下 CostOptimization 類別視圖Trusted Advisor主控台:

Amazon Comprehend 端點訪問風險所以此Amazon Comprehend 端點訪問風險檢查評估AWS Key Management Service(AWS KMS) 金鑰許可。如果客戶管理金鑰已停用,或金鑰政策已變更,從而改變了對 Amazon Comprehend 的可用性可能會影響到端點的可用性。如果金鑰已停用,建議您啟用金鑰。如果金鑰政策已變更,而您想繼續使用此端點,建議您更新金鑰政策。檢查結果會在一天中自動重新整理多次。此檢查可以在容錯能力的類別TrustedAdvisorconsole (含)。

檢視AWS KMS您的 Amazon Comprehend 端點的關鍵狀態

1. 登入 AWS Management Console 並開啟 Trusted Advisor 主控台。2. 在導覽窗格中,選擇FaultTolerance檢查類別。3. 在類別頁面上,您可以檢視每個檢查類別的摘要:

• Action recommended (建議採取動作) (紅色) - Trusted Advisor 建議為檢查執行的動作。• 調查推薦 (黃色)–Trusted Advisor偵測到可能的檢查問題。• No problems detected (未偵測到問題) (綠色) - Trusted Advisor 沒有偵測到檢查的問題。• Excluded items (排除的項目) (灰色) - 具有已排除項目的檢查數目,例如您想要檢查忽略的資源。

4. 選擇 Amazon Comprehend 端點存取風險檢查,您可以檢視檢查說明和下列詳細資訊:

• 警示條件— 說明檢查狀態變更的臨界值。• Recommended Action (建議動作) - 說明此檢查的建議動作。• 資源表 此表格會根據是否有建議的動作,列出您的 KMS 加密端點詳細資料,以及每個端點的狀態。

5. 在「資源」表中,如果端點被標記為動作建議狀態,選擇 KMS 中的鏈接 KeyId 欄,您會被重新導向至相應的AWS KMS金鑰頁面。

161

Amazon Comprehend 開發人員指南刪除端點

• 若要啟用已停用AWS KMS鍵,選擇關鍵動作,然後選取啟用。• 如果金鑰狀態列示為已啟用,藉由選擇切換至政策檢視在 [金鑰原則] 區段中。編輯金鑰政策文件,

提供 Amazon Comprehend,然後選擇儲存變更。

範例如下 FaultTolerance 類別視圖Trusted Advisor主控台:

這些檢查及其結果也可以參考Trusted Advisor的 區段AWS SupportAPI。

進一步了解使用設定警示 CloudWatch,請參閱:正在建立Trusted Advisor使用警示 CloudWatch。對於一整套Trusted Advisor最佳做法檢查,請參閱:AWS Trusted Advisor最佳實務檢查清單。

刪除 Amazon Comprehend 端點當您已不需要您的端點時,您應該刪除您的端點,以停止計費。您可以在需要時輕鬆建立另一個端點端點區段。

刪除端點 (主控台)

1. 登入AWS Management Console並開啟Amazon Comprehend 主控台。2. 在左側功能表中,選擇端點。3. 從端點表格找到您要刪除的端點。您可以搜尋或篩選所有端點,以尋找所需的端點。4. 選取您要刪除的端點核取方塊。在端點表格右上方,選取動作圖示。5. 選擇 Delete (刪除)。6. 選擇 Delete (刪除) 以確認刪除。即會顯示端點頁面。確認顯示您刪除的端點刪除在它旁邊。當它刪除

時,該端點便從端點清單。

刪除端點 (AWS CLI)

以下範例示範的是使用DeleteEndpoint使用 AWS CLI。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws comprehend delete-endpoint \ --endpoint-arn arn:aws:comprehend:region:account-id endpoint/endpoint name

如果動作成功,Amazon Comprehend 會使用空白 HTTP 內文的 HTTP 內文的 HTTP 200 回應。

隨端點自動調整規模除了手動調整為文件分類端點和實體辨識器端點佈建的推論單元數量,您可以使用 auto Scaling 自動設定端點佈建以符合您的容量需求。

162

Amazon Comprehend 開發人員指南目標追蹤

使用 Sauto ing 來調整佈建給端點佈建給端點佈建的推論單位數:

• 目標追蹤 (p. 163):設定 auto 調整規模,根據使用情況調整端點佈建以符合容量需求。• 排程擴展 (p. 165):設定 auto 調整規模以調整端點佈建,以符合指定排程的容量需求。

您只能設定 auto 縮放AWS Command Line Interface(AWS CLI。如需 auto 調整規模的詳細資訊,請參閱什麼是 Application Auto Scaling?

目標追蹤透過目標追蹤,您可以根據使用情況調整端點佈建,以符合您的容量需求。推論單元的數目會自動調整,使用的容量位於佈建容量的目標百分比內。您可以使用目標追蹤來處理文件分類端點和實體辨識器端點的暫時使用激增。如需詳細資訊,請參閱 Application Auto Scaling 的目標追蹤擴展政策。

Note

以下範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

設定目標追蹤若要為端點設定目標追蹤,您可以使用 AWS CLI 命令註冊可擴展的目標,然後建立擴展政策。可擴展目標將推論單元定義為用於調整端點佈建的資源,而擴展政策則定義了控制佈建容量 auto 調整的指標。

設定目標追蹤

1. 登錄可擴展的目標。下列範例會註冊一個可擴充的目標,以調整端點佈建,其容量下限為 1 個推論單元,最大容量為 2 個推論單元。

若是文件分類端點,請使用下列 AWS CLI 命令:

aws application-autoscaling register-scalable-target \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:document-classifier-endpoint/name \ --scalable-dimension comprehend:document-classifier-endpoint:DesiredInferenceUnits \ --min-capacity 1 \ --max-capacity 2

若是實體辨識器端點,請使用下列 AWS CLI 命令:

aws application-autoscaling register-scalable-target \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:entity-recognizer-endpoint/name \ --scalable-dimension comprehend:entity-recognizer-endpoint:DesiredInferenceUnits \ --min-capacity 1 \ --max-capacity 2

2. 若要確認可擴展目標的登錄,請使用下列 AWS CLI 命令:

aws application-autoscaling describe-scalable-targets \ --service-namespace comprehend \ --resource-id endpoint ARN

163

Amazon Comprehend 開發人員指南目標追蹤

3. 為擴展政策建立目標追蹤組態,並將設定儲存在名為的檔案中config.json。以下是自動調整推論單元數目的目標追蹤組態範例,使用的容量永遠是佈建容量的 70%。

{ "TargetValue": 70, "PredefinedMetricSpecification": { "PredefinedMetricType": "ComprehendInferenceUtilization" }}

4. 建立擴展政策。以下範例會根據中定義的目標追蹤組態建立一個擴展政策config.jsonfile.

若是文件分類端點,請使用下列 AWS CLI 命令:

aws application-autoscaling put-scaling-policy \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:document-classifier-endpoint/name \ --scalable-dimension comprehend:document-classifier-endpoint:DesiredInferenceUnits \ --policy-name TestPolicy \ --policy-type TargetTrackingScaling \ --target-tracking-scaling-policy-configuration file://config.json

若是實體辨識器端點,請使用下列 AWS CLI 命令:

aws application-autoscaling put-scaling-policy \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:entity-recognizer-endpoint/name \ --scalable-dimension comprehend:entity-recognizer-endpoint:DesiredInferenceUnits \ --policy-name TestPolicy \ --policy-type TargetTrackingScaling \ --target-tracking-scaling-policy-configuration file://config.json

移除目標追蹤若要移除端點的目標追蹤,您可以使用 AWS CLI 命令刪除擴展政策,然後取消註冊可擴展目標。

移除目標追蹤

1. 刪除擴展政策。下列範例會刪除指定的資源調整政策。

若是文件分類端點,請使用下列 AWS CLI 命令:

aws application-autoscaling delete-scaling-policy \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:document-classifier-endpoint/name \ --scalable-dimension comprehend:document-classifier-endpoint:DesiredInferenceUnits \ --policy-name TestPolicy \

若是實體辨識器端點,請使用下列 AWS CLI 命令:

aws application-autoscaling delete-scaling-policy \

164

Amazon Comprehend 開發人員指南排程擴展

--service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:entity-recognizer-endpoint/name \ --scalable-dimension comprehend:entity-recognizer-endpoint:DesiredInferenceUnits \ --policy-name TestPolicy

2. 取消註冊可擴展的目標。以下範例會取消登錄指定的可擴展目標。

若是文件分類端點,請使用下列 AWS CLI 命令:

aws application-autoscaling deregister-scalable-target \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:document-classifier-endpoint/name \ --scalable-dimension comprehend:document-classifier-endpoint:DesiredInferenceUnits

若是實體辨識器端點,請使用下列 AWS CLI 命令:

aws application-autoscaling deregister-scalable-target \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:entity-recognizer-endpoint/name \ --scalable-dimension comprehend:entity-recognizer-endpoint:DesiredInferenceUnits

排程擴展透過排程擴展,您可以根據指定的排程調整端點佈建,以符合您的容量需求。排定的縮放比例會自動調整推論單元的數量,以適應特定時間的使用突波。您可以針對文件分類端點和實體辨識器端點使用排程縮放。如需排程擴展的其他資訊,請參閱Application Auto Scaling 的排程擴展。

Note

以下範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

設定排程擴展若要為端點設定排程擴展,您可以使用 AWS CLI 命令註冊可擴展的目標,然後建立排程動作。可擴充的目標會將推論單元定義為用於調整端點佈建的資源,排程的動作則控制已佈建容量在特定時間的 auto 動調整規模。

若要設定排定的調整比例

1. 登錄可擴展的目標。下列範例會註冊一個可擴充的目標,以調整端點佈建,其容量下限為 1 個推論單元,最大容量為 2 個推論單元。

若是文件分類端點,請使用下列 AWS CLI 命令:

aws application-autoscaling register-scalable-target \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:document-classifier-endpoint/name \ --scalable-dimension comprehend:document-classifier-endpoint:DesiredInferenceUnits \ --min-capacity 1 \ --max-capacity 2

165

Amazon Comprehend 開發人員指南排程擴展

若是實體辨識器端點,請使用下列 AWS CLI 命令:

aws application-autoscaling register-scalable-target \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:entity-recognizer-endpoint/name \ --scalable-dimension comprehend:entity-recognizer-endpoint:DesiredInferenceUnits \ --min-capacity 1 \ --max-capacity 2

2. 建立排程動作。下列範例會建立排程動作,以在 UTC 每天 12:00 自動調整佈建的容量,最少有 2 個推論單元和最多 5 個推論單元。如需時間順序排程擴展的詳細資訊,請參閱排程表達式。

若是文件分類端點,請使用下列 AWS CLI 命令:

aws application-autoscaling put-scheduled-action \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:document-classifier-endpoint/name \ --scalable-dimension comprehend:document-classifier-endpoint:DesiredInferenceUnits \ --scheduled-action-name TestScheduledAction \ --schedule "cron(0 12 * * ? *)" \ --scalable-target-action MinCapacity=2,MaxCapacity=5

若是實體辨識器端點,請使用下列 AWS CLI 命令:

aws application-autoscaling put-scheduled-action \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:entity-recognizer-endpoint/name \ --scalable-dimension comprehend:entity-recognizer-endpoint:DesiredInferenceUnits \ --scheduled-action-name TestScheduledAction \ --schedule "cron(0 12 * * ? *)" \ --scalable-target-action MinCapacity=2,MaxCapacity=5

移除排程擴展若要移除端點的排程擴展,您可以使用 AWS CLI 命令刪除已排程的動作,然後取消註冊可擴展目標。

移除排程擴展

1. 刪除排程動作。下列範例會刪除特定已排程的排程動作。

若是文件分類端點,請使用下列 AWS CLI 命令:

aws application-autoscaling delete-scheduled-action \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:document-classifier-endpoint/name \ --scalable-dimension comprehend:document-classifier-endpoint:DesiredInferenceUnits \ --scheduled-action-name TestScheduledAction

若是實體辨識器端點,請使用下列 AWS CLI 命令:

aws application-autoscaling delete-scheduled-action \

166

Amazon Comprehend 開發人員指南排程擴展

--service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:entity-recognizer-endpoint/name \ --scalable-dimension comprehend:entity-recognizer-endpoint:DesiredInferenceUnits \ --scheduled-action-name TestScheduledAction

2. 取消註冊可擴展的目標。以下範例會取消登錄指定的可擴展目標。

若是文件分類端點,請使用下列 AWS CLI 命令:

aws application-autoscaling deregister-scalable-target \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:document-classifier-endpoint/name \ --scalable-dimension comprehend:document-classifier-endpoint:DesiredInferenceUnits

若是實體辨識器端點,請使用下列 AWS CLI 命令:

aws application-autoscaling deregister-scalable-target \ --service-namespace comprehend \ --resource-id arn:aws:comprehend:region:account-id:entity-recognizer-endpoint/name \ --scalable-dimension comprehend:entity-recognizer-endpoint:DesiredInferenceUnits

167

Amazon Comprehend 開發人員指南標記新的資源

標記您的資源標籤是一組您可以將其新增到 Amazon Comprehend 資源作為中繼資源。您可以使用標籤分析工作、自訂分類模型,自訂實體辨識模型,以及端點。標籤有兩個主要功能:組織資源並提供基於標籤的訪問控制。

若要使用標籤來組織資源,您可以新增標籤金鑰「部門」和標記值「銷售」或「法律」。然後,您可以搜尋和篩選與公司法律部門相關的資源。

若要提供以標籤為基礎的存取控制,請根據標籤建立具有許可的 IAM 政策。政策可以根據請求中提供的標籤(請求標籤) 或與所調用資源 (資源標籤) (資源標籤),決定允許或不允許操作。如需搭配 IAM 使用標籤的詳細資訊,請參閱使用標籤控制存取權限中的IAM User Guide。

將標籤與 Amazon Comprehend 搭配使用的注意事項:

• 每個資源最多可以新增 50 個標籤,您可以在建立資源時新增標籤,也可以追溯。• 一個標籤鍵是必要欄位,但是一個標籤值是選用的。• 標籤在資源之間不一定是唯一的,但是給定的資源不能有重複的標籤鍵。• 標籤鍵與值皆區分大小寫。• 標籤關鍵字最多可包含 127 個字元;標籤值最多可包含 255 個字元。• 該 'aws:'字首已保留供AWS使用,您無法新增、編輯或刪除索引鍵開頭為的標籤。aws:。這些標籤不會

計入您的 tags-per-resource 50 的限制。

Note

如果您打算跨多個使用標記架構AWS服務和資源,請記得其他服務可能有不同的字元使用需求。

主題• 標記新的資源 (p. 168)• 檢視、編輯和刪除與資源關聯的標籤 (p. 169)

標記新的資源您可以將標籤新增至分析工作, 一個自訂分類分類模型,a自訂實體辨識模型,或端點。

1. 登入Amazon Comprehend 主控台,然後從左側導覽窗格中選取要建立的資源 ([分析工作]、[自訂分類]或 [自訂實體辨識])。

2. 按一下建立任務(或建立新模型。您將會移至資源的主要「建立」頁面。在此頁面的底部,您將看到一個'標籤- 可選的'方塊。

168

Amazon Comprehend 開發人員指南檢視、編輯和刪除標籤

輸入標籤索引鍵和選用的標籤值。選擇新增標籤以將其他標籤新增至資源。重複此程序,直到新增所有標籤為止。請注意,每個資源的標籤鍵必須是唯一的。

3. 選取建立或者建立任務按鈕,繼續建立您的資源。

您也可以使用新增標籤AWSCLI。此範例說明如何使用start-entities-detection-job指令。

aws comprehend start-entities-detection-job \--language-code "en" \--input-data-config "{\"S3Uri\": \"s3://test-input/TEST.csv\"}" \--output-data-config "{\"S3Uri\": \"s3://test-output\"}" \--data-access-role-arn arn:aws:iam::123456789012:role/test \--tags "[{\"Key\": \"color\",\"Value\": \"orange\"}]"

檢視、編輯和刪除與資源關聯的標籤您可以檢視與分析工作,一個自訂分類模型,或自訂實體辨識模型。

1. 登入Amazon Comprehend 主控台,然後選取包含您要檢視、修改或刪除之標籤的檔案的資源 (分析工作、自訂分類或自訂實體辨識)。這會顯示所選資源的現有檔案清單。

2. 按一下您要檢視、修改或刪除其標籤的檔案 (或模型) 名稱。您將會移至該檔案 (模型) 或模型) 的詳細資訊頁面。向下滾動,直到看到標籤方塊。在這裡,您可以看到與所選文件(或模型)關聯的所有標籤。

169

Amazon Comprehend 開發人員指南檢視、編輯和刪除標籤

選擇管理標籤從中移除標籤。3. 按一下您要修改的文字,然後編輯標籤。您也可以選擇移除標籤移除標籤。若要新增標籤,請選擇新增

標籤,然後在空白欄位中輸入所需的文字。

標籤修改完畢後,請選擇Save。

170

Amazon Comprehend 開發人員指南資料保護

Amazon Comprehend 的安全性雲端安全是 AWS 最重視的一環。身為 AWS 客戶的您,將能從資料中心和網路架構的建置中獲益,以滿足組織最為敏感的安全要求。

安全是 AWS 與您共同肩負的責任。共同責任模型將其描述為雲端的安全性和雲端中的安全性:

• 雲端本身的安全 – AWS 負責保護在 AWS Cloud 中執行 AWS 服務的基礎設施。AWS 也提供您可安全使用的服務。第三方稽核人員會定期測試和驗證我們安全性的有效性,作為 AWS 合規計劃的一部分。若要進一步了解適用於 Amazon Comprehend 的合規計劃,請參閱合規計劃的 AWS 服務範圍。

• 雲端內部的安全:您的責任取決於所使用的 AWS 服務。您也必須對其他因素負責,包括資料的機密性、您公司的要求和適用法律和法規。

本文件有助於您了解如何在使用 Amazon Comprehend 時套用共同的責任模型。下列主題說明如何將Amazon Comprehend 設定為符合您的安全性與合規目標。您也將了解如何使用其他 AWS 服務,幫助您監控並保護 Amazon Comprehend 資源。

主題• Amazon Comprehend 的資料保護 (p. 171)• 適用於 Amazon Comprehend (p. 180)• 使用記錄 Amazon Comprehend API 呼叫AWS CloudTrail (p. 190)• Amazon Comprehend 的合規驗證 (p. 199)• Amazon Comprehend 的恢復能力 (p. 199)• Amazon Comprehend 的基礎設施安全性 (p. 199)• 自訂非同步分析工作所需的權限 (p. 200)

Amazon Comprehend 的資料保護所以此AWS 共同責任模型Amazon Comprehend 中的資料保護。如此模型所述,AWS 負責保護執行所有AWS 雲端 的全球基礎設施。您必須負責維護在此基礎設施上託管之內容的控制權。此內容包括您所使用AWS 服務 的安全組態和管理任務。如需有關資料隱私權的詳細資訊,請參閱資料隱私權常見問答集。如需有關歐洲資料保護的相關資訊,請參閱 AWS 安全性部落格上的 AWS 共同的責任模型和 GDPR 部落格文章。

基於資料保護目的,建議您使用 AWS 帳戶 (IAM) 保護 AWS Identity and Access Management 憑證,並設定個別使用者帳戶。如此一來,每個使用者都只會獲得授予完成其任務所必須的許可。我們也建議您採用下列方式保護資料:

• 每個帳戶都使用多重要素驗證 (MFA)。• 使用 SSL/TLS 與 AWS 資源通訊。建議使用 TLS 1.2 或更新版本。• 使用 AWS CloudTrail 設定 API 和使用者活動記錄。• 使用 AWS 加密解決方案,以及 AWS 服務內的所有預設安全控制。• 使用進階的受管安全服務 (例如 Amazon Macie),協助探索和保護儲存在 Simple Storage Service

(Amazon Simple Storage Service (Amazon S3)) 的個人資料。

171

Amazon Comprehend 開發人員指南Amazon Comprehend 中的 KMS 加密

• 如果您在透過命令列介面或 API 存取 AWS 時,需要 FIPS 140-2 驗證的加密模組,請使用 FIPS 端點。如需有關 FIPS 和 FIPS 端點的詳細資訊,請參閱聯邦資訊處理標準 (FIPS) 140-2 概觀。

我們強烈建議您絕對不要將客戶的電子郵件地址等機密或敏感資訊,放在標籤或自由格式的欄位中,例如名稱欄位。這包括當您使用 Amazon Comprehend 或其他工作AWS服務使用控制台,API,AWS CLI, 或AWS開發套件。您在標籤或自由格式欄位中輸入的任何資料都可能用於計費或診斷記錄。如果您提供外部伺服器的 URL,我們強烈建議請勿在驗證您對該伺服器請求的 URL 中包含憑證資訊。

主題• Amazon Comprehend 中的 KMS 加密 (p. 172)• 預防跨服務混淆代理人 (p. 174)• 使用 Amazon Virtual Private Cloud 來保護任務 (p. 175)• Amazon Comprehend 和界面 VPC 端點 (AWS PrivateLink) (p. 179)

Amazon Comprehend 中的 KMS 加密Amazon Comprehend 的工程AWS Key Management Service(AWS KMS)為您的數據提供增強的加密。Amazon S3 已讓您在建立文字分析、主題建模或自訂 Amazon Comprehend 任務時加密輸入文件。整合AWS KMS可讓您針對 Start* 和 Create* 工作加密儲存磁碟區中的資料,並使用您自己的 KMS 金鑰加密Start* 工作的輸出結果。

對於AWS Management Console,亞馬遜使用自己的 KMS 金鑰加密自訂模型。對於AWS CLIAmazonComprehend 可以使用自己的 KMS 金鑰或提供的客戶受管金鑰 (CMK) 來加密自訂模型。

KMS 加密使用AWS Management Console

使用主控台時,有兩種加密選項:

• 磁碟區加密• Output Encryption 加密

啟用磁碟區加密

1. Under任務設定,選擇Job 加密選項。

2. 選擇 KMS 客戶管理金鑰 (CMK) 來自您目前使用的帳戶,還是來自不同的帳戶。如果您想要使用目前帳戶的金鑰,請從中選擇金鑰別名KMS 金鑰 ID。如果您使用不同帳戶的金鑰,則必須輸入金鑰的 ARN。

啟用輸出結果加密

1. Under輸出設定,選擇Encryption (加密)選項。

172

Amazon Comprehend 開發人員指南Amazon Comprehend 中的 KMS 加密

2. 選擇客戶管理金鑰 (CMK) 來自您目前使用的帳戶,還是來自不同的帳戶。如果您想要使用目前帳戶的金鑰,請從中選擇金鑰 IDKMS 金鑰 ID。如果您使用不同帳戶的金鑰,則必須輸入金鑰的 ARN。

如果您先前已在 S3 輸入文件上使用 SSE-KMS 設定加密,這可以為您提供額外的安全性。但是,如果您這樣做,則使用的 IAM 角色必須具有kms:Decrypt用來加密輸入文件之 KMS 金鑰的權限。如需詳細資訊,請參閱 使用 KMS 加密所需的權限 (p. 183)。

使用 API 作業進行 KMS 加密

Amazon ComprehendStart*和Create*API 作業支援 KMS 加密的輸入文件。Describe*和List*API 操作傳回KmsKeyId在OutputDataConfig如果原來的工作有KmsKeyId提供為輸入。如果未將其作為輸入提供,則不會返回。

您可從以下 AWS CLI 範例中看見此 AWS CLI 範例StartEntitiesDetectionJob (p. 386)運算:

aws comprehend start-entities-detection-job \ --region region \ --data-access-role-arn "data access role arn" \ --entity-recognizer-arn "entity recognizer arn" \ --input-data-config "S3Uri=s3://Bucket Name/Bucket Path" \ --job-name job name \ --language-code en \ --output-data-config "KmsKeyId=Output S3 KMS key ID" "S3Uri=s3://Bucket Name/Bucket Path/" \ --volumekmskeyid "Volume KMS key ID"

Note

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

使用 API 作業的客戶管理金鑰 (CMK) 加密

Amazon Comprehend 自定義模型 API 操作,CreateEntityRecognizer、CreateDocumentClassifier,以及CreateEndpoint,支援使用客戶管理金鑰進行加密AWS CLI。

您需要 IAM 政策,允許主體使用或管理客戶管理金鑰。這些機碼會在Resource政策聲明的元素。最佳作法是將客戶管理的金鑰限制為只有主體必須在您的政策陳述式中使用的金鑰。

下列 AWS CLI 範例建立模型加密的自訂實體辨識器CreateEntityRecognizer (p. 263)運算:

aws comprehend create-entity-recognizer \ --recognizer-name name \ --data-access-role-arn data access role arn \

173

Amazon Comprehend 開發人員指南預防跨服務混淆代理人

--language-code en \ --model-kms-key-id Model KMS Key ID \ --input-data-config file:///path/input-data-config.json

Note

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

預防跨服務混淆代理人混淆代理人問題屬於安全性議題,其中沒有執行動作許可的實體可以強制具有更多許可的實體執行該動作。在 AWS 中,跨服務模擬可能會導致混淆代理人問題。在某個服務 (呼叫服務) 呼叫另一個服務 (被呼叫服務)時,可能會發生跨服務模擬。可以操縱呼叫服務來使用其許可,以其不應有存取許可的方式對其他客戶的資源採取動作。為了預防這種情況,AWS 提供的工具可協助您保護所有服務的資料,而這些服務主體已獲得您帳戶中資源的存取權。

我們建議使用aws:SourceArn和aws:SourceAccount資源政策中的全域條件內容索引鍵,可限制Amazon Comprehend 為資源提供另一項服務的許可的許可。如果同時使用全域條件內容索引鍵,則在相同政策陳述式中使用aws:SourceAccount 值和 aws:SourceArn 值中的帳戶時,必須使用相同的帳戶 ID。

防範混淆代理人問題最有效的方法,是使用 aws:SourceArn 全域條件內容金鑰,以及資源的完整 ARN。如果不知道資源的完整 ARN,或者如果您指定了多個資源,請使用 aws:SourceArn 全域條件內容金鑰,同時使用萬用字元 (*) 表示 ARN 的未知部分。例如:arn:aws:servicename::123456789012:*。

使用來源帳戶下列範例顯示如何使用aws:SourceAccountAmazon Comprehend 中的全局條件上下文鍵。

{ "Version": "2012-10-17", "Statement": { "Sid": "ConfusedDeputyPreventionExamplePolicy", "Effect": "Allow", "Principal": { "Service": "comprehend.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount":"111122223333" } } }}

加密模型端點的信任策略您需要建立信任原則,以建立或更新加密模型的端點。將aws:SourceAccount將取代為您的帳戶 ID。如果您使用ArnEquals條件,設定aws:SourceArn端點的 ARN 值。

{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow",

174

Amazon Comprehend 開發人員指南使用 Virtual Private Cloud (VPC) 端 (VPC)

"Principal": { "Service": "comprehend.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "111122223333" }, "ArnEquals": { "aws:SourceArn": "arn:aws:comprehend:us-west-2:111122223333:document-classifier-endpoint/endpoint-name" } } } ]}

建立自訂模型若要建立自訂模型,必須建立信任政策。將aws:SourceAccount將取代為您的帳戶 ID。如果您使用ArnEquals條件,設定aws:SourceArn值為自訂模型版本的 ARN。

{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Principal": { "Service": "comprehend.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "111122223333" }, "ArnEquals": { "aws:SourceArn": "arn:aws:comprehend:us-west-2:111122223333: document-classifier/smallest-classifier-test/version/version-name" } } } ]}

使用 Amazon Virtual Private Cloud 來保護任務Amazon Comprehend 使用各種安全措施,透過我們的任務容器在 Amazon Comprehend 正在使用時儲存資料的容器,確保資料的安全性。不過,任務容器會透過網際網路存取 AWS 資源,例如用來存放資料和模型人工因素的 Amazon S3 儲存貯體。

為了控制對您的資料存取,建議您建立虛擬私有雲端(VPC) 並將其設定為讓資料和容器無法經由網際網路存取。如需 VPC 在建立和設定方面的資訊,請參閱。開始使用 Amazon VPC中的Amazon VPC UserGuide。VPC 可設為不連線到網際網路,因此使用 VPC 有助於保護您的資料。還可使用 VPC 流量日誌,以 VPC 監控所有傳出傳入任務容器的網路流量。如需詳細資訊,請參閱《Amazon VPC 使用者指南》中的VPC 流量日誌。

在建立任務時,可指定子網路和安全群組,便能設定您的 VPC。當您指定子網路和安全群組時,AmazonComprehend 會建立 Amazon Comprehend 會建立彈性網路界面(ENI) 會與其中一個子網路內的安全群組

175

Amazon Comprehend 開發人員指南使用 Virtual Private Cloud (VPC) 端 (VPC)

建立關聯。ENI 可讓我們的任務容器連線至 VPC 內的資源。如需 ENI 的資訊,請參閱。彈性網路界面中的Amazon VPC User Guide。

Note

對於任務,您只能使用執行個體在共用硬體執行所在的預設租用 VPC 來設定子網路。如需 VPC 租用屬性的詳細資訊,請參閱。專用執行個體中的Amazon EC2 Linux 執行個體使用者指南。

設定適用於亞馬遜 VPC 存取的任務若要在 VPC 中指定子網路和安全群組,請使用VpcConfig請求適用 API 的參數,或在 AmazonComprehend 主控台建立任務時即提供此資訊。Amazon Comprehend 會使用此資訊來建立 ENI,並將其連接至我們的任務容器。ENI 會為任務容器提供 VPC 內的網路連線,而不會連線至網際網路。

以下 API 包含VpcConfig請求參數:

• Create*應用程式介面CreateDocumentClassifier (p. 254)、CreateEntityRecognizer (p. 263)

• Start*應用程式介面StartDocumentClassificationJob (p. 377)、StartDominantLanguageDetectionJob (p. 382)、StartEntitiesDetectionJob (p. 386)、StartKeyPhrasesDetectionJob (p. 395)、StartSentimentDetectionJob (p. 404)、StartTargetedSentimentDetectionJob (p. 409)、StartTopicsDetectionJob (p. 414)

以下是的範例 VpcConfig 您包含在 API 呼叫內的參數:

"VpcConfig": { "SecurityGroupIds": [ " sg-0123456789abcdef0" ], "Subnets": [ "subnet-0123456789abcdef0", "subnet-0123456789abcdef1", "subnet-0123456789abcdef2" ] }

若要從 Amazon Conprehend 主控台設定 VPC,請從選用項目中選擇組態詳細資訊VPC 設定建立工作時的區段。

176

Amazon Comprehend 開發人員指南使用 Virtual Private Cloud (VPC) 端 (VPC)

針對 Amazon Comprehend 任務設定您的 VPC在為 Amazon Comprehend 任務設定 VPC 時,請善加利用以下指導方針。如需設定 VPC 的資訊,請參閱。使用 VPC 和子網路中的Amazon VPC User Guide。

確保子網路擁有充足的 IP 地址

您的 VPC 子網路應至少具有兩個私有 IP 地址,以供任務中的各個執行個體使用。如需詳細資訊,請參閱「」IPv4 的 VPC 和子網路規模中的Amazon VPC User Guide。

創建一個 Amazon S3 VPC 端點

如果您將 VPC 設定為讓任務容器無法存取網際網路,除非您建立的 VPC 端點允許存取,否則也會無法連線至包含資料的 Amazon S3 儲存貯體。建立 VPC 端點可讓我們的任務容器存取模型成品和資料。建議您也建立一個自訂政策,只允許來自 VPC 的請求存取 S3 儲存貯體。如需詳細資訊,請參閱 Amazon VPC 使用者指南中的適用於 Amazon S3 的端點。

以下政策允許存取 S3 儲存貯體。請編輯此政策,僅允許存取您的任務所需的資源。

{ "Version": "2008-10-17", "Statement": [ { "Effect": "Allow", "Principal": "*", "Action": [ "s3:GetObject", "s3:PutObject", "s3:ListBucket", "s3:GetBucketLocation", "s3:DeleteObject", "s3:ListMultipartUploadParts", "s3:AbortMultipartUpload" ], "Resource": "*" } ]}

請為端點路由表使用預設的 DNS 設定,如此才能使用標準 Amazon S3 URL (例如,http://s3-aws-region.amazonaws.com/MyBucket) 解決。若未使用預設的 DNS 設定,請將端點路由表設定妥當,確保您用來指定任務的資料所在位置的 URL 可解析。如需 VPC 端點路由表的資訊,請參閱。閘道端點的路由中的Amazon VPC User Guide。

預設的端點政策允許使用者在任務容器上安裝來自 Amazon Linux 和 Amazon Linux 2 儲存庫的套件。如果不希望使用者從該儲存庫安裝套件,請建立自訂的端點政策,明確拒絕至 Amazon Linux 和 Amazon Linux 2 儲存庫的存取。Comprehend 本身不需要任何此類軟件包,因此不會有任何功能影響。以下為拒絕存取上述儲存庫的政策範例:

{ "Statement": [ { "Sid": "AmazonLinuxAMIRepositoryAccess", "Principal": "*", "Action": [ "s3:GetObject" ], "Effect": "Deny", "Resource": [ "arn:aws:s3:::packages.*.amazonaws.com/*", "arn:aws:s3:::repo.*.amazonaws.com/*"

177

Amazon Comprehend 開發人員指南使用 Virtual Private Cloud (VPC) 端 (VPC)

] } ] }

{ "Statement": [ { "Sid": "AmazonLinux2AMIRepositoryAccess", "Principal": "*", "Action": [ "s3:GetObject" ], "Effect": "Deny", "Resource": [ "arn:aws:s3:::amazonlinux.*.amazonaws.com/*" ] } ] }

的許可DataAccessRole

當您將 VPC 與分析工作搭配使用時,DataAccessRole用於Create*和Start*作業還必須具有存取輸入文件和輸出值區的 VPC 的權限。

下列政策提供對的存取權DataAccessRole用於Create*和Start*任務。

{ "Version": "2008-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface", "ec2:CreateNetworkInterfacePermission", "ec2:DeleteNetworkInterface", "ec2:DeleteNetworkInterfacePermission", "ec2:DescribeNetworkInterfaces", "ec2:DescribeVpcs", "ec2:DescribeDhcpOptions", "ec2:DescribeSubnets", "ec2:DescribeSecurityGroups" ], "Resource": "*" } ]}

設定 VPC 安全群組

對於分散任務,必須允許同一任務內不同任務容器之間的通訊。若要執行此操作,請為安全群組設定規則,允許相同安全群組成員彼此間的傳入連線。如需相關資訊,請參閱「」。安全群組規則中的Amazon VPCUser Guide。

Connect 至 VPC 外部的資源

若您將 VPC 設為無網際網路存取權限,使用該 VPC 的任務即無法存取 VPC 以外的資源。若您的任務需要存取 VPC 之外的資源,請以下列其中一種方式提供存取權限:

• 若您的任務需要存取的是可支援界面 VPC 端點的 AWS 服務,請建立一個端點以連線至該服務。如需支援介面端點的服務之清單,請參閱。VPC 端點中的Amazon VPC User Guide。如需有關建立介面 VPC 端點的資訊,請參閱。界面 VPC 端點 (AWS) PrivateLink)中的Amazon VPC User Guide。

178

Amazon Comprehend 開發人員指南VPC 端點 (AWS PrivateLink)

• 若您的任務需要存取不支援界面 VPC 端點的 AWS 服務,或是需要存取 AWS 之外的資源,請建立一個NAT 閘道並將安全群組設定妥當,以允許傳出連線。如需設定 VPC 的資訊,請參閱。方案 2:具公有和私有子網路 (NAT) 的 VPC中的Amazon VPC User Guide。

Amazon Comprehend 和界面 VPC 端點 (AWSPrivateLink)您可以建立私有連線,以在您的 VPC 與 Amazon Comprehend 之間建立私有連線界面 VPC 端點。界面端點採用的技術AWS PrivateLink這項技術可讓您以私有方式存取 Amazon Comprehend API,無需透過網際網路閘道、VPN 裝置、VPN 連接或 AWS Direct Connect 連線。VPC 中的執行個體不需要公有 IP 地址,即能與Amazon Comprehend API 通訊。您的 VPC 與 Amazon Comprehend 之間的網路流量都會保持在 Amazon網路的範圍內。

每個界面端點都由一或多個表示彈性網路界面在您的子網路。

如需詳細資訊,請參閱「」界面 VPC 端點 PrivateLink)中的Amazon VPC User Guide。

Amazon Comprehend Compt VPC 端點的考量事項在設定 Amazon Comprehend 的界面 VPC 端點前,請務必檢閱界面端點屬性和限制中的Amazon VPC UserGuide。

Amazon Comprehend 支援從您的 VPC 呼叫其所有 API 動作。

為建立界面 VPC 端點您可使用 Amazon VPC 主控台或AWS Command Line Interface(AWS CLI。如需詳細資訊,請參閱 AmazonVPC 使用者指南中的建立介面端點。

使用下列服務名稱建立 VPC 端點:

• com.amazonaws.region.comprehend

如果您為該端點啟用私有 DNS,您可以使用其區域的預設 DNS 名稱向發出 API 請求,例如:comprehend.us-east-1.amazonaws.com。

如需詳細資訊,請參閱《Amazon VPC 使用者指南》中的透過介面端點存取服務。

為建立 VPC 端點政策您可以將端點政策連接至控制 Amazon Comprehend 存取權的 VPC 端點。此政策會指定下列資訊:

• 可執行動作的委託人。• 可執行的動作。• 可供執行動作的資源。

如需詳細資訊,請參閱《Amazon VPC 使用者指南》中的使用 VPC 端點控制對服務的存取。

範例:Amazon Comprehend Compt 動作的 VPC 端點政策

以下是 Amazon Comprehend 端點政策的範例。附加至端點後,此政策會授予 Amazon Comprehend 的存取權限DetectEntities對所有資源上的所有委託人執行動作。

{

179

Amazon Comprehend 開發人員指南身分驗證與存取控制

"Statement":[ { "Principal":"*", "Effect":"Allow", "Action":[ "comprehend:DetectEntities" ], "Resource":"*" } ]}

適用於 Amazon Comprehend存取 Amazon Comprehend 需要登入資料,以供 AWS 驗證您的請求。這些登入資料必須有存取Amazon Comprehend 動作的許可。以下章節將詳細說明您可如何使用AWS Identity and AccessManagement(IAM)和 Amazon Comprehend,藉由控制可存取的人員,協助確保您資源的安全。

• 身分驗證 (p. 180)• 存取控制 (p. 181)

身分驗證您可以使用下列身分類型來存取 AWS:

• AWS 帳戶根使用者— 建立時AWS 帳戶,您會先有單一的登入身分,可以完整存取所有AWS 服務和帳戶中的資源。此身分稱為 AWS 帳戶 根使用者,使用建立帳戶時所使用的電子郵件地址和密碼即可登入並存取。強烈建議您不要以根使用 root 使用者處理日常作業。保護您的根使用者登入資料,並將其用於執行只有根使用者可執行的任務。如需需需要您以根使用者身分登入的完整任務清單,請參閱需要根使用者憑證的任務中的AWS一般參考。

• IAM 使用者— 一個IAM 使用者是您的身份AWS 帳戶具有特定的自訂許可 (例如,在 Amazon Comprehend中建立的許可)。您可以使用 IAM 使用者名稱和密碼登入安全 AWS 網頁,例如,AWS ManagementConsole、AWS 開發論壇或 AWS Support 中心。

除了使用者名稱和密碼之外,您也可以為每個使用者產生存取金鑰。您可以使用這些金鑰,以程式設計的方式存取 AWS 服務,無論是透過其中一個 SDK 或使用 AWS Command Line Interface (CLI)。此SDK 和 CLI 工具使用存取金鑰,以加密方式簽署您的請求。如果您不使用 AWS 工具,您必須自行簽署請求。Amazon Comprehend 支援Signature 第 4 版,用來驗證傳入 API 請求的協定。如需驗證請求的詳細資訊,請參閱《AWS 一般參考》中的簽章版本 4 簽署程序。

• IAM 角色:IAM 角色是您可以在帳戶中建立的另一種 IAM 身分,具有特定的許可。IAM 角色類似於 IAM使用者,因為同樣是 AWS 身分,也有許可政策可決定該身分在 AWS 中可執行和不可執行的操作。但是,角色的目的是讓需要它的任何人可代入,而不是單獨地與某個人員關聯。此外,角色沒有與之關聯的標準長期憑證,例如密碼或存取金鑰。反之,當您擔任角色時,其會為您的角色工作階段提供臨時安全性登入資料。使用臨時登入資料的 IAM 角色在下列情況中非常有用:• 聯合身分使用者存取:並非建立 IAM 使用者,而是使用來自 AWS Directory Service、您的企業使用者

目錄或 Web 身分供應商現有的使用者身分。這些稱為聯合身分使用者。透過身分供應商來請求存取權限時,AWS 會指派角色給聯合身分使用者。如需聯合身分使用者的詳細資訊,請參閱《IAM 使用者指南》中的聯合身分使用者和角色。

• AWS 服務 存取:服務角色是服務擔任的 IAM 角色,可代您執行動作。IAM 管理員可以從 IAM 內建立、修改和刪除服務角色。如需詳細資訊,請參閱《IAM 使用者指南》中的建立角色以委派許可給 AWS 服務 服務。

• 在 Amazon EC2 上執行的應用程式:針對在 EC2 執行個體上執行並提出 AWS CLI 和 AWS API 請求的應用程式,您可以使用 IAM 角色來管理臨時憑證。這是在 EC2 執行個體內存放存取金鑰的較好方式。若要指派 AWS 角色給 EC2 執行個體並提供其所有應用程式使用,您可以建立連接到執行個體的執行個

180

Amazon Comprehend 開發人員指南存取控制

體設定檔。執行個體設定檔包含該角色,並且可讓 EC2 執行個體上執行的程式取得臨時憑證。如需詳細資訊,請參閱IAM 使用者指南中的利用 IAM 角色來授予許可給 Amazon EC2 執行個體上執行的應用程式。

存取控制您必須具備有效的登入資料來驗證您的請求。此登入資料必須具備呼叫 Amazon Comprehend 動作的許可。

以下章節說明如何管理 Amazon Comprehend 的許可。我們建議您先閱讀概觀。

• 管理 Amazon Comprehend 資源存取許可概觀 (p. 181)• 將以身分為基礎的政策 (IAM 政策) 用於 Amazon Comprehend (p. 183)

管理 Amazon Comprehend 資源存取許可概觀存取動作的許可由許可政策管理。帳戶管理員可將許可政策連接至 IAM 身分 (使用者、群組和角色) 來管理存取動作。

Note

帳戶管理員 (或管理員使用者) 是具有管理員權限的使用者。如需詳細資訊,請參閱《IAM 使用者指南》中的 IAM 最佳實務。

授與許可時,您可以決定哪些使用者獲得許可,以及所取得許可的動作。

主題• 管理動作的存取 (p. 181)• 指定政策元素:動作、效果及委託人 (p. 182)• 在政策中指定條件 (p. 182)

管理動作的存取許可政策描述誰可以存取哪些資源。下一節說明可用來建立許可政策的選項。

Note

本節著重討論如何在 Amazon Comprehend 的環境中使用 IAM。它不提供 IAM 服務的詳細資訊。如需完整的 IAM 文件,請參閱《IAM 使用者指南》中的什麼是 IAM?。如需 IAM 政策語法和說明的詳細資訊,請參閱AWS IAM 政策參考中的IAM User Guide。

連接到 IAM 身分的政策稱為身分類型政策 (IAM 政策),而連接到資源的政策稱為資源類型政策。

身分類型政策 (IAM 政策)

您可以將政策連接到 IAM 身分。例如,您可以執行下列動作:

• 將許可政策連接至您帳戶中的使用者或群組-若要授與使用者或群組呼叫和 Amazon Comprehend 動作的許可,您可以將許可政策連接至使用者或使用者所屬的群組。

• 將許可政策連接至角色 (授予跨帳戶許可)— 若要授與跨帳戶許可,您可以將身分型許可政策連接至 IAM角色。例如,帳戶 A 中的管理員可以建立角色,將跨帳戶許可授與其他 AWS 帳戶 (例如,帳戶 B) 或下列AWS 服務:1. 帳戶 A 管理員建立 IAM 角色,並將許可政策連接到可授與帳戶 A 中資源許可的角色。2. 帳戶 A 管理員將信任政策連接至該角色,識別帳戶 B 做為可擔任該角的委託人。

181

Amazon Comprehend 開發人員指南管理存取概觀

3. 帳戶 B 管理員即可將擔任該角色的許可委派給帳戶 B 中的任何使用者。這麼做可讓帳戶 B 的使用者建立或存取帳戶 A 的資源。如果您想要授與 AWS 服務許可以擔任該角色,則信任政策的委託人也可以是AWS 服務委託人。

如需有關使用 IAM 來委派許可的詳細資訊,請參閱《IAM 使用者指南》中的存取管理。

如需搭配 Amazon Comprehend 使用身分型政策的詳細資訊,請參閱將以身分為基礎的政策 (IAM 政策) 用於Amazon Comprehend (p. 183)。如需使用者、群組、角色和許可的詳細資訊,請參閱 IAM 使用者指南中的身分 (使用者、群組和角色)。

資源型政策資源型政策是連接到資源的 JSON 政策文件。例如,您可以將政策連接至 S3 儲存貯體,以管理該儲存貯體的存取許可。

服務管理員可以使用資源型政策來控制對特定資源的存取。對於附加政策的資源,政策會定義指定的委託人可以對該資源執行的動作以及在何種條件下執行的動作。您必須指定主要以資源為基礎的政策。主參與者可以包括帳戶、使用者、角色、聯合身份使用者或 AWS 服務。

如需 Amazon Comprehend 資源清單,請參閱Amazon Comprehend 定義的資源類型中的服務授權參考。

指定政策元素:動作、效果及委託人Amazon Comprehend 定義了一組動作 (p. 232)。Amazon Comprehend 定義了一組您可在政策中指定的動作,以授予這些 API 操作的許可。

以下是最基本的政策元素:

• 資源 – 在政策中,您可以使用 Amazon Resource Name (ARN) 來識別要套用政策的資源。對於 AmazonComprehend,資源一律為"*"。

• Action— 您可以使用動作關鍵字來識別您要允許或拒絕的操作。例如,取決於指定Effect、comprehend:DetectEntities允許或拒絕使用者執行 AmazonComprehendDetectEntitiesoperation.

• 效果-您可以指定當使用者要求特定動作時的動作效果-可為允許或拒絕。如果您未明確授予存取 (允許) 資源,則隱含地拒絕存取。您也可以明確拒絕存取資源。您可以這樣做以確保使用者無法存取資源,即使不同的政策授與存取。

• 委託人:在身分識別型政策 (IAM 政策) 中,政策所連接的使用者就是隱含委託人。

若要進一步了解 IAM 政策語法和說明,請參閱AWS IAM 政策參考中的IAM User Guide。

如需詳列所有 Amazon Comprehend API 動作的表格,請參閱Amazon Comprehend 的動作、資源和條件金鑰中的服務授權參考。

在政策中指定條件條件是選用的政策元素,會套用額外的邏輯來判斷是否允許動作。AWS 提供一組常見條件所有動作都支援。

當您授與許可時,您可以使用 IAM 政策語言指定政策生效的條件。例如,您可以在請求動作時,使用aws:userid 條件金鑰來要求特定的 AWS ID。如需使用政策語言指定條件的詳細資訊,請參閱IAM 使用者指南中的條件。

Note

條件鍵區分大小寫。

Amazon Comprehend 提供額外條件金鑰,您可以使用這些金鑰來限制特定資源的參數值。如需有關受支資源和條件類型的詳細資訊,請參閱Amazon Comprehend 的動作、資源和條件金鑰中的服務授權參考。

182

Amazon Comprehend 開發人員指南將以身分為基礎的政策 (IAM 政策) 用於 Amazon Comprehend

將以身分為基礎的政策 (IAM 政策) 用於 AmazonComprehend本主題提供以身分為基礎的政策範例,示範帳戶管理員如何將許可政策連接至 IAM 身分 (即使用者、群組和角色),並藉此授予許可,以執行 Amazon Comprehend 動作。

Important

繼續之前,我們建議您檢閱管理 Amazon Comprehend 資源存取許可概觀 (p. 181)。

以下是使用 Amazon Comprehend 文件分析動作所需的許可政策:

{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowDetectActions", "Effect": "Allow", "Action": [ "comprehend:DetectEntities", "comprehend:DetectKeyPhrases", "comprehend:DetectDominantLanguage", "comprehend:DetectSentiment", "comprehend:DetectSyntax" ], "Resource": "*" } ]}

此政策有一個陳述式授予許可使用DetectEntities、DetectKeyPhrases、DetectDominantLanguage和DetectSentiment,以及DetectSyntax動作。具有此政策的使用者將無法在您的帳戶中執行批次處理動作或非同步動作。

此政策不指定 Principal 元素,因為您不會在以身分為基礎的政策中,指定取得許可的委託人。當您將政策連接至使用者時,這名使用者是隱含委託人。當您將許可政策連接至 IAM 角色,該角色的信任政策中所識別的委託人即取得許可。

如需詳列所有 Amazon API 動作及適用的各項資源表格,請參閱Amazon Comprehend 的動作、資源和條件金鑰中的服務授權參考。

使用 KMS 加密所需的權限若要在非同步任務中將 Amazon 金鑰管理服務 (KMS) 用於資料和任務加密,您需要授予以下政策所示動作的許可:

{ "Version": "2012-10-17", "Statement": [ { "Action": [ "kms:CreateGrant" ], "Effect": "Allow", "Resource": "*" }, { "Action": [ "kms:Decrypt", "kms:GenerateDatakey"

183

Amazon Comprehend 開發人員指南將以身分為基礎的政策 (IAM 政策) 用於 Amazon Comprehend

], "Effect": "Allow", "Resource": "*", "Condition": { "StringEquals": { "kms:ViaService": [ "s3.region.amazonaws.com" ] } } } ]}

當您使用 Amazon Comprehend 建立非同步任務時,您可以使用存放在 Amazon S3 上的輸入資料。使用 S3時,您可以選擇加密儲存的資料,這些資料是由 S3 加密,而不是由 Amazon Comprehend 加密。如果您提供,我們可以解密和讀取加密的輸入數據kms:Decrypt將原始輸入資料加密至 Amazon Comprehend 任務所使用的資料存取角色的金鑰的權限。

您也可以選擇使用 KMS 客戶管理金鑰 (CMK) 來加密 S3 上的輸出結果,以及任務處理期間使用的儲存磁碟區。執行此操作時,您可以對這兩種類型的加密使用相同的 KMS 金鑰,但這不是必要的。建立工作以指定用於輸出加密和磁碟區加密的金鑰時,會有不同的欄位可供使用,您甚至可以使用不同帳戶的 KMS 金鑰。

使用 KMS 加密時,kms:CreateGrant需要權限才能進行磁碟區加密kms:GenerateDataKey輸出數據加密需要權限。對於讀取加密的輸入 (就像輸入資料已由 Amazon S3 加密時一樣),kms:Decrypt權限是必需的。IAM 角色需要視需要授予這些許可。但是,如果金鑰來自與目前使用中不同的帳戶,則該 kms 金鑰的KMS 金鑰原則也必須將這些權限授與工作的資料存取角色。

使用 Amazon Comprehend 主控台所需的許可許可參考表列出了 Amazon Comprehend API 作業以及顯示每項作業所需的許可。如需有關亞馬遜 API 許可的詳細資訊,請參閱Amazon Comprehend API 許可:動作、資源及條件參考 (p. 188)。

若要使用 Amazon Comprehend 主控台,您需要授予以下政策所示動作的許可:

{ "Version": "2012-10-17", "Statement": [ { "Action": [ "comprehend:*", "iam:ListRoles", "iam:GetRole", "s3:ListAllMyBuckets", "s3:ListBucket", "s3:GetBucketLocation" ], "Effect": "Allow", "Resource": "*" } ]}

Amazon Comprehend 主控台需要上述額外許可的原因如下:

• iam列出您帳戶可用的 IAM 角色的許可。• s3存取 Amazon S3 儲存貯體和物件 (其中包含用於主題建模的資料)。

使用主控台建立非同步批次任務或主題建模工作時,您可以選擇讓主控台為您的工作建立 IAM 角色。若要建立 IAM 角色,使用者必須獲得下列其他許可,才能建立 IAM 角色和政策,以及將政策附加到角色:

184

Amazon Comprehend 開發人員指南將以身分為基礎的政策 (IAM 政策) 用於 Amazon Comprehend

{ "Version": "2012-10-17", "Statement": [ { "Action": [ "iam:CreateRole", "iam:CreatePolicy", "iam:AttachRolePolicy" ], "Effect": "Allow", "Resource": "*" }, { "Action": [ "iam:PassRole" ], "Effect": "Allow", "Resource": "arn:aws:iam::*:role/*Comprehend*" } ]}

Amazon Comprehend 主控台需要上述額外許可的原因如下:

• iam建立角色和策略以及附加角色和策略的權限。所以此iam:PassRole動作可讓主控台傳遞角色至Amazon Comprehend。

適用於 Amazon Comprehend 的 AWS 受管 (預先定義) 政策AWS 獨立的 IAM 政策由 AWS 所建立與管理,可用來解決許多常用案例。這些 AWS 受管政策會授予常用案例所需的許可,讓您免於調查所需的許可。如需詳細資訊,請參閱「」AWS 受管政策中的IAM UserGuide。

下列 AWS 受管政策專屬於 Amazon Comprehend,您可以將這些政策連接到您帳戶中的使用者:

• ComprehendFullAccess— 授予 Amazon Comprehend 資源的完整存取,包括執行主題建模任務。包括列出和取得 IAM 角色的權限。

• ComprehendReadOnly— 授予執行所有 Amazon Comprehend 動作,但執行所有 Amazon Comprehend動作,StartDominantLanguageDetectionJob、StartEntitiesDetectionJob、StartKeyPhrasesDetectionJob、StartSentimentDetectionJob、StartTargetedSentimentDetectionJob,以及StartTopicsDetectionJob。

您必須將下列額外政策套用至將使用 Amazon Comprehend 的任何使用者:

{ "Version": "2012-10-17", "Statement": [ { "Action": [ "iam:PassRole" ], "Effect": "Allow", "Resource": "arn:aws:iam::*:role/*Comprehend*" }

185

Amazon Comprehend 開發人員指南將以身分為基礎的政策 (IAM 政策) 用於 Amazon Comprehend

]}

您可以登入 IAM 主控台並在該處搜尋特定政策,來檢閱受管許可政策。

這些政策會在您使用 AWS 開發套件或 AWS CLI 時運作。

您也可以建立自己的自訂 IAM 政策,以允許 Amazon Comprehend 動作與資源的許可。您可以將這些自訂政策連接至需要這些許可的 IAM 使用者或群組。

非同步作業所需的角色型權限若要使用 Amazon Comprehend 非同步操作,您必須授與 Amazon Comprehend 存取權限,以存取包含您的文件收集的 Amazon S3 儲存貯體。您可以透過信任政策在帳戶中建立資料存取角色,以信任 AmazonComprehend 服務主體來達到此目的。如需建立角色的詳細資訊,請參閱建立角色以將許可委派給 AWS 服務中的AWS Identity and Access Management 使用者指南。

以下為您建立的角色的範例信任政策。為了說明預防混淆代理人 (p. 174)時,您可以使用一或多個全域條件內容索引鍵來限制權限範圍。將aws:SourceAccount值為您的帳戶 ID。如果您使用ArnEquals條件中,設定aws:SourceArn工作 ARN 的值。使用萬用字元作為 ARN 中的任務編號,因為 Amazon Comprehend會在任務建立過程中產生此號碼。

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "comprehend.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "111122223333" }, "ArnEquals": { "aws:SourceArn": "arn:aws:comprehend:us-west-2:111122223333:pii-entities-detection-job/*" } } } ]}

在您建立角色之後,請為該角色建立存取政策。這應該授予 Amazon S3GetObject和ListBucket授予包含您輸入資料的 Amazon S3 儲存貯體和 Amazon S3 儲存貯體的許可PutObjectAmazon S3 輸出資料儲存貯體的許可。

客戶受管政策範例在本節中,您可以找到授予各種 Amazon Comprehend 動作許可的使用者政策範例。這些政策會在您使用 AWS 開發套件或 AWS CLI 時運作。當您使用主控台時,您需要授予許可給所有 Amazon ComprehendAPI。這會在 使用 Amazon Comprehend 主控台所需的許可 (p. 184) 中討論。

Note

所有範例都是使用 us-east-2 區域,並且包含虛構帳戶 ID。

範例

186

Amazon Comprehend 開發人員指南將以身分為基礎的政策 (IAM 政策) 用於 Amazon Comprehend

範例 1:允許所有 Amazon Comprehend 動作

註冊AWS時,您建立一個管理員使用者來管理您的帳戶,包括建立使用者和管理其許可。

您可以選擇建立具有所有 Amazon Comprehend 動作之許可的使用者 (將此使用者視為服務特定的管理員) 以使用 Amazon Comprehend。您可以將以下許可政策附加到此使用者。

{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowAllComprehendActions", "Effect": "Allow", "Action": [ "comprehend:*", "iam:ListRoles", "iam:GetRole", "s3:ListAllMyBuckets", "s3:ListBucket", "s3:GetBucketLocation", "iam:CreateRole", "iam:CreatePolicy", "iam:AttachRolePolicy", "kms:CreateGrant", "kms:Decrypt", "kms:GenerateDatakey" ], "Resource": "*" }, { "Action": [ "iam:PassRole" ], "Effect": "Allow", "Resource": "arn:aws:iam::*:role/*Comprehend*" } ]}

您可以依下列方式修改加密的方式,可以依下列方式修改這些許可的方式

• 若要讓 Amazon Comprehend 能夠分析存放在加密 S3 儲存貯體中的文件,IAM 角色必須具有kms:Decrypt許可。

• 若要讓 Amazon Comprehend 能夠加密存放在連接到處理分析任務之運算執行個體的儲存磁碟區上的文件,IAM 角色必須具有kms:CreateGrant許可。

• 若要讓 Amazon Comprehend 能夠加密其 S3 儲存貯體中的輸出結果,IAM 角色必須具有kms:GenerateDataKey許可。

範例 2:允許主題建模動作

下列許可政策會授與使用者執行 Amazon Comprehend 主題建模操作的許可。

{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowTopicModelingActions",

187

Amazon Comprehend 開發人員指南Amazon Comprehend API 許可參考

"Effect": "Allow", "Action": [ "comprehend:DescribeTopicsDetectionJob", "comprehend:ListTopicsDetectionJobs", "comprehend:StartTopicsDetectionJob", ], "Resource": "*" ] } ]}

Amazon Comprehend API 許可:動作、資源及條件參考使用中的表Amazon Comprehend 的動作、資源和條件金鑰的 區段服務授權參考作為設置時的參考存取控制 (p. 181)。這些表包含各項 Amazon Comprehend API 操作、可授予許可執行該動作的相應動作,以及您可授與許可的 AWS 資源。您在政策的 Action 欄位中指定動作,然後在政策的 Resource 欄位中指定資源值。

若要在政策陳述式中指定條件,您可以使用 Amazon Comprehend 專用的條件金鑰。您也可以在 AmazonComprehend 政策中使用全 AWS 條件金鑰。如需全 AWS 鍵清單,請參閱可用的金鑰中的IAM UserGuide。

Note

若要指定動作,請使用 comprehend: 字首,後面加上 API 操作名稱,例如comprehend:DetectEntities。

AWSAmazon Comprehend 的受管政策

若要新增許可給使用者、群組和角色,使用 AWS 受管政策比自己撰寫政策更容易。建立 IAM 客戶受管政策需要時間和專業知識,而受管政策可為您的團隊提供其所需的許可。若要快速開始使用,您可以使用 AWS受管政策。這些政策涵蓋常見的使用案例,並可在您的 AWS 帳戶中可用。如需 AWS 受管政策的詳細資訊,請參閱《IAM 使用者指南》中的 AWS 受管政策。

AWS 服務會維護和更新 AWS 受管政策。您無法更改 AWS 受管政策中的許可。服務偶爾會在 AWS 受管政策中新增其他許可以支援新功能。此類型的更新會影響已連接政策的所有身分識別 (使用者、群組和角色)。當新功能啟動或新操作可用時,服務很可能會更新 AWS 受管政策。服務不會從 AWS 受管政策中移除許可,因此政策更新不會破壞您現有的許可。

此外,AWS 支援跨越多項服務之任務職能的受管政策。例如,ReadOnlyAccess AWS受管政策提供所有人的唯讀存取權AWS服務和資源。當服務啟動新功能時,AWS 會為新的操作和資源新增唯讀許可。如需任務職能政策的清單和說明,請參閱《IAM 使用者指南》中有關任務職能的 AWS 受管政策。

AWS 受管政策: ComprehendFullAccess此政策授與 Amazon Comprehend 資源的完整存取權,包括執行主題建模任務。此政策也授予 Amazon S3儲存貯體和 IAM 角色的清單和取得許可。

{ "Version": "2012-10-17",

188

Amazon Comprehend 開發人員指南AWS 受管政策

"Statement": [ { "Effect": "Allow", "Action": [ "comprehend:*", "iam:GetRole", "iam:ListRoles", "s3:GetBucketLocation", "s3:ListAllMyBuckets", "s3:ListBucket", ], "Resource": "*" } ]}

AWS 受管政策: ComprehendReadOnly此政策授予執行所有 Amazon Comprehend 動作的唯讀許可除外如下所示:

• StartDominantLanguageDetectionJob

• StartEntitiesDetectionJob

• StartKeyPhrasesDetectionJob

• StartSentimentDetectionJob

• StartTargetedSentimentDetectionJob

• StartTopicsDetectionJob

{ "Version": "2012-10-17", "Statement": [ { "Action": [ "comprehend:BatchDetectDominantLanguage", "comprehend:BatchDetectEntities", "comprehend:BatchDetectKeyPhrases", "comprehend:BatchDetectSentiment", "comprehend:BatchDetectSyntax", "comprehend:ClassifyDocument", "comprehend:ContainsPiiEntities", "comprehend:DescribeDocumentClassificationJob", "comprehend:DescribeDocumentClassifier", "comprehend:DescribeDominantLanguageDetectionJob", "comprehend:DescribeEndpoint", "comprehend:DescribeEntitiesDetectionJob", "comprehend:DescribeEntityRecognizer", "comprehend:DescribeKeyPhrasesDetectionJob", "comprehend:DescribePiiEntitiesDetectionJob", "comprehend:DescribeResourcePolicy", "comprehend:DescribeSentimentDetectionJob", "comprehend:DescribeTargetedSentimentDetectionJob", "comprehend:DescribeTopicsDetectionJob", "comprehend:DetectDominantLanguage", "comprehend:DetectEntities", "comprehend:DetectKeyPhrases", "comprehend:DetectPiiEntities", "comprehend:DetectSentiment", "comprehend:DetectSyntax", "comprehend:ListDocumentClassificationJobs", "comprehend:ListDocumentClassifiers", "comprehend:ListDocumentClassifierSummaries",

189

Amazon Comprehend 開發人員指南使用記錄 Amazon Comprehend API 呼叫AWS CloudTrail

"comprehend:ListDominantLanguageDetectionJobs", "comprehend:ListEndpoints", "comprehend:ListEntitiesDetectionJobs", "comprehend:ListEntityRecognizers", "comprehend:ListEntityRecognizerSummaries", "comprehend:ListKeyPhrasesDetectionJobs", "comprehend:ListPiiEntitiesDetectionJobs", "comprehend:ListSentimentDetectionJobs", "comprehend:ListTargetedSentimentDetectionJobs", "comprehend:ListTagsForResource", "comprehend:ListTopicsDetectionJobs" ], "Effect": "Allow", "Resource": "*" } ]}

Amazon Comprehend Mephend Mephend MedAWS受管政策

檢視更新的詳細資訊AWSAmazon Comprehend 的變更,因為此服務開始追蹤 Amazon Comprehend 的變更。如需有關此頁面變更的自動提醒,請訂閱 Amazon Comprehend 上的 RSS 摘要文件歷史記錄(憑證已建立!) 頁面上的名稱有些許差異。

變更 描述 日期

ComprehendReadOnly (p. 189)– 更新現有政策

Amazon Comprehend 現在允許comprehend:DescribeTargetedSentimentDetectionJob和comprehend:ListTargetedSentimentDetectionJobs的動作 ComprehendReadOnly 政策

2022 年 3 月 30 日

ComprehendReadOnly (p. 189)– 更新現有政策

Amazon Comprehend 現在允許comprehend:DescribeResourcePolicy動作中的 ComprehendReadOnly 政策

2022 年 2 月 2 日

ComprehendReadOnly (p. 189)– 更新現有政策

Amazon Comprehend 現在允許ListDocumentClassifierSummaries和ListEntityRecognizerSummaries的動作 ComprehendReadOnly 政策

2021 年 9 月 21 日

ComprehendReadOnly (p. 189)– 更新現有政策

Amazon Comprehend 現在允許ContainsPIIEntities動作中的 ComprehendReadOnly 政策

2021 年 3 月 26 日

Amazon Comprehend 開始追蹤變更

Amazon Comprehend 開始追蹤其變更AWS受管政策。

2021 年 3 月 1 日

使用記錄 Amazon Comprehend API 呼叫AWSCloudTrail

Amazon Comprehend 與集成AWS CloudTrail,其提供記錄使用者、角色或角色或使用者所採取之動作的服務AWS服務在 Amazon Comprehend。 CloudTrail 擷取 Amazon Comprehend 的 API 呼叫當作事件。擷取的呼叫包括從 Amazon Comprehend 主控台執行的呼叫,以及對 Amazon Comprehend API 作業發出的程式碼呼叫。如果您建立線索,您可以啟用 CloudTrail 傳送至 Amazon S3 儲存貯體,包括 Amazon

190

Amazon Comprehend 開發人員指南Amazon Comprehend 資訊 CloudTrail

Comprehend 的事件。如果您不設定追蹤記錄,仍然可以透過 CloudTrail 主控台事件歷史記錄。使用由收集的資訊 CloudTrail,您可以判斷傳送至 Amazon Comprehend、提出請求的時間,以及其他詳細資訊。

進一步了解 CloudTrail,包括如何設定及啟用,請參閱AWS CloudTrail使用者指南。

Amazon Comprehend 資訊 CloudTrailCloudTrail 已在您啟用AWS帳戶當您建立帳戶。當 Amazon Comprehend 中發生支援的事件活動時,該活動會記錄在 CloudTrail 與其他一起事件AWS服務事件事件歷史記錄。您可以檢視、搜尋和下載 AWS 帳戶的最新事件。如需詳細資訊,請參閱「」檢視事件 CloudTrail 事件歷史記錄。

若要持續記錄您的事件AWS帳戶,包括 Amazon Comprehend 的事件,建立線索。一個線索啟用 CloudTrail將日誌檔案傳送至 Amazon S3 儲存貯體。根據預設,當您在主控台建立追蹤記錄時,追蹤記錄會套用到所有 AWS 區域。該追蹤會記錄來自 AWS 分割區中所有區域的事件,並將日誌檔案交付到您指定的 AmazonS3 儲存貯體。此外,您可以設定其他AWS服務,以進一步分析和處理 CloudTrail 日誌。如需詳細資訊,請參閱下列內容:

• 建立追蹤的概觀• CloudTrail 支援的服務和整合• 設定 的 Amazon SNS 通知 CloudTrail• REECIVING CloudTrail 來自多個區域的日誌檔案和REECIVING CloudTrail 來自多個帳戶的日誌檔案

Amazon Comprehend 支援將下動作記錄為事件 CloudTrail 日誌檔案:

• BatchDetectDominantLanguage• BatchDetectEntities• BatchDetectKeyPhrases• BatchDetectSentiment• BatchDetectSyntax• ClassifyDocument• CreateDocumentClassifier• CreateEndpoint• CreateEntityRecognizer• DeleteDocumentClassifier• DeleteEndpoint• DeleteEntityRecognizer• DescribeDocumentClassificationJob• DescribeDocumentClassifier• DescribeDominantLanguageDetectionJob• DescribeEndpoint• DescribeEntitiesDetectionJob• DescribeEntityRecognizer• DescribeKeyPhrasesDetectionJob• DescribePiiEntitiesDetectionJob• DescribeSentimentDetectionJob• DescribeTargetedSentimentDetectionJob• DescribeTopicsDetectionJob• DetectDominantLanguage

191

Amazon Comprehend 開發人員指南Amazon Comprehend 資訊 CloudTrail

• DetectEntities• DetectKeyPhrases• DetectPiiEntities• DetectSentiment• DetectSyntax• ListDocumentClassificationJobs• ListDocumentClassifiers• ListDominantLanguageDetectionJobs• ListEndpoints• ListEntitiesDetectionJobs• ListEntityRecognizers• ListKeyPhrasesDetectionJobs• ListPiiEntitiesDetectionJobs• ListSentimentDetectionJobs• ListTargetedSentimentDetectionJobs• ListTagsForResource• ListTopicsDetectionJobs• StartDocumentClassificationJob• StartDominantLanguageDetectionJob• StartEntitiesDetectionJob• StartKeyPhrasesDetectionJob• StartPiiEntitiesDetectionJob• StartSentimentDetectionJob• StartTargetedSentimentDetectionJob• StartTopicsDetectionJob• StopDominantLanguageDetectionJob• StopEntitiesDetectionJob• StopKeyPhrasesDetectionJob• StopPiiEntitiesDetectionJob• StopSentimentDetectionJob• StopTargetedSentimentDetectionJob• StopTrainingDocumentClassifier• StopTrainingEntityRecognizer• TagResource• UntagResource• UpdateEndpoint

每一筆事件或日誌項目都會包含產生請求者的資訊。身分資訊可協助您判斷下列事項:

• 該請求是否透過根或 AWS Identity and Access Management (IAM) 使用者憑證來提出。• 提出該要求時,是否使用了特定角色或聯合身分使用者的暫時安全憑證。• 該請求是否由另一項 AWS 服務提出。

如需詳細資訊,請參閱 CloudTrail userIdentity 元素。

192

Amazon Comprehend 開發人員指南範例:Amazon Comprehend 日誌檔案項目

範例:Amazon Comprehend 日誌檔案項目追蹤是一種組態,能讓事件以日誌檔案的形式交付到您指定的 Amazon S3 儲存貯體。 CloudTrail 日誌檔案包含一個或多個日誌項目。一個事件為任何來源提出的單一請求,並包含請求動作、請求的日期和時間、請求參數等資訊。 CloudTrail 日誌檔案並非依公有 API 呼叫追蹤記錄的堆疊排序,因此不會以任何特定順序出現。

以下範例顯示 CloudTrail 以下範例ListKeyPhrasesDetectionJobs動作。

{ "eventVersion": "1.05", "userIdentity": { "type": "AssumedRole”,` "principalId": "AROAICFHPEXAMPLE:kapil”, "arn": "arn:aws:sts::12345678910:assumed-role/UserRole/kapil”, "accountId": "12345678910", "accessKeyId": "ASIA3VZEXAMPLE”, "sessionContext": { "sessionIssuer": { "type": "Role", "principalId": "AROAICFHPEXAMPLE", "arn": "arn:aws:iam::12345678910:role/UserRole", "accountId": "12345678910", "userName": "UserRole" }, "webIdFederationData": {}, "attributes": { "mfaAuthenticated": "false", "creationDate": "2020-04-29T15:46:04Z" } } }, "eventTime": "2020-04-29T17:57:06Z", "eventSource": "comprehend.amazonaws.com", "eventName": "ListKeyPhrasesDetectionJobs", "awsRegion": "us-east-2", "sourceIPAddress": "3.22.248.29", "userAgent": "aws-internal/3 aws-sdk-java/1.11.761 Linux/4.14.165-102.205.amzn2.x86_64 OpenJDK_64-Bit_Server_VM/25.201-b09 java/1.8.0_201 vendor/Oracle_Corporation, canary-generated exec-env/AWS_Lambda_java8", "requestParameters": { "filter": { "submitTimeAfter": "Apr 29, 2020 5:54:04 PM" } }, "responseElements": null, "requestID": "59bee2bc-e45c-436e-aae7-493af0328a8c", "eventID": "eabb7b59-edf3-44c8-8833-416bbdb16eae", "readOnly": true, "eventType": "AwsApiCall", "recipientAccountId": "802699264198"}

以下範例顯示 CloudTrail 以下範例StartKeyPhrasesDetectionJob動作。

{ "eventVersion": "1.05", "userIdentity": { "type": "AssumedRole”,` "principalId": "AROAICFHPEXAMPLE:kapil”, "arn": "arn:aws:sts::12345678910:assumed-role/UserRole/kapil”, "accountId": "12345678910",

193

Amazon Comprehend 開發人員指南範例:Amazon Comprehend 日誌檔案項目

"accessKeyId": "ASIA3VZEXAMPLE”, "sessionContext": { "sessionIssuer": { "type": "Role", "principalId": "AROAICFHPEXAMPLE", "arn": "arn:aws:iam::12345678910:role/UserRole", "accountId": "12345678910", "userName": "UserRole" }, "webIdFederationData": {}, "attributes": { "mfaAuthenticated": "false", "creationDate": "2020-04-29T15:46:04Z" } } }, "eventTime": "2020-04-29T16:42:39Z", "eventSource": "comprehend.amazonaws.com", "eventName": "StartKeyPhrasesDetectionJob", "awsRegion": "us-east-2", "sourceIPAddress": "3.20.236.234", "userAgent": "aws-internal/3 aws-sdk-java/1.11.761 Linux/4.14.165-102.205.amzn2.x86_64 OpenJDK_64-Bit_Server_VM/25.201-b09 java/1.8.0_201 vendor/Oracle_Corporation, canary-generated exec-env/AWS_Lambda_java8", "requestParameters": { "inputDataConfig": { "s3Uri": "s3://dataset-prod-us-east-2/ONE_DOC_PER_LINE/KP/FOUR_KB", "inputFormat": "ONE_DOC_PER_LINE" }, "outputDataConfig": { "s3Uri": "s3://datasets3bucke-y6icltvagurj/JSON/00f706b3-6d84-4b09-bea3-88084f9cb6b0", "kmsKeyId": "arn:aws:kms:us-east-2:12345678910:key/2e107fe3-6ab3-4bab-90ab-966e85b14678" }, "dataAccessRoleArn": "arn:aws:iam::12345678910:role/DataAccessRoleXYZ", "languageCode": "en", "clientRequestToken": "d9e4f777-8b4e-4249-8ebb-b7495acb800b", "volumeKmsKeyId": "arn:aws:kms:us-east-2:12345678910:key/7b9b8aff-c459-4d20-bb39-64d6e3756e85" }, "responseElements": { "jobId": "2102905798f0d44a04da91fbd12ed60e", "jobStatus": "SUBMITTED" }, "requestID": "f202914c-f5cf-4f2d-a4c7-5f30d101fe19", "eventID": "692e3a17-40a2-491a-a4ce-a275c4c4ce76", "readOnly": false, "resources": [ { "accountId": "12345678910", "type": "AWS::KMS::Key", "ARN": "arn:aws:kms:us-east-2:12345678910:key/2e107fe3-6ab3-4bab-90ab-966e85b14678" }, { "accountId": "12345678910", "type": "AWS::KMS::Key", "ARN": "arn:aws:kms:us-east-2:12345678910:key/7b9b8aff-c459-4d20-bb39-64d6e3756e85" }, { "accountId": "12345678910", "type": "AWS::S3::Object", "ARN": "s3://dataset-prod-us-east-2/ONE_DOC_PER_LINE/KP/FOUR_KB" },

194

Amazon Comprehend 開發人員指南範例:Amazon Comprehend 日誌檔案項目

{ "accountId": "12345678910", "type": "AWS::S3::Object", "ARN": "s3://datasets3bucke-y6icltvagurj/JSON/00f706b3-6d84-4b09-bea3-88084f9cb6b0" }, { "accountId": "12345678910", "type": "AWS::IAM::Role", "ARN": "arn:aws:iam::12345678910:role/DataAccessRoleXYZ" } ], "eventType": "AwsApiCall", "recipientAccountId": "12345678910"}

以下範例顯示 CloudTrail 以下範例DescribeDocumentClassifier動作。

{ "eventVersion": "1.05", "userIdentity": { "type": "AssumedRole", "principalId": "AROAICFHPEXAMPLE:SomeServiceCa-CheckAsyncJobStatusLambd-TICR23C65S42", "arn": "arn:aws:sts::12345678910:assumed-role/SomeServiceCa-SomeLambdaR-ADLIAGB0VT9X/SomeServiceCa-CheckAsyncJobStatusLambd-TICR23C65S42", "accountId": "12345678910", "accessKeyId": "ASIA3VZEXAMPLE", "sessionContext": { "sessionIssuer": { "type": "Role", "principalId": "AROAICFHPEXAMPLE", "arn": "arn:aws:iam::12345678910:role/SomeServiceCa-SomeLambdaR-ADLIAGB0VT9X", "accountId": "12345678910", "userName": "SomeServiceCa-SomeLambdaR-ADLIAGB0VT9X" }, "webIdFederationData": {}, "attributes": { "mfaAuthenticated": "false", "creationDate": "2020-04-29T15:30:41Z" } } }, "eventTime": "2020-04-29T17:02:44Z", "eventSource": "comprehend.amazonaws.com", "eventName": "DescribeDocumentClassifier", "awsRegion": "us-east-2", "sourceIPAddress": "18.191.40.153", "userAgent": "aws-internal/3 aws-sdk-java/1.11.761 Linux/4.14.165-102.205.amzn2.x86_64 OpenJDK_64-Bit_Server_VM/25.201-b09 java/1.8.0_201 vendor/Oracle_Corporation, canary-generated exec-env/AWS_Lambda_java8", "errorCode": "ResourceNotFoundException", "errorMessage": "RESOURCE_NOT_FOUND: Could not find specified resource.", "requestParameters": { "documentClassifierArn": "arn:aws:comprehend:us-east-2:12345678910:document-classifier/DocumentClassifier-FOUR-KB-MULTI-LABEL-1588162272420" }, "responseElements": null, "requestID": "e5bf2476-a894-4204-af77-4a84857ff2f8", "eventID": "bc77875f-9fe5-4b65-8384-c9f82c392f46", "readOnly": true, "resources": [ { "accountId": "12345678910",

195

Amazon Comprehend 開發人員指南範例:Amazon Comprehend 日誌檔案項目

"type": "AWS::Comprehend::DocumentClassifier", "ARN": "arn:aws:comprehend:us-east-2:12345678910:document-classifier/DocumentClassifier-FOUR-KB-MULTI-LABEL-1588162272420" } ], "eventType": "AwsApiCall", "recipientAccountId": "12345678910"}

以下範例顯示 CloudTrail 以下範例CreateDocumentClassifier動作。

{ "eventVersion": "1.05", "userIdentity": { "type": "AssumedRole", "principalId": "AROAICFHPEXAMPLE:SomeServiceCanary-StartAsyncJobLambda-1STGUG0X870YM", "arn": "arn:aws:sts::12345678910:assumed-role/SomeServiceCa-SomeLambdaR-ADLIAGB0VT9X/SomeServiceCanary-StartAsyncJobLambda-1STGUG0X870YM", "accountId": "12345678910", "accessKeyId": "ASIA3VZEXAMPLE", "sessionContext": { "sessionIssuer": { "type": "Role", "principalId": "AROAICFHPEXAMPLE", "arn": "arn:aws:iam::12345678910:role/SomeServiceCa-SomeLambdaR-ADLIAGB0VT9X", "accountId": "12345678910", "userName": "SomeServiceCa-SomeLambdaR-ADLIAGB0VT9X" }, "webIdFederationData": {}, "attributes": { "mfaAuthenticated": "false", "creationDate": "2020-04-29T15:46:04Z" } } }, "eventTime": "2020-04-29T17:01:33Z", "eventSource": "comprehend.amazonaws.com", "eventName": "CreateDocumentClassifier", "awsRegion": "us-east-2", "sourceIPAddress": "3.20.236.234", "userAgent": "aws-internal/3 aws-sdk-java/1.11.761 Linux/4.14.165-102.205.amzn2.x86_64 OpenJDK_64-Bit_Server_VM/25.201-b09 java/1.8.0_201 vendor/Oracle_Corporation, canary-generated exec-env/AWS_Lambda_java8", "requestParameters": { "documentClassifierName": "DocumentClassifier-FOUR-KB-MULTI-CLASS-1588179693504", "dataAccessRoleArn": "arn:aws:iam::12345678910:role/SomeServiceCanary-CMH-p-DataAccessRole-1DI9T5MJ973BK", "tags": [ { "key": "CreationTag", "value": "TagValue" } ], "inputDataConfig": { "s3Uri": "s3://aws-deepinsight-async-canary-datasets-prod-us-east-2/ONE_DOC_PER_LINE/DOCUMENT_CLASSIFIER/FOUR_KB" }, "clientRequestToken": "eb545dbf-52bd-474f-b0a2-b21010371e1b", "languageCode": "en", "volumeKmsKeyId": "arn:aws:kms:us-east-2:12345678910:key/7b9b8aff-c459-4d20-bb39-64d6e3756e85", "mode": "MULTI_CLASS" },

196

Amazon Comprehend 開發人員指南範例:Amazon Comprehend 日誌檔案項目

"responseElements": { "documentClassifierArn": "arn:aws:comprehend:us-east-2:12345678910:document-classifier/DocumentClassifier-FOUR-KB-MULTI-CLASS-1588179693504" }, "requestID": "20300c29-29bf-48fd-8275-e5a805ee8999", "eventID": "3444051d-3616-438f-b80e-a3be9bbc0341", "readOnly": false, "resources": [ { "accountId": "12345678910", "type": "AWS::Comprehend::DocumentClassifier", "ARN": "arn:aws:comprehend:us-east-2:12345678910:document-classifier/DocumentClassifier-FOUR-KB-MULTI-CLASS-1588179693504" }, { "accountId": "12345678910", "type": "AWS::KMS::Key", "ARN": "arn:aws:kms:us-east-2:12345678910:key/7b9b8aff-c459-4d20-bb39-64d6e3756e85" }, { "accountId": "12345678910", "type": "AWS::S3::Object", "ARN": "s3://aws-deepinsight-async-canary-datasets-prod-us-east-2/ONE_DOC_PER_LINE/DOCUMENT_CLASSIFIER/FOUR_KB" }, { "accountId": "12345678910", "type": "AWS::IAM::Role", "ARN": "arn:aws:iam::12345678910:role/SomeServiceCanary-CMH-p-DataAccessRole-1DI9T5MJ973BK" } ], "eventType": "AwsApiCall", "recipientAccountId": "12345678910"}

以下範例顯示 CloudTrail 以下範例DeleteEntityRecognizer動作。

{ "eventVersion": "1.05", "userIdentity": { "type": "AssumedRole", "principalId": "AROAICFHPEXAMPLE:SomeServiceCanary-StartAsyncJobLambda-1STGUG0X870YM", "arn": "arn:aws:sts::12345678910:assumed-role/SomeServiceCa-SomeLambdaR-ADLIAGB0VT9X/SomeServiceCanary-StartAsyncJobLambda-1STGUG0X870YM", "accountId": "12345678910", "accessKeyId": "ASIA3VZEXAMPLE", "sessionContext": { "sessionIssuer": { "type": "Role", "principalId": "AROAICFHPEXAMPLE", "arn": "arn:aws:iam::12345678910:role/SomeServiceCa-SomeLambdaR-ADLIAGB0VT9X", "accountId": "12345678910", "userName": "SomeServiceCa-SomeLambdaR-ADLIAGB0VT9X" }, "webIdFederationData": {}, "attributes": { "mfaAuthenticated": "false", "creationDate": "2020-04-29T15:46:04Z" } } },

197

Amazon Comprehend 開發人員指南範例:Amazon Comprehend 日誌檔案項目

"eventTime": "2020-04-29T17:01:13Z", "eventSource": "comprehend.amazonaws.com", "eventName": "DeleteEntityRecognizer", "awsRegion": "us-east-2", "sourceIPAddress": "3.20.236.234", "userAgent": "aws-internal/3 aws-sdk-java/1.11.761 Linux/4.14.165-102.205.amzn2.x86_64 OpenJDK_64-Bit_Server_VM/25.201-b09 java/1.8.0_201 vendor/Oracle_Corporation, canary-generated exec-env/AWS_Lambda_java8", "requestParameters": { "entityRecognizerArn": "arn:aws:comprehend:us-east-2:12345678910:entity-recognizer/EntityRecognizer-DOCS-2K-ONE-DOC-PER-LINE-1588161691587" }, "responseElements": null, "requestID": "ab49a08d-3579-4f10-a62f-eb72e359e516", "eventID": "fb9860a1-b158-4764-a306-d19cfbace7fc", "readOnly": false, "resources": [ { "accountId": "12345678910", "type": "AWS::Comprehend::EntityRecognizer", "ARN": "arn:aws:comprehend:us-east-2:12345678910:entity-recognizer/EntityRecognizer-DOCS-2K-ONE-DOC-PER-LINE-1588161691587" } ], "eventType": "AwsApiCall", "recipientAccountId": "12345678910"}

以下範例顯示 CloudTrail 以下範例ClassifyDocument動作。

{ "eventVersion": "1.05", "userIdentity": { "type": "AssumedRole", "principalId": "AROAICFHPEXAMPLE:SomeServiceCa-ValidateEndpointOutputLa-C5F50672CNDK", "arn": "arn:aws:sts::12345678910:assumed-role/SomeServiceCa-SomeLambdaR-ADLIAGB0VT9X/SomeServiceCa-ValidateEndpointOutputLa-C5F50672CNDK", "accountId": "12345678910", "accessKeyId": "ASIA3VZEXAMPLE", "sessionContext": { "sessionIssuer": { "type": "Role", "principalId": "AROAICFHPEXAMPLE", "arn": "arn:aws:iam::12345678910:role/SomeServiceCa-SomeLambdaR-ADLIAGB0VT9X", "accountId": "12345678910", "userName": "SomeServiceCa-SomeLambdaR-ADLIAGB0VT9X" }, "webIdFederationData": {}, "attributes": { "mfaAuthenticated": "false", "creationDate": "2020-04-29T16:15:11Z" } } }, "eventTime": "2020-04-29T17:10:26Z", "eventSource": "comprehend.amazonaws.com", "eventName": "ClassifyDocument", "awsRegion": "us-east-2", "sourceIPAddress": "3.21.185.237", "userAgent": "aws-internal/3 aws-sdk-java/1.11.761 Linux/4.14.165-102.205.amzn2.x86_64 OpenJDK_64-Bit_Server_VM/25.201-b09 java/1.8.0_201 vendor/Oracle_Corporation, canary-generated exec-env/AWS_Lambda_java8", "requestParameters": {

198

Amazon Comprehend 開發人員指南合規驗證

"endpointArn": "arn:aws:comprehend:us-east-2:12345678910:document-classifier-endpoint/canary86644" }, "responseElements": null, "requestID": "fd916e66-caac-46c9-a1fc-81a0ef33e61b", "eventID": "535ca22b-b3a3-4c13-b2c5-bf51ab082794", "readOnly": true, "resources": [ { "accountId": "12345678910", "type": "AWS::Comprehend::DocumentClassifierEndpoint", "ARN": "arn:aws:comprehend:us-east-2:12345678910:document-classifier-endpoint/canary86644" } ], "eventType": "AwsApiCall", "recipientAccountId": "12345678910"}

Amazon Comprehend 的合規驗證在多個階段,第三方稽核人員會評估 Amazon Comprehend 的安全與合規。AWS合規計劃。這些計劃包括PCI、FedRAMP、HIPAA 等等。您可使用 AWS Artifact 下載第三方稽核報告。如需詳細資訊,請參閱在AWS Artifact 中下載報告。

您使用 Amazon Comprehend 的合規責任,取決於資料的機密性、您公司的合規目標及適用法律和法律和法規。AWS提供下列資源,以協助合規:

• 安全與合規快速入門指南 – 這些部署指南討論在 AWS 上部署以安全及合規為重心基準環境的架構考量和步驟。

• HIPAA 安全與合規架構白皮書 – 本白皮書說明公司可如何運用 AWS 來建立 HIPAA 合規的應用程式。• AWS 合規資源 – 這組手冊和指南可能適用於您的產業和位置。• AWS Config – 此 AWS 服務可評定資源組態與內部實務、業界準則和法規的合規狀態。• AWS Security Hub:此 AWS 服務可供您檢視 AWS 中的安全狀態,可助您檢查是否符合安全產業標準和

最佳實務。

如需特定合規計劃範圍內的 AWS 服務清單,請參閱合規計劃內的 AWS 服務。如需一般資訊,請參閱 AWS合規計劃。

Amazon Comprehend 的恢復能力AWS 全球基礎設施是以 AWS 區域與可用區域為中心建置的。AWS區域提供多個分開且隔離的實際可用區域,它們以低延遲、高輸送量和高度備援聯網功能相互連結。透過可用區域,您所設計與操作的應用程式和資料庫,就能夠在可用區域之間自動容錯移轉,而不會發生中斷。可用區域的可用性、容錯能力和擴充能力,均較單一或多個資料中心的傳統基礎設施還高。

如需有關 AWS 區域與可用區域的詳細資訊,請參閱 AWS 全球基礎設施。

Amazon Comprehend 的基礎設施安全性作為一項受管服務,Amazon Comprehend 遵循AWS安全性、身分與合規的最佳實務。

199

Amazon Comprehend 開發人員指南自訂非同步分析工作所需的權限

若要透過網路存取 Amazon Comprehend,請使用AWS已發佈的 API 呼叫。用戶端必須支援 TransportLayer Security (TLS) 1.0 或更新版本。建議使用 TLS 1.2 或更新版本。用戶端也必須支援具備完美轉送私密(PFS) 的密碼套件,例如臨時 Diffie-Hellman (DHE) 或橢圓曲線臨時 Diffie-Hellman (ECDHE)。現代系統 (如Java 7 和更新版本) 大多會支援這些模式。

此外,請求必須使用存取金鑰 ID 和與AWS Identity and Access Management(IAM) 主體。或者,您可以使用AWS Security Token Service (AWS STS) 來產生暫時安全憑證來簽署請求。

自訂非同步分析工作所需的權限Important

如果您有限制模型存取權限的 IAM 政策,您將無法使用自訂模型完成推論工作。您的 IAM 政策應更新為具有用於自訂非同步分析工作的萬用字元資源。

如果您使用的是StartDocumentClassificationJob 和StartEntitiesDetectionJobAPI,除非您目前使用萬用字元做為資源,否則您需要更新 IAM 政策。如果您使用的是StartEntitiesDetectionJob使用預先訓練的模型,這不會影響您,並且您不需要進行任何更改。

以下範例政策包含過時的參考。

{ "Action": [ "comprehend:StartDocumentClassificationJob", "comprehend:StartEntitiesDetectionJob", ], "Resource": [ "arn:aws:comprehend:us-east-1:123456789012:document-classifier/myClassifier", "arn:aws:comprehend:us-east-1:123456789012:entity-recognizer/myRecognizer" ], "Effect": "Allow"}

這就是已更新您需要使用以成功執行的原則 StartDocumentClassificationJob 和 StartEntitiesDetectionJob。

{ "Action": [ "comprehend:StartDocumentClassificationJob", "comprehend:StartEntitiesDetectionJob", ], "Resource": [ "arn:aws:comprehend:us-east-1:123456789012:document-classifier/myClassifier", "arn:aws:comprehend:us-east-1:123456789012:document-classification-job/*", "arn:aws:comprehend:us-east-1:123456789012:entity-recognizer/myRecognizer", "arn:aws:comprehend:us-east-1:123456789012:entities-detection-job/*" ], "Effect": "Allow"}

200

Amazon Comprehend 開發人員指南支援的區域

指導方針如果您的應用程式需要,可以增加此處顯示的許多 Amazon Comprehend 配額。如需服務配額以及請求提高配額的詳細資訊,請參閱「」(請參閱)AWS 服務配額。

使用 Amazon Comprehend 時,請記住下列資訊。

主題• 支援的區域 (p. 201)• 整體配額 (p. 201)• 單一交易的節流 (p. 201)• 多個文件操作 (p. 202)• 並行作用中非同步工作 (p. 202)• 非同步工作 (p. 202)• 目標情緒 (p. 203)• 文件分類 (p. 203)• 語言偵測 (p. 204)• 事件 (p. 204)• 主題建模 (p. 204)• 實體辨識 (p. 205)

支援的區域如需可使用 Amazon Comprehend 的 AWS 區域清單,請參閱 Amazon Comprehend,請參閱。AWS 區域與端點中的Amazon Web Services 一般參考。

整體配額除了情緒分析和語法偵測以外,所有單一文件同步作業都具有下列配額。

描述 名額或指導方針

字元編碼 UTF-8

文件大小上限 100 KB

情緒分析、語法偵測和批次同步作業的最大文件大小為 5 KB。

Amazon Comprehend 可能會存放您的內容,以持續改善其分析模型的品質。參閱以下資源AmazonComprehend 常見問題以進一步了解。

單一交易的節流您可以使用批次作業而不是單一交易作業來避免限制。如需詳細資訊,請參閱 多個文件操作 (p. 202)。

201

Amazon Comprehend 開發人員指南多個文件操作

多個文件操作所以此BatchDetectDominantLanguage (p. 235)、BatchDetectEntities (p. 237)、BatchDetectKeyPhrases (p. 240),以及BatchDetectSentiment (p. 243)操作具有下列配額:

描述 名額或指導方針

每個請求的文件 25

如果您要每秒傳送超過 20 個請求,您應該考慮使用批次操作。使用批次作業時,您可以在每個要求中傳送更多文件,這可能會導致更高的輸送量。例如,當您使用DetectDominantLanguage操作時,您最多可以每秒傳送 20 個文件。不過,如果您使用BatchRequestDominantLanguage操作時,您最多可以每秒發送 250 個文檔,但處理速度可能會降低。如需調節配額的詳細資訊,請參閱節流配額,請參閱AmazonComprehend 配額中的Amazon Web Services 一般參考。如需使用多文件 API 操作的詳細資訊,請參閱使用多個文件 API 操作多文檔同步處理 (p. 29)。

並行作用中非同步工作您可以使用 Amazon 主控台或其中一個主控台建立新的分析任務API_Start*操作。每個帳戶最多可有 10個指定工作類型的作用中工作。

描述 名額或指導方針

每個任務類型上限數 10

非同步工作您使用其中一個執行的非同步分析工作API_Start*操作具有下列配額:

描述 名額或指導方針

偵測實體、關鍵片語、PII 和語言的工作中,每個文件的大小上限 1 MB

偵測情緒的工作中每個文件的大小上限 5 KB

批處理中所有檔案的總大小上限 5 GB

檔案數量上限,每個檔案數目上限 1,000,000

您應該使用異步操作:

• 一次分析超過 25 個文件• 分析關鍵字和實體超過 5,000 位元組的文件

如需詳細資訊,請參閱 非同步批次處理 (p. 31)。

202

Amazon Comprehend 開發人員指南目標情緒

目標情緒目標情緒僅支援非同步分析工作。使用建立的工作StartTargetedSentimentDetectionJob (p. 409)操作具有下列配額:

目標情緒偵測-推論 (StartTargetedSentimentDetectionJob)

描述 名額或指導方針

支援的文件格式 UTF-8

工作中每個文件的大小上限 10 KB

工作中所有文件的大小上限 300 MB

檔案數量上限,每個檔案數目上限 30,000

行數上限,每行一個文件 (適用於請求中的所有檔案) 30,000

文件分類文件分類器訓練工作開始於CreateDocumentClassifier (p. 254)作業, 非同步文件分類工作StartDocumentClassificationJob (p. 377),以及同步文件分類請求ClassifyDocument (p. 249)操作具有下列配額:

一般

描述 名額或指導方針

字元編碼 UTF-8

最大類別數目 (多類別模式) 1,000

最大類別數目 (多標籤模式) 100

類別名稱的長度上限 5,000 個個個個元

每個班級的最少培訓文件數量(多課程模式) 50

每個班級的最少培訓文件數量(多標籤模式) 10

訓練任務中所有檔案的總大小上限 5 GB

非同步工作中所有檔案的總大小上限 5 GB

一個檔案的最大檔案大小,每個檔案一個文件 10 MB

檔案數量上限,每個檔案數目上限 1,000,000

最大行數,每行一個文檔(適用於請求中的所有文件) 1,000,000

每個同步請求的文數上限數數 1

訓練自訂分類器的增強資訊清單檔案數目上限 5

每個增強資訊清單檔案的屬性名稱數目上限 5

屬性名稱上限長度上限 63 個個個元

203

Amazon Comprehend 開發人員指南語言偵測

即時分析

描述 名額或指導方針

每個帳戶的推論單數上限數數 100

每個端點的推論單元數上限數數 10

每個推論單位的最大輸送量 (字元) 每秒

每個推論單位 (文件) 的最大輸送量 每秒

語言偵測所以此BatchDetectDominantLanguage (p. 235)、DetectDominantLanguage (p. 311)作業和非同步工作開始於StartDominantLanguageDetectionJob (p. 382)操作有下列限制:

• 它們不支持語音檢測。例如,他們不會將「arigato」檢測為日語,也不會將「nihao」檢測為中文。• 他們可能無法區分密閉語言對,例如印尼語和馬來語;或波斯尼亞語,克羅地亞語和塞爾維亞語。• 為了獲得最佳結果,輸入文字長度上限為 20 個字元。

事件事件偵測工作建立StartEventsDetectionJob (p. 391)操作具有下列配額:

描述 配額

字元編碼 UTF-8

工作中所有檔案的總大小上限 50 MB

工作中每個文件的大小上限 10 KB

檔案數量上限,每個檔案數目上限 5,000

最大行數,每行一個文檔(適用於請求中的所有文件) 5,000

主題建模主題偵測工作建立StartTopicsDetectionJob (p. 414)操作具有下列配額:

描述 名額或指導方針

字元編碼 UTF-8

傳回的主題數上限數 100

請求中所有檔案的總大小上限 5 GB

請求中所有檔案的總大小上限 500 位元組

一個檔案的最大檔案大小,每個檔案一個文件 100 MB

204

Amazon Comprehend 開發人員指南實體辨識

描述 名額或指導方針

檔案數量上限,每個檔案數目上限 1,000,000

最大行數,每行一個文檔(適用於請求中的所有文件) 1,000,000

為了獲得最佳結果,您應該包含至少 1,000 個輸入文件。

實體辨識實體辨識器訓練工作開始於CreateEntityRecognizer (p. 263)作業, 非同步實體辨識工作StartEntitiesDetectionJob (p. 386)作業,以及同步實體辨識請求DetectEntities (p. 313)操作具有下列配額:

純文本實體識別-培訓(CreateEntityRecognizer)

描述 名額或指導方針

每個模型/自訂實體識別器的實體數量 1—25

文件大小 UTF-8 5,000 位元組

文件數量 (請參閱註釋 (p. 116)) 3—120,000

文件語料庫大小 (所有文件皆以純文字組合) 5 KB-百兆

每個圖元的註釋數下限數數 25

實體清單中的項數 1 萬

條目列表中個別條目的長度(後排) 1—5,000

實體列表語料庫大小(所有文檔以純文本組合) 5 KB

PDF 或單詞文本實體識別-培訓(CreateEntityRecognizer)

描述 名額或指導方針

每個模型/自訂實體識別器的實體數量 1—25

註解檔案大小上限 UTF-8 5 MB

文件數 250—10,000

文件語料庫大小 (所有文件皆以純文字組合) 5 千兆 — 1 GB

每個圖元的註釋數下限數數 100

增強資訊清單檔案

描述 名額或指導方針

訓練自訂實體辨識器的增強資訊清單檔案數目上限 5

每個增強資訊清單檔案的屬性名稱數目上限 5

205

Amazon Comprehend 開發人員指南實體辨識

描述 名額或指導方針

屬性名稱上限長度上限 63 個個個元

純文字檔案的實體辨識-推論 (StartEntitiesDetectionJob)

描述 名額或指導方針

文件大小 UTF-8 1 位元組 — 1 MB

檔案數量上限,每個檔案數目上限 1,000,000

最大行數,每行一個文檔(適用於請求中的所有文件) 1,000,000

文件語料庫大小 (所有文件皆以純文字組合) 1 個字節 —5 GB

影像、PDF 或 Word 檔案的實體辨識-推論 (StartEntitiesDetectionJob)

描述 名額或指導方針

影像大小 (JPG 或 PNG) 1 個字節-10 MB

影像尺寸 1 個字節-10 MB。上限 1 頁。

文件大小 (PDF) 1 個字節-50 MB

文件大小 (DOCX) 1 個字節 —5 MB

文件大小 UTF-8 1 位元組 — 1 MB

檔案數目上限,每個檔案一個文件 (影像檔案或 PDF/Word 文件不允許每行一個文件)

500

PDF 文件或 DOCX 文件的最大頁數 100

文本提取後的文檔語料庫大小(純文本,所有文件合併) 1 個字節 —5 GB

如需影像限制的詳細資訊,請參閱。Amazon 文字區域中的硬性限制

即時分析

描述 名額或指導方針

每個帳戶的推論單數上限數數 100

每個端點的推論單元數上限數數 10

每個推論單位的最大輸送量 (字元) 每秒

每個推論單位 (文件) 的最大輸送量 每秒

每個同步請求的文數上限數數 1

206

Amazon Comprehend 開發人員指南分析評論中的洞察

教學課程和其他資源Amazon Comprehend 的教學和其他資源。

主題• 教學課程:使用亞馬遜分析客戶評論中的洞察 (p. 207)• 使用 Amazon S3 Object Lambda 存取點取得個人身分識別資訊 (PII) (p. 228)• 解決方案:使用 Amazon Comprehend 和 Amazon Comprehend 和 Amazon Comprehend

OpenSearch (p. 231)

教學課程:使用亞馬遜分析客戶評論中的洞察本教學課程說明如何使用 Amazon ComprehendAmazon Simple Storage Service、AWS Glue、AmazonAthena,以及亞馬遜 QuickSight為您的文檔獲得寶貴的見解。Amazon Comprehend 可以從非結構化文字擷取情緒 (文件的情緒) 和實體 (人員、組織、事件、日期、產品、地點、數量和標題的名稱)。

例如,您可以從客戶評論中獲得可行的深入分析。在本教程中,您將分析有關小說的客戶評論樣本數據集。您可以使用 Amazon Comprehend 情緒分析來判斷客戶對這本小說的感覺是正面還是負面。您也可以使用Amazon Comprehend 實體分析來探索重要實體的提及,例如相關小說或作者。按照本教程後,您可能會發現 50% 以上的評論是正面的。您可能還會發現客戶正在比較作者並表達對其他經典小說的興趣。

在本教學中,您將完成下列作業:

• 將評論範例資料集儲存於Amazon Simple Storage Service(Amazon S3)。Amazon Simple Storage Service(Amazon) 是物件儲存服務。

• 使用Amazon Comprehend,以分析檢閱文件中的情緒和實體。• 使用AWS Glue爬蟲,將分析的結果儲存在資料中。AWS Glue是擷取、轉換和載入 (ETL) 服務,可讓您編

目和清除資料進行分析。• 執行Amazon Athena查詢以清理您的數據。Amazon Athena是無伺服器互動式查詢服務。• 使用您的資料建立視覺效果亞馬遜 QuickSight。亞馬遜 QuickSight 是一種無伺服器商業智慧工具,可從您

的資料中擷取深入分析資訊。

下圖顯示工作流程。

本教學課程的估計時間:1 小時

估計費用:本教學中的某些動作會在您的 AWS 帳戶中衍生費用。如需每項服務費用的詳細資訊,請參閱下列定價頁面。

207

Amazon Comprehend 開發人員指南先決條件

• Amazon S3 定價• Amazon Comprehend 定價• AWS Glue 定價• Amazon Athena 定價• 亞馬遜 QuickSight價錢

主題• 先決條件 (p. 208)• 步驟 1:將文件新增到 Amazon S3 (p. 209)• 步驟 2:(僅限 CLI) 為 Amazon Comprehend 建立 IAM 角色 (p. 212)• 步驟 3:在 Amazon S3 中執行文件分析任務 (p. 214)• 步驟 4:準備用於資料視覺化的 Amazon Comprehend 輸出 (p. 217)• 步驟 5:可視化 Amazon Comprehend 輸出在亞馬遜 QuickSight (p. 224)

先決條件為了完成本教學,您需要以下項目:

• 一個 AWS 帳戶。如果您尚未擁有 AWS 帳戶,請參閱主題步驟 1:設定 AWS 帳戶和建立管理員使用者中的Amazon Comprehend 使用者指南以設定新帳戶。

• 同時AWS Identity and Access Management(IAM) 使用者。我們強烈建議您使用 IAM 使用者來保護根帳戶。根帳戶可無限制存取 AWS 資源和帳單資訊。使用具有受限許可的 IAM 使用者會限制您在帳戶中擁有的存取權限。若要了解如何為您的帳戶設定 IAM 使用者和群組,請參閱入門中的教學課程IAM UserGuide。

• 下列附加至 IAM 群組或使用者的許可政策。該政策授予您的 IAM 使用者完成本教學課程所需的一些許可。下一個先決條件說明您需要的其他權限。

{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "comprehend:*", "ds:AuthorizeApplication", "ds:CheckAlias", "ds:CreateAlias", "ds:CreateIdentityPoolDirectory", "ds:DeleteDirectory", "ds:DescribeDirectories", "ds:DescribeTrusts", "ds:UnauthorizeApplication", "iam:AttachRolePolicy", "iam:CreatePolicy", "iam:CreatePolicyVersion", "iam:CreateRole", "iam:DeletePolicyVersion", "iam:DeleteRole", "iam:DetachRolePolicy", "iam:GetPolicy", "iam:GetPolicyVersion",

208

Amazon Comprehend 開發人員指南步驟 1:將文件新增到 Amazon S3

"iam:GetRole", "iam:ListAccountAliases", "iam:ListAttachedRolePolicies", "iam:ListEntitiesForPolicy", "iam:ListPolicies", "iam:ListPolicyVersions", "iam:ListRoles", "quicksight:*", "s3:*", "tag:GetResources" ], "Resource": "*" }, { "Action": [ "iam:PassRole" ], "Effect": "Allow", "Resource": [ "arn:aws:iam::*:role/*Comprehend*" ] } ]}

使用先前的政策來建立 IAM 政策並將其連接到您的群組或使用者。如需有關建立 IAM 政策的詳細資訊,請參閱建立 IAM 政策中的IAM User Guide。如需連接 IAM 政策的詳細資訊,請參閱新增和移除 IAM 身分許可中的IAM User Guide。

• 連接至 IAM 群組或使用者的受管政策。除了之前的政策之外,您還必須將下列 AWS 受管政策連接到您的群組或使用者:• AWSGlueConsoleFullAccess

• AWSQuicksightAthenaAccess

這些受管理的策略授予您使用權限AWS Glue、Amazon Athena和 Amazon QuickSight。如需連接 IAM 政策的詳細資訊,請參閱新增和移除 IAM 身分許可中的IAM User Guide。

步驟 1:將文件新增到 Amazon S3在開始 Amazon Comprehend Simple Service (Amazon S3) 中,您必須先將客戶評論的範例資料集存放在 Amazon Simple Simple Service (Amazon S3) 中。Amazon S3 將您的資料託管在稱為儲存貯體的容器中。Amazon Comprehend 可以分析儲存在值區中的文件,並將分析結果傳送至儲存貯體。在此步驟中,您會建立 S3 儲存貯體、在儲存貯體中建立輸入和輸出資料夾,然後將範例資料集上傳到儲存貯體。

主題• 先決條件 (p. 209)• 下載範例資料 (p. 210)• 建立 Amazon S3 儲存貯體 (p. 210)• (僅限主控台) 建立資料夾 (p. 211)• 上傳輸入資料 (p. 211)

先決條件開始之前,請檢閱教學課程:使用亞馬遜分析客戶評論中的洞察 (p. 207)並完成先決條件。

209

Amazon Comprehend 開發人員指南步驟 1:將文件新增到 Amazon S3

下載範例資料下面的示例數據集包含從較大的數據集「亞馬遜評論-完整」,該數據集與「文本分類的字符級卷積網絡」一文一起發布的亞馬遜評論(翔章等人,2015)。將資料集下載到您的電腦。

若要取得範例資料

1. 下載 zip 檔案tutorial-reviews-data.zip到您的電腦。2. 在您的電腦上解壓縮 zip 檔案。有兩個檔案。該文件THIRD_PARTY_LICENSES.txt是張翔等人所發行

之資料集的開放原始碼授權。該文件amazon-reviews.csv是您在自學課程中分析的資料集。

建立 Amazon S3 儲存貯體下載範例資料集後,請建立 Amazon S3 儲存貯體以存放輸入和輸出資料。您可以在 Amazon S3 主控台中建立 S3 儲存貯體AWS Command Line Interface(AWS CLI。

建立 Amazon S3 儲存貯體 (主控台)

在 Amazon S3 主控台中,您可以建立名稱在所有 AWS 中都是唯一的儲存貯體。

建立 S3 儲存貯體 (主控台)

1. 登入 AWS Management Console,並開啟位於 https://console.aws.amazon.com/s3/ 的 Amazon S3 主控台。

2. In儲存貯體,選擇建立儲存貯體。3. 適用於儲存貯體名稱下一步,輸入一個唯一名稱,用於描述儲存貯體的用途。4. 適用於區域中,選擇您要在其中建立儲存貯體的 AWS 區域。您選擇的區域必須支援 Amazon

Comprehend 域。若要減少延遲,請選擇離您所在地理位置最近的 AWS 區域,且該區域受到 AmazonComprehend 支援。有關支援 Amazon Comprehend 的區域清單,請參閱區域表格中的全球基礎設施指南。

5. 保留下列項目的預設設定物件擁有權、封鎖公開存取的儲存貯體設定、貯體版本控制,以及標籤。6. 適用於Default encryption (預設加密),選擇Disable。

Tip

雖然本教學課程不使用加密,但您可能會想要在分析重要資料時使用加密。適用於 end-to-end加密,您可以加密存儲桶中的靜態數據,也可以在運行分析任務時加密。如需 AWS 加密的詳細資訊,請參閱什麼是AWS Key Management Service?中的AWS Key Management Service開發人員指南。

7. 檢閱儲存貯體組態,然後選擇建立儲存貯體。

建立 Amazon S3 儲存貯體 (AWS CLI)

打開後AWS CLI,您可以執行create-bucket命令來創建將存儲輸入和輸出數據的存儲桶。

建立 Amazon S3 儲存貯體 (AWS CLI)

1. 若要建立儲存貯體,請在AWS CLI。Replace文文文文文使用存儲桶的名稱在所有 AWS 中都是唯一的。

aws s3api create-bucket --bucket DOC-EXAMPLE-BUCKET

在預設情況下,create-bucket命令會在us-east-1AWS 區域. 若要在 AWS 區域中建立儲存貯體,而不是us-east-1」下一步,新增LocationConstraint參數來指定您的區域。例如,以下命令會在us-west-2區域。

210

Amazon Comprehend 開發人員指南步驟 1:將文件新增到 Amazon S3

aws s3api create-bucket --bucket DOC-EXAMPLE-BUCKET--region us-west-2 --create-bucket-configuration LocationConstraint=us-west-2

請注意,只有特定區域支 Amazon Comprehend。有關支援 Amazon Comprehend 的區域清單,請參閱區域表格中的全球基礎設施指南。

2. 若要確定儲存貯體已成功建立,請執行以下命令。命令會列出與您的帳戶建立關聯的所有 S3 儲存貯體。

aws s3 ls

(僅限主控台) 建立資料夾接下來,在 S3 儲存貯體中建立兩個資料夾。第一個資料夾是您的輸入資料。第二個文件夾是 AmazonComprehend 發送分析結果的地方。如果您使用 Amazon S3 主控台,您必須手動建立資料夾。如果您使用AWS CLI,您可以在上傳範例資料集或執行分析工作時建立資料夾。因此,我們提供僅針對主控台使用者建立資料夾的程序。如果您使用 AWS CLI,可以在中建立資料夾上傳輸入資料 (p. 211)並在步驟 3:在Amazon S3 中執行文件分析任務 (p. 214)。

在 S3 儲存貯體 (主控台) 中建立資料夾

1. 請在 https://console.aws.amazon.com/s3/ 開啟 Amazon Simple Storage Service (Amazon S3) 主控台。

2. In儲存貯體下一步,從儲存貯體清單中選擇您的儲存貯體。3. 在 中概要標籤上選擇建立資料夾。4. 輸入做為新資料夾的名稱input。5. 對於加密設定,請選擇無(使用值區設定)。6. 選擇 Save (儲存)。7. 重複步驟 3 到步驟 6,為分析工作的輸出建立另一個資料夾,但在步驟 4 中,輸入新的資料夾名

稱output。

上傳輸入資料現在您已有一個儲存貯體,請上傳範例資料集amazon-reviews.csv。您可以在 Amazon S3 主控台中上傳資料到 S3 儲存貯體AWS CLI。

將示例文檔上傳到存儲桶(控制台)

在 Amazon S3 主控台中,上傳範例資料集檔案到輸入資料夾。

若要上傳範例文件 (主控台)

1. 請在 https://console.aws.amazon.com/s3/ 開啟 Amazon Simple Storage Service (Amazon S3) 主控台。

2. In儲存貯體下一步,從儲存貯體清單中選擇您的儲存貯體。3. 選擇input文件夾,然後選擇上傳。4. 選擇新增檔案(下一步),然後選擇amazon-reviews.csv您的電腦上的檔案。5. 選擇 Next (下一步)。6. 保留下列項目的預設設定管理使用者、其他 AWS 帳戶的存取,以及管理公開許可。選擇 Next (下一

步)。7. 適用於儲存方案,選擇Standard (標準)。

211

Amazon Comprehend 開發人員指南步驟 2:(僅限 CLI) 建立身分與存取權管理角色

8. 適用於Encryption (加密),選擇無。9. LEAVE中繼資料和標籤空白。10. 選擇下一頁並檢閱組態,然後選擇上傳。

將範例文件上傳至值區 (AWS CLI)

在 S3 儲存貯體中建立輸入資料夾,並使用cp指令。

若要上傳範例文件 (AWS CLI)

1. 若要上傳amazon-reviews.csv文件到存儲桶中的新文件夾,運行以下命令AWS CLI指令。Replace文文文文文取代為儲存貯體的名稱。透過新增路徑/input/最後,Amazon S3 會自動創建一個名為的新文件夾input在您的存儲桶中,並將數據集文件上傳到該文件夾。

aws s3 cp amazon-reviews.csv s3://DOC-EXAMPLE-BUCKET/input/

2. 若要確定檔案已成功上傳,請執行以下命令。命令會列出您的儲存貯體的內容inputfolder。

aws s3 ls s3://DOC-EXAMPLE-BUCKET/input/

現在,您有一個 S3 儲存貯體amazon-reviews.csv文件夾中的文件input。如果您使用主控台,您也可以使用output桶中的文件夾。如果您使用AWS CLI時,您將在執行 Amazon Comprehend 分析任務時建立輸出資料夾。

步驟 2:(僅限 CLI) 為 Amazon Comprehend 建立 IAM角色只有在使用AWS Command Line Interface(AWS CLI),以完成此教學。如果您使用 Amazon Conprehend 主控台執行分析任務,請跳至步驟 3:在 Amazon S3 中執行文件分析任務 (p. 214)。

若要執行分析任務,Amazon Comprehend 需要存取包含範例資料集且包含工作輸出的 Amazon S3 儲存貯體。IAM 角色可讓您控制 AWS 服務或使用者的許可。在此步驟中,您會建立 IAM 角色。然後,您建立並附加到此角色,以資源為基礎的政策,以授予 Amazon Comprehend 存取您的 S3 儲存貯體的存取權。在此步驟結束時,Amazon Comprehend 將擁有必要的許可,以存取您的輸入資料、存放輸出以及執行情緒和實體分析任務。

如需搭配使用 IAM 與 Amazon Comprehend 的詳細資訊,請參閱管理 Amazon Comprehend 資源存取許可概觀 (p. 181)和將以身分為基礎的政策 (IAM 政策) 用於 Amazon Comprehend (p. 183)中的AmazonComprehend 使用者指南。

主題• 先決條件 (p. 212)• 建立 IAM 角色 (p. 213)• 將 IAM 政策連接至 IAM 角色 (p. 213)

先決條件開始之前,請執行以下動作:

• 完成 步驟 1:將文件新增到 Amazon S3 (p. 209)。• 使用代碼或文本編輯器來保存 JSON 政策並跟踪您的亞馬遜資源名稱(ARN)。

212

Amazon Comprehend 開發人員指南步驟 2:(僅限 CLI) 建立身分與存取權管理角色

建立 IAM 角色若要存取您的 Amazon Simple Storage Service (Amazon S3) 儲存貯體,Amazon Comprehend 需要假設AWS Identity and Access Management(IAM) 角色。IAM 角色將 Amazon Comprehend 宣告為信任的實體。在 Amazon Comprehend 擔任該角色並成為受信任的實體之後,您可以將儲存貯體存取權限授與 AmazonComprehend。在此步驟中,您會建立將 Amazon Comprehend 標示為受信任實體的角色。您可以使用AWSCLI或 Amazon Comprehend 控制台。若要使用主控台,請跳至步驟 3:在 Amazon S3 中執行文件分析任務 (p. 214)。

Amazon Comprehend 主控台可讓您選取角色名稱包含「Comprehend」且信任政策包含的角色comprehend.amazonaws.com。如果您希望主控台顯示這些角色,請設定 CLI 建立的角色以符合這些準則。

若要為 Amazon Comprehend (AWS CLI) 建立 IAM 角色

1. 將下列信任原則儲存為名為的 JSON 文件comprehend-trust-policy.json在計算機上的代碼或文本編輯器中。此信任政策將 Amazon Comprehend 宣告為受信任的實體,並允許其擔任 IAM 角色。

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "comprehend.amazonaws.com" }, "Action": "sts:AssumeRole" } ]}

2. 若要建立 IAM 角色,請執行以下命令AWS CLI指令。該命令會建立名為的 IAM 角色AmazonComprehendServiceRole-access-role並將信任政策連接至角色。Replacepath/與您的本地計算機到 JSON 文檔的路徑。

aws iam create-role --role-name AmazonComprehendServiceRole-access-role--assume-role-policy-document file://path/comprehend-trust-policy.json

Tip

如果您得到Parle 參數發生錯誤訊息中,JSON 信任原則檔案的路徑可能不正確。根據您的主目錄提供檔案的相對路徑。

3. 複製 Amazon Resource Name (ARN) 並將其儲存為文字編輯器。ARN 具有與類似的格式arn:aws:iam::123456789012:role/AmazonComprehendServiceRole-access-role。您需要此 ARN 才能執行 Amazon Comprehend 分析任務。

將 IAM 政策連接至 IAM 角色若要存取 Amazon S3 儲存貯體,Amazon Comprehend 需要許可來列出、讀取和寫入。若要將必要的許可授予 Amazon Comprehend,請建立 IAM 政策並將其連接至您的 IAM 角色。IAM 政策允許 AmazonComprehend 從儲存貯體擷取輸入資料,並將分析結果寫入儲存貯體。建立政策後,您可以將其附加到 IAM角色。

若要建立 IAM 政策 (AWS CLI)

1. 將下列原則儲存為名為的 JSON 文件comprehend-access-policy.json。它授予對指定的 S3 儲存貯體的 Amazon Comprehend 存取許可。

213

Amazon Comprehend 開發人員指南步驟 3:執行分析任務

{ "Version": "2012-10-17", "Statement": [ { "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::DOC-EXAMPLE-BUCKET/*" ], "Effect": "Allow" }, { "Action": [ "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::DOC-EXAMPLE-BUCKET" ], "Effect": "Allow" }, { "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::DOC-EXAMPLE-BUCKET/*" ], "Effect": "Allow" } ]}

2. 若要建立 S3 儲存貯體存取政策,請執行下列命令AWS CLI指令。Replacepath/與您的本地計算機到JSON 文檔的路徑。

aws iam create-policy --policy-name comprehend-access-policy--policy-document file://path/comprehend-access-policy.json

3. 複製存取政策,並將其儲存為文字編輯器。ARN 具有與類似的格式arn:aws:iam::123456789012:policy/comprehend-access-policy。您需要此 ARN 才能將存取政策附加到 IAM 角色。

將 IAM 政策連接至您的 IAM 角色 (AWS CLI)

• 執行下列命令。Replacepolicy-arn使用您在上一步複製的存取政策。

aws iam attach-role-policy --policy-arn policy-arn--role-name AmazonComprehendServiceRole-access-role

您現在有名為的 IAM 角色AmazonComprehendServiceRole-access-role具有適用於 AmazonComprehend 的信任政策,以及授予 Amazon Comprehend 存取 S3 儲存貯體存取權的存取政策。您也將IAM 角色的 ARN 複製到文字編輯器。

步驟 3:在 Amazon S3 中執行文件分析任務在 Amazon S3 中存放之後,您可以開始執行 Amazon Comprehend 分析任務。一個情緒分析工作決定文件的整體情緒 (正面、負面、中性或混合)。同時實體分析工作從文件萃取真實世界物件的名稱。這些物件包括

214

Amazon Comprehend 開發人員指南步驟 3:執行分析任務

人員、場所、標題、事件、日期、數量、產品和組織。在此步驟中,您會執行兩個 Amazon Comprehend 分析任務,以從範例資料集擷取情緒和實體。

主題• 先決條件 (p. 215)• 分析情緒和實體 (p. 215)

先決條件開始之前,請執行以下動作:

• 完成 步驟 1:將文件新增到 Amazon S3 (p. 209)。• (選擇性) 如果您正在使用AWS CLI,完成步驟 2:(僅限 CLI) 為 Amazon Comprehend 建立 IAM 角

色 (p. 212)並準備好您的 IAM 角色 ARN。

分析情緒和實體您執行的第一個工作會分析範例資料集中每個客戶審核的情緒。第二個工作會擷取每個客戶審核中的實體。您可以使用 Amazon Comprehend 控制台執行 Amazon Comprehend 析任務,或AWS CLI。

Tip

確定您位於支援 Amazon Comprehend 的 AWS 區域。如需詳細資訊,請參閱 。區域表格中的全球基礎設施指南。

分析情緒和實體(控制台)

使用 Amazon Comprehend 主控台時,您一次建立一個任務。您必須重複下列步驟,才能同時執行情緒和實體分析工作。請注意,對於第一個任務,您會建立 IAM 角色,但對於第二個任務,您可以重複使用第一個任務的 IAM 角色。只要您使用相同的 S3 儲存貯體和資料夾,就可以重複使用 IAM 角色。

若要執行情緒和實體分析工作 (主控台)

1. 確定您位於建立 Amazon Simple Storage Service (Amazon S3) 儲存貯體的區域。如果您位於其他區域,請從中選擇您建立 S3 儲存貯體的 AWS 區域區域選擇器。

2. 開啟位於的 Amazon Comprehend 主控台https://console.aws.amazon.com/comprehend/3. 選擇啟動 Amazon Comprehend。4. 在導覽窗格中,選擇分析任務。5. 選擇 Create job (建立任務)。6. 在 中Job 設定區段中,執行下列動作:

a. 對於 Name (名稱),輸入 reviews-sentiment-analysis。b. 適用於分析類型,選擇Comprevice。c. 適用於語言,選擇英語。d. 離開Job 加密設置為禁用。

7. 在 中輸入資料區段中,執行下列動作:

a. 適用於資料來源,選擇我的文件。b. 適用於S3 位置,選擇瀏覽 S3,然後從儲存貯體的清單中選擇您的儲存貯體。c. 在 S3 儲存貯體中,物件,選擇你的inputfolder。d. 在 中input資料夾中,選擇範例資料集amazon-reviews.csv,然後選擇選擇。

215

Amazon Comprehend 開發人員指南步驟 3:執行分析任務

e. 適用於輸入格式,選擇每行一個文件。8. 在 中輸出資料區段中,執行下列動作:

a. 適用於S3 位置,選擇瀏覽 S3,然後從儲存貯體的清單中選擇您的儲存貯體。b. 在 S3 儲存貯體中,物件,選擇output文件夾,然後選擇選擇。c. 離開Encryption (加密)關閉。

9. 在 中許可存取區段中,執行下列動作:

a. 適用於IAM 角色,選擇建立 IAM 角色。b. 適用於存取的許可,選擇輸入和輸出 S3 存儲桶。c. 適用於名稱後置詞,輸入comprehend-access-role。此角色可讓您存取 Amazon S3 儲存貯

體。10. 選擇 Create job (建立任務)。11. 重複步驟 1-10 以建立圖元分析工作。進行下列變更:

a. InJob 設定,為了名稱,輸入reviews-entities-analysis。b. InJob 設定,為了分析類型,選擇實體。c. In許可存取,選擇使用現有 IAM 角色。適用於角色名稱,選

擇AmazonComprehendServiceRole-comprehend-access-role(這與您為情緒工作建立的角色相同)。

分析情緒和實體(AWS CLI)

您使用start-sentiment-detection-job與start-entities-detection-job用於執行情緒和實體分析工作的命令。執行每個命令之後,AWS CLI顯示 JSON 物件JobId可讓您存取有關任務詳細資訊的值,包括輸出 S3 位置。

若要執行情緒和實體分析任務 (AWS CLI)

1. 執行以下命令來啟動情緒分析任務AWS CLI。Replacearn:aws:iam::123456789012:role/comprehend-access-role使用您先前複製到文字編輯器的 IAM 角色 ARN。如果您的默認值AWSCLI區域與您建立 Amazon S3 儲存貯體的區域不同,包括--region參數和替換us-east-1與儲存貯體所在的區域。

aws comprehend start-sentiment-detection-job --input-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/input/--output-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/output/ --data-access-role-arn arn:aws:iam::123456789012:role/comprehend-access-role--job-name reviews-sentiment-analysis--language-code en[--region us-east-1]

2. 提交任務之後,複製JobId並將其儲存至文字編輯器。您需要JobId以從分析工作中尋找輸出檔案。3. 執行以下命令來啟動實體分析任務。

aws comprehend start-entities-detection-job --input-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/input/--output-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/output/ --data-access-role-arn arn:aws:iam::123456789012:role/comprehend-access-role--job-name reviews-entities-analysis--language-code en[--region us-east-1]

4. 提交任務之後,複製JobId並將其儲存至文字編輯器。5. 檢查任務狀態。您可以透過追蹤任務的進度JobId。

216

Amazon Comprehend 開發人員指南步驟 4:準備輸出

若要追蹤您的情緒分析任務的進度,請執行下列命令。Replacesentiment-job-id與JobId您在執行情緒分析之後複製的。

aws comprehend describe-sentiment-detection-job--job-id sentiment-job-id

若要追蹤您的實體分析任務,請執行以下命令。Replaceentities-job-id與JobId您在執行圖元分析之後複製的。

aws comprehend describe-entities-detection-job--job-id entities-job-id

需要幾分鐘的時間JobStatus以顯示為COMPLETED。

您已完成情緒和實體分析工作。這兩個任務都應該完成,您則繼續下一個步驟。任務可能需要幾分鐘的時間才能完成。

步驟 4:準備用於資料視覺化的 Amazon Comprehend輸出若要準備情緒和實體分析工作的結果以建立資料視覺效果,請使用AWS Glue和Amazon Athena。在此步驟中,您將 Amazon Comprehend 壓縮。然後,您創建一個AWS Glue 爬行者探索您的資料,並自動將其編目到AWS Glue Data Catalog。之後,您可以使用訪問和轉換這些表Amazon Athena,無伺服器和互動式查詢服務。完成此步驟後,您的 Amazon Comprehend 結果就會變得乾淨,而且可以進行視覺化。

對於 PII 實體偵測工作,輸出檔案是純文字,而不是壓縮的歸檔。輸出文件名與輸入文件相同,.out附加在結束。您不需要解壓縮。跳至將資料載入AWS Glue Data Catalog。

主題• 先決條件 (p. 217)• 下載輸出 (p. 217)• 解壓縮 (p. 219)• 上傳解壓縮的檔案 (p. 219)• 將資料載入AWS Glue Data Catalog (p. 220)• 準備資料以進行分析 (p. 222)

先決條件開始之前,請完成步驟 3:在 Amazon S3 中執行文件分析任務 (p. 214)。

下載輸出Amazon Comprehend 使用 Gzip 壓縮來壓縮輸出文件並將其另存為 tar 存檔。提取輸出文件的最簡單方法是下載output.tar.gz在本地封存。

在此步驟中,您將下載情緒和實體輸出封存。

下載輸出文件(控制台)

若要尋找每個任務的輸出檔案,請返回 Amazon Comprehend 主控台中的分析任務。分析任務提供輸出的S3 位置,您可以在其中下載輸出檔案。

217

Amazon Comprehend 開發人員指南步驟 4:準備輸出

若要下載輸出檔案 (主控台)

1. 在 中Amazon Comprehend 主控台,在導覽窗格中,返回至分析任務。2. 選擇您的情緒分析工作reviews-sentiment-analysis。3. UNTER輸出,選擇顯示在旁邊的連結輸出資料位置。這將您重定向到output.tar.gz封存在 S3 儲存

貯體。4. 在 中概要標籤上選擇下載。5. 在您的電腦上,將歸檔重新命名為sentiment-output.tar.gz。由於所有輸出檔案都具有相同的名

稱,因此可協助您追蹤情緒和實體檔案。6. 重複步驟 1-4,尋找並從您的reviews-entities-analysisjob。在您的電腦上,將歸檔重新命名

為entities-output.tar.gz。

下載輸出文件(AWS CLI)

若要尋找每個工作的輸出檔案,請使用JobId從分析任務中找到輸出的 S3 位置。然後,使用cp命令,將輸出檔案下載到您的電腦。

若要下載輸出檔案 (AWS CLI)

1. 若要列出情緒分析工作的詳細資訊,請執行以下命令。Replacesentiment-job-id與情感JobId你救了

aws comprehend describe-sentiment-detection-job --job-id sentiment-job-id

如果你失去了你的軌道JobId,您可以執行下列命令來列出所有情緒工作,並依名稱篩選工作。

aws comprehend list-sentiment-detection-jobs --filter JobName="reviews-sentiment-analysis"

2. 在 中OutputDataConfig對象,找到S3Uri值。所以此S3Urivalue 應類似以下格式:s3://DOC-EXAMPLE-BUCKET/.../output/output.tar.gz。 將此值複製到文字編輯器。

3. 若要將情緒輸出封存下載至您的本機目錄,請執行下列命令。將 S3 儲存貯體路徑換成S3Uri您在上一個步驟複製。Replacepath/與文件夾路徑到您的本地目錄。名稱sentiment-output.tar.gz取代原始封存檔名稱,以協助您追蹤情緒和實體檔案。

aws s3 cp s3://DOC-EXAMPLE-BUCKET/.../output/output.tar.gz path/sentiment-output.tar.gz

4. 執行下列命令列以列出實體分析工作的詳細資訊。

aws comprehend describe-entities-detection-job--job-id entities-job-id

如果您不知道您的JobId中,執行下列命令,列出所有實體工作,並依名稱篩選您的工作。

aws comprehend list-entities-detection-jobs--filter JobName="reviews-entities-analysis"

5. 來自OutputDataConfig實體工作描述中的物件,複製S3Uri值。6. 若要將實體輸出封存檔下載至您的本機目錄,請執行以下命令。將 S3 儲存貯體路徑換成S3Uri您在上

一個步驟複製。Replacepath/與文件夾路徑到您的本地目錄。名稱entities-output.tar.gz取代原始封存名稱。

aws s3 cp s3://DOC-EXAMPLE-BUCKET/.../output/output.tar.gz

218

Amazon Comprehend 開發人員指南步驟 4:準備輸出

path/entities-output.tar.gz

解壓縮在您可以存取 Amazon Comprehend 結果之前,請先解壓縮情緒和實體存檔。您可以使用本機檔案系統或終端機來解壓縮封存檔案。

解壓縮輸出文件(GUI 文件系統)

如果您使用 macOS,請按兩下 GUI 檔案系統中的歸檔,以從歸檔中解壓縮輸出檔案。

如果您使用 Windows,您可以使用 7-Zip 等第三方工具,在 GUI 檔案系統中擷取輸出檔。在 Windows 中,您必須執行兩個步驟來存取歸檔中的輸出檔案。首先解壓縮存檔,然後解壓縮存檔。

將情緒檔案重新命名為sentiment-output和實體文件entities-output以區分輸出文件。

提取輸出文件(終端)

如果您使用 Linux 或 macOS,可以使用您的標準終端機。如果您使用 Windows,您必須能夠存取 Unix 風格的環境,例如 Cygwin,才能執行 tar 指令。

若要從情緒封存擷取情緒輸出檔案,請在本機終端機中執行下列命令。

tar -xvf sentiment-output.tar.gz --transform 's,^,sentiment-,'

請注意,--transform參數新增字首sentiment-到存檔內的輸出文件,將文件重命名為sentiment-output。這可讓您區分情緒和實體輸出檔案,並防止覆寫。

要從實體存檔中提取實體輸出文件,請在本地終端中運行以下命令。

tar -xvf entities-output.tar.gz --transform 's,^,entities-,'

所以此--transform參數新增字首entities-至輸出檔案名稱。Tip

若要節省 Amazon S3 中的儲存成本,您可以在上傳檔案之前使用 Gzip 再次壓縮檔案。解壓縮和解壓縮原始檔案很重要,因為AWS Glue無法自動從 tar 歸檔中讀取數據。但是,AWS Glue可以從Gzip 格式的文件中讀取。

上傳解壓縮的檔案解壓縮。您必須將情緒和實體輸出檔案儲存在不同的資料夾中,才能AWS Glue正確讀取數據。在值區中,為擷取的情緒結果建立資料夾,並為擷取的實體結果建立第二個資料夾。您可以使用 Amazon S3 主控台或AWS CLI。

將解壓縮的檔案至 Amazon S3 (主控台)

在 S3 儲存貯體中,為擷取的情緒結果檔案建立一個資料夾,為實體結果檔案建立一個資料夾。然後,將提取的結果文件上傳到各自的文件夾中。

將解壓縮的檔案上傳到 Amazon S3 (主控台)

1. 請在 https://console.aws.amazon.com/s3/ 開啟 Amazon Simple Storage Service (Amazon S3) 主控台。

2. In儲存貯體,選擇您的儲存貯體,然後選擇建立資料夾。3. 輸入做為新資料夾的名稱sentiment-results並選擇Save。此資料夾將包含擷取的情緒輸出檔案。

219

Amazon Comprehend 開發人員指南步驟 4:準備輸出

4. 在您儲存貯體中概要」標籤上,從值區內容清單中選擇新資料夾sentiment-results。選擇 Upload(上傳)。

5. 選擇新增檔案,選擇sentiment-output從您的本機電腦執行檔案,然後選擇下一頁。6. 保留選項管理使用者、其他 AWS 帳戶的存取,以及管理公用許可作為默認值。選擇 Next (下一步)。7. 適用於儲存方案,選擇Standard (標準)。保留選項Encryption (加密)、中繼資料,以及標籤作為默認

值。選擇 Next (下一步)。8. 檢閱上傳選項,然後選擇上傳。9. 重複步驟 1-8 以建立名為的資料夾entities-results,然後上傳entities-output文件到它。

將解壓縮的檔案至 Amazon S3 (AWS CLI)

您可以在 S3 儲存貯體中建立資料夾,同時使用cp指令。

將解壓縮的檔案上傳到 Amazon S3 (AWS CLI)

1. 執行下列命令,建立情緒資料夾,並將情緒檔案上傳至該資料夾。Replacepath/使用擷取的情緒輸出檔案的本機路徑。

aws s3 cp path/sentiment-output s3://DOC-EXAMPLE-BUCKET/sentiment-results/

2. 建立實體輸出資料夾,並將實體檔案上傳至下列命令。Replacepath/具有提取實體輸出文件的本地路徑。

aws s3 cp path/entities-output s3://DOC-EXAMPLE-BUCKET/entities-results/

將資料載入AWS Glue Data Catalog要將結果放入數據庫中,您可以使用AWS Glue 爬行者。同時AWS Glue 爬行者掃描檔案並探索資料的結構描述。然後它排列在表中的數據AWS Glue Data Catalog(無伺服器資料庫)。您可以使用AWS Glueconsole(或主控台)AWS CLI。

將資料載入AWS Glue Data Catalog(console)

建立AWS Glue掃描您的爬蟲sentiment-results和entities-resultsfolder 分別。下列項目的新 IAM角色AWS Glue授予編目程式存取 S3 儲存貯體的許可。您可以在設定爬行者程式時建立此 IAM 角色。

若要將資料載入AWS Glue Data Catalog(console)

1. 確保您位於支持的地區AWS Glue。如果您在其他地區,在的導覽列中,從區域選擇器。有關支援的區域清單AWS Glue,請參閱區域表格中的全球基礎設施指南。

2. 開啟AWS Glueconsole (位於)https://console.aws.amazon.com/glue/。3. 在導覽窗格中,選擇編目程式,接著選擇Add 編目程式。4. 適用於編目程式名稱,輸入comprehend-analysis-crawler,接著選擇下一頁。5. 適用於編目程式來源類型,選擇資料存放區,接著選擇下一頁。6. 適用於新增資料存放區,執行下列動作:

a. 對於 Choose a data store (選擇資料存放區),選擇 S3。b. LEVEConnection (連線)空白。c. 適用於編目資料,選擇我的帳戶中指定的路徑。d. 適用於包含路徑中,輸入情緒輸出資料夾的完整 S3 路徑:s3://DOC-EXAMPLE-BUCKET/

sentiment-results。e. 選擇 Next (下一步)。

220

Amazon Comprehend 開發人員指南步驟 4:準備輸出

7. 適用於新增另一個資料存放區,選擇是,接著選擇下一頁。重複步驟 6,但輸入實體輸出資料夾的完整S3 路徑:s3://DOC-EXAMPLE-BUCKET/entities-results。

8. 適用於新增另一個資料存放區,選擇否,接著選擇下一頁。9. 適用於選擇 IAM 角色,執行下列動作:

a. 選擇建立 IAM 角色。b. 適用於IAM 角色,輸入glue-access-role,接著選擇下一頁。

10. 適用於建立此編目程式的排程,選擇隨需執行並選擇下一頁。11. 適用於設定爬行者程式的輸出,執行下列動作:

a. 適用於資料庫,選擇新增資料庫。b. 對於 Database name (資料庫名稱),輸入 comprehend-results。該數據庫將存儲您的 Amazon

Comprehend 輸出表。c. 將其他選項保留在其默認設置上,然後選擇下一頁。

12. 複查爬行者程式資訊,然後選擇完成。13. 在「Glue」主控台中,編目程式,選擇comprehend-analysis-crawler並選擇執行編目程式。完成

編目程式可能需要幾分鐘。

將資料載入AWS Glue Data Catalog(AWS CLI)

為 建立 IAM 角色AWS Glue提供 S3 儲存貯體的許可。然後,在AWS Glue Data Catalog。最後,建立並執行可將資料載入資料庫資料表的爬蟲程式。

若要將資料載入AWS Glue Data Catalog(AWS CLI)

1. 為 建立 IAM 角色AWS Glue,執行下列動作:

a. 將下列信任原則儲存為名為的 JSON 文件glue-trust-policy.json在您電腦上。

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "glue.amazonaws.com" }, "Action": "sts:AssumeRole" } ]}

b. 若要建立 IAM 角色,請執行以下命令。Replacepath/與您的本地計算機到 JSON 文檔的路徑。

aws iam create-role --role-name glue-access-role--assume-role-policy-document file://path/glue-trust-policy.json

c. 當AWS CLI列出新角色的 Amazon 資源編號 (ARN),複製並儲存到文字編輯器。d. 將下列 IAM 政策儲存為名為的 JSON 文件glue-access-policy.json在您電腦上。該政策補助

AWS Glue抓取結果資料夾的權限。

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow",

221

Amazon Comprehend 開發人員指南步驟 4:準備輸出

"Action": [ "s3:GetObject", "s3:PutObject" ], "Resource": [ "arn:aws:s3:::DOC-EXAMPLE-BUCKET/sentiment-results*", "arn:aws:s3:::DOC-EXAMPLE-BUCKET/entities-results*" ] } ]}

e. 若要建立 IAM 政策,請執行以下命令。Replacepath/與您的本地計算機到 JSON 文檔的路徑。

aws iam create-policy --policy-name glue-access-policy--policy-document file://path/glue-access-policy.json

f. 當AWS CLI列出訪問策略的 ARN,將其複製並保存到文本編輯器。g. 執行以下命令將新的政策連接至 IAM 角色。Replacepolicy-arn使用您在上一個步驟複製的 IAM

政策 ARN。

aws iam attach-role-policy --policy-arn policy-arn--role-name glue-access-role

h. 連接 AWS 受管政策AWSGlueServiceRole執行以下命令至 IAM 角色。

aws iam attach-role-policy --policy-arnarn:aws:iam::aws:policy/service-role/AWSGlueServiceRole--role-name glue-access-role

2. 建立AWS Glue執行下列命令的資料庫。

aws glue create-database --database-input Name="comprehend-results"

3. 建立新AWS Glue執行下列命令。Replaceglue-iam-role-arn與您的 ARNAWS GlueIAM 角色。

aws glue create-crawler --name comprehend-analysis-crawler--role glue-iam-role-arn --targets S3Targets=[{Path="s3://DOC-EXAMPLE-BUCKET/sentiment-results"},{Path="s3://DOC-EXAMPLE-BUCKET/entities-results"}] --database-name comprehend-results

4. 執行下列命令來啟動編目程式。

aws glue start-crawler --name comprehend-analysis-crawler

完成編目程式可能需要幾分鐘。

準備資料以進行分析現在您已經有一個資料庫填入了 Amazon Comprehend 結果。但是,結果是巢狀的。要取消嵌套它們,您可以在中運行一些 SQL 語句Amazon Athena。Amazon Athena是一種互動式查詢服務,可讓您使用標準 SQL輕鬆分析 Amazon S3 中的資料。Athena 無伺服器,所以不需管理基礎設施,而且它有 pay-per-query 定價模式。在此步驟中,您會建立可用於分析和視覺化的已清除資料的新表格。您可以使用 Athena 主控台來預備資料。

222

Amazon Comprehend 開發人員指南步驟 4:準備輸出

準備資料

1. 前往 https://console.aws.amazon.com/athena/ 開啟 Athena 主控台。2. 在查詢編輯器中,選擇 Settings (設定),然後選擇 Manage (管理)。3. 適用於Location the query (查詢結果,輸入s3://DOC-EXAMPLE-BUCKET/query-results/。這將

創建一個名為的新資料夾query-results在存儲輸出的存儲桶中Amazon Athena您執行的查詢。選擇Save (儲存)。

4. 在查詢編輯器中,選擇Editor (編輯器)。5. 適用於資料庫,選擇AWS Glue資料庫comprehend-results你創建的。6. 在 中資料表區段中,您應有兩筆資料表sentiment_results和entities_results。預覽表格,確

定爬行者程式已載入資料。在每個資料表的選項 (資料表名稱旁的三個點) 中,選擇預覽表格。簡短的查詢會自動執行。Check (查入)個結果窗格,以確保表格包含資料。

Tip

如果表沒有任何數據,請嘗試檢查 S3 存儲桶中的文件夾。請確認實體結果和情緒結果各有一個資料夾。然後,請嘗試執行新的AWS Glue編目程式。

7. 若要取消巢狀態sentiment_results資料表中,輸入下列查詢查詢編輯器並選擇執行。

CREATE TABLE sentiment_results_final ASSELECT file, line, sentiment,sentimentscore.mixed AS mixed,sentimentscore.negative AS negative,sentimentscore.neutral AS neutral,sentimentscore.positive AS positiveFROM sentiment_results

8. 若要開始取消嵌套實體表格,請在查詢編輯器並選擇執行。

CREATE TABLE entities_results_1 ASSELECT file, line, nested FROM entities_resultsCROSS JOIN UNNEST(entities) as t(nested)

9. 若要完成實體表格的取消巢狀結束,請在查詢編輯器並選擇執行查詢。

CREATE TABLE entities_results_final ASSELECT file, line,nested.beginoffset AS beginoffset,nested.endoffset AS endoffset,nested.score AS score,nested.text AS entity,nested.type AS categoryFROM entities_results_1

您的sentiment_results_final資料表應如下所示,列命名文件、線、情緒、混合的、負面的、中立,以及積極的。該表應該有每個單元格一個值。所以此情緒資料欄說明特定檢閱最有可能的整體情緒。所以此混合的、負面的、中立,以及積極的欄會提供每種情緒類型的分數。

223

Amazon Comprehend 開發人員指南步驟 5:可視化輸出

您的entities_results_final資料表應如下所示,列命名文件、線、開始偏移、內含、分數、實體,以及類別。該表應該有每個單元格一個值。所以此分數列表示亞馬遜理解的信心實體它檢測到。所以此類別指示偵測到的 Comprehend 類型。

現在您已將 Amazon Comprehend 結果載入到表格中,您可以從資料中視覺化並擷取有意義的見解。

步驟 5:可視化 Amazon Comprehend 輸出在亞馬遜QuickSight將 Amazon Comprehend 結果存儲在表中後,您可以連接到亞馬遜數據並將其視覺化 QuickSight。亞馬遜QuickSight 是用於視覺化資料的 AWS 受管商業智慧 (BI) 工具。亞馬遜 QuickSight可讓您輕鬆連線至您的資料來源,並建立強大的視覺效果。在此步驟中,您將 Amazon 連接至 Amazon QuickSight 至您的資料、建立可從資料擷取見解的視覺效果,以及發佈視覺化的儀表板。

主題• 先決條件 (p. 225)• 給 Amazon QuickSight 存取 (p. 225)• 匯入資料集 (p. 225)

224

Amazon Comprehend 開發人員指南步驟 5:可視化輸出

• 建立情緒視覺化效果 (p. 226)• 建立實體視覺化效果 (p. 226)• 發佈儀表板 (p. 227)• 清除 (p. 228)

先決條件開始之前,請完成步驟 4:準備用於資料視覺化的 Amazon Comprehend 輸出 (p. 217)。

給 Amazon QuickSight 存取要導入資料,Amazon QuickSight 需要存取 Amazon Simple Storage Service (Amazon S3) 儲存貯體,Amazon Athena資料表 給 Amazon QuickSight 存取您的資料,您必須以 QuickSight 管理員並具有編輯資源權限的訪問權限。如果您無法完成下列步驟,請從概觀頁面檢閱 IAM 必要條件教學課程:使用亞馬遜分析客戶評論中的洞察 (p. 207)。

給 Amazon QuickSight 存取您的資料

1. 開啟亞馬遜 QuickSight安慰。2. 如果您是第一次使用 Amazon QuickSight,主控台會提示您透過提供電子郵件地址來建立新的系統管理

員使用者。適用於電子郵件地址,輸入與 AWS 帳戶相同的電子郵件地址。選擇 Continue (繼續)。3. 登入後,在導覽列中選擇您的設定檔名稱,然後選擇Manage (管理) QuickSight。您必須以系統管理員

身分登入,才能檢視Manage (管理) QuickSight選項。4. 選擇安全與許可。5. 適用於QuickSight 存取 AWS 服務,選擇新增或移除。6. 選擇 Amazon S3。7. 從選擇 Amazon S3 儲存貯體,為兩者選擇您的 S3 儲存貯體S3 儲存貯體和Athena 工作群組的寫入權

限。8. 選擇 Finish (完成)。9. 選擇 Update (更新)。

匯入資料集在建立視覺效果之前,您必須將情緒和實體資料集新增至 Amazon QuickSight。您可以在 Amazon 上執行這項作法 QuickSight 主控台。您可以從匯入非巢狀情緒和非巢狀實體資料表Amazon Athena。

若要匯入資料集

1. 開啟亞馬遜 QuickSight安慰。2. 在導覽列中的資料集,選擇新資料集。3. 適用於建立資料集,選擇Athena。4. 適用於Data Source Name (資料來源名稱)下一步,輸入reviews-sentiment-analysis並選擇建立

資料來源。5. 在 Database (資料庫) 中,選擇 comprehend-results 資料庫。6. 適用於資料表,選擇情緒表sentiment_results_final,然後選擇選擇。7. 選擇匯入 SPICE 以加快分析速度並選擇視覺化。SPICE 是 QuickSight與建立視覺效果時直接查詢相

比,記憶體內計算引擎可提供更快的分析速度。8. 返回亞馬遜 QuickSight 控制台和選擇資料集。重複步驟 1-7 以建立實體資料集,但請進行下列變更:

225

Amazon Comprehend 開發人員指南步驟 5:可視化輸出

a. 適用於Data Source Name (資料來源名稱)下一步,輸入reviews-entities-analysis。b. 適用於資料表,選擇實體表格entities_results_final。

建立情緒視覺化效果現在,您可以在亞馬遜訪問您的數據 QuickSight,您可以開始建立視覺化效果。您可以使用 AmazonComprehend 情緒資料建立圓形圖。圓形圖會顯示評論的正面、中性、混合和負面的比例。

視覺化情緒資料

1. 在 Amazon QuickSight 控制台,選擇ANALYSE,然後選擇新分析。2. 從您的資料集,選擇情緒資料集sentiment_results_final,然後選擇建立分析。3. 在視覺化編輯器中,「欄位」清單,選擇情緒。

Note

中的值「欄位」清單取決於您用於在其中創建表的列名Amazon Athena。如果您在 SQL 查詢中變更提供的資料行名稱,「欄位」清單名稱會與這些視覺化範例中使用的名稱不同。

4. 適用於視覺效果類型,選擇圓餅圖。

會顯示類似下列的圓餅圖,其中包含正面、中性、混合和負面區段。若要查看區段的計數和百分比,請將游標暫留在該區段上。

建立實體視覺化效果現在,使用實體資料集建立第二個視覺效果。您可以在資料中建立不同實體的樹狀對應。樹狀結構圖中的每個區塊都代表一個實體,而區塊的大小與實體出現在資料集中的次數相關。

視覺化實體資料的步驟

1. 在 中視覺化控制窗格, 旁邊資料集,選擇新增、編輯、取代和移除資料集圖示。

226

Amazon Comprehend 開發人員指南步驟 5:可視化輸出

2. 選擇新增資料集。3. 適用於選擇要新增的資料集,選擇您的實體資料集entities_results_final從資料集清單中選擇選

擇。4. 在 中視覺化中的控制窗格中,選擇資料集下拉菜單並選擇實體數據集entities_results_final。5. In「欄位」清單,選擇實體。6. 適用於視覺效果類型,選擇樹狀結構圖。

您的圓形圖形旁會顯示與下列內容相似的樹狀圖形。若要查看特定圖元的計數,請將游標暫留在圖塊上。

發佈儀表板建立視覺效果後,您可以將其發佈為儀表板。您可以使用儀表板執行各種任務,例如與 AWS 帳戶中的使用者共用、將其儲存為 PDF,或以電子郵件形式傳送為報告 (僅限於 Amazon 企業版 QuickSight。在此步驟中,您將視覺效果發佈為帳戶中的儀表板。

欲發佈您的儀表板

1. 在導覽列中,選擇分享。2. 選擇 (發佈儀表板)。3. 選擇將新儀表板發佈為並輸入名稱comprehend-analysis-reviews用於儀表板。4. 選擇 (發佈儀表板)。5. 關閉與使用者共用儀表板在畫面右上角,選擇關閉按鈕。6. 在 Amazon QuickSight 主控台,在導覽窗格中,選擇儀表板。新儀表板的縮圖comprehend-

analysis-reviews應該出現在儀表板。選擇儀表板以進行檢視。

您現在擁有包含情緒和實體視覺效果的儀表板,將類似下列範例。

227

Amazon Comprehend 開發人員指南針對 PII 使用 S3 物件 Lambda 存取點

Tip

如果想要在儀表板中編輯視覺化效果,請返回ANALYSE,然後編輯您要更新的視覺化效果。然後,再次將儀表板發佈為新儀表板或取代現有儀表板。

清除完成本教學課程後,您可能需要清除不再使用的 AWS 資源。作用中的 AWS 資源可能會在您的帳戶繼續產生費用。

下列動作有助於防止產生持續的費用:

• 取消您的 Amazon QuickSight 訂閱。亞馬遜 QuickSight 是每月訂閱服務。若要取消訂閱,請參閱取消您的訂閱中的亞馬遜 QuickSight 使用者指南。

• 刪除您的 Amazon S3 儲存貯體。Amazon S3 向您收取存儲費用。若要清理 Amazon S3 資源,請刪除儲存貯體。如需刪除儲存貯體的資訊,請參閱如何刪除 S3 儲存貯體?中的Amazon Simple Storage Service使用者指南。刪除值區之前,請務必先儲存所有重要檔案。

• 清除您的AWS Glue Data Catalog。所以此AWS Glue Data Catalog每月向您收取儲存費用。您可以刪除資料庫,以防止產生持續的費用。如需管理您的資訊AWS Glue Data Catalog資料庫, 請參閱使用資料庫AWSGlue安慰中的AWS Glue開發人員指南。在清除任何資料庫或表格之前,請務必先匯出資料。

使用 Amazon S3 Object Lambda 存取點取得個人身分識別資訊 (PII)

使用 Amazon S3 物件 Lambda 存取點取得個人識別資訊 (PII),以設定如何從 Amazon S3 儲存貯體擷取文件。您可以控制存取包含 PII 的文件,並從文件編輯 PII。如需 Amazon Comprehend 如何偵測文件中的PII 的詳細資訊,請參閱偵測 PII 實體體 (p. 76)。Amazon S3 Object Lambda 存取點使用AWS Lambda函數,自動轉換標準 Amazon S3 請求的輸出。如需詳細資訊,請參閱使用 S3 Object Lambda 轉換 Object中的Amazon Simple Storage Service 使用指南。

當您建立適用於 PII 的 Amazon S3 物件 Lambda 存取點時,系統會使用 Amazon Comprehend Lambda 函數處理文件,以控制存取包含 PII 的文件,以及從文件編輯 PII。

當您建立適用於 PII 的 Amazon S3 物件 Lambda 存取點時,會使用下列 Amazon Comprehend Lambda 函數處理文件:

• ComprehendPiiAccessControlS3ObjectLambda-控制對存放於 S3 儲存貯體中 PII 的文件存取。如需此函數的詳細資訊,請登入AWS Management Console檢視ComprehendPiiAccessControlS3ObjectLambda函數AWS Serverless Application Repository。

228

Amazon Comprehend 開發人員指南使用 PII 控制對文件的存取

• ComprehendPiiRedactionS3ObjectLambda-從 Amazon S3 儲存貯體中的文件對 PII 進行修改。如需此函數的詳細資訊,請登入AWS Management Console檢視ComprehendPiiRedactionS3ObjectLambda函數AWS Serverless Application Repository。

如需如何從AWS Serverless Application Repository,請參閱部署應用程式中的AWS Serverless ApplicationRepository 開發人員指南。

主題• 控制對包含個人身分識別資訊 (PII) 的文件存取 (p. 229)• 修改文件中的個人身分識別資訊 (PII) (p. 230)

控制對包含個人身分識別資訊 (PII) 的文件存取您可以使用 Amazon S3 物件 Lambda 存取點來控制對具有個人識別資訊 (PII) 之文件的存取。

若要確保只有授權使用者才能存取包含存放在 Amazon S3 儲存貯體中之 PII 的文件,請使用ComprehendPiiAccessControlS3ObjectLambda函數。此 Lambda 函數使用ContainsPiiEntities (p. 252)在處理文件物件上的標準 Amazon S3 GET 請求時執行操作。

例如,如果 S3 儲存貯體中有包含 PII 等信用卡號碼或銀行帳戶資訊等 PII 文件,則您可以設定ComprehendPiiAccessControlS3ObjectLambda偵測這些 PII 實體類型並限制未經授權使用者存取的功能。如需支援 PII 實體類型的詳細資訊,請參閱PII 通用實體類型 (p. 77)。

如需此函數的詳細資訊,請登入AWS Management Console檢視ComprehendPiiAccessControlS3ObjectLambda函數AWS Serverless Application Repository。

建立 Amazon S3 物件 Lambda 存取點以控制文件的存取下列範例會建立 Amazon S3 Object Lambda 存取點來控制對包含社會安全號碼的文件的存取。

使用建立 Amazon S3 Object Lambda 存取點AWS Command Line Interface建立 Amazon S3 物件 Lambda 存取點組態,並將組態儲存在名為的檔案中config.json。

{ "SupportingAccessPoint": "s3-default-access-point-name-arn", "TransformationConfigurations": [ { "Actions": [ "s3:GetObject" ], "ContentTransformation": { "AwsLambda": { "FunctionArn": "comprehend-pii-access-control-s3-object-lambda-arn", "FunctionPayload": "{\"pii_entities_types\": \"SSN\"}" } } } ]}

下列範例會根據中定義的組態建立 Amazon S3 Object Lambda 存取點config.jsonfile.

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws s3control create-banner-access-point \

229

Amazon Comprehend 開發人員指南從文件編輯 PII

--region region \ --account-id account-id \ --name s3-object-lambda-access-point \ --configuration file://config.json

叫用 Amazon S3 物件 Lambda 存取點以控制文件的存取下列範例會叫用 Amazon S3 物件 Lambda 存取點來控制文件的存取。

叫用 Amazon S3 Object Lambda 存取點AWS Command Line Interface下列範 Amazon S3 會使用AWS CLI。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws s3api get-object \ --region region \ --bucket s3-object-lambda-access-point-name-arn \ --key object-prefix-key output-file-name

修改文件中的個人身分識別資訊 (PII)您可以使用 Amazon S3 物件 Lambda 存取點來編輯文件中的個人識別資訊 (PII)。

從存放於 S3 儲存貯體中的文件中修改 PII 實體類型,請使用ComprehendPiiRedactionS3ObjectLambda函數。此 Lambda 函數使用ContainsPiiEntities (p. 252)和DetectPiiEntities (p. 320)在文件物件上處理標準 Amazon S3 GET 請求時的操作。

例如,如果 S3 儲存貯體中的文件包含 PII,例如信用卡號碼或銀行帳戶資訊,您可以設定ComprehendPiiRedactionS3ObjectLambda用於偵測 PII,然後傳回編輯 PII 實體類型的這些文件副本的函數。如需支援 PII 實體類型的詳細資訊,請參閱PII 通用實體類型 (p. 77)。

如需此函數的詳細資訊,請登入AWS Management Console檢視ComprehendPiiRedactionS3ObjectLambda函數AWS Serverless Application Repository。

建立 Amazon S3 物件 Lambda 存取點,以便從文件編輯 PII下列範例會建立 Amazon S3 Object Lambda 存取點,從文件兌換信用卡號碼。

使用建立 Amazon S3 Object Lambda 存取點AWS Command Line Interface建立 Amazon S3 物件 Lambda 存取點組態,並將組態儲存在名為的檔案中config.json。

{ "SupportingAccessPoint": "s3-default-access-point-name-arn", "TransformationConfigurations": [ { "Actions": [ "s3:GetObject" ], "ContentTransformation": { "AwsLambda": { "FunctionArn": "comprehend-pii-redaction-s3-object-lambda-arn", "FunctionPayload": "{\"pii_entities_types\": \"CREDIT_DEBIT_NUMBER\"}" } }

230

Amazon Comprehend 開發人員指南使用中分析文字 OpenSearch

} ]}

下列範例示範根據中定義的組態建立 Amazon S3 物件 Lambda 存取點config.json

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws s3control create-access-point-for-object-lambda \ --region region \ --account-id account-id \ --name s3-object-lambda-access-point \ --configuration file://config.json

叫用 Amazon S3 物件 Lambda 存取點以從文件編輯 PII下列範例會叫用 Amazon S3 物件 Lambda 存取點,以便從文件編輯 PII。

叫用 Amazon S3 Object Lambda 存取點AWS Command Line Interface

下列範 Amazon S3 會使用AWS CLI。

此範例格式適用於 Unix、Linux 和 macOS。用於 Windows 時,請以插入號 (^) 取代每一行結尾處的 Unix 接續字元斜線 (\)。

aws s3api get-object \ --region region \ --bucket s3-object-lambda-access-point-name-arn \ --key object-prefix-key output-file-name

解決方案:使用 Amazon Comprehend 和 AmazonComprehend 和 Amazon Comprehend OpenSearch

AWS提供文字分析的參考實作,使用 Amazon Comprehend 和 OpenSearch 服務。Amazon Comprehend提供文本分析和 OpenSearch 提供文件索引、搜尋和視覺化。

如需詳細資訊,請參閱「」使用中分析文字 OpenSearch 和 Amazon Comprehend。

231

Amazon Comprehend 開發人員指南動作

API 參考本節提供 Amazon Comprehend API 動作及其參數的詳細資訊。

如需使用此 API 所需的 IAM 存取控制許可的相關資訊,請參閱將以身分為基礎的政策 (IAM 政策) 用於Amazon Comprehend (p. 183)。

您可以使用AWS開發套件使用您慣用的程式設計語言存取 Amazon Comprehend API。SDK 會自動為您執行有用的工作,例如:

• 加密簽署服務請求• 重試請求• 處理錯誤回應

下列資源提供 Amazon Comprehend API 的其他資訊。

• Amazon Web Services 一般參考• 每個區域的 Amazon Comprehend 點。

• AWS Command Line Interface• Amazon Comprehend CLI 命令。

主題• 動作 (p. 232)• 資料類型 (p. 443)• 常見參數 (p. 540)• 常見錯誤 (p. 542)

動作支援以下動作:

• BatchDetectDominantLanguage (p. 235)• BatchDetectEntities (p. 237)• BatchDetectKeyPhrases (p. 240)• BatchDetectSentiment (p. 243)• BatchDetectSyntax (p. 246)• ClassifyDocument (p. 249)• ContainsPiiEntities (p. 252)• CreateDocumentClassifier (p. 254)• CreateEndpoint (p. 259)• CreateEntityRecognizer (p. 263)• DeleteDocumentClassifier (p. 268)• DeleteEndpoint (p. 270)• DeleteEntityRecognizer (p. 272)• DeleteResourcePolicy (p. 274)

232

Amazon Comprehend 開發人員指南動作

• DescribeDocumentClassificationJob (p. 276)• DescribeDocumentClassifier (p. 279)• DescribeDominantLanguageDetectionJob (p. 282)• DescribeEndpoint (p. 285)• DescribeEntitiesDetectionJob (p. 287)• DescribeEntityRecognizer (p. 290)• DescribeEventsDetectionJob (p. 293)• DescribeKeyPhrasesDetectionJob (p. 295)• DescribePiiEntitiesDetectionJob (p. 298)• DescribeResourcePolicy (p. 301)• DescribeSentimentDetectionJob (p. 303)• DescribeTargetedSentimentDetectionJob (p. 306)• DescribeTopicsDetectionJob (p. 309)• DetectDominantLanguage (p. 311)• DetectEntities (p. 313)• DetectKeyPhrases (p. 317)• DetectPiiEntities (p. 320)• DetectSentiment (p. 322)• DetectSyntax (p. 325)• ImportModel (p. 327)• ListDocumentClassificationJobs (p. 331)• ListDocumentClassifiers (p. 334)• ListDocumentClassifierSummaries (p. 337)• ListDominantLanguageDetectionJobs (p. 339)• ListEndpoints (p. 342)• ListEntitiesDetectionJobs (p. 345)• ListEntityRecognizers (p. 348)• ListEntityRecognizerSummaries (p. 352)• ListEventsDetectionJobs (p. 354)• ListKeyPhrasesDetectionJobs (p. 357)• ListPiiEntitiesDetectionJobs (p. 360)• ListSentimentDetectionJobs (p. 363)• ListTagsForResource (p. 366)• ListTargetedSentimentDetectionJobs (p. 368)• ListTopicsDetectionJobs (p. 371)• PutResourcePolicy (p. 374)• StartDocumentClassificationJob (p. 377)• StartDominantLanguageDetectionJob (p. 382)• StartEntitiesDetectionJob (p. 386)• StartEventsDetectionJob (p. 391)• StartKeyPhrasesDetectionJob (p. 395)• StartPiiEntitiesDetectionJob (p. 400)• StartSentimentDetectionJob (p. 404)• StartTargetedSentimentDetectionJob (p. 409)• StartTopicsDetectionJob (p. 414)• StopDominantLanguageDetectionJob (p. 419)

233

Amazon Comprehend 開發人員指南動作

• StopEntitiesDetectionJob (p. 421)• StopEventsDetectionJob (p. 423)• StopKeyPhrasesDetectionJob (p. 425)• StopPiiEntitiesDetectionJob (p. 427)• StopSentimentDetectionJob (p. 429)• StopTargetedSentimentDetectionJob (p. 431)• StopTrainingDocumentClassifier (p. 433)• StopTrainingEntityRecognizer (p. 435)• TagResource (p. 437)• UntagResource (p. 439)• UpdateEndpoint (p. 441)

234

Amazon Comprehend 開發人員指南BatchDetectDominantLanguage

BatchDetectDominantLanguage決定一批文件的輸入文字的主要語言。如需 Amazon Comprehend 可偵測的語言清單,請參閱AmazonComprehend 支援的語言。

請求語法

{ "TextList": [ "string" ]}

請求參數如需所有動作共用的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

TextList (p. 235)

包含輸入文件的 UTF-8 編碼文字的清單。此清單最多可包含 25 個文件。每個文件應該至少包含 20 個字元。每個文件的大小上限為 5 KB。

類型:字串陣列

長度限制:長度下限為 1。

必要:是

回應語法

{ "ErrorList": [ { "ErrorCode": "string", "ErrorMessage": "string", "Index": number } ], "ResultList": [ { "Index": number, "Languages": [ { "LanguageCode": "string", "Score": number } ] } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

235

Amazon Comprehend 開發人員指南BatchDetectDominantLanguage

ErrorList (p. 235)

包含一個列表BatchItemError (p. 452)包含錯誤的每個文件的物件。結果以遞增順序排序Index字段並匹配輸入列表中的文檔的順序。如果批次中沒有錯誤,ErrorList空白。

類型:的陣列BatchItemError (p. 452)對象ResultList (p. 235)

的清單BatchDetectDominantLanguageItemResult (p. 447)含有操作結果的物件。結果以遞增順序排序Index字段並匹配輸入列表中的文檔的順序。如果所有文件都包含錯誤,ResultList空白。

類型:的陣列BatchDetectDominantLanguageItemResult (p. 447)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

BatchSizeLimitExceededException

請求中的文件數量超過 25 個上限。請使用較少的文件再次嘗試您的請求。

HTTP 狀態碼:400InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400TextSizeLimitExceededException

輸入文字的大小超出限制。使用較小的文件。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

236

Amazon Comprehend 開發人員指南BatchDetectEntities

BatchDetectEntities檢視已命名實體批次文件的文字並傳回相關資訊。如需具名實體的詳細資訊,請參閱實體Comprehend 在開發人員指南中)。

請求語法

{ "LanguageCode": "string", "TextList": [ "string" ]}

請求參數如需所有動作共用的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

LanguageCode (p. 237)

輸入文件的語言。您可以指定 Amazon Comprehend 支援的任何主要語言。所有文件必須使用相同語言。

類型:字串

有效值: en | es | fr | de | it | pt | ar | hi | ja | ko | zh | zh-TW

必要:是TextList (p. 237)

包含輸入文件的 UTF-8 編碼文字的清單。此清單最多可包含 25 個文件。每個文件的大小上限為 5 KB。

類型:字串陣列

長度限制:長度下限為 1。

必要:是

回應語法

{ "ErrorList": [ { "ErrorCode": "string", "ErrorMessage": "string", "Index": number } ], "ResultList": [ { "Entities": [ { "BeginOffset": number, "EndOffset": number, "Score": number, "Text": "string", "Type": "string"

237

Amazon Comprehend 開發人員指南BatchDetectEntities

} ], "Index": number } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

ErrorList (p. 237)

包含一個列表BatchItemError (p. 452)包含錯誤的每個文件的物件。結果以遞增順序排序Index字段並匹配輸入列表中的文檔的順序。如果批次中沒有錯誤,ErrorList空白。

類型:陣列BatchItemError (p. 452)對象ResultList (p. 237)

的清單BatchDetectEntitiesItemResult (p. 448)包含操作結果的物件。結果以遞增順序排序Index字段並匹配輸入列表中的文檔的順序。如果所有文件都包含錯誤,ResultList空白。

類型:陣列BatchDetectEntitiesItemResult (p. 448)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

BatchSizeLimitExceededException

請求中的文件數量超過 25 個上限。請使用較少的文件再次嘗試您的請求。

HTTP 狀態碼:400InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400TextSizeLimitExceededException

輸入文字的大小超出限制。使用較小的文件。

HTTP 狀態碼:400UnsupportedLanguageException

Amazon Comprehend 無法處理輸入文字的語言。對於自訂實體識別 API,僅接受英文、西班牙文、法文、義大利文、德文或葡萄牙文。如需支援的語言清單,請支援的語言Comprehend 在開發人員指南中)。

HTTP 狀態碼:400

238

Amazon Comprehend 開發人員指南BatchDetectKeyPhrases

BatchDetectKeyPhrases檢測在一批文檔中找到的關鍵名詞短語。

請求語法{ "LanguageCode": "string", "TextList": [ "string" ]}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

LanguageCode (p. 240)

輸入文件的語言。您可以指定 Amazon Comprehend 支援的任何主要語言。所有文件必須使用相同語言。

類型:字串

有效值: en | es | fr | de | it | pt | ar | hi | ja | ko | zh | zh-TW

必要:是TextList (p. 240)

包含輸入文件的 UTF-8 編碼文字的清單。此清單最多可包含 25 個文件。每個文件的大小上限為 5 KB。

類型:字串陣列

長度限制:長度下限為 1。

必要:是

回應語法{ "ErrorList": [ { "ErrorCode": "string", "ErrorMessage": "string", "Index": number } ], "ResultList": [ { "Index": number, "KeyPhrases": [ { "BeginOffset": number, "EndOffset": number, "Score": number, "Text": "string" } ]

240

Amazon Comprehend 開發人員指南BatchDetectKeyPhrases

} ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

ErrorList (p. 240)

包含一個列表BatchItemError (p. 452)包含錯誤的每個文件的物件。結果以遞增順序對Index字段並匹配輸入列表中的文檔的順序。如果批次中沒有錯誤,ErrorList空白。

類型:的陣列BatchItemError (p. 452)對象ResultList (p. 240)

的清單BatchDetectKeyPhrasesItemResult (p. 449)包含操作結果的物件。結果以遞增順序對Index字段並匹配輸入列表中的文檔的順序。如果所有文件都包含錯誤,ResultList空白。

類型:的陣列BatchDetectKeyPhrasesItemResult (p. 449)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

BatchSizeLimitExceededException

請求中的文件數量超過 25 個上限。請以較少的文件再次嘗試您的請求。

HTTP 狀態碼:400InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400TextSizeLimitExceededException

輸入文字的大小超出限制。使用較小的文件。

HTTP 狀態碼:400UnsupportedLanguageException

Amazon Comprehend 無法處理輸入文字的語言。對於自訂實體識別 API,僅接受英文、西班牙文、法文、義大利文、德文或葡萄牙文。如需支援的語言清單,支援的語言Comprehend 在開發人員指南中)。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

241

Amazon Comprehend 開發人員指南BatchDetectSentiment

BatchDetectSentiment檢查一批文件並返回流行情緒的推論,POSITIVE、NEUTRAL、MIXED, 或NEGATIVE,在每一個。

請求語法{ "LanguageCode": "string", "TextList": [ "string" ]}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

LanguageCode (p. 243)

輸入文件的語言。您可以指定 Amazon Comprehend 支援的任何主要語言。所有文件必須使用相同的語言。

類型:字串

有效值: en | es | fr | de | it | pt | ar | hi | ja | ko | zh | zh-TW

必要:是TextList (p. 243)

包含輸入文件的 UTF-8 編碼文字的清單。此清單最多可包含 25 個文件。每個文件的最大大小為 5 KB。

類型:字串陣列

長度限制:長度下限為 1。

必要:是

回應語法{ "ErrorList": [ { "ErrorCode": "string", "ErrorMessage": "string", "Index": number } ], "ResultList": [ { "Index": number, "Sentiment": "string", "SentimentScore": { "Mixed": number, "Negative": number, "Neutral": number, "Positive": number } }

243

Amazon Comprehend 開發人員指南BatchDetectSentiment

]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

ErrorList (p. 243)

包含一個列表BatchItemError (p. 452)包含錯誤的每個文件的物件。結果以遞增順序對Index字段並匹配輸入列表中的文檔的順序。如果批次中沒有錯誤,ErrorList空白。

類型:的陣列BatchItemError (p. 452)對象ResultList (p. 243)

的清單BatchDetectSentimentItemResult (p. 450)含有操作結果的物件。結果以遞增順序對Index字段並匹配輸入列表中的文檔的順序。如果所有文件都包含錯誤,ResultList空白。

類型:的陣列BatchDetectSentimentItemResult (p. 450)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

BatchSizeLimitExceededException

請求中的文件數量超過 25 個上限。請用較少的文件再次嘗試您的請求。

HTTP 狀態碼:400InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400TextSizeLimitExceededException

輸入文字的大小超出限制。使用較小的文件。

HTTP 狀態碼:400UnsupportedLanguageException

Amazon Comprehend 無法處理輸入文字的語言。對於自訂實體識別 API,僅接受英文、西班牙文、法文、義大利文、德文或葡萄牙文。如需支援的語言清單,支援的語言Comprehend 在開發人員指南中)。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

244

Amazon Comprehend 開發人員指南BatchDetectSyntax

BatchDetectSyntax檢查文件批次文件的文字是否有文件中字詞的語法和部分語音,並傳回有關它們的資訊。如需詳細資訊,請參閱「」語法Comprehend 在開發人員指南中)。

請求語法{ "LanguageCode": "string", "TextList": [ "string" ]}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

LanguageCode (p. 246)

輸入文件的語言。您可以指定下列任何 Amazon 支援的語言:德文 (「de」)、英文 (「en」)、西班牙文(「es」)、法文 (「fr」)、義大利文 (「it」) 或葡萄牙文 (「pt」)。所有文件必須使用相同語言。

類型:字串

有效值: en | es | fr | de | it | pt

必要:是TextList (p. 246)

包含輸入文件的 UTF-8 編碼文字的清單。清單最多可包含 25 個文件。每份文件的大小上限為 5 KB。

類型:字串陣列

長度限制:長度下限為 1。

必要:是

回應語法{ "ErrorList": [ { "ErrorCode": "string", "ErrorMessage": "string", "Index": number } ], "ResultList": [ { "Index": number, "SyntaxTokens": [ { "BeginOffset": number, "EndOffset": number, "PartOfSpeech": { "Score": number, "Tag": "string"

246

Amazon Comprehend 開發人員指南BatchDetectSyntax

}, "Text": "string", "TokenId": number } ] } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

ErrorList (p. 246)

包含一個列表BatchItemError (p. 452)包含錯誤的每個文件的物件。結果以遞增順序對Index字段並匹配輸入列表中的文檔的順序。如果批次中沒有錯誤,ErrorList空白。

類型:陣列BatchItemError (p. 452)對象ResultList (p. 246)

的清單BatchDetectSyntaxItemResult (p. 451)包含操作結果的對象。結果以遞增順序對Index字段並匹配輸入列表中的文檔的順序。如果所有文件都包含錯誤,ResultList空白。

類型:陣列BatchDetectSyntaxItemResult (p. 451)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

BatchSizeLimitExceededException

請求中的文件數量超過 25 個上限。請以較少的文件再次嘗試您的請求。

HTTP 狀態:400InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態:500InvalidRequestException

請求無效。

HTTP 狀態:400TextSizeLimitExceededException

輸入文字的大小超出限制。使用較小的文件。

HTTP 狀態:400UnsupportedLanguageException

Amazon Comprehend 無法處理輸入文字的語言。對於自訂實體識別 API,僅接受英文、西班牙文、法文、義大利文、德文或葡萄牙文。如需支援的語言清單,支援的語言Comprehend 在開發人員指南中)。

HTTP 狀態:400

247

Amazon Comprehend 開發人員指南ClassifyDocument

ClassifyDocument使用先前建立和訓練過的自訂模型和端點,建立新的文件分類請求,以即時分析單一文件。

請求語法

{ "EndpointArn": "string", "Text": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

EndpointArn (p. 249)

端點的 Amazon Resource Number (ARN)。如需端點資訊,請參閱管理端點。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:document-classifier-endpoint/[a-zA-Z0-9](-*[a-zA-Z0-9])*

必要:是Text (p. 249)

要分析的文檔文本。

類型:字串

長度限制:長度下限為 1。

必要:是

回應語法

{ "Classes": [ { "Name": "string", "Score": number } ], "Labels": [ { "Name": "string", "Score": number } ]}

249

Amazon Comprehend 開發人員指南ClassifyDocument

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

Classes (p. 249)

被分析的文檔所使用的類。這些用於多類訓練模型。個別類別是互斥的,每個文件都預期只有一個類別指派給它。例如,動物可以是狗或貓,但不能同時使用兩者。

類型:的陣列DocumentClass (p. 456)對象Labels (p. 249)

標籤使用正在分析的文件。這些用於訓練多標籤的模型。個別標示表示以某種方式相關且不互斥的不同品類。例如,電影可以只是動作片,也可以是動作片、科幻電影和喜劇,全部同時進行。

類型:的陣列DocumentLabel (p. 471)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceUnavailableException

指定的資源不可用。請檢查資源,然後再試一次。

HTTP 狀態碼:400TextSizeLimitExceededException

輸入文字的大小超出限制。使用較小的文件。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於 JavaScript• AWS SDK for PHP V3

250

Amazon Comprehend 開發人員指南ClassifyDocument

• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

251

Amazon Comprehend 開發人員指南ContainsPiiEntities

ContainsPiiEntities分析輸入文字是否存在個人識別資訊 (PII),並傳回已識別 PII 實體類型的標籤,例如姓名、地址、銀行帳戶號碼或電話號碼。

請求語法{ "LanguageCode": "string", "Text": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

LanguageCode (p. 252)

輸入文件的語言。目前,英文是目前唯一有效的語言。

類型:字串

有效值: en

必要:是Text (p. 252)

UTF-8 文字字串。字串大小上限為 100 KB。

類型:字串

長度限制:長度下限為 1。

必要:是

回應語法{ "Labels": [ { "Name": "string", "Score": number } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

Labels (p. 252)

正在分析的文件內使用的標籤。個別標籤代表個人身分識別資訊 (PII) 實體類型。

252

Amazon Comprehend 開發人員指南ContainsPiiEntities

類型:的陣列EntityLabel (p. 488)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400TextSizeLimitExceededException

輸入文字的大小超出限制。使用較小的文件。

HTTP 狀態碼:400UnsupportedLanguageException

Amazon Comprehend 無法處理輸入文字的語言。對於自訂實體識別 API,僅接受英文、西班牙文、法文、義大利文、德文或葡萄牙文。如需支援的語言清單,支援的語言Comprehend 在開發人員指南中)。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

253

Amazon Comprehend 開發人員指南CreateDocumentClassifier

CreateDocumentClassifier建立新的文件分類器,可用於分類文件。若要建立分類器,您可以提供一組訓練文件,其中標有您要使用的類別。訓練分類器後,您可以使用它將一組標記的文檔分類到類別中。如需詳細資訊,請參閱「」文件分類Comprehend 在開發人員指南中)。

請求語法{ "ClientRequestToken": "string", "DataAccessRoleArn": "string", "DocumentClassifierName": "string", "InputDataConfig": { "AugmentedManifests": [ { "AnnotationDataS3Uri": "string", "AttributeNames": [ "string" ], "DocumentType": "string", "S3Uri": "string", "SourceDocumentsS3Uri": "string", "Split": "string" } ], "DataFormat": "string", "LabelDelimiter": "string", "S3Uri": "string", "TestS3Uri": "string" }, "LanguageCode": "string", "Mode": "string", "ModelKmsKeyId": "string", "ModelPolicy": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "Tags": [ { "Key": "string", "Value": "string" } ], "VersionName": "string", "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] }}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ClientRequestToken (p. 254)

請求的唯一識別碼。如果您未設定用戶端請求權杖,Amazon Comprehend 會產生一個權杖。

類型:字串

254

Amazon Comprehend 開發人員指南CreateDocumentClassifier

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-]+$

必要求:否DataAccessRoleArn (p. 254)

AWS Identity in Management (IAM) 角色的 Amazon Resource Name (ARN),可授予 AmazonComprehend Amazon Resource Name (ARN)。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要求:是DocumentClassifierName (p. 254)

文件分類器名稱。

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必要求:是InputDataConfig (p. 254)

指定工作輸入資料的格式和位置。

類型:DocumentClassifierInputDataConfig (p. 462) 物件

必要求:是LanguageCode (p. 254)

輸入文件的語言。您可以指定下列 Amazon Compreement 支援的下列任一語言:德文 (「de」)、英文(「en」)、西班牙文 (「es」)、法文 (「fr」)、義大利文 (「it」) 或葡萄牙文 (「pt」)。所有文件必須使用相同語言。

類型:字串

有效值: en | es | fr | de | it | pt

必要求:是Mode (p. 254)

指示將在其中訓練分類器的模式。分類器可以在多類模式下進行訓練,該模式可識別每個文檔的一個和僅一個類,或多標籤模式,用於識別每個文檔的一個或多個標籤模式。在多標籤模式中,個別文件的多個標籤會以分隔符號分隔。標籤之間的預設分隔符號是縱線 (|)。

類型:字串

有效值: MULTI_CLASS | MULTI_LABEL

必要求:否ModelKmsKeyId (p. 254)

AWS Key Management Service (KMS) 金鑰 ID (KMS) 金鑰 ID,Amazon Comprehend ement Service(KMS) 金鑰 ID 來加密訓練有素的自訂模型。所以此 ModelKmsKeyId 可以是下列格式之一的格式:

255

Amazon Comprehend 開發人員指南CreateDocumentClassifier

• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要求:否ModelPolicy (p. 254)

要附加至自訂文件分類器模型的資源型政策。您可以使用此政策允許其他 AWS 帳戶匯入您的自訂模型。

將您的原則提供為 JSON 內文,您可以輸入為 UTF-8 編碼字串,而不會有換行符號。若要提供有效的JSON,請使用雙引號括住屬性名稱和值。如果 JSON 主體也用雙引號括起來,那麼您必須逸出策略內的雙引號:

"{\"attribute\": \"value\", \"attribute\": [\"value\"]}"

若要避免逸出引號,您可以使用單引號括住 JSON 名稱和值:

'{"attribute": "value", "attribute": ["value"]}'

類型:字串

長度限制:長度下限為 1。長度上限為 200。

模式:[\u0009\u000A\u000D\u0020-\u00FF]+

必要求:否OutputDataConfig (p. 254)

啟用新增自訂分類器工作的輸出結果組態參數。

類型:DocumentClassifierOutputDataConfig (p. 464) 物件

必要求:否Tags (p. 254)

要與正在建立的文件分類器相關聯的標籤。標籤是索引鍵值組,可做為中繼資料新增至 AmazonComprehend 所使用的資源。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

類型:的陣列Tag (p. 531)對象

必要求:否VersionName (p. 254)

給新創建的分類器的版本名稱。版本名稱最多可使用 256 個字元。允許使用英數字元、連字號 (-) 和底線 (_)。在帳戶/AWS 區域中使用相同分類器名稱相同的所有型號中,版本名稱必須是唯一的。

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必要求:否

256

Amazon Comprehend 開發人員指南CreateDocumentClassifier

VolumeKmsKeyId (p. 254)

Amazon Comprehend 用來加密連線到處理分析任務的 ML 運算執行個體的儲存磁碟區上,AmazonComprehend 用來加密資料的 AWS Key Management Service (KMS) 金鑰 ID。所以此VolumeKmsKeyId 可以是下列格式之一的格式:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要求:否VpcConfig (p. 254)

選擇性私有虛擬私人雲端 (VPC) 的組態參數,其中包含您用於自訂分類器的資源。如需詳細資訊,請參閱 Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要求:否

回應語法{ "DocumentClassifierArn": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

DocumentClassifierArn (p. 257)

識別文件分類器的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:document-classifier/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

257

Amazon Comprehend 開發人員指南CreateDocumentClassifier

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400KmsKeyValidationException

無法驗證輸入的 KMS 客戶管理金鑰 (CMK)。驗證金鑰並重新輸入金鑰。

HTTP 狀態碼:400ResourceInUseException

指定的資源名稱已在使用中。請使用不同的名稱,然後再試一次。

HTTP 狀態碼:400ResourceLimitExceededException

已超過每個帳號的資源數目上限。請檢閱資源,然後再次嘗試您的要求。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400TooManyTagsException

請求包含的標籤數量超過了可以與資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態碼:400UnsupportedLanguageException

Amazon Resource 無法處理輸入文字的語言。對於自訂實體識別 API,僅接受英文、西班牙文、法文、義大利文、德文或葡萄牙文。如需支援的語言清單,支援的語言Comprehend 在開發人員指南中)。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

258

Amazon Comprehend 開發人員指南CreateEndpoint

CreateEndpoint針對先前訓練過的自訂模型,建立同步推論的模型特定端點。管理端點。

請求語法

{ "ClientRequestToken": "string", "DataAccessRoleArn": "string", "DesiredInferenceUnits": number, "EndpointName": "string", "ModelArn": "string", "Tags": [ { "Key": "string", "Value": "string" } ]}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ClientRequestToken (p. 259)

客戶提供的冪等性令牌。如果此權杖符合先前的端點建立請求,Amazon Comprehend 將不會傳回ResourceInUseException。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-]+$

必要:否DataAccessRoleArn (p. 259)

AWS Identity in Access Management (IAM) 角色的 Amazon Resource Name (ARN),此模型授予使用客戶受管金鑰加密的自訂模型 (ARN)ModelKmsKeyId。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否DesiredInferenceUnits (p. 259)

使用此端點的模型所要使用的推論單位數目。每個推論單元代表每秒 100 個字元的輸送量。

類型:整數

有效範圍:最小值為 1。

259

Amazon Comprehend 開發人員指南CreateEndpoint

必要:是EndpointName (p. 259)

這是描述性後綴,它成為EndpointArn用於對此資源的所有後續請求。

類型:字串

長度限制:長度上限為 40。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必要:是ModelArn (p. 259)

要連接端點的模型 Amazon Resource Number (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier|entity-recognizer)/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是Tags (p. 259)

與要建立的端點相關聯的標籤。標籤是將中繼資料新增至端點的中繼資料。例如,可能會將以「Sales」作為金鑰的標籤新增至端點,以指示銷售部門使用該標籤。

類型:陣列Tag (p. 531)對象

必要:否

回應語法

{ "EndpointArn": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

EndpointArn (p. 260)

要建立的端點的 Amazon Resource Number (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier-endpoint|entity-recognizer-endpoint)/[a-zA-Z0-9](-*[a-zA-Z0-9])*

260

Amazon Comprehend 開發人員指南CreateEndpoint

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceInUseException

指定的資源名稱已在使用。請使用不同的名稱,然後再試一次。

HTTP 狀態碼:400ResourceLimitExceededException

已超過每個帳號的資源數目上限。請檢閱資源,然後再次嘗試您的要求。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的資源 ARN。請檢查 ARN,然後再試一次。

HTTP 狀態碼:400ResourceUnavailableException

指定的資源不可用。請檢查資源,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400TooManyTagsException

請求包含的標籤數量超過了可以與資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於使用於 JavaScript

261

Amazon Comprehend 開發人員指南CreateEntityRecognizer

CreateEntityRecognizer使用提交的檔案建立實體辨識器。在您的CreateEntityRecognizer請求已提交,您可以使用DescribeEntityRecognizer (p. 290)API。

請求語法

{ "ClientRequestToken": "string", "DataAccessRoleArn": "string", "InputDataConfig": { "Annotations": { "S3Uri": "string", "TestS3Uri": "string" }, "AugmentedManifests": [ { "AnnotationDataS3Uri": "string", "AttributeNames": [ "string" ], "DocumentType": "string", "S3Uri": "string", "SourceDocumentsS3Uri": "string", "Split": "string" } ], "DataFormat": "string", "Documents": { "InputFormat": "string", "S3Uri": "string", "TestS3Uri": "string" }, "EntityList": { "S3Uri": "string" }, "EntityTypes": [ { "Type": "string" } ] }, "LanguageCode": "string", "ModelKmsKeyId": "string", "ModelPolicy": "string", "RecognizerName": "string", "Tags": [ { "Key": "string", "Value": "string" } ], "VersionName": "string", "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] }}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

263

Amazon Comprehend 開發人員指南CreateEntityRecognizer

請求接受採用 JSON 格式的下列資料。

ClientRequestToken (p. 263)

請求的唯一識別符。如果您未設定用戶端請求權杖,Amazon Comprehend 會產生一個權杖。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-]+$

:否DataAccessRoleArn (p. 263)

AWS Identity in Management (IAM) 角色的 Amazon Resource Name (ARN),可授予 AmazonComprehend Resource Name (ARN)。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

:是InputDataConfig (p. 263)

指定輸入資料的格式和位置。存放輸入資料的 S3 儲存貯體,必須位於建立的實體辨識器所在的同一區域。

類型:EntityRecognizerInputDataConfig (p. 494) 物件

:是LanguageCode (p. 263)

您可以指定 Amazon Comprehend Resource 支援的以下任何語言:英文 (「en」)、西班牙文(「es」)、法文 (「fr」)、義大利文 (「it」)、德文 (「de」) 或葡萄牙文 (「pt」)。所有文件必須使用相同的語言。

類型:字串

有效值: en | es | fr | it | de | pt

:是ModelKmsKeyId (p. 263)

Amazon Comprehend ment 使用的 AWS Key Management Service (KMS) 金鑰 ID (KMS) 金鑰 ID。所以此 ModelKmsKeyId 可以是下列格式之一• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

:否

264

Amazon Comprehend 開發人員指南CreateEntityRecognizer

ModelPolicy (p. 263)

要附加至自訂實體辨識器模型的 JSON 資源型政策。您可以使用此政策允許其他 AWS 帳戶匯入您的自訂模型。

提供您的 JSON 作為一個 UTF-8 編碼的字符串,沒有換行符。若要為您的政策提供有效的 JSON,請使用雙引號括住屬性名稱和值。如果 JSON 主體也用雙引號括起來,那麼您必須逸出策略內的雙引號:

"{\"attribute\": \"value\", \"attribute\": [\"value\"]}"

若要避免逸出引號,您可以使用單引號括住政策,並用雙引號括住 JSON 名稱和值:

'{"attribute": "value", "attribute": ["value"]}'

類型:字串

長度限制:長度下限為 1。長度上限為 200。

模式:[\u0009\u000A\u000D\u0020-\u00FF]+

:否RecognizerName (p. 263)

指定給新建立的辨識器名稱。辨識器名稱最多可以是 256 個字元。允許英數字元、連字號 (-) 和底線(_)。在帳戶/區域中,名稱必須是唯一的。

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

:是Tags (p. 263)

要與正在創建的實體識別器相關聯的標籤。標籤是索引鍵值組,可將做為中繼資料新增至 AmazonResource 使用的資源。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

類型:的陣列Tag (p. 531)對象

:否VersionName (p. 263)

給新創建的識別器的版本名稱。版本名稱最多可以是 256 個字元。允許英數字元、連字號 (-) 和底線(_)。在帳戶/AWS 區域中,識別器名稱相同的所有型號中,版本名稱必須是唯一的。

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

:否VolumeKmsKeyId (p. 263)

Amazon Comprehend 使用的 AWS Key Management Service (KMS) 金鑰 ID,Amazon Comprehend用來加密連線到處理分析任務的 ML 運算執行個體的儲存磁碟區資料。所以此 VolumeKmsKeyId 可以是下列格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

265

Amazon Comprehend 開發人員指南CreateEntityRecognizer

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

:否VpcConfig (p. 263)

選用的私有 Virtual Private Cloud (VPC) (VPC) 的組態參數,其中包含您用於自訂實體辨識器的資源。如需詳細資訊,請參閱 Amazon VPC。

類型:VpcConfig (p. 540) 物件

:否

回應語法

{ "EntityRecognizerArn": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

EntityRecognizerArn (p. 266)

可識別實體辨識器的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:entity-recognizer/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:HTTP 狀態碼:400

266

Amazon Comprehend 開發人員指南CreateEntityRecognizer

KmsKeyValidationException

無法驗證輸入的 KMS 客戶管理金鑰 (CMK)。驗證金鑰並重新輸入。

HTTP 狀態碼:HTTP 狀態碼:400ResourceInUseException

指定的資源名稱已在使用。請使用不同的名稱,然後再試一次。

HTTP 狀態碼:HTTP 狀態碼:400ResourceLimitExceededException

已超過每個帳號的資源數目上限。請檢閱資源,然後再次嘗試您的要求。

HTTP 狀態碼:HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:HTTP 狀態碼:400TooManyTagsException

請求包含的標籤數量超過資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態碼:HTTP 狀態碼:400UnsupportedLanguageException

Amazon Resource 無法處理輸入文字的語言。對於自訂實體識別 API,僅接受英文、西班牙文、法文、義大利文、德文或葡萄牙文。如需支援的語言清單,支援的語言Comprehend 在開發人員指南中)。

HTTP 狀態碼:HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的 SDK JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

267

Amazon Comprehend 開發人員指南DeleteDocumentClassifier

DeleteDocumentClassifier刪除之前建立的文件分類器

只有處於終止狀態 (IN_ERROR、訓練) 的分類器才會被刪除。如果使用中的推論工作正在使用模型,ResourceInUseException將被退回。

這是一個異步操作,使分類器進入 DELETED 狀態,然後由後台作業刪除。移除後,分類器將從您的帳戶中消失,將無法再使用。

請求語法{ "DocumentClassifierArn": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

DocumentClassifierArn (p. 268)

識別文件分類器的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:document-classifier/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是

回應元素如果動作成功,則服務會傳回具空 HTTP 內文的 HTTP 200 回應。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼::500InvalidRequestException

請求無效。

HTTP 狀態碼::400ResourceInUseException

指定的資源名稱已在使用。請使用不同的名稱,然後再試一次。

268

Amazon Comprehend 開發人員指南DeleteDocumentClassifier

HTTP 狀態碼::400ResourceNotFoundException

找不到指定的資源 ARN。請檢查 ARN,然後再試一次。

HTTP 狀態碼::400ResourceUnavailableException

指定的資源不可用。請檢查資源,然後再試一次。

HTTP 狀態碼::400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼::400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

269

Amazon Comprehend 開發人員指南DeleteEndpoint

DeleteEndpoint針對先前訓練過的自訂模型,刪除模型特定的端點。必須刪除所有端點,才能刪除模型。如需端點資訊,請參閱管理端點。

請求語法{ "EndpointArn": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

EndpointArn (p. 270)

要刪除之端點的 Amazon Resource Number (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier-endpoint|entity-recognizer-endpoint)/[a-zA-Z0-9](-*[a-zA-Z0-9])*

必要:是

回應元素如果動作成功,則服務會傳回具空 HTTP 內文的 HTTP 200 回應。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceInUseException

指定的資源名稱已在使用中。請使用不同的名稱,然後再試一次。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的 Resource ARN。請檢查 ARN,然後再試一次。

270

Amazon Comprehend 開發人員指南DeleteEndpoint

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

271

Amazon Comprehend 開發人員指南DeleteEntityRecognizer

DeleteEntityRecognizer刪除實體辨識器。

只有處於終止狀態 (IN_ERROR、訓練) 的辨識器才會被刪除。如果使用中的推論工作正在使用模型,ResourceInUseException將被退回。

這是一個異步操作,使識別器進入 DELECT 狀態,然後由後台作業將其刪除。移除後,辨識器將從您的帳戶中消失,將無法再使用。

請求語法{ "EntityRecognizerArn": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

EntityRecognizerArn (p. 272)

識別實體辨識器的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:entity-recognizer/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是

回應元素如果動作成功,則服務會傳回具空 HTTP 內文的 HTTP 200 回應。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceInUseException

指定的資源名稱已在使用。請使用不同的名稱,然後再試一次。

272

Amazon Comprehend 開發人員指南DeleteEntityRecognizer

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的 Resource ARN。請檢查 ARN,然後再試一次。

HTTP 狀態碼:400ResourceUnavailableException

指定的資源不可用。請檢查資源,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS開發套件適用 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

273

Amazon Comprehend 開發人員指南DeleteResourcePolicy

DeleteResourcePolicy刪除連接至自訂模型的資源類型政策。

請求語法

{ "PolicyRevisionId": "string", "ResourceArn": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

PolicyRevisionId (p. 274)

要刪除到政策的修訂版 ID。

類型:字串

長度限制:長度上限為 64。

模式:[0-9A-Fa-f]+

必要:否ResourceArn (p. 274)

具有要刪除政策之自訂模型版本的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier|entity-recognizer)/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是

回應元素如果動作成功,則服務會傳回具空 HTTP 內文的 HTTP 200 回應。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500

274

Amazon Comprehend 開發人員指南DeleteResourcePolicy

InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的資源 ARN。請檢查 ARN,然後再試一次。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

275

Amazon Comprehend 開發人員指南DescribeDocumentClassificationJob

DescribeDocumentClassificationJob取得和文件分類任務相關聯的屬性。使用此操作以取得分類任務的狀態。

請求語法

{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱。一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 276)

亞馬遜為任務產生的識別碼。所以此StartDocumentClassificationJob (p. 377)操作在其響應返回此標識符。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法

{ "DocumentClassificationJobProperties": { "DataAccessRoleArn": "string", "DocumentClassifierArn": "string", "EndTime": number, "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ],

276

Amazon Comprehend 開發人員指南DescribeDocumentClassificationJob

"Subnets": [ "string" ] } }}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

DocumentClassificationJobProperties (p. 276)

描述和文件分類任務相關聯的屬性的物件。

類型:DocumentClassificationJobProperties (p. 458) 物件

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python

277

Amazon Comprehend 開發人員指南DescribeDocumentClassificationJob

• 適用於 Ruby 的 AWS 開發套件第 3 版

278

Amazon Comprehend 開發人員指南DescribeDocumentClassifier

DescribeDocumentClassifier取得和文件分類器相關聯的屬性。

請求語法{ "DocumentClassifierArn": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

DocumentClassifierArn (p. 279)

識別文件分類器的 Amazon Resource Name (ARN)。所以此CreateDocumentClassifier (p. 254)操作在其響應返回此標識符。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:document-classifier/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是

回應語法{ "DocumentClassifierProperties": { "ClassifierMetadata": { "EvaluationMetrics": { "Accuracy": number, "F1Score": number, "HammingLoss": number, "MicroF1Score": number, "MicroPrecision": number, "MicroRecall": number, "Precision": number, "Recall": number }, "NumberOfLabels": number, "NumberOfTestDocuments": number, "NumberOfTrainedDocuments": number }, "DataAccessRoleArn": "string", "DocumentClassifierArn": "string", "EndTime": number, "InputDataConfig": { "AugmentedManifests": [ { "AnnotationDataS3Uri": "string", "AttributeNames": [ "string" ], "DocumentType": "string",

279

Amazon Comprehend 開發人員指南DescribeDocumentClassifier

"S3Uri": "string", "SourceDocumentsS3Uri": "string", "Split": "string" } ], "DataFormat": "string", "LabelDelimiter": "string", "S3Uri": "string", "TestS3Uri": "string" }, "LanguageCode": "string", "Message": "string", "Mode": "string", "ModelKmsKeyId": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SourceModelArn": "string", "Status": "string", "SubmitTime": number, "TrainingEndTime": number, "TrainingStartTime": number, "VersionName": "string", "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] } }}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

DocumentClassifierProperties (p. 279)

包含和文件分類器相關聯的屬性的物件。

類型:DocumentClassifierProperties (p. 465) 物件

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的 Resource ARN。請檢查 ARN,然後再試一次。

280

Amazon Comprehend 開發人員指南DescribeDocumentClassifier

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

281

Amazon Comprehend 開發人員指南DescribeDominantLanguageDetectionJob

DescribeDominantLanguageDetectionJob取得和主要語言偵測任務相關聯的屬性。使用此操作以取得偵測任務的狀態。

請求語法

{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 282)

亞馬遜為任務產生的識別碼。所以此StartDominantLanguageDetectionJob (p. 382)操作在其響應返回此標識符。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法

{ "DominantLanguageDetectionJobProperties": { "DataAccessRoleArn": "string", "EndTime": number, "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ]

282

Amazon Comprehend 開發人員指南DescribeDominantLanguageDetectionJob

} }}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

DominantLanguageDetectionJobProperties (p. 282)

包含與主要語言偵測任務相關聯的屬性。

類型:DominantLanguageDetectionJobProperties (p. 475) 物件

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

283

Amazon Comprehend 開發人員指南DescribeDominantLanguageDetectionJob

284

Amazon Comprehend 開發人員指南DescribeEndpoint

DescribeEndpoint取得與特定端點相關聯的屬性。使用此操作以取得端點的狀態。如需端點資訊,請參閱管理端點。

請求語法

{ "EndpointArn": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

EndpointArn (p. 285)

正在描述的端點的 Amazon Resource Number (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier-endpoint|entity-recognizer-endpoint)/[a-zA-Z0-9](-*[a-zA-Z0-9])*

必要:是

回應語法

{ "EndpointProperties": { "CreationTime": number, "CurrentInferenceUnits": number, "DataAccessRoleArn": "string", "DesiredDataAccessRoleArn": "string", "DesiredInferenceUnits": number, "DesiredModelArn": "string", "EndpointArn": "string", "LastModifiedTime": number, "Message": "string", "ModelArn": "string", "Status": "string" }}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

EndpointProperties (p. 285)

描述與特定端點相關聯的資訊。

285

Amazon Comprehend 開發人員指南DescribeEndpoint

類型:EndpointProperties (p. 479) 物件

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的 ARN 資源。請檢查 ARN,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

286

Amazon Comprehend 開發人員指南DescribeEntitiesDetectionJob

DescribeEntitiesDetectionJob取得和實體偵測任務相關聯的屬性。使用此操作以取得偵測任務的狀態。

請求語法{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 287)

亞馬遜為任務產生的識別碼。所以此StartEntitiesDetectionJob (p. 386)操作在其響應返回此標識符。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法{ "EntitiesDetectionJobProperties": { "DataAccessRoleArn": "string", "EndTime": number, "EntityRecognizerArn": "string", "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "LanguageCode": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ]

287

Amazon Comprehend 開發人員指南DescribeEntitiesDetectionJob

} }}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

EntitiesDetectionJobProperties (p. 287)

物件,其中包含與實體偵測任務相關聯的內容。

類型:EntitiesDetectionJobProperties (p. 483) 物件

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

288

Amazon Comprehend 開發人員指南DescribeEntitiesDetectionJob

289

Amazon Comprehend 開發人員指南DescribeEntityRecognizer

DescribeEntityRecognizer提供關於實體辨識器的詳細資訊,包括狀態、S3 儲存貯體內的訓練資料、辨識器中繼資料、指標等等。

請求語法{ "EntityRecognizerArn": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

EntityRecognizerArn (p. 290)

識別實體辨識器的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:entity-recognizer/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是

回應語法{ "EntityRecognizerProperties": { "DataAccessRoleArn": "string", "EndTime": number, "EntityRecognizerArn": "string", "InputDataConfig": { "Annotations": { "S3Uri": "string", "TestS3Uri": "string" }, "AugmentedManifests": [ { "AnnotationDataS3Uri": "string", "AttributeNames": [ "string" ], "DocumentType": "string", "S3Uri": "string", "SourceDocumentsS3Uri": "string", "Split": "string" } ], "DataFormat": "string", "Documents": { "InputFormat": "string", "S3Uri": "string", "TestS3Uri": "string" }, "EntityList": { "S3Uri": "string" },

290

Amazon Comprehend 開發人員指南DescribeEntityRecognizer

"EntityTypes": [ { "Type": "string" } ] }, "LanguageCode": "string", "Message": "string", "ModelKmsKeyId": "string", "RecognizerMetadata": { "EntityTypes": [ { "EvaluationMetrics": { "F1Score": number, "Precision": number, "Recall": number }, "NumberOfTrainMentions": number, "Type": "string" } ], "EvaluationMetrics": { "F1Score": number, "Precision": number, "Recall": number }, "NumberOfTestDocuments": number, "NumberOfTrainedDocuments": number }, "SourceModelArn": "string", "Status": "string", "SubmitTime": number, "TrainingEndTime": number, "TrainingStartTime": number, "VersionName": "string", "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] } }}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

EntityRecognizerProperties (p. 290)

描述與實體辨識器相關聯的資訊。

類型:EntityRecognizerProperties (p. 498) 物件

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

291

Amazon Comprehend 開發人員指南DescribeEntityRecognizer

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的資源 ARN。請檢查 ARN,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

292

Amazon Comprehend 開發人員指南DescribeEventsDetectionJob

DescribeEventsDetectionJob取得事件偵測工作的狀態和詳細資訊。

請求語法

{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 293)

事件偵測任務的識別符。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法

{ "EventsDetectionJobProperties": { "DataAccessRoleArn": "string", "EndTime": number, "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "LanguageCode": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "TargetEventTypes": [ "string" ] }}

293

Amazon Comprehend 開發人員指南DescribeEventsDetectionJob

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

EventsDetectionJobProperties (p. 293)

包含與事件偵測任務相關聯的屬性。

類型:EventsDetectionJobProperties (p. 506) 物件

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適合的開發套 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

294

Amazon Comprehend 開發人員指南DescribeKeyPhrasesDetectionJob

DescribeKeyPhrasesDetectionJob取得和關鍵片語偵測任務相關聯的屬性。使用此操作以取得偵測任務的狀態。

請求語法

{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 295)

亞馬遜為任務產生的識別碼。所以此StartKeyPhrasesDetectionJob (p. 395)操作在其響應返回此標識符。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法

{ "KeyPhrasesDetectionJobProperties": { "DataAccessRoleArn": "string", "EndTime": number, "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "LanguageCode": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ],

295

Amazon Comprehend 開發人員指南DescribeKeyPhrasesDetectionJob

"Subnets": [ "string" ] } }}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

KeyPhrasesDetectionJobProperties (p. 295)

包含與關鍵片語偵測任務相關聯的內容的物件。

類型:KeyPhrasesDetectionJobProperties (p. 512) 物件

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適合的開發套 JavaScript• AWS SDK for PHP V3• AWS SDK for Python

296

Amazon Comprehend 開發人員指南DescribeKeyPhrasesDetectionJob

• 適用於 Ruby 的 AWS 開發套件第 3 版

297

Amazon Comprehend 開發人員指南DescribePiiEntitiesDetectionJob

DescribePiiEntitiesDetectionJob取得和 PII 實體偵測任務相關聯的屬性。例如,您可以使用此作業來取得任務狀態。

請求語法

{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 298)

亞馬遜為任務產生的識別碼。所以此StartPiiEntitiesDetectionJob (p. 400)操作在其響應返回此標識符。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法

{ "PiiEntitiesDetectionJobProperties": { "DataAccessRoleArn": "string", "EndTime": number, "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "LanguageCode": "string", "Message": "string", "Mode": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "RedactionConfig": { "MaskCharacter": "string", "MaskMode": "string",

298

Amazon Comprehend 開發人員指南DescribePiiEntitiesDetectionJob

"PiiEntityTypes": [ "string" ] }, "SubmitTime": number }}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

PiiEntitiesDetectionJobProperties (p. 298)

提供 PII 實體偵測任務相關資訊。

類型:PiiEntitiesDetectionJobProperties (p. 518) 物件

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS開發套件,適 JavaScript• AWS SDK for PHP V3• AWS SDK for Python

299

Amazon Comprehend 開發人員指南DescribePiiEntitiesDetectionJob

• 適用於 Ruby 的 AWS 開發套件第 3 版

300

Amazon Comprehend 開發人員指南DescribeResourcePolicy

DescribeResourcePolicy取得附加至自訂模型政策的詳細資料,包括政策的 JSON 主體。

請求語法

{ "ResourceArn": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ResourceArn (p. 301)

要描述到政策的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier|entity-recognizer)/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是

回應語法

{ "CreationTime": number, "LastModifiedTime": number, "PolicyRevisionId": "string", "ResourcePolicy": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

CreationTime (p. 301)

建立政策的時間。

類型:時間戳記LastModifiedTime (p. 301)

上次修改政策的時間。

類型:時間戳記

301

Amazon Comprehend 開發人員指南DescribeResourcePolicy

PolicyRevisionId (p. 301)

政策的修訂版 ID。每次修改政策時,Amazon Comprehend 都會指派一個新的修訂 ID,並刪除原則的先前版本。

類型:字串

長度限制:長度上限為 64。

模式:[0-9A-Fa-f]+

ResourcePolicy (p. 301)

以資源為基礎的 JSON 主體。

類型:字串

長度限制:長度下限為 1。長度上限為 200。

模式:[\u0009\u000A\u000D\u0020-\u00FF]+

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的資源。請檢查 ARN,然後再試一次。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

302

Amazon Comprehend 開發人員指南DescribeSentimentDetectionJob

DescribeSentimentDetectionJob取得和情緒偵測任務相關聯的屬性。使用此操作以取得偵測任務的狀態。

請求語法

{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 303)

亞馬遜為任務產生的識別碼。所以此StartSentimentDetectionJob (p. 404)操作在其響應返回此標識符。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法

{ "SentimentDetectionJobProperties": { "DataAccessRoleArn": "string", "EndTime": number, "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "LanguageCode": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ],

303

Amazon Comprehend 開發人員指南DescribeSentimentDetectionJob

"Subnets": [ "string" ] } }}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

SentimentDetectionJobProperties (p. 303)

包含與情緒偵測任務相關聯的內容的物件。

類型:SentimentDetectionJobProperties (p. 526) 物件

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python

304

Amazon Comprehend 開發人員指南DescribeSentimentDetectionJob

• 適用於 Ruby 的 AWS 開發套件第 3 版

305

Amazon Comprehend 開發人員指南DescribeTargetedSentimentDetectionJob

DescribeTargetedSentimentDetectionJob取得和目標情緒偵測任務相關聯的屬性。使用此操作以取得任務的狀態。

請求語法

{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 306)

亞馬遜為任務產生的識別碼。所以此StartTargetedSentimentDetectionJob (p. 409)操作在其響應返回此標識符。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法

{ "TargetedSentimentDetectionJobProperties": { "DataAccessRoleArn": "string", "EndTime": number, "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "LanguageCode": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ],

306

Amazon Comprehend 開發人員指南DescribeTargetedSentimentDetectionJob

"Subnets": [ "string" ] } }}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

TargetedSentimentDetectionJobProperties (p. 306)

物件,其中包含與目標情緒偵測任務相關聯的內容。

類型:TargetedSentimentDetectionJobProperties (p. 533) 物件

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS開發套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python

307

Amazon Comprehend 開發人員指南DescribeTargetedSentimentDetectionJob

• 適用於 Ruby 的 AWS 開發套件第 3 版

308

Amazon Comprehend 開發人員指南DescribeTopicsDetectionJob

DescribeTopicsDetectionJob取得和主題偵測任務相關聯的屬性。使用此操作以取得偵測任務的狀態。

請求語法{ "JobId": "string"}

請求參數如需所有動作常見的參數,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 309)

使用者指派給偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法{ "TopicsDetectionJobProperties": { "DataAccessRoleArn": "string", "EndTime": number, "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "Message": "string", "NumberOfTopics": number, "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] }

309

Amazon Comprehend 開發人員指南DescribeTopicsDetectionJob

}}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

TopicsDetectionJobProperties (p. 309)

要求工作的屬性清單。

類型:TopicsDetectionJobProperties (p. 537) 物件

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

310

Amazon Comprehend 開發人員指南DetectDominantLanguage

DetectDominantLanguage決定輸入文字的主要語言。如需 Amazon Comprehend 可以偵測的語言清單,請參閱Amazon Comprehend支援的語言。

請求語法{ "Text": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

Text (p. 311)

UTF-8 文字串。字串必須至少包含 20 個字元。字串大小上限為 100 KB。

類型:字串

長度限制:長度下限為 1。

必要:是

回應語法{ "Languages": [ { "LanguageCode": "string", "Score": number } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

Languages (p. 311)

Amazon Comprehend 在輸入文字中偵測到的語言。對於每種語言,回應都會傳回 RFC 5646 語言代碼,以及 Amazon Comprehend 對其推論準確性所具有的信心程度。如需 RFC 5646 的詳細資訊,請參閱用於識別語言的標籤在IETF 工具網站。

類型:的陣列DominantLanguage (p. 473)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

311

Amazon Comprehend 開發人員指南DetectDominantLanguage

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400TextSizeLimitExceededException

輸入文字的大小超出限制。使用較小的文件。

HTTP 狀態碼:400

範例檢測主導語言

如果輸入文本是「鮑勃住在西雅圖。他是亞馬遜的軟件工程師。 「,此操作將傳回以下內容:

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9774383902549744 }, { "LanguageCode": "de", "Score": 0.010717987082898617 } ]}

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

312

Amazon Comprehend 開發人員指南DetectEntities

DetectEntities檢視已命名實體的文字並傳回相關資訊。如需具名實體的詳細資訊,請參閱實體Comprehend 在開發人員指南中)。

請求語法{ "EndpointArn": "string", "LanguageCode": "string", "Text": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

EndpointArn (p. 313)

與自訂實體辨識模型相關聯之端點的 Amazon Resource Name (Amazon Resource Name)。如果您想要使用自己的自訂模型而不是 Amazon Comprehend 使用的預設模型來偵測實體,請提供端點。

如果您指定端點,Amazon Comprehend 會使用您自訂模型的語言,並忽略您在請求中提供的任何語言代碼。

如需端點資訊,請參閱管理端點。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:entity-recognizer-endpoint/[a-zA-Z0-9](-*[a-zA-Z0-9])*

必要要求:否LanguageCode (p. 313)

輸入文件的語言。您可以指定 Amazon Comprehend 支援的任何主要語言。所有文件都必須使用相同語言。

如果您的請求包含自訂實體辨識模型的端點,Amazon Comprehend 會使用您自訂模型的語言,並忽略您在此處指定的任何語言代碼。

類型:字串

有效值: en | es | fr | de | it | pt | ar | hi | ja | ko | zh | zh-TW

必要要求:否Text (p. 313)

UTF-8 文字字串。字串大小上限為 100 KB。

類型:字串

長度限制:長度下限為 1。

必要要求:是

313

Amazon Comprehend 開發人員指南DetectEntities

回應語法{ "Entities": [ { "BeginOffset": number, "EndOffset": number, "Score": number, "Text": "string", "Type": "string" } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

Entities (p. 314)

輸入文字中識別的實體集合。回應會針對每個實體提供實體文字、實體類型、實體文字開始和結束的位置,以及 Amazon Comprehend 在偵測中的可信度等級。

如果您的請求使用自訂實體辨識模型,Amazon Comprehend 會偵測訓練模型可辨識的實體。否則,它會偵測預設實體類型。如需預設實體類型的清單,請參閱實體Comprehend 在開發人員指南中)。

類型:陣列Entity (p. 486)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼碼碼碼碼碼碼 500InvalidRequestException

請求無效。

HTTP 狀態碼碼碼碼碼碼碼 400ResourceUnavailableException

指定的資源不可用。請檢查資源,然後再試一次。

HTTP 狀態碼碼碼碼碼碼碼 400TextSizeLimitExceededException

輸入文字的大小超出限制。使用較小的文件。

HTTP 狀態碼碼碼碼碼碼碼 400UnsupportedLanguageException

亞馬遜無法處理輸入文字的語言。對於自訂實體識別 API,僅接受英文、西班牙文、法文、義大利文、德文或葡萄牙文。如需支援的語言清單,支援的語言Comprehend 在開發人員指南中)。

314

Amazon Comprehend 開發人員指南DetectEntities

HTTP 狀態碼碼碼碼碼碼碼 400

範例偵測實體如果輸入文本是「鮑勃今天從西雅圖的一家商店訂購了兩個三明治和三個冰淇淋甜筒。 「,此操作將傳回下列回應:

{ "Entities": [ { "Text": "Bob", "Score": 1.0, "Type": "PERSON", "BeginOffset": 0, "EndOffset": 3 }, { "Text": "two", "Score": 1.0, "Type": "QUANTITY", "BeginOffset": 12, "EndOffset": 15 }, { "Text": "three", "Score": 1.0, "Type": "QUANTITY", "BeginOffset": 32, "EndOffset": 37 }, { "Text": "Today", "Score": 1.0, "Type": "DATE", "BeginOffset": 54, "EndOffset": 59 }, { "Text": "Seattle", "Score": 1.0, "Type": "LOCATION", "BeginOffset": 76, "EndOffset": 83 } ],}

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK

315

Amazon Comprehend 開發人員指南DetectKeyPhrases

DetectKeyPhrases偵測文字中找到的關鍵名詞。

請求語法

{ "LanguageCode": "string", "Text": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

LanguageCode (p. 317)

輸入文件的語言。您可以指定 Amazon Comprehend 支援的任何主要語言。所有文件必須使用相同語言。

類型:字串

有效值: en | es | fr | de | it | pt | ar | hi | ja | ko | zh | zh-TW

必要:是Text (p. 317)

UTF-8 文字字串。字串必須包含少於 100 KB 的 UTF-8 編碼字元。

類型:字串

長度限制:長度下限為 1。

必要:是

回應語法

{ "KeyPhrases": [ { "BeginOffset": number, "EndOffset": number, "Score": number, "Text": "string" } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

317

Amazon Comprehend 開發人員指南DetectKeyPhrases

KeyPhrases (p. 317)

Amazon Comprehend 在輸入文本中識別的關鍵短語的集合。對於每個關鍵片語,回應都會提供關鍵片語的文字、關鍵片語開始和結束的位置,以及 Amazon Comprehend 對偵測準確性的信心程度。

類型:的陣列KeyPhrase (p. 510)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400TextSizeLimitExceededException

輸入文字的大小超出限制。使用較小的文件。

HTTP 狀態碼:400UnsupportedLanguageException

Amazon Comprehend 無法處理輸入文字的語言。對於自訂實體識別 API,僅接受英文、西班牙文、法文、義大利文、德文或葡萄牙文。如需支援的語言清單,支援的語言Comprehend 在開發人員指南中)。

HTTP 狀態碼:400

範例偵測短語

如果輸入文本是「鮑勃住在西雅圖。他是亞馬遜的軟件工程師。 「,API 傳回下列內容:

{ "KeyPhrases": [ { "Text": "Bob", "Score": 1.0, "BeginOffset": 0, "EndOffset": 3 }, { "Text": "Seattle", "Score": 1.0, "BeginOffset": 13, "EndOffset": 20 }, { "Text": "a software engineer", "Score": 1.0, "BeginOffset": 28,

318

Amazon Comprehend 開發人員指南DetectKeyPhrases

"EndOffset": 39 }, { "Text": "Amazon", "Score": 1.0, "BeginOffset": 43, "EndOffset": 49 } ]}}

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

319

Amazon Comprehend 開發人員指南DetectPiiEntities

DetectPiiEntities檢查輸入文字中包含個人識別資訊 (PII) 的實體,並傳回有關這些資訊的資訊。

請求語法

{ "LanguageCode": "string", "Text": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

LanguageCode (p. 320)

輸入文件的語言。目前,英文是唯一有效的語言。

類型:字串

有效值: en

必要:是Text (p. 320)

UTF-8 文字字串。字串大小上限為 100 KB。

類型:字串

長度限制:長度下限為 1。

必要:是

回應語法

{ "Entities": [ { "BeginOffset": number, "EndOffset": number, "Score": number, "Type": "string" } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

320

Amazon Comprehend 開發人員指南DetectPiiEntities

Entities (p. 320)

輸入文字中識別的 PII 實體集合。對於每個實體,回應會提供實體類型 (實體文字的開始和結束位置),以及 Amazon Comprehend 在偵測中的可信度等級。

類型:(陣列)PiiEntity (p. 521)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400TextSizeLimitExceededException

輸入文字的大小超出限制。使用較小的文件。

HTTP 狀態碼:400UnsupportedLanguageException

Amazon Comprehend 無法處理輸入文字的語言。對於自訂實體識別 API,僅接受英文、西班牙文、法文、義大利文、德文或葡萄牙文。如需支援的語言清單,支援的語言Comprehend 在開發人員指南中)。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

321

Amazon Comprehend 開發人員指南DetectSentiment

DetectSentiment檢查文本並返回流行情緒的推論(POSITIVE、NEUTRAL、MIXED, 或NEGATIVE。

請求語法

{ "LanguageCode": "string", "Text": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

LanguageCode (p. 322)

輸入文件的語言。您可以指定 Amazon Comprehend 支援的任何主要語言。所有文件必須使用相同語言。

類型:字串

有效值: en | es | fr | de | it | pt | ar | hi | ja | ko | zh | zh-TW

必要:是Text (p. 322)

UTF-8 文字字串。字串大小上限為 5 KB。

類型:字串

長度限制:長度下限為 1。

必要:是

回應語法

{ "Sentiment": "string", "SentimentScore": { "Mixed": number, "Negative": number, "Neutral": number, "Positive": number }}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

322

Amazon Comprehend 開發人員指南DetectSentiment

Sentiment (p. 322)

Amazon Comprehend 的推斷情緒具有最高的信心水平。

類型:字串

有效值: POSITIVE | NEGATIVE | NEUTRAL | MIXED

SentimentScore (p. 322)

列出情緒及其對應信賴等級的物件。

類型:SentimentScore (p. 529) 物件

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400TextSizeLimitExceededException

輸入文字的大小超出限制。使用較小的文件。

HTTP 狀態碼:400UnsupportedLanguageException

亞馬遜無法處理輸入文字的語言。對於自訂實體識別 API,僅接受英文、西班牙文、法文、義大利文、德文或葡萄牙文。如需支援的語言清單,支援的語言Comprehend 在開發人員指南中)。

HTTP 狀態碼:400

範例偵測情緒

如果輸入的文字是「今天是我的生日,我很高興。 「,操作將傳回以下回應:

{ "SentimentScore": { "Mixed": 0.0033542951568961143, "Positive": 0.9869875907897949, "Neutral": 0.008563132025301456, "Negative": 0.0010949420975521207 }, "Sentiment": "POSITIVE", } }

323

Amazon Comprehend 開發人員指南DetectSyntax

DetectSyntax檢查文本的語法和文檔中單詞的語音部分。如需詳細資訊,請參閱「」語法Comprehend 在開發人員指南中)。

請求語法{ "LanguageCode": "string", "Text": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

LanguageCode (p. 325)

輸入文件的語言代碼。您可以指定 Amazon Comprehend 支援的任何語言:德文 (「de」)、英文(「en」)、西班牙文 (「es」)、法文 (「fr」)、義大利文 (「it」) 或葡萄牙文 (「pt」)。

類型:字串

有效值: en | es | fr | de | it | pt

必要:是Text (p. 325)

UTF-8 字串。字串大小上限為 5 KB。

類型:字串

長度限制:長度下限為 1。

必要:是

回應語法{ "SyntaxTokens": [ { "BeginOffset": number, "EndOffset": number, "PartOfSpeech": { "Score": number, "Tag": "string" }, "Text": "string", "TokenId": number } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

325

Amazon Comprehend 開發人員指南DetectSyntax

服務會傳回下列 JSON 格式的資料。

SyntaxTokens (p. 325)

描述文字的語法權杖集合。對於每個記號,回應會提供文字、權杖類型、文字開始和結束的位置,以及Amazon Comprehend 認為權杖正確的可信度等級。如需權杖類型清單,請參閱語法Comprehend 在開發人員指南中)。

類型:的陣列SyntaxToken (p. 530)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400TextSizeLimitExceededException

輸入文字的大小超出限制。使用較小的文件。

HTTP 狀態碼:400UnsupportedLanguageException

Amazon Comprehend 無法處理輸入文字的語言。對於自訂實體識別 API,僅接受英文、西班牙文、法文、義大利文、德文或葡萄牙文。如需支援的語言清單,支援的語言Comprehend 在開發人員指南中)。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS用於的開發套 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

326

Amazon Comprehend 開發人員指南ImportModel

ImportModel建立複製您匯入的來源自訂模型的新自訂模型。來源模型可以位於您的 AWS 帳戶或其他帳戶中。

如果來源模型位於另一個 AWS 帳戶中,則其必須具有以資源為基礎的政策,授權您匯入該模型。

來源模型必須與匯入時使用的 AWS 區域。您無法匯入位於不同區域的模型。

請求語法

{ "DataAccessRoleArn": "string", "ModelKmsKeyId": "string", "ModelName": "string", "SourceModelArn": "string", "Tags": [ { "Key": "string", "Value": "string" } ], "VersionName": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

DataAccessRoleArn (p. 327)

AWS Identity or Management (IAM) 角色的 Amazon Resource Name (ARN),此角色 AmazonComprehend 角色允許 Amazon Key Management Service (KMS) 加密或解密自訂模型。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否ModelKmsKeyId (p. 327)

Amazon ComprehAWS Key Management Service (KMS) 鑰 ID,此金鑰 ID 用於加密訓練的自訂模型。所以此 ModelKmsKeyId 可以是下列格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否

327

Amazon Comprehend 開發人員指南ImportModel

ModelName (p. 327)

要指派給由此匯入在 Amazon Comprehend 中建立的自訂模型的名稱。

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必要:否SourceModelArn (p. 327)

要匯入的自訂模型的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier|entity-recognizer)/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是Tags (p. 327)

要與此匯入所建立的自訂模型相關聯的標籤。標籤是將作為中繼資料加入 Amazon Comprehend 使用的資源中繼資料的索引鍵值組。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

類型:的陣列Tag (p. 531)對象

必要:否VersionName (p. 327)

指定給此匯入所建立之自訂模型的版本名稱。版本名稱最多 256 個字元。允許使用英數字元、連字號 (-)和底線 (_)。在帳戶/AWS 區域使用相同分類器名稱的所有型號中,版本名稱必須是唯一的。

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必要:否

回應語法

{ "ModelArn": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

328

Amazon Comprehend 開發人員指南ImportModel

ModelArn (p. 328)

正在匯入的自訂模型的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier|entity-recognizer)/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400KmsKeyValidationException

無法驗證輸入的 KMS 客戶管理金鑰 (CMK)。驗證金鑰並重新輸入。

HTTP 狀態碼:400ResourceInUseException

指定的資源名稱已在使用。請使用不同的名稱,然後再試一次。

HTTP 狀態碼:400ResourceLimitExceededException

已超過每個帳號的資源數目上限。請檢閱資源,然後再次嘗試您的要求。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的資源 ARN。請檢查 ARN,然後再試一次。

HTTP 狀態碼:400ResourceUnavailableException

指定的資源不可用。請檢查資源,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

329

Amazon Comprehend 開發人員指南ImportModel

TooManyTagsException

請求包含的標籤數量超過資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

330

Amazon Comprehend 開發人員指南ListDocumentClassificationJobs

ListDocumentClassificationJobs取得已提交的文件分類任務清單。

請求語法{ "Filter": { "JobName": "string", "JobStatus": "string", "SubmitTimeAfter": number, "SubmitTimeBefore": number }, "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

Filter (p. 331)

篩選傳回的工作。您可以依工作的名稱、狀態或提交的日期和時間來篩選任務。您一次只能設定一個過濾器。

類型:DocumentClassificationJobFilter (p. 457) 物件

必要:否MaxResults (p. 331)

傳回結果的最大數量。預設為 100。

類型:整數

有效範圍:最小值為 1。最大值為 500。

必要:否NextToken (p. 331)

識別下一頁的結果。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法{ "DocumentClassificationJobPropertiesList": [ { "DataAccessRoleArn": "string", "DocumentClassifierArn": "string",

331

Amazon Comprehend 開發人員指南ListDocumentClassificationJobs

"EndTime": number, "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] } } ], "NextToken": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

DocumentClassificationJobPropertiesList (p. 331)

包含傳回之每個工作屬性的清單。

類型:陣列DocumentClassificationJobProperties (p. 458)對象NextToken (p. 331)

識別下一頁的結果。

類型:字串

長度限制:長度下限為 1。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidFilterException

為操作指定的過濾器無效。請指定不同的篩選。

332

Amazon Comprehend 開發人員指南ListDocumentClassificationJobs

HTTP 狀態碼:400InvalidRequestException

請求無效。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適合的開發套 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

333

Amazon Comprehend 開發人員指南ListDocumentClassifiers

ListDocumentClassifiers取得已建立的文件分類器清單。

請求語法{ "Filter": { "DocumentClassifierName": "string", "Status": "string", "SubmitTimeAfter": number, "SubmitTimeBefore": number }, "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

Filter (p. 334)

篩選傳回的工作。您可以依工作名稱、狀態或提交工作的日期及時間來篩選任務。您一次只能設定一個篩選。

類型:DocumentClassifierFilter (p. 461) 物件

必要:否MaxResults (p. 334)

每頁傳回結果的最大數量。預設為 100。

類型:整數

有效範圍:最小值為 1。最大值為 500。

必要:否NextToken (p. 334)

識別下一頁傳回結果。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法{ "DocumentClassifierPropertiesList": [ { "ClassifierMetadata": { "EvaluationMetrics": { "Accuracy": number,

334

Amazon Comprehend 開發人員指南ListDocumentClassifiers

"F1Score": number, "HammingLoss": number, "MicroF1Score": number, "MicroPrecision": number, "MicroRecall": number, "Precision": number, "Recall": number }, "NumberOfLabels": number, "NumberOfTestDocuments": number, "NumberOfTrainedDocuments": number }, "DataAccessRoleArn": "string", "DocumentClassifierArn": "string", "EndTime": number, "InputDataConfig": { "AugmentedManifests": [ { "AnnotationDataS3Uri": "string", "AttributeNames": [ "string" ], "DocumentType": "string", "S3Uri": "string", "SourceDocumentsS3Uri": "string", "Split": "string" } ], "DataFormat": "string", "LabelDelimiter": "string", "S3Uri": "string", "TestS3Uri": "string" }, "LanguageCode": "string", "Message": "string", "Mode": "string", "ModelKmsKeyId": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SourceModelArn": "string", "Status": "string", "SubmitTime": number, "TrainingEndTime": number, "TrainingStartTime": number, "VersionName": "string", "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] } } ], "NextToken": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

DocumentClassifierPropertiesList (p. 334)

包含傳回之每個工作屬性的清單。

335

Amazon Comprehend 開發人員指南ListDocumentClassifiers

類型:陣列DocumentClassifierProperties (p. 465)對象NextToken (p. 334)

識別下一頁傳回結果。

類型:字串

長度限制:長度下限為 1。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:HTTP 狀態碼:500InvalidFilterException

為操作指定的篩選器無效。請指定不同的篩選。

HTTP 狀態碼:HTTP 狀態碼:400InvalidRequestException

請求無效。

HTTP 狀態碼:HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

336

Amazon Comprehend 開發人員指南ListDocumentClassifierSummaries

ListDocumentClassifierSummaries取得已建立的文件分類器摘要清單

請求語法{ "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

MaxResults (p. 337)

每頁傳回結果的數量上限。預設為 100。

類型:整數

有效範圍:最小值為 1。最大值為 500。

必要:否NextToken (p. 337)

識別下一頁的結果,以傳回結果的下一頁。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法{ "DocumentClassifierSummariesList": [ { "DocumentClassifierName": "string", "LatestVersionCreatedAt": number, "LatestVersionName": "string", "LatestVersionStatus": "string", "NumberOfVersions": number } ], "NextToken": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

337

Amazon Comprehend 開發人員指南ListDocumentClassifierSummaries

DocumentClassifierSummariesList (p. 337)

文件分類器的摘要清單。

類型:的DocumentClassifierSummary (p. 469)對象NextToken (p. 337)

識別下一頁的結果,以傳回結果的下一頁。

類型:字串

長度限制:長度下限為 1。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

338

Amazon Comprehend 開發人員指南ListDominantLanguageDetectionJobs

ListDominantLanguageDetectionJobs取得已提交的主要語言偵測任務清單。

請求語法{ "Filter": { "JobName": "string", "JobStatus": "string", "SubmitTimeAfter": number, "SubmitTimeBefore": number }, "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

Filter (p. 339)

篩選傳回的工作。您可以依工作名稱、狀態或提交工作的日期和時間來篩選任務。您一次只能設定一個篩選。

類型:DominantLanguageDetectionJobFilter (p. 474) 物件

必要:否MaxResults (p. 339)

每個頁面傳回結果的最大數量。預設為 100。

類型:整數

有效範圍:最小值為 1。最大值為 500。

必要:否NextToken (p. 339)

識別下一頁的結果。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法{ "DominantLanguageDetectionJobPropertiesList": [ { "DataAccessRoleArn": "string", "EndTime": number,

339

Amazon Comprehend 開發人員指南ListDominantLanguageDetectionJobs

"InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] } } ], "NextToken": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

DominantLanguageDetectionJobPropertiesList (p. 339)

包含傳回之每個工作之屬性的清單。

類型:陣列DominantLanguageDetectionJobProperties (p. 475)對象NextToken (p. 339)

識別下一頁的結果。

類型:字串

長度限制:長度下限為 1。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidFilterException

為操作指定的過濾器無效。請指定不同的篩選。

340

Amazon Comprehend 開發人員指南ListDominantLanguageDetectionJobs

HTTP 狀態碼:400InvalidRequestException

請求無效。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

341

Amazon Comprehend 開發人員指南ListEndpoints

ListEndpoints取得您已建立的所有現有端點的清單。如需端點資訊,請參閱管理端點。

請求語法{ "Filter": { "CreationTimeAfter": number, "CreationTimeBefore": number, "ModelArn": "string", "Status": "string" }, "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

Filter (p. 342)

過濾傳回的端點。您可以依端點名稱、型號、狀態或建立端點的日期和時間來篩選端點。您一次只能設定一個篩選。

類型:EndpointFilter (p. 478) 物件

必要:否MaxResults (p. 342)

每頁傳回結果的最大數量。預設為 100。

類型:整數

有效範圍:最小值為 1。最大值為 500。

必要:否NextToken (p. 342)

識別下一頁的結果。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法{ "EndpointPropertiesList": [ { "CreationTime": number, "CurrentInferenceUnits": number,

342

Amazon Comprehend 開發人員指南ListEndpoints

"DataAccessRoleArn": "string", "DesiredDataAccessRoleArn": "string", "DesiredInferenceUnits": number, "DesiredModelArn": "string", "EndpointArn": "string", "LastModifiedTime": number, "Message": "string", "ModelArn": "string", "Status": "string" } ], "NextToken": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

EndpointPropertiesList (p. 342)

顯示服務為回應要求而擷取的端點內容清單。

類型:陣列EndpointProperties (p. 479)對象NextToken (p. 342)

識別下一頁的結果。

類型:字串

長度限制:長度下限為 1。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面

343

Amazon Comprehend 開發人員指南ListEntitiesDetectionJobs

ListEntitiesDetectionJobs取得已提交的實體偵測任務清單。

請求語法{ "Filter": { "JobName": "string", "JobStatus": "string", "SubmitTimeAfter": number, "SubmitTimeBefore": number }, "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

Filter (p. 345)

篩選傳回的工作。您可以依工作名稱、狀態或提交工作的日期和時間來篩選任務。您一次只能設定一個過濾器。

類型:EntitiesDetectionJobFilter (p. 482) 物件

必要:否MaxResults (p. 345)

每個頁面傳回結果的最大數量。預設為 100。

類型:整數

有效範圍:最小值為 1。最大值為 500。

必要:否NextToken (p. 345)

識別下一頁傳回結果。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法{ "EntitiesDetectionJobPropertiesList": [ { "DataAccessRoleArn": "string", "EndTime": number, "EntityRecognizerArn": "string",

345

Amazon Comprehend 開發人員指南ListEntitiesDetectionJobs

"InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "LanguageCode": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] } } ], "NextToken": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

EntitiesDetectionJobPropertiesList (p. 345)

包含傳回之每個工作之屬性的清單。

類型:陣列EntitiesDetectionJobProperties (p. 483)對象NextToken (p. 345)

識別下一頁傳回結果。

類型:字串

長度限制:長度下限為 1。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:HTTP 狀態碼:500InvalidFilterException

為操作指定的過濾器無效。請指定不同的篩選器。

346

Amazon Comprehend 開發人員指南ListEntitiesDetectionJobs

HTTP 狀態碼:HTTP 狀態碼:400InvalidRequestException

請求無效。

HTTP 狀態碼:HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於以下位 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

347

Amazon Comprehend 開發人員指南ListEntityRecognizers

ListEntityRecognizers取得已建立的所有實體辨識器屬性清單,包含目前訓練中的辨識器。可讓您根據狀態和提交時間等條件篩選辨識器清單。此呼叫會傳回清單中最多 500 個實體辨識器,清單中預設數目為 100 個辨識器。

此清單的結果並非按照任何特定的順序。請獲取列表並根據需要在本地進行排序。

請求語法{ "Filter": { "RecognizerName": "string", "Status": "string", "SubmitTimeAfter": number, "SubmitTimeBefore": number }, "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

Filter (p. 348)

篩選傳回的實體清單。可依據篩選Status、SubmitTimeBefore, 或SubmitTimeAfter。您一次只能設定一個篩選。

類型:EntityRecognizerFilter (p. 493) 物件

必要:否MaxResults (p. 348)

每頁傳回結果的數量上限。預設為 100。

類型:整數

有效範圍:最小值為 1。最大值為 500。

必要:否NextToken (p. 348)

識別下一頁的回傳結果。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法{ "EntityRecognizerPropertiesList": [

348

Amazon Comprehend 開發人員指南ListEntityRecognizers

{ "DataAccessRoleArn": "string", "EndTime": number, "EntityRecognizerArn": "string", "InputDataConfig": { "Annotations": { "S3Uri": "string", "TestS3Uri": "string" }, "AugmentedManifests": [ { "AnnotationDataS3Uri": "string", "AttributeNames": [ "string" ], "DocumentType": "string", "S3Uri": "string", "SourceDocumentsS3Uri": "string", "Split": "string" } ], "DataFormat": "string", "Documents": { "InputFormat": "string", "S3Uri": "string", "TestS3Uri": "string" }, "EntityList": { "S3Uri": "string" }, "EntityTypes": [ { "Type": "string" } ] }, "LanguageCode": "string", "Message": "string", "ModelKmsKeyId": "string", "RecognizerMetadata": { "EntityTypes": [ { "EvaluationMetrics": { "F1Score": number, "Precision": number, "Recall": number }, "NumberOfTrainMentions": number, "Type": "string" } ], "EvaluationMetrics": { "F1Score": number, "Precision": number, "Recall": number }, "NumberOfTestDocuments": number, "NumberOfTrainedDocuments": number }, "SourceModelArn": "string", "Status": "string", "SubmitTime": number, "TrainingEndTime": number, "TrainingStartTime": number, "VersionName": "string", "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ],

349

Amazon Comprehend 開發人員指南ListEntityRecognizers

"Subnets": [ "string" ] } } ], "NextToken": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

EntityRecognizerPropertiesList (p. 348)

實體識別器的屬性列表。

類型:陣列EntityRecognizerProperties (p. 498)對象NextToken (p. 348)

識別下一頁的回傳結果。

類型:字串

長度限制:長度下限為 1。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidFilterException

為操作指定的篩選器無效。請指定不同的篩選。

HTTP 狀態碼:400InvalidRequestException

請求無效。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件

350

Amazon Comprehend 開發人員指南ListEntityRecognizerSummaries

ListEntityRecognizerSummaries取得您所建立的實體辨識器摘要清單。

請求語法{ "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

MaxResults (p. 352)

每筆回傳結果的最大數量。預設為 100。

類型:整數

有效範圍:最小值為 1。請求頻率上限為 500。

必要:否NextToken (p. 352)

識別下一頁的結果傳回。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法{ "EntityRecognizerSummariesList": [ { "LatestVersionCreatedAt": number, "LatestVersionName": "string", "LatestVersionStatus": "string", "NumberOfVersions": number, "RecognizerName": "string" } ], "NextToken": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

352

Amazon Comprehend 開發人員指南ListEntityRecognizerSummaries

EntityRecognizerSummariesList (p. 352)

清單實體辨識器摘要。

類型:的陣列EntityRecognizerSummary (p. 501)對象NextToken (p. 352)

清單實體辨識器摘要。

類型:字串

長度限制:長度下限為 1。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

353

Amazon Comprehend 開發人員指南ListEventsDetectionJobs

ListEventsDetectionJobs取得已提交的事件偵測任務清單。

請求語法

{ "Filter": { "JobName": "string", "JobStatus": "string", "SubmitTimeAfter": number, "SubmitTimeBefore": number }, "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱〈請參閱〉一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

Filter (p. 354)

篩選傳回的工作。您可以依工作名稱、狀態或提交工作的日期和時間來篩選任務。您一次只能設定一個篩選。

類型:EventsDetectionJobFilter (p. 505) 物件

必要:否MaxResults (p. 354)

每個頁面傳回結果的最大數量。

類型:整數

有效範圍:最小值為 1。最大值為 500。

必要:否NextToken (p. 354)

識別下一頁的結果。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法

{ "EventsDetectionJobPropertiesList": [ { "DataAccessRoleArn": "string",

354

Amazon Comprehend 開發人員指南ListEventsDetectionJobs

"EndTime": number, "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "LanguageCode": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "TargetEventTypes": [ "string" ] } ], "NextToken": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

EventsDetectionJobPropertiesList (p. 354)

包含傳回之每個工作之屬性的清單。

類型:陣列的EventsDetectionJobProperties (p. 506)對象NextToken (p. 354)

識別下一頁的結果。

類型:字串

長度限制:長度下限為 1。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:HTTP 狀態碼:500InvalidFilterException

為操作指定的篩選無效。請指定不同的篩選。

HTTP 狀態碼:HTTP 狀態碼:400

355

Amazon Comprehend 開發人員指南ListEventsDetectionJobs

InvalidRequestException

請求無效。

HTTP 狀態碼:HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

356

Amazon Comprehend 開發人員指南ListKeyPhrasesDetectionJobs

ListKeyPhrasesDetectionJobs取得已提交的金鑰片語偵測任務清單。

請求語法{ "Filter": { "JobName": "string", "JobStatus": "string", "SubmitTimeAfter": number, "SubmitTimeBefore": number }, "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

Filter (p. 357)

篩選傳回的工作。您可以依工作名稱、狀態或提交工作的日期和時間來篩選任務。您一次只能設定一個篩選。

類型:KeyPhrasesDetectionJobFilter (p. 511) 物件

必要:否MaxResults (p. 357)

每個頁面傳回結果的最大數量。預設為 100。

類型:整數

有效範圍:最小值為 1。最大值為 500。

必要:否NextToken (p. 357)

識別下一頁的結果相關資訊。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法{ "KeyPhrasesDetectionJobPropertiesList": [ { "DataAccessRoleArn": "string", "EndTime": number,

357

Amazon Comprehend 開發人員指南ListKeyPhrasesDetectionJobs

"InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "LanguageCode": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] } } ], "NextToken": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

KeyPhrasesDetectionJobPropertiesList (p. 357)

包含傳回之每個工作之屬性的清單。

類型:陣列KeyPhrasesDetectionJobProperties (p. 512)對象NextToken (p. 357)

識別下一頁的結果相關資訊。

類型:字串

長度限制:長度下限為 1。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidFilterException

為操作指定的過濾器無效。請指定不同的篩選。

358

Amazon Comprehend 開發人員指南ListKeyPhrasesDetectionJobs

HTTP 狀態碼:400InvalidRequestException

請求無效。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

359

Amazon Comprehend 開發人員指南ListPiiEntitiesDetectionJobs

ListPiiEntitiesDetectionJobs取得已提交的 PII 實體偵測任務清單。

請求語法{ "Filter": { "JobName": "string", "JobStatus": "string", "SubmitTimeAfter": number, "SubmitTimeBefore": number }, "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

Filter (p. 360)

篩選傳回的工作。您可以依工作名稱、狀態或提交工作的日期和時間來篩選任務。您一次只能設定一個篩選。

類型:PiiEntitiesDetectionJobFilter (p. 517) 物件

必要:否MaxResults (p. 360)

每頁傳回結果的最大數量。

類型:整數

有效範圍:最小值為 1。最大值為 500。

必要:否NextToken (p. 360)

識別下一頁的結果傳回。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法{ "NextToken": "string", "PiiEntitiesDetectionJobPropertiesList": [ { "DataAccessRoleArn": "string", "EndTime": number,

360

Amazon Comprehend 開發人員指南ListPiiEntitiesDetectionJobs

"InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "LanguageCode": "string", "Message": "string", "Mode": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "RedactionConfig": { "MaskCharacter": "string", "MaskMode": "string", "PiiEntityTypes": [ "string" ] }, "SubmitTime": number } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

NextToken (p. 360)

識別下一頁的結果傳回。

類型:字串

長度限制:長度下限為 1。PiiEntitiesDetectionJobPropertiesList (p. 360)

包含傳回之每個工作之屬性的清單。

類型:的陣列PiiEntitiesDetectionJobProperties (p. 518)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:HTTP 狀態碼:500InvalidFilterException

無效的操作指定的過濾。請指定不同的篩選。

361

Amazon Comprehend 開發人員指南ListPiiEntitiesDetectionJobs

HTTP 狀態碼:HTTP 狀態碼:400InvalidRequestException

請求無效。

HTTP 狀態碼:HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

362

Amazon Comprehend 開發人員指南ListSentimentDetectionJobs

ListSentimentDetectionJobs取得已提交的情緒偵測任務清單。

請求語法{ "Filter": { "JobName": "string", "JobStatus": "string", "SubmitTimeAfter": number, "SubmitTimeBefore": number }, "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

Filter (p. 363)

篩選傳回的工作。您可以依工作名稱、狀態或提交工作的日期和時間來篩選任務。您一次只能設定一個篩選。

類型:SentimentDetectionJobFilter (p. 525) 物件

必要:否MaxResults (p. 363)

每個頁面傳回結果的最大數量。預設為 100。

類型:整數

有效範圍:最小值為 1。最大值為 500。

必要:否NextToken (p. 363)

識別下一頁的結果。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法{ "NextToken": "string", "SentimentDetectionJobPropertiesList": [ { "DataAccessRoleArn": "string",

363

Amazon Comprehend 開發人員指南ListSentimentDetectionJobs

"EndTime": number, "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "LanguageCode": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] } } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

NextToken (p. 363)

識別下一頁的結果。

類型:字串

長度限制:長度下限為 1。SentimentDetectionJobPropertiesList (p. 363)

包含傳回之每個工作之屬性的清單。

類型:陣列SentimentDetectionJobProperties (p. 526)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidFilterException

無效的操作指定的過濾。請指定不同的篩選。

364

Amazon Comprehend 開發人員指南ListSentimentDetectionJobs

HTTP 狀態碼:400InvalidRequestException

請求無效。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

365

Amazon Comprehend 開發人員指南ListTagsForResource

ListTagsForResource列出與指定 Amazon Resource 相關聯的所有標籤。

請求語法{ "ResourceArn": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ResourceArn (p. 366)

您所查詢的指定 Amazon Comprehend Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是

回應語法{ "ResourceArn": "string", "Tags": [ { "Key": "string", "Value": "string" } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

ResourceArn (p. 366)

您所查詢的指定 Amazon Comprehend Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

366

Amazon Comprehend 開發人員指南ListTagsForResource

Tags (p. 366)

與被查詢的 Amazon Comprehend 資源相關聯的標籤。標籤是索引鍵值組,可將做為 AmazonComprehend 所使用的資源新增中繼資料。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

類型:的陣列Tag (p. 531)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的資源 ARN。請檢查 ARN,然後再試一次。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的 SDK JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

367

Amazon Comprehend 開發人員指南ListTargetedSentimentDetectionJobs

ListTargetedSentimentDetectionJobs取得已提交的目標情緒偵測任務清單。

請求語法{ "Filter": { "JobName": "string", "JobStatus": "string", "SubmitTimeAfter": number, "SubmitTimeBefore": number }, "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

Filter (p. 368)

篩選傳回的工作。您可以依工作的名稱、狀態或提交工作的日期和時間來篩選工作。您一次只能設定一個過濾。

類型:TargetedSentimentDetectionJobFilter (p. 532) 物件

必要:否MaxResults (p. 368)

每個頁面傳回結果的最大數量。預設為 100。

類型:整數

有效範圍:最小值為 1。最大值為 500。

必要:否NextToken (p. 368)

識別下一頁的結果。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法{ "NextToken": "string", "TargetedSentimentDetectionJobPropertiesList": [ { "DataAccessRoleArn": "string",

368

Amazon Comprehend 開發人員指南ListTargetedSentimentDetectionJobs

"EndTime": number, "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "LanguageCode": "string", "Message": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] } } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

NextToken (p. 368)

識別下一頁的結果。

類型:字串

長度限制:長度下限為 1。TargetedSentimentDetectionJobPropertiesList (p. 368)

包含傳回之每個工作之屬性的清單。

類型:陣列TargetedSentimentDetectionJobProperties (p. 533)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidFilterException

為操作指定的過濾器無效。請指定不同的篩選。

369

Amazon Comprehend 開發人員指南ListTargetedSentimentDetectionJobs

HTTP 狀態碼:400InvalidRequestException

請求無效。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

370

Amazon Comprehend 開發人員指南ListTopicsDetectionJobs

ListTopicsDetectionJobs取得已提交的主題偵測任務清單。

請求語法{ "Filter": { "JobName": "string", "JobStatus": "string", "SubmitTimeAfter": number, "SubmitTimeBefore": number }, "MaxResults": number, "NextToken": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

Filter (p. 371)

篩選傳回的工作。您可以依工作名稱、狀態或提交工作的日期和時間來篩選工作。您一次只能設定一個篩選。

類型:TopicsDetectionJobFilter (p. 536) 物件

必要:否MaxResults (p. 371)

本次頁面傳回結果的最大數量。預設為 100。

類型:整數

有效範圍:最小值為 1。最大值為 500。

必要:否NextToken (p. 371)

識別下一頁的結果的下一頁面的傳回結果。

類型:字串

長度限制:長度下限為 1。

必要:否

回應語法{ "NextToken": "string", "TopicsDetectionJobPropertiesList": [ { "DataAccessRoleArn": "string",

371

Amazon Comprehend 開發人員指南ListTopicsDetectionJobs

"EndTime": number, "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobArn": "string", "JobId": "string", "JobName": "string", "JobStatus": "string", "Message": "string", "NumberOfTopics": number, "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "SubmitTime": number, "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] } } ]}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

NextToken (p. 371)

識別下一頁的結果的下一頁面的傳回結果。

類型:字串

長度限制:長度下限為 1。TopicsDetectionJobPropertiesList (p. 371)

包含傳回之每個工作之屬性的清單。

類型:陣列的TopicsDetectionJobProperties (p. 537)對象

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:HTTP 狀態碼:500InvalidFilterException

針對操作指定的過濾器無效的操作過濾器。請指定不同的篩選器。

372

Amazon Comprehend 開發人員指南ListTopicsDetectionJobs

HTTP 狀態碼:HTTP 狀態碼:400InvalidRequestException

請求無效。

HTTP 狀態碼:HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

373

Amazon Comprehend 開發人員指南PutResourcePolicy

PutResourcePolicy將以資源為基礎的政策連接到自訂模型。您可以使用此政策授權另一個 AWS 帳戶中的實體匯入自訂模型,並在其帳戶中將該模型複寫到 Amazon Comprehend 中。

請求語法{ "PolicyRevisionId": "string", "ResourceArn": "string", "ResourcePolicy": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

PolicyRevisionId (p. 374)

Amazon Comprehend 指派給您正在更新之政策的修訂識別碼。如果您要建立沒有先前版本的新原則,請勿使用此參數。Amazon Comprehend 為您創建修訂 ID。

類型:字串

長度限制:長度上限為 64。

模式:[0-9A-Fa-f]+

必要:否ResourceArn (p. 374)

要對其連接政策的自訂模型的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier|entity-recognizer)/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是ResourcePolicy (p. 374)

要連接到自訂模型 JSON 以資源為基礎的政策。提供您的 JSON 作為一個 UTF-8 編碼的字符串,沒有換行符。若要為您的政策提供有效的 JSON,請使用雙引號括住屬性名稱和值。如果 JSON 主體也用雙引號括起來,那麼您必須逸出策略內的雙引號:

"{\"attribute\": \"value\", \"attribute\": [\"value\"]}"

若要避免逸出引號,您可以使用單引號括住政策,並用雙引號括住 JSON 名稱和值。

'{"attribute": "value", "attribute": ["value"]}'

類型:字串

長度限制:長度下限為 1。長度上限為 200。

374

Amazon Comprehend 開發人員指南PutResourcePolicy

模式:[\u0009\u000A\u000D\u0020-\u00FF]+

必要:是

回應語法

{ "PolicyRevisionId": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

PolicyRevisionId (p. 375)

政策的修訂版 ID。每次修改政策時,Amazon Comprehend 都會指派一個新的修訂 ID,並刪除原則的先前版本。

類型:字串

長度限制:長度上限為 64。

模式:[0-9A-Fa-f]+

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的資源 ARN。請檢查 ARN,然後再試一次。

HTTP 狀態碼:400

範例自訂模型以資源為基礎的政策

以下範例顯示一個以資源為基礎的政策,適用於 Amazon Comprehend 中的自訂模型政策。該政策允許另一個 AWS 帳戶中的實體匯入該政策所附加的模型。該策略指定的授權實體Principal屬性,並指定模型版本的 ARNResourceAttributes。

375

Amazon Comprehend 開發人員指南PutResourcePolicy

{ "Version": "2017-01-01", "Statement": [ { "Effect": "Allow", "Action": "comprehend:ImportModel", "Resource": [ "arn:aws:comprehend:us-west-2:111122223333:document-classifier/foo/version/*" ], "Principal": { "AWS": "arn:aws:iam::444455556666:root" } } ]}

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

376

Amazon Comprehend 開發人員指南StartDocumentClassificationJob

StartDocumentClassificationJob啟動非同步文件分類任務。使用DescribeDocumentClassificationJob (p. 276)操作來追蹤任務的進度。

請求語法{ "ClientRequestToken": "string", "DataAccessRoleArn": "string", "DocumentClassifierArn": "string", "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobName": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "Tags": [ { "Key": "string", "Value": "string" } ], "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] }}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ClientRequestToken (p. 377)

請求的唯一識別符。如果您未設定用戶端請求權杖,Amazon Comprehend 會產生一個權杖。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-]+$

必要 否DataAccessRoleArn (p. 377)

AWS Identity and Access Management (IAM) 角色的 Amazon Comprehend ource Name (ARN)。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

377

Amazon Comprehend 開發人員指南StartDocumentClassificationJob

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要 是DocumentClassifierArn (p. 377)

用於處理任務之所要求之文件分類器的 Amazon 資源名稱 (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:document-classifier/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要 是InputDataConfig (p. 377)

指定工作輸入資料的格式和位置。

類型:InputDataConfig (p. 509) 物件

必要 是JobName (p. 377)

任務的識別符。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要 否OutputDataConfig (p. 377)

指定傳送輸出檔案的位置。

類型:OutputDataConfig (p. 515) 物件

必要 是Tags (p. 377)

與文件分類任務相關聯的標籤。標籤是索引鍵值組,可將中繼資料新增至 Amazon Comprehend Name所使用的資源中繼資料。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

類型:的陣列Tag (p. 531)對象

必要 否VolumeKmsKeyId (p. 377)

AWS Key Management Service (KMS) 金鑰的 AWS Key Management Service (KMS) 金鑰 AWS KeyManagement Service (KMS) 金鑰 ID 金鑰來加密連線到處理分析任務之 ML 運算執行個體的儲存磁碟區資料。所以此 VolumeKmsKeyId 可以是下列格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

378

Amazon Comprehend 開發人員指南StartDocumentClassificationJob

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要 否VpcConfig (p. 377)

選用的私有虛擬私人雲端 (VPC) 的組態參數,其中包含您用於文件分類工作的資源。如需詳細資訊,請參閱 Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要 否

回應語法{ "JobArn": "string", "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobArn (p. 379)

文件分類任務的 Amazon 資源名稱 (ARN)。它是任務的唯一、完全合格的識別符。其中包括 AWS 帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:document-classification-job/<job-id>

以下是範例任務 ARN:

arn:aws:comprehend:us-west-2:111122223333:document-classification-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

JobId (p. 379)

為任務所產生的識別符。若要取得任務的狀態,請使用要求:DescribeDocumentClassificationJob (p. 276)operation.

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

379

Amazon Comprehend 開發人員指南StartDocumentClassificationJob

JobStatus (p. 379)

任務的狀態:• 已提交-工作已收到並排入佇列等待處理。• 進度-Amazon Comprehend 正在處理任務。• 已完成-工作已順利完成,且輸出可用。• 失敗-任務未完成。如需詳細資訊,請使用DescribeDocumentClassificationJob (p. 276)operation.• 停止請求-Amazon Comprehend 已收到任務的停止請求,並正在處理請求。• 已停止-工作已成功停止,但未完成。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:HTTP 狀態碼:400KmsKeyValidationException

無法驗證輸入的 KMS 客戶管理金鑰 (CMK)。驗證金鑰並重新輸入金鑰。

HTTP 狀態碼:HTTP 狀態碼:400ResourceNotFoundException

找不到指定的資源 ARN。請檢查 ARN,然後再試一次。

HTTP 狀態碼:HTTP 狀態碼:400ResourceUnavailableException

指定的資源不可用。請檢查資源,然後再試一次。

HTTP 狀態碼:HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:HTTP 狀態碼:400TooManyTagsException

請求包含的標籤數量超過了可以與資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態碼:HTTP 狀態碼:400

380

Amazon Comprehend 開發人員指南StartDominantLanguageDetectionJob

StartDominantLanguageDetectionJob為文件集合啟動非同步主要語言偵測任務。使用DescribeDominantLanguageDetectionJob (p. 282)追蹤任務的狀態。

請求語法{ "ClientRequestToken": "string", "DataAccessRoleArn": "string", "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobName": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "Tags": [ { "Key": "string", "Value": "string" } ], "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] }}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ClientRequestToken (p. 382)

請求的唯一識別符。如果您未設定用戶端請求權杖,Amazon Comprehend 會產生一個權杖。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-]+$

必要:否DataAccessRoleArn (p. 382)

AWS Identity and Access Management (IAM) 的 Amazon Resource Name (ARN),可授予Amazon Comprehend N),Amazon Resource Name (ARN)。如需詳細資訊,請參閱 https://docs.aws.amazon.com/comprehend/latest/dg/access-control-managing-permissions.html#auth-role-permissions。

382

Amazon Comprehend 開發人員指南StartDominantLanguageDetectionJob

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:是InputDataConfig (p. 382)

指定工作輸入資料的格式和位置。

類型:InputDataConfig (p. 509) 物件

必要:是JobName (p. 382)

任務的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否OutputDataConfig (p. 382)

指定傳送輸出檔案的位置。

類型:OutputDataConfig (p. 515) 物件

必要:是Tags (p. 382)

與主要語言偵測任務相關聯的標籤。標籤是索引鍵值組,可將中繼資料新增至 Amazon Comprehend 使用的資源。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

類型:的陣列Tag (p. 531)對象

必要:否VolumeKmsKeyId (p. 382)

Amazon Comprehend 使用的 AWS Key Management Service (KMS) 金鑰來加密連線到處理分析任務的 ML 運算執行個體的儲存磁碟區資料。所以此 VolumeKmsKeyId 可以是以下格式之一:• KMS 金鑰 ID:KMS 金鑰"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否VpcConfig (p. 382)

選用的私有虛擬私人雲端 (VPC) 的組態參數,其中包含您用於主要語言偵測工作的資源。如需詳細資訊,請參閱 Amazon VPC。

383

Amazon Comprehend 開發人員指南StartDominantLanguageDetectionJob

類型:VpcConfig (p. 540) 物件

必要:否

回應語法{ "JobArn": "string", "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobArn (p. 384)

主要語言偵測任務的 Amazon Resource Name (ARN)。它是任務唯一、完全合格的識別符。它包括AWS 帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:dominant-language-detection-job/<job-id>

以下是範例工作 ARN:

arn:aws:comprehend:us-west-2:111122223333:dominant-language-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

JobId (p. 384)

為任務所產生的識別碼。若要取得任務的狀態,請使用此識別符DescribeDominantLanguageDetectionJob (p. 282)operation.

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

JobStatus (p. 384)

任務的狀態。• 已提交-工作已接收並排入佇列等待處理。• 進度-Amazon Comprehend 正在處理任務。• 已完成-工作已順利完成,且輸出可用。• 失敗-任務未完成。若要取得詳細資訊,請使

用DescribeDominantLanguageDetectionJob (p. 282)operation.

類型:字串

384

Amazon Comprehend 開發人員指南StartDominantLanguageDetectionJob

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400KmsKeyValidationException

無法驗證輸入的 KMS 客戶管理金鑰 (CMK)。驗證金鑰並重新輸入金鑰。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400TooManyTagsException

請求包含的標籤數量超過了可以與資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

385

Amazon Comprehend 開發人員指南StartEntitiesDetectionJob

StartEntitiesDetectionJob為文件集合啟動非同步實體偵測任務。使用DescribeEntitiesDetectionJob (p. 287)追蹤任務狀態的作業。

此 API 可用於標準實體偵測或自訂實體辨識。為了用於自定義實體識別,可選EntityRecognizerArn必須使用以提供對用於偵測自訂實體之辨識器的存取權。

請求語法{ "ClientRequestToken": "string", "DataAccessRoleArn": "string", "EntityRecognizerArn": "string", "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobName": "string", "LanguageCode": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "Tags": [ { "Key": "string", "Value": "string" } ], "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] }}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ClientRequestToken (p. 386)

請求的唯一識別符。如果您未設定用戶端請求權杖,Amazon Comprehend 會產生一個權杖。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-]+$

必要:否DataAccessRoleArn (p. 386)

AWS Identity in Access Management (IAM) 角色的 Amazon Resource Name (ARN),可授予 AmazonCompement (ARN) 的 AWS Identity in Access Management (IAM) 角色 Amazon Resource Name

386

Amazon Comprehend 開發人員指南StartEntitiesDetectionJob

(ARN)。如需詳細資訊,請參閱 https://docs.aws.amazon.com/comprehend/latest/dg/access-control-managing-permissions.html#auth-role-permissions。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:是EntityRecognizerArn (p. 386)

識別特定實體識別器的 Amazon Resource Name (ARN)。StartEntitiesDetectionJob。此 ARN是選擇性的,僅用於自訂實體辨識工作。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:entity-recognizer/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否InputDataConfig (p. 386)

指定工作輸入資料的格式和位置。

類型:InputDataConfig (p. 509) 物件

必要:是JobName (p. 386)

任務的識別符。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否LanguageCode (p. 386)

輸入文件的語言。所有文件都必須使用相同語言。您可以指定 Amazon Comprehend ment 支援的任何語言。如果使用自訂實體辨識,則會忽略此參數,並改用用於訓練模型的語言。

類型:字串

有效值: en | es | fr | de | it | pt | ar | hi | ja | ko | zh | zh-TW

必要:是OutputDataConfig (p. 386)

指定傳送輸出檔案的位置。

類型:OutputDataConfig (p. 515) 物件

必要:是

387

Amazon Comprehend 開發人員指南StartEntitiesDetectionJob

Tags (p. 386)

與實體偵測任務相關聯的標籤。標籤是索引鍵值組,可將中繼資料新增至 Amazon Compreement 使用的資源中。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

類型:的陣列Tag (p. 531)對象

必要:否VolumeKmsKeyId (p. 386)

AWS Key Management Service (KMS) 金鑰的 AWS Key Management Service (KMS) 金鑰ID,Amazon Comprehend ment 用來加密連線到處理分析任務的 ML 運算執行個體的儲存體磁碟區上的資料。所以此 VolumeKmsKeyId 可以是以下格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否VpcConfig (p. 386)

選擇性私有虛擬私人雲端 (VPC) 的組態參數,其中包含您用於實體偵測工作的資源。如需詳細資訊,請參閱 Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要:否

回應語法

{ "JobArn": "string", "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobArn (p. 388)

實體偵測任務的 Amazon Resource Name (ARN)。它是任務唯一、完全合格的識別符。其中包括 AWS帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:entities-detection-job/<job-id>

以下是任務 ARN 範例:

388

Amazon Comprehend 開發人員指南StartEntitiesDetectionJob

arn:aws:comprehend:us-west-2:111122223333:entities-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

JobId (p. 388)

任務所產生的識別符。若要取得工作狀態,請使用此識別碼搭配DescribeEntitiesDetectionJob (p. 287)operation.

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

JobStatus (p. 388)

任務的狀態。• 已提交-工作已接收並排入佇列等待處理。• 進度-Amazon Comprehend 正在處理任務。• 已完成-工作已順利完成,且輸出可用。• 失敗-任務未完成。若要取得詳細資訊,請使用DescribeEntitiesDetectionJob (p. 287)operation.• 停止請求-Amazon Comprehend 已收到任務的停止請求,並正在處理請求。• 已停止-工作已成功停止,但未完成。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400KmsKeyValidationException

無法驗證輸入的 KMS 客戶管理金鑰 (CMK)。驗證金鑰並重新輸入金鑰。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的資源 ARN。請檢查 ARN,然後再試一次。

389

Amazon Comprehend 開發人員指南StartEntitiesDetectionJob

HTTP 狀態碼:400ResourceUnavailableException

指定的資源不可用。請檢查資源,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400TooManyTagsException

請求包含的標籤數量超過了可以與資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的 SDK JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

390

Amazon Comprehend 開發人員指南StartEventsDetectionJob

StartEventsDetectionJob為文件集合啟動非同步事件偵測任務。

請求語法{ "ClientRequestToken": "string", "DataAccessRoleArn": "string", "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobName": "string", "LanguageCode": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "Tags": [ { "Key": "string", "Value": "string" } ], "TargetEventTypes": [ "string" ]}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ClientRequestToken (p. 391)

請求的唯一識別符。如果您未設定用戶端請求權杖,Amazon Comprehend 會產生一個權杖。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-]+$

必要:否DataAccessRoleArn (p. 391)

AWS Identity and Access Management (IAM) 角色的 Amazon Resource Name (ARN),可授予Amazon Comprehend ment 對輸入資料的讀取權限。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

391

Amazon Comprehend 開發人員指南StartEventsDetectionJob

必要:是InputDataConfig (p. 391)

指定工作輸入資料的格式和位置。

類型:InputDataConfig (p. 509) 物件

必要:是JobName (p. 391)

事件偵測任務的識別符。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否LanguageCode (p. 391)

輸入文件的語言代碼。

類型:字串

有效值: en

必要:是OutputDataConfig (p. 391)

指定傳送輸出檔案的位置。

類型:OutputDataConfig (p. 515) 物件

必要:是Tags (p. 391)

要與事件偵測工作相關聯的標籤。標籤是索引鍵值組,可將中繼資料新增至 Amazon Comprehend 使用的資源。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

類型:陣列Tag (p. 531)對象

必要:否TargetEventTypes (p. 391)

要在輸入文件中偵測的事件類型。

類型:字串陣列

陣列成員:項目數下限為 1。

長度限制:長度下限為 1。長度上限為 40。

模式:[A-Z_]*

必要:是

回應語法{

392

Amazon Comprehend 開發人員指南StartEventsDetectionJob

"JobArn": "string", "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobArn (p. 392)

事件偵測任務的 Amazon Resource Name (ARN)。它是任務唯一、完全合格的識別符。它包括 AWS 帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:events-detection-job/<job-id>

以下是範例任務 ARN:

arn:aws:comprehend:us-west-2:111122223333:events-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

JobId (p. 392)

請求的唯一識別符。如果您未設定用戶端請求權杖,Amazon Comprehend 會產生一個權杖。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

JobStatus (p. 392)

事件偵測任務的狀態。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:HTTP 狀態碼:500

393

Amazon Comprehend 開發人員指南StartEventsDetectionJob

InvalidRequestException

請求無效。

HTTP 狀態碼:HTTP 狀態碼:400KmsKeyValidationException

無法驗證輸入的 KMS 客戶管理金鑰 (CMK)。驗證金鑰並重新輸入金鑰。

HTTP 狀態碼:HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:HTTP 狀態碼:400TooManyTagsException

請求包含的標籤數量超過了可以與資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態碼:HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

394

Amazon Comprehend 開發人員指南StartKeyPhrasesDetectionJob

StartKeyPhrasesDetectionJob為文件集合啟動非同步金鑰片語偵測任務。使用DescribeKeyPhrasesDetectionJob (p. 295)用於追蹤任務的狀態的操作。

請求語法{ "ClientRequestToken": "string", "DataAccessRoleArn": "string", "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobName": "string", "LanguageCode": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "Tags": [ { "Key": "string", "Value": "string" } ], "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] }}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ClientRequestToken (p. 395)

請求的唯一識別符。如果您未設定用戶端請求權杖,Amazon Comprehend 會產生一個權杖。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-]+$

必要:否DataAccessRoleArn (p. 395)

AWS Identity the Access Management (IAM) 角色的 Amazon Resource Name (ARN),可授予 AmazonComprehend 予 Amazon Source Name (ARN)。如需詳細資訊,請參閱 https://docs.aws.amazon.com/comprehend/latest/dg/access-control-managing-permissions.html#auth-role-permissions。

395

Amazon Comprehend 開發人員指南StartKeyPhrasesDetectionJob

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:是InputDataConfig (p. 395)

指定工作輸入資料的格式和位置。

類型:InputDataConfig (p. 509) 物件

必要:是JobName (p. 395)

任務的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否LanguageCode (p. 395)

輸入文件的語言。您可以指定 Amazon Comprehend ement 支援的任何主要語言。所有文件必須使用相同語言。

類型:字串

有效值: en | es | fr | de | it | pt | ar | hi | ja | ko | zh | zh-TW

必要:是OutputDataConfig (p. 395)

指定傳送輸出檔案的位置。

類型:OutputDataConfig (p. 515) 物件

必要:是Tags (p. 395)

標籤與關鍵片語偵測任務相關聯。標籤是索引鍵值組,可將中繼資料新增至 Amazon Compreement 使用的資源。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

類型:的陣列Tag (p. 531)對象

必要:否VolumeKmsKeyId (p. 395)

AWS Key Management Service (KMS) 金鑰的識別碼 (KMS) 金鑰用來加密連線到處理任務的 ML 運算執行個體的儲存磁碟區資料。所以此 VolumeKmsKeyId 可以是下列格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

396

Amazon Comprehend 開發人員指南StartKeyPhrasesDetectionJob

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否VpcConfig (p. 395)

選用的私有虛擬私人雲端 (VPC) 的組態參數,其中包含您用於關鍵片語偵測工作的資源。如需詳細資訊,請參閱 Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要:否

回應語法

{ "JobArn": "string", "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobArn (p. 397)

金鑰片語偵測任務的 Amazon Resource Name (ARN)。它是任務唯一、完全合格的識別符。其中包括AWS 帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:key-phrases-detection-job/<job-id>

以下是範例任務 ARN 的範例:

arn:aws:comprehend:us-west-2:111122223333:key-phrases-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

JobId (p. 397)

為任務所產生的識別碼。若要取得任務的狀態,請使用此識別符搭配DescribeKeyPhrasesDetectionJob (p. 295)operation.

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

397

Amazon Comprehend 開發人員指南StartKeyPhrasesDetectionJob

JobStatus (p. 397)

任務的狀態。• 已提交-工作已接收並排入佇列等待處理。• 進度-Amazon Comprehend 正在處理任務。• 已完成-工作已順利完成,且輸出可用。• 失敗-任務未完成。若要取得詳細資訊,請使用DescribeKeyPhrasesDetectionJob (p. 295)operation.

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400KmsKeyValidationException

無法驗證輸入的 KMS 客戶管理金鑰 (CMK)。驗證金鑰並重新輸入金鑰。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400TooManyTagsException

請求包含的標籤數量超過了可以與資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript

398

Amazon Comprehend 開發人員指南StartPiiEntitiesDetectionJob

StartPiiEntitiesDetectionJob為文件集合啟動非同步 PII 實體偵測任務。

請求語法{ "ClientRequestToken": "string", "DataAccessRoleArn": "string", "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobName": "string", "LanguageCode": "string", "Mode": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "RedactionConfig": { "MaskCharacter": "string", "MaskMode": "string", "PiiEntityTypes": [ "string" ] }, "Tags": [ { "Key": "string", "Value": "string" } ]}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ClientRequestToken (p. 400)

請求的唯一識別碼。如果您未設定用戶端請求權杖,Amazon Comprehend 會產生一個權杖。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-]+$

必要:否DataAccessRoleArn (p. 400)

AWS Identity and Access Management (IAM) 角色的 Amazon Resource Name (ARN),可授予Amazon Comprehend 讀取您的輸入資料。

類型:字串

400

Amazon Comprehend 開發人員指南StartPiiEntitiesDetectionJob

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:是InputDataConfig (p. 400)

PII 實體偵測任務的輸入內容。

類型:InputDataConfig (p. 509) 物件

必要:是JobName (p. 400)

任務的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否LanguageCode (p. 400)

輸入文件的語言。是目前唯一有效的語言。

類型:字串

有效值: en

必要:是Mode (p. 400)

指定輸出是提供 PII 實體的位置 (位移),還是編輯 PII 實體的檔案。

類型:字串

有效值: ONLY_REDACTION | ONLY_OFFSETS

必要:是OutputDataConfig (p. 400)

為 PII 實體偵測工作的輸出提供設定參數。

類型:OutputDataConfig (p. 515) 物件

必要:是RedactionConfig (p. 400)

提供 PII 實體編輯的組態參數。

如果您設定Mode參數到ONLY_REDACTION。在這種情況下,您必須提供RedactionConfig定義,其中包括PiiEntityTypes參數。

類型:RedactionConfig (p. 524) 物件

必要:否

401

Amazon Comprehend 開發人員指南StartPiiEntitiesDetectionJob

Tags (p. 400)

要與 PII 實體偵測工作相關聯的標籤。標籤是索引鍵值組,可將中繼資料新增至 Amazon Comprehend所使用的資源。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

類型:陣列Tag (p. 531)對象

必要:否

回應語法{ "JobArn": "string", "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobArn (p. 402)

PII 實體偵測任務的 Amazon Resource Name (ARN)。它是任務的唯一、完全合格的識別符。其中包括AWS 帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:pii-entities-detection-job/<job-id>

以下是範例任務 ARN:

arn:aws:comprehend:us-west-2:111122223333:pii-entities-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

JobId (p. 402)

為任務所產生的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

JobStatus (p. 402)

任務的狀態。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

402

Amazon Comprehend 開發人員指南StartPiiEntitiesDetectionJob

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400KmsKeyValidationException

無法驗證輸入的 KMS 客戶管理金鑰 (CMK)。驗證金鑰並重新輸入。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400TooManyTagsException

請求包含的標籤數量超過資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的 SDK JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

403

Amazon Comprehend 開發人員指南StartSentimentDetectionJob

StartSentimentDetectionJob為文件集合啟動情緒偵測任務。使用DescribeSentimentDetectionJob (p. 303)追蹤任務的狀態的作業。

請求語法{ "ClientRequestToken": "string", "DataAccessRoleArn": "string", "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobName": "string", "LanguageCode": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "Tags": [ { "Key": "string", "Value": "string" } ], "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] }}

請求參數如需所有動作常見的參數相關資訊,請參閱〈請參閱〉一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ClientRequestToken (p. 404)

請求的唯一識別符。如果您未設定用戶端請求權杖,Amazon Comprehend 會產生一個權杖。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-]+$

必要:必要:否DataAccessRoleArn (p. 404)

AWS Identity and Access Management (IAM) 角色的 Amazon Resource Name (ARN),可授予 Amazon Comprehend 對您的輸入資料的讀取權。如需詳細資訊,請參閱 https://docs.aws.amazon.com/comprehend/latest/dg/access-control-managing-permissions.html#auth-role-permissions。

404

Amazon Comprehend 開發人員指南StartSentimentDetectionJob

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:必要:是InputDataConfig (p. 404)

指定工作輸入資料的格式和位置。

類型:InputDataConfig (p. 509) 物件

必要:必要:是JobName (p. 404)

任務的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:必要:否LanguageCode (p. 404)

輸入文件的語言。您可以指定 Amazon Comprehend 支援的任何主要語言。所有文件必須使用相同語言。

類型:字串

有效值: en | es | fr | de | it | pt | ar | hi | ja | ko | zh | zh-TW

必要:必要:是OutputDataConfig (p. 404)

指定傳送輸出檔案的位置。

類型:OutputDataConfig (p. 515) 物件

必要:必要:是Tags (p. 404)

要與情緒偵測任務相關聯的標籤。標籤是索引鍵值組,可將中繼資料新增至 Amazon Comprehend 使用的資源中繼資料。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

類型:的陣列Tag (p. 531)對象

必要:必要:否VolumeKmsKeyId (p. 404)

在連接到處理分析任務的 ML 運算執行個體的儲存體磁碟區上,Amazon Comprehend 用來加密資料的AWS Key Management Service (KMS) 金鑰來加密資料的 AWS Key Management Service (KMS) 金鑰ID。所以此 VolumeKmsKeyId 可以是以下格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

405

Amazon Comprehend 開發人員指南StartSentimentDetectionJob

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:必要:否VpcConfig (p. 404)

選擇性私有虛擬私人雲端 (VPC) 的組態參數,其中包含您用於情緒偵測工作的資源。如需詳細資訊,請參閱 Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要:必要:否

回應語法{ "JobArn": "string", "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobArn (p. 406)

情緒偵測任務的 Amazon Resource Name (ARN)。它是任務唯一、完全合格的識別符。其中包括 AWS帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:sentiment-detection-job/<job-id>

以下是範例任務 ARN:

arn:aws:comprehend:us-west-2:111122223333:sentiment-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

JobId (p. 406)

為任務所產生的識別符。若要取得任務的狀態,請使用此識別符搭配DescribeSentimentDetectionJob (p. 303)operation.

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

406

Amazon Comprehend 開發人員指南StartSentimentDetectionJob

JobStatus (p. 406)

任務的狀態。• 已提交-工作已接收並排入佇列等待處理。• 進度-Amazon Comprehend 正在處理任務。• 已完成-工作已順利完成,且輸出可用。• 失敗-任務未完成。若要取得詳細資訊,請使用DescribeSentimentDetectionJob (p. 303)operation.

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:HTTP 狀態碼:400KmsKeyValidationException

無法驗證輸入的 KMS 客戶管理金鑰 (CMK)。驗證金鑰並重新輸入金鑰。

HTTP 狀態碼:HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:HTTP 狀態碼:400TooManyTagsException

請求包含的標籤數量超過了可以與資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態碼:HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的 SDK JavaScript

407

Amazon Comprehend 開發人員指南StartTargetedSentimentDetectionJob

StartTargetedSentimentDetectionJob為文件集合啟動情緒偵測任務。使用DescribeTargetedSentimentDetectionJob (p. 306)追蹤任務的狀態。

請求語法{ "ClientRequestToken": "string", "DataAccessRoleArn": "string", "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobName": "string", "LanguageCode": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "Tags": [ { "Key": "string", "Value": "string" } ], "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] }}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ClientRequestToken (p. 409)

請求的唯一識別碼。如果您未設定用戶端請求權杖,Amazon Comprehend 會產生一個權杖。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-]+$

必要:否DataAccessRoleArn (p. 409)

AWS Identity and Access Management (IAM) 角色的 Amazon Resource Name (ARN),可准許Amazon Comprehend 讀取您的輸入資料。如需詳細資訊,請參閱「」角色型許可。

類型:字串

409

Amazon Comprehend 開發人員指南StartTargetedSentimentDetectionJob

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:是InputDataConfig (p. 409)

推論工作的輸入屬性。

類型:InputDataConfig (p. 509) 物件

必要:是JobName (p. 409)

任務的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否LanguageCode (p. 409)

輸入文件的語言。目前,英文是唯一有效的語言。

類型:字串

有效值: en

必要:是OutputDataConfig (p. 409)

指定傳送輸出檔案的位置。

類型:OutputDataConfig (p. 515) 物件

必要:是Tags (p. 409)

要與目標情緒偵測工作相關聯的標記。標籤是索引鍵值組,可將中繼資料新增至 Amazon Comprehend使用的 Resource。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

類型:陣列Tag (p. 531)對象

必要:否VolumeKmsKeyId (p. 409)

的 IDAWS KMSAmazon Comprehend 用來加密連線到處理任務的 ML 運算執行個體的儲存磁碟區上資料。所以此 VolumeKmsKeyId 可以是下列格式:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

410

Amazon Comprehend 開發人員指南StartTargetedSentimentDetectionJob

模式:^\p{ASCII}+$

必要:否VpcConfig (p. 409)

選擇性私有虛擬私人雲端 (VPC) 的組態參數,其中包含您用於工作的資源。如需詳細資訊,請參閱Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要:否

回應語法{ "JobArn": "string", "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobArn (p. 411)

目標情緒偵測任務的 Amazon Resource Name (ARN)。它是任務的唯一、完全合格的識別碼。其中包括AWS 帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:targeted-sentiment-detection-job/<job-id>

以下是任務 ARN:

arn:aws:comprehend:us-west-2:111122223333:targeted-sentiment-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

JobId (p. 411)

為任務所產生的識別碼。若要取得任務的狀態,請使用此識別碼DescribeTargetedSentimentDetectionJob (p. 306)operation.

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

JobStatus (p. 411)

任務的狀態。

411

Amazon Comprehend 開發人員指南StartTargetedSentimentDetectionJob

• 已提交-工作已接收並排入佇列等待處理。• 進度-Amazon Comprehend 正在處理任務。• 已完成-工作已順利完成,且輸出可用。• 失敗-任務未完成。若要取得詳細資訊,請使

用DescribeTargetedSentimentDetectionJob (p. 306)operation.

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400KmsKeyValidationException

無法驗證輸入的 KMS 客戶管理金鑰 (CMK)。驗證金鑰並重新輸入。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400TooManyTagsException

請求包含的標籤數量超過資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的 SDK JavaScript• AWS SDK for PHP V3• AWS SDK for Python

412

Amazon Comprehend 開發人員指南StartTargetedSentimentDetectionJob

• 適用於 Ruby 的 AWS 開發套件第 3 版

413

Amazon Comprehend 開發人員指南StartTopicsDetectionJob

StartTopicsDetectionJob啟動非同步主題偵測任務。使用DescribeTopicDetectionJob用於追蹤任務的狀態。

請求語法{ "ClientRequestToken": "string", "DataAccessRoleArn": "string", "InputDataConfig": { "DocumentReaderConfig": { "DocumentReadAction": "string", "DocumentReadMode": "string", "FeatureTypes": [ "string" ] }, "InputFormat": "string", "S3Uri": "string" }, "JobName": "string", "NumberOfTopics": number, "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "Tags": [ { "Key": "string", "Value": "string" } ], "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] }}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ClientRequestToken (p. 414)

請求的唯一識別符。如果您未設定用戶端請求權杖,Amazon Comprehend 會產生一個權杖。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-]+$

必要:否DataAccessRoleArn (p. 414)

AWS Identity on Access Management (IAM) 角色的 Amazon Resource Name (ARN),可授與Amazon Conveement (IAM) 角色的 Amazon Resource Name (ARN)。如需詳細資訊,請參閱 https://docs.aws.amazon.com/comprehend/latest/dg/access-control-managing-permissions.html#auth-role-permissions。

414

Amazon Comprehend 開發人員指南StartTopicsDetectionJob

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:是InputDataConfig (p. 414)

指定工作輸入資料的格式和位置。

類型:InputDataConfig (p. 509) 物件

必要:是JobName (p. 414)

任務的識別符。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否NumberOfTopics (p. 414)

要偵測的主題數目。

類型:整數

有效範圍:最小值為 1。最大值為 100。

必要:否OutputDataConfig (p. 414)

指定傳送輸出檔案的位置。輸出是帶有兩個文件的壓縮存檔,topic-terms.csv列出與每個主題相關聯的術語,以及doc-topics.csv列出與每個主題相關聯的文件

類型:OutputDataConfig (p. 515) 物件

必要:是Tags (p. 414)

要與主題偵測工作相關聯的標籤。標籤是索引鍵值組,可將中繼資料新增至 Amazon Comprehend 使用的資源。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

類型:的陣列Tag (p. 531)對象

必要:否VolumeKmsKeyId (p. 414)

AWS Key Management Service (KMS) 金鑰的 AWS Key Management Service (KMS) 金鑰來加密連線到處理分析任務的儲存磁碟區上的資料。所以此 VolumeKmsKeyId 可以是以下格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

415

Amazon Comprehend 開發人員指南StartTopicsDetectionJob

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否VpcConfig (p. 414)

選擇性私有虛擬私人雲端 (VPC) 的組態參數,其中包含您用於主題偵測工作的資源。如需詳細資訊,請參閱 Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要:否

回應語法

{ "JobArn": "string", "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobArn (p. 416)

主題偵測任務的 Amazon Resource Name (ARN)。它是任務唯一、完全合格的識別符。其中包括 AWS帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:topics-detection-job/<job-id>

以下是範例任務 ARN:

arn:aws:comprehend:us-west-2:111122223333:document-classification-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

JobId (p. 416)

為任務所產生的識別符。若要取得任務的狀態,請使用此識別符DescribeTopicDetectionJoboperation.

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

416

Amazon Comprehend 開發人員指南StartTopicsDetectionJob

JobStatus (p. 416)

任務的狀態:• 已提交-工作已接收並排入佇列等待處理。• 進度-Amazon Comprehend 正在處理任務。• 已完成-工作已順利完成,且輸出可用。• 失敗-任務未完成。若要取得詳細資訊,請使用DescribeTopicDetectionJoboperation.

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態態態態態態態態 500InvalidRequestException

請求無效。

HTTP 狀態態態態態態態態 400KmsKeyValidationException

無法驗證輸入的 KMS 客戶管理金鑰 (CMK)。驗證金鑰並重新輸入金鑰。

HTTP 狀態態態態態態態態 400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態態態態態態態態 400TooManyTagsException

請求包含的標籤數量超過了可以與資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態態態態態態態態 400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript

417

Amazon Comprehend 開發人員指南StopDominantLanguageDetectionJob

StopDominantLanguageDetectionJob停止任務正在進行中的主要語言偵測任務。

如果工作狀態為IN_PROGRESS該工作被標記為終止並放入STOP_REQUESTED狀態。如果工作在可以停止之前完成,則會將其放入COMPLETED狀態;否則工作會停止並投入STOPPED狀態。

如果工作位於COMPLETED或者FAILED當你調用時的狀態StopDominantLanguageDetectionJob作業時,作業會傳回 400「內部請求例外」。

任務停止時,任何已處理的文件都會寫入輸出位置。

請求語法{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 419)

要停止的主要語言偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法{ "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobId (p. 419)

要停止的主要語言偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

419

Amazon Comprehend 開發人員指南StopDominantLanguageDetectionJob

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

JobStatus (p. 419)

任何一個STOP_REQUESTED任務目前正在執行中,或者STOPPED如果工作先前已停止StopDominantLanguageDetectionJoboperation.

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

420

Amazon Comprehend 開發人員指南StopEntitiesDetectionJob

StopEntitiesDetectionJob停止進行中的實體偵測工作。

如果工作狀態為IN_PROGRESS該工作被標記為終止並放入STOP_REQUESTED狀態。如果工作在可以停止之前完成,則會將其放入COMPLETED狀態;否則工作會停止並投入STOPPED狀態。

如果工作位於COMPLETED或者FAILED當你打電話時的狀態StopDominantLanguageDetectionJob作業時,作業會傳回 400「內部請求例外」。

任務停止時,任何已處理的文件都會寫入輸出位置。

請求語法{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 421)

要停止之實體偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法{ "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobId (p. 421)

要停止之實體偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

421

Amazon Comprehend 開發人員指南StopEntitiesDetectionJob

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

JobStatus (p. 421)

任何一個STOP_REQUESTED任務目前正在執行中,或STOPPED如果工作先前已停止StopEntitiesDetectionJoboperation.

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

422

Amazon Comprehend 開發人員指南StopEventsDetectionJob

StopEventsDetectionJob停止進行中的事件偵測工作。

請求語法

{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 423)

要停止之事件偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法

{ "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobId (p. 423)

要停止之事件偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

JobStatus (p. 423)

事件偵測任務的狀態。

類型:字串

423

Amazon Comprehend 開發人員指南StopEventsDetectionJob

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

424

Amazon Comprehend 開發人員指南StopKeyPhrasesDetectionJob

StopKeyPhrasesDetectionJob停止任務進行中的關鍵片語偵測任務。

如果工作狀態為IN_PROGRESS該工作被標記為終止並放入STOP_REQUESTED狀態。如果工作在可以停止之前完成,則會將其放入COMPLETED狀態;否則工作會停止並投入STOPPED狀態。

如果工作位於COMPLETED或者FAILED當你打電話時的狀態StopDominantLanguageDetectionJob作業時,作業會傳回 400「內部請求例外」。

任務停止時,任何已處理的文件都會寫入輸出位置。

請求語法{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 425)

要停止的關鍵片語偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法{ "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobId (p. 425)

要停止的關鍵片語偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

425

Amazon Comprehend 開發人員指南StopKeyPhrasesDetectionJob

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

JobStatus (p. 425)

任何一個STOP_REQUESTED任務目前正在執行中,或STOPPED如果工作先前已停止StopKeyPhrasesDetectionJoboperation.

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適合的開發套 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

426

Amazon Comprehend 開發人員指南StopPiiEntitiesDetectionJob

StopPiiEntitiesDetectionJob停止進行的 PII 實體偵測任務。

請求語法

{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 427)

要停止之 PII 實體偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法

{ "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobId (p. 427)

要停止之 PII 實體偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

JobStatus (p. 427)

PII 實體偵測任務的狀態。

類型:字串

427

Amazon Comprehend 開發人員指南StopPiiEntitiesDetectionJob

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

428

Amazon Comprehend 開發人員指南StopSentimentDetectionJob

StopSentimentDetectionJob停止進行中的情緒偵測任務。

如果工作狀態為IN_PROGRESS,該工作被標記為終止並投入STOP_REQUESTED狀態。如果工作在可以停止之前完成,則會將其放入COMPLETED狀態; 否則工作被停止並投入STOPPED狀態。

如果工作位於COMPLETED或者FAILED當你打電話時的狀態StopDominantLanguageDetectionJob作業時,作業會傳回 400「內部請求例外」。

任務停止時,任何已處理的文件都會寫入輸出位置。

請求語法{ "JobId": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 429)

要停止之情緒偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法{ "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobId (p. 429)

要停止之情緒偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

429

Amazon Comprehend 開發人員指南StopSentimentDetectionJob

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

JobStatus (p. 429)

任何一個STOP_REQUESTED任務目前正在執行中,或STOPPED如果工作先前已停止StopSentimentDetectionJoboperation.

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

430

Amazon Comprehend 開發人員指南StopTargetedSentimentDetectionJob

StopTargetedSentimentDetectionJob停止進行中的目標情緒偵測任務。

如果工作狀態為IN_PROGRESS,該工作被標記為終止並投入STOP_REQUESTED狀態。如果工作在可以停止之前完成,則會將其放入COMPLETED狀態; 否則工作被停止並投入STOPPED狀態。

如果工作位於COMPLETED或者FAILED當你打電話的狀態StopDominantLanguageDetectionJob作業時,作業會傳回 400「內部請求例外」。

任務停止時,任何已處理的任何文件都會寫入輸出位置。

請求語法{ "JobId": "string"}

請求參數如需所有動作常見的所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

JobId (p. 431)

要停止之目標情緒偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:是

回應語法{ "JobId": "string", "JobStatus": "string"}

回應元素如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobId (p. 431)

要停止之目標情緒偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

431

Amazon Comprehend 開發人員指南StopTargetedSentimentDetectionJob

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

JobStatus (p. 431)

任何一個STOP_REQUESTED任務目前執行中,或STOPPED如果工作先前已停止StopSentimentDetectionJoboperation.

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400JobNotFoundException

找不到指定的任務。請檢查任務 ID,然後再試一次。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

432

Amazon Comprehend 開發人員指南StopTrainingDocumentClassifier

StopTrainingDocumentClassifier在進行中停止文件分類器訓練工作。

如果訓練工作狀態為TRAINING,該工作被標記為終止並投入STOP_REQUESTED狀態。如果訓練工作在可以停止之前完成,則會將其放入TRAINED; 否則,培訓工作被停止並投入STOPPED狀態和服務會傳回具空HTTP 內文的 HTTP 200 回應。

請求語法

{ "DocumentClassifierArn": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

DocumentClassifierArn (p. 433)

識別目前正在訓練的文件分類器的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:document-classifier/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是

回應元素如果動作成功,則服務會傳回具空 HTTP 內文的 HTTP 200 回應。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:HTTP 狀態碼:400ResourceNotFoundException

找不到指定的資源 ARN。請檢查 ARN,然後再試一次。

433

Amazon Comprehend 開發人員指南StopTrainingDocumentClassifier

HTTP 狀態碼:HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS開發套件適用 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

434

Amazon Comprehend 開發人員指南StopTrainingEntityRecognizer

StopTrainingEntityRecognizer在進行中時停止實體辨識器訓練工作。

如果訓練工作狀態為TRAINING,該工作被標記為終止並投入STOP_REQUESTED狀態。如果訓練工作在可以停止之前完成,則會將其放入TRAINED; 否則,培訓工作被停止並推入STOPPED狀態和服務會傳回具空的HTTP 內文的 HTTP 200 回應。

請求語法{ "EntityRecognizerArn": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

EntityRecognizerArn (p. 435)

識別實體識別器的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:entity-recognizer/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是

回應元素如果動作成功,則服務會傳回具空 HTTP 內文的 HTTP 200 回應。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的資源 ARN。請檢查 ARN,然後再試一次。

HTTP 狀態碼:400

435

Amazon Comprehend 開發人員指南StopTrainingEntityRecognizer

TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

436

Amazon Comprehend 開發人員指南TagResource

TagResource將特定標籤與 Amazon Comprehend 資源相關聯。標籤是索引鍵值組,可新增做為 Amazon Comprehend 所使用的資源的中繼資源。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。

請求語法

{ "ResourceArn": "string", "Tags": [ { "Key": "string", "Value": "string" } ]}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ResourceArn (p. 437)

要關聯這些標籤之給 Amazon Comprehend Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是Tags (p. 437)

與特定的 Amazon Comprehend 資源相關聯的標籤。最多可以有 50 個與特定資源相關聯的標籤 (既有和擱置中)。

類型:陣列Tag (p. 531)對象

必要:是

回應元素如果動作成功,則服務會傳回具空 HTTP 內文的 HTTP 200 回應。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

ConcurrentModificationException

不支援同時修改與 Amazon Comprehend c 資源關聯的標籤。

437

Amazon Comprehend 開發人員指南TagResource

HTTP 狀態碼:400InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的資源 ARN。請檢查 ARN,然後再試一次。

HTTP 狀態碼:400TooManyTagsException

請求包含的標籤數量超過資源關聯的標籤(每個資源 50 個標籤)。標籤數目上限包含現有標籤以及目前請求中所包含的標籤。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的開發 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

438

Amazon Comprehend 開發人員指南UntagResource

UntagResource移除與亞馬遜資源相關聯的特定標籤。

請求語法{ "ResourceArn": "string", "TagKeys": [ "string" ]}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

ResourceArn (p. 439)

要從中刪除這些標籤給定 Amazon Comprehend Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:是TagKeys (p. 439)

鍵值對的初始部分,形成從給定資源中移除的標籤。例如,可能會將以「Sales」作為金鑰的標籤新增至資源,以表示銷售部門使用該標籤。金鑰必須是唯一的,且無法針對特定資源複製。

類型:字串陣列

長度限制:長度下限為 1。長度上限為 128。

必要:是

回應元素如果動作成功,則服務會傳回具空 HTTP 內文的 HTTP 200 回應。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

ConcurrentModificationException

不支援同時修改與 Amazon Comprehend c 資源關聯的標籤。

HTTP 狀態碼:HTTP 狀態碼:400InternalServerException

發生內部伺服器錯誤。重試您的請求。

439

Amazon Comprehend 開發人員指南UntagResource

HTTP 狀態碼:HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:HTTP 狀態碼:400ResourceNotFoundException

找不到指定的資源 ARN。請檢查 ARN,然後再試一次。

HTTP 狀態碼:HTTP 狀態碼:400TooManyTagKeysException

請求包含的標籤鍵數量超過可與資源關聯的數量 (每個資源 50 個標籤鍵)。

HTTP 狀態碼:HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的 SDK JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

440

Amazon Comprehend 開發人員指南UpdateEndpoint

UpdateEndpoint更新所指定端點的相關資訊。如需端點資訊,請參閱管理端點。

請求語法{ "DesiredDataAccessRoleArn": "string", "DesiredInferenceUnits": number, "DesiredModelArn": "string", "EndpointArn": "string"}

請求參數如需所有動作常見的參數相關資訊,請參閱一般參數 (p. 540)。

請求接受採用 JSON 格式的下列資料。

DesiredDataAccessRoleArn (p. 441)

資料存取角色 ARN 以客戶 CMK 加密新模型時使用。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否DesiredInferenceUnits (p. 441)

使用此端點的模型所要使用的推論單位數目。每個推論單元代表每秒 100 個字元的輸送量。

類型:整數

有效範圍:最小值為 1。

必要:否DesiredModelArn (p. 441)

更新現有端點時要使用的新模型的 ARN。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier|entity-recognizer)/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否EndpointArn (p. 441)

要更新端點的 Amazon Resource Number (ARN)。

類型:字串

長度限制:長度上限為 256。

441

Amazon Comprehend 開發人員指南UpdateEndpoint

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier-endpoint|entity-recognizer-endpoint)/[a-zA-Z0-9](-*[a-zA-Z0-9])*

必要:是

回應元素如果動作成功,則服務會傳回具空 HTTP 內文的 HTTP 200 回應。

錯誤如需所有動作常見的錯誤相關資訊,請參閱常見錯誤 (p. 542)。

InternalServerException

發生內部伺服器錯誤。重試您的請求。

HTTP 狀態碼:500InvalidRequestException

請求無效。

HTTP 狀態碼:400ResourceInUseException

指定的資源名稱已在使用。請使用不同的名稱,然後再試一次。

HTTP 狀態碼:400ResourceLimitExceededException

已超過每個帳號的資源數目上限。請檢閱資源,然後再次嘗試您的要求。

HTTP 狀態碼:400ResourceNotFoundException

找不到指定的 Resource ARN。請檢查 ARN,然後再試一次。

HTTP 狀態碼:400ResourceUnavailableException

指定的資源不可用。請檢查資源,然後再試一次。

HTTP 狀態碼:400TooManyRequestsException

請求數量超過限制。稍後重新提交您的請求。

HTTP 狀態碼:400

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• AWS 命令列界面• 適用於 .NET 的 AWS 開發套件• AWS SDK for C++

442

Amazon Comprehend 開發人員指南資料類型

• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• AWS適用於的套件 JavaScript• AWS SDK for PHP V3• AWS SDK for Python• 適用於 Ruby 的 AWS 開發套件第 3 版

資料類型目前支援下列資料類型:

• AugmentedManifestsListItem (p. 445)• BatchDetectDominantLanguageItemResult (p. 447)• BatchDetectEntitiesItemResult (p. 448)• BatchDetectKeyPhrasesItemResult (p. 449)• BatchDetectSentimentItemResult (p. 450)• BatchDetectSyntaxItemResult (p. 451)• BatchItemError (p. 452)• ClassifierEvaluationMetrics (p. 453)• ClassifierMetadata (p. 455)• DocumentClass (p. 456)• DocumentClassificationJobFilter (p. 457)• DocumentClassificationJobProperties (p. 458)• DocumentClassifierFilter (p. 461)• DocumentClassifierInputDataConfig (p. 462)• DocumentClassifierOutputDataConfig (p. 464)• DocumentClassifierProperties (p. 465)• DocumentClassifierSummary (p. 469)• DocumentLabel (p. 471)• DocumentReaderConfig (p. 472)• DominantLanguage (p. 473)• DominantLanguageDetectionJobFilter (p. 474)• DominantLanguageDetectionJobProperties (p. 475)• EndpointFilter (p. 478)• EndpointProperties (p. 479)• EntitiesDetectionJobFilter (p. 482)• EntitiesDetectionJobProperties (p. 483)• Entity (p. 486)• EntityLabel (p. 488)• EntityRecognizerAnnotations (p. 489)• EntityRecognizerDocuments (p. 490)• EntityRecognizerEntityList (p. 491)• EntityRecognizerEvaluationMetrics (p. 492)• EntityRecognizerFilter (p. 493)• EntityRecognizerInputDataConfig (p. 494)

443

Amazon Comprehend 開發人員指南資料類型

• EntityRecognizerMetadata (p. 496)• EntityRecognizerMetadataEntityTypesListItem (p. 497)• EntityRecognizerProperties (p. 498)• EntityRecognizerSummary (p. 501)• EntityTypesEvaluationMetrics (p. 503)• EntityTypesListItem (p. 504)• EventsDetectionJobFilter (p. 505)• EventsDetectionJobProperties (p. 506)• InputDataConfig (p. 509)• KeyPhrase (p. 510)• KeyPhrasesDetectionJobFilter (p. 511)• KeyPhrasesDetectionJobProperties (p. 512)• OutputDataConfig (p. 515)• PartOfSpeechTag (p. 516)• PiiEntitiesDetectionJobFilter (p. 517)• PiiEntitiesDetectionJobProperties (p. 518)• PiiEntity (p. 521)• PiiOutputDataConfig (p. 523)• RedactionConfig (p. 524)• SentimentDetectionJobFilter (p. 525)• SentimentDetectionJobProperties (p. 526)• SentimentScore (p. 529)• SyntaxToken (p. 530)• Tag (p. 531)• TargetedSentimentDetectionJobFilter (p. 532)• TargetedSentimentDetectionJobProperties (p. 533)• TopicsDetectionJobFilter (p. 536)• TopicsDetectionJobProperties (p. 537)• VpcConfig (p. 540)

444

Amazon Comprehend 開發人員指南AugmentedManifestsListItem

AugmentedManifestsListItem為您的自訂模型提供訓練資料的增強資訊清單檔案。增強資訊清單檔案是由 Amazon 產生的標記資料集SageMaker Ground Truth。

內容AnnotationDataS3Uri

增強資訊清單檔案中所參照之註釋檔案的 S3 前置詞。

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必要:否AttributeNames

包含訓練文件註解的 JSON 屬性。您指定的屬性名稱數量取決於您的增強資訊清單檔案是單一標籤工作的輸出還是連結標籤工作的輸出。

如果您的檔案是單一標籤工作的輸出,請指定 LabelAttributeName 在「Ground Truth」中創建工作時使用的密鑰。

如果您的檔案是鏈結標示工作的輸出,請指定 LabelAttributeName 因為鏈中的一或多個任務需要。EACH LabelAttributeName key 提供來自個別工作的註釋。

類型:字串陣列

長度限制:長度下限為 1。長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*

必要:是DocumentType

增強資訊清單的類型。 PlainTextDocument 或者 SemiStructuredDocument。如未指定,預設值將會是PlainTextDocument。• PLAIN_TEXT_DOCUMENT代表以 UTF-8 編碼的任何 Unicode 文字的文件類型。• SEMI_STRUCTURED_DOCUMENT具有位置和結構內容的文件類型,例如 PDF。對於使用 Amazon

Comprehend 的培訓,僅支援 PDF。對於推論,Amazon Comprehend 支持 PDF,DOCX 和 TXT。

類型:字串

有效值: PLAIN_TEXT_DOCUMENT | SEMI_STRUCTURED_DOCUMENT

必要:否S3Uri

增強資訊清單檔案的 Amazon S3 位置。

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

445

Amazon Comprehend 開發人員指南AugmentedManifestsListItem

必要:是SourceDocumentsS3Uri

增強資訊清單檔案中參照的來源檔案 (PDF) 的 S3 前置詞。

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必要:否Split

您在增強資訊清單中提供的資料目的。您可以訓練或測試此資料。如未指定,預設值為 Truth。

TRAIT-清單中的所有文件都將用於培訓。如果未提供測試文件,Amazon Comprehend 將自動保留部分訓練文件進行測試。

測試-清單中的所有文檔將用於測試。

類型:字串

有效值: TRAIN | TEST

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

446

Amazon Comprehend 開發人員指南BatchDetectDominantLanguageItemResult

BatchDetectDominantLanguageItemResult調用的結果BatchDetectDominantLanguage (p. 235)operation. 此作業會針對作業成功處理的每個文件傳回一個物件。

內容Index

輸入清單中的零基索引。

類型:整數

必要:否Languages

一或多個DominantLanguage (p. 473)描述文件中主要語言的物件。

類型:陣列DominantLanguage (p. 473)對象

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

447

Amazon Comprehend 開發人員指南BatchDetectEntitiesItemResult

BatchDetectEntitiesItemResult調用的結果BatchDetectEntities (p. 237)operation. 此作業會針對作業成功處理的每個文件傳回一個物件。

內容Entities

一個或多個 DominantLanguage物件,文件中偵測到的每個實體都有一個物件。

類型:的陣列Entity (p. 486)對象

必要:否Index

輸入清單中之文件的索引。

類型:整數

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

448

Amazon Comprehend 開發人員指南BatchDetectKeyPhrasesItemResult

BatchDetectKeyPhrasesItemResult調用的結果BatchDetectKeyPhrases (p. 240)operation. 此作業會針對作業成功處理的每個文件傳回一個物件。

內容Index

輸入清單中的零基索引。

類型:整數

必要:否KeyPhrases

一或多個KeyPhrase (p. 510)物件,文件中偵測到的每個關鍵片語都有一個物件。

類型:的陣列KeyPhrase (p. 510)對象

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

449

Amazon Comprehend 開發人員指南BatchDetectSentimentItemResult

BatchDetectSentimentItemResult調用的結果BatchDetectSentiment (p. 243)operation. 此作業會針對作業成功處理的每個文件傳回一個物件。

內容Index

輸入清單中之文件的索引。

類型:整數

必要:否Sentiment

在文件中偵測到的情緒。

類型:字串

有效值: POSITIVE | NEGATIVE | NEUTRAL | MIXED

必要:否SentimentScore

Amazon Comprehend 對其情緒偵測準確性的信心程度。

類型:SentimentScore (p. 529) 物件

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

450

Amazon Comprehend 開發人員指南BatchDetectSyntaxItemResult

BatchDetectSyntaxItemResult調用的結果BatchDetectSyntax (p. 246)operation. 作業會傳回一個由作業成功處理的物件。

內容Index

輸入清單中之零基索引號碼。

類型:整數

必要:否SyntaxTokens

文檔中單詞的語法標記,每個單詞一個標記。

類型:之陣列SyntaxToken (p. 530)對象

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

451

Amazon Comprehend 開發人員指南BatchItemError

BatchItemError描述在批次中處理文件時發生的錯誤。操作會傳回BatchItemError包含錯誤的每個文件的物件。

內容ErrorCode

錯誤的數字錯誤碼。

類型:字串

長度限制:長度下限為 1。

必要:否ErrorMessage

此項錯誤的文字說明。

類型:字串

長度限制:長度下限為 1。

必要:否Index

輸入清單中之零基索引。

類型:整數

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

452

Amazon Comprehend 開發人員指南ClassifierEvaluationMetrics

ClassifierEvaluationMetrics說明與文件分類器相關聯之測試資料的結果測量結果。

內容Accuracy

正確辨識的標籤分數。它是通過除以測試文檔中的標籤的總數正確識別的測試文檔中的標籤的數量來計算的。

類型:Double

必要:否F1Score

測試資料分類器結果的準確度量。它是衍生自Precision和Recall有效值。所以此F1Score是兩個分數的調和平均值。最高分為 1,最差分為 0。

類型:Double

必要:否HammingLoss

指示未正確預測的標示分數。與標籤總數相比,也被視為錯誤標籤的分數。分數接近零越好。

類型:Double

必要:否MicroF1Score

測試資料分類器結果的準確度量。它是一個組合Micro Precision和Micro Recall有效值。所以此Micro F1Score是兩個分數的調和平均數。最高分為 1,最差分為 0。

類型:Double

必要:否MicroPrecision

識別器的有用性的測量結果在測試數據。高精度意味著識別器返回的結果比不相關的結果更具相關性。與來自平均所有可用標籤精確度的「精確度」量度不同,這是根據加在一起的所有精確度分數的整體分數而定。

類型:Double

必要:否MicroRecall

測試資料的分類器結果完整程度。高召回意味著分類器返回了大部分相關結果。具體來說,這表示模型可以預測文字中正確的類別數目。它是可以找到的文本中正確類別的百分比。而不是平均所有標籤的召回分數(如同召回),微召回是基於加在一起的所有召回分數的總分數。

類型:Double

必要:否Precision

測試數據中的分類器的有用性的測量結果。高精度意味著分類器返回的結果比不相關的結果更具相關性。

453

Amazon Comprehend 開發人員指南ClassifierEvaluationMetrics

類型:Double

必要:否Recall

測試資料的分類器結果完整程度。高召回意味著分類器返回了大部分相關結果。

類型:Double

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

454

Amazon Comprehend 開發人員指南ClassifierMetadata

ClassifierMetadata提供文件分類器的相關資訊。

內容EvaluationMetrics

說明與文件分類器相關聯之測試資料的結果測量結果。

類型:ClassifierEvaluationMetrics (p. 453) 物件

必要:否NumberOfLabels

輸入資料中標籤的數量。

類型:整數

必要:否NumberOfTestDocuments

輸入資料中用來測試分類器的數量。一般而言,這是輸入文件的 10% 到 20%,最多可達 10,000 份文件。

類型:整數

必要:否NumberOfTrainedDocuments

輸入資料中用來訓練分類器的數量。通常,這是輸入文檔的 80% 到 90%。

類型:整數

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

455

Amazon Comprehend 開發人員指南DocumentClass

DocumentClass指定分類被分析的文檔的類

內容Name

類別的名稱。

類型:字串

長度限制:長度下限為 1。

必要:否Score

Amazon Comprehend 具有正確歸因於此類的置信度得分。

類型:Float

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

456

Amazon Comprehend 開發人員指南DocumentClassificationJobFilter

DocumentClassificationJobFilter提供篩選文件分類工作清單的資訊。有關更多資訊,請參閱 ListDocumentClassificationJobs (p. 331) 操作。您只可以在每個要求中提供一個篩選條件參數。

內容JobName

依據工作名稱篩選。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

依據工作狀態篩選清單。只會傳回處於指定狀態的任務。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否SubmitTimeAfter

根據提交工作進行處理的時間篩選工作清單。僅傳回指定時間後提交的工作。工作會以遞減順序 (最新到最舊) 傳回。

類型:時間戳記

必要:否SubmitTimeBefore

根據提交工作進行處理的時間篩選工作清單。只傳回處於指定時間前提交的任務。工作會以遞增順序傳回,最舊到最新。

類型:時間戳記

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

457

Amazon Comprehend 開發人員指南DocumentClassificationJobProperties

DocumentClassificationJobProperties提供文件分類任務的相關資訊。

內容DataAccessRoleArn

AWS Identity of Access Management (IAM) 角色的 Amazon Resource Name (ARN),可授予 AmazonComprehend Resource Name (ARN)。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否DocumentClassifierArn

識別文件分類器的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:document-classifier/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否EndTime

文件分類工作完成的時間。

類型:時間戳記

必要:否InputDataConfig

建立文件分類工作時所提供的輸入資料組態。

類型:InputDataConfig (p. 509) 物件

必要:否JobArn

文件分類任務的 Amazon Resource Name (ARN)。它是任務唯一、完全合格的識別符。其中包括 AWS帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:document-classification-job/<job-id>

以下是範例任務 ARN:

arn:aws:comprehend:us-west-2:111122223333:document-classification-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

458

Amazon Comprehend 開發人員指南DocumentClassificationJobProperties

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否JobId

指派給文件分類任務的識別符。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobName

您已指派給文件分類任務的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

文件分類任務的目前狀態。如果狀態為FAILED,該Message欄位會顯示失敗的原因。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否Message

任務狀態的描述。

類型:字串

必要:否OutputDataConfig

建立文件分類工作時所提供的輸出資料組態。

類型:OutputDataConfig (p. 515) 物件

必要:否SubmitTime

提交文件分類工作進行處理的時間。

類型:時間戳記

必要:否

459

Amazon Comprehend 開發人員指南DocumentClassificationJobProperties

VolumeKmsKeyId

Amazon Comprehend 使用的 AWS Key Management Service (KMS) 金鑰 ID 來加密連線到處理分析任務的 ML 運算執行個體的儲存磁碟區資料。所以此 VolumeKmsKeyId 可以是以下格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否VpcConfig

私有虛擬私人雲端 (VPC) 的組態參數,其中包含您用於文件分類工作的資源。如需詳細資訊,請參閱Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

460

Amazon Comprehend 開發人員指南DocumentClassifierFilter

DocumentClassifierFilter提供篩選文件分類器清單的資訊。您只能在要求中指定一個篩選參數。有關更多資訊,請參閱ListDocumentClassifiers (p. 334) 操作。

內容DocumentClassifierName

您已指派至文件分類器的名稱

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必要:否Status

根據狀態篩選分類器清單。

類型:字串

有效值: SUBMITTED | TRAINING | DELETING | STOP_REQUESTED | STOPPED |IN_ERROR | TRAINED

必要:否SubmitTimeAfter

根據提交分類器進行處理的時間篩選分類器清單。僅傳回在指定時間之後提交的分類器。分類器會以遞減順序傳回,最新到最舊。

類型:時間戳記

必要:否SubmitTimeBefore

根據提交分類器進行處理的時間篩選分類器清單。只會傳回已在指定時間前提交的分類器。分類器按升序返回,最舊到最新。

類型:時間戳記

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

461

Amazon Comprehend 開發人員指南DocumentClassifierInputDataConfig

DocumentClassifierInputDataConfig訓練文件分類器的輸入屬性。

如需如何格式化輸入檔案的資訊,請參閱準備訓練資料Comprehend 在開發人員指南中)。

內容AugmentedManifests

為您的自訂模型提供訓練資料的增強資訊清單檔案清單清單清單清單。增強資訊清單檔案是由 Amazon產生的標記資料集 SageMaker Ground Truth。

如果您設定,則此參數為必要DataFormat至AUGMENTED_MANIFEST。

類型:的陣列AugmentedManifestsListItem (p. 445)對象

必要:否DataFormat

訓練資料的格式:• COMPREHEND_CSV: 兩欄 CSV 檔案,其中第一欄會提供標籤,第二欄提供文件。如果您使用此值,您

必須提供S3Uri您的請求中的參數。• AUGMENTED_MANIFEST:由亞馬遜生產的標籤數據集 SageMaker Ground Truth。這個文件是 JSON

行格式。每一列是一個完整的 JSON 物件,其中包含訓練文件及其相關聯標記。

如果您使用此值,您必須提供AugmentedManifests您的請求中的參數。

如果您不指定值,Amazon Comprehend 將使用COMPREHEND_CSV預設值。

類型:字串

有效值: COMPREHEND_CSV | AUGMENTED_MANIFEST

必要:否LabelDelimiter

表示用於分隔每個標籤以訓練多標籤分類器的分隔符號。標記之間的預設分隔符號是縱線 (|)。您可以使用不同的字元作為分隔符號 (如果它是允許的字元),方法是在 [標籤的分隔符號] 下指定它。如果訓練文件使用的分隔符號不是預設值或您指定的分隔符號,則該行上的標籤將合併為單一唯一的標籤,例如LABELLABELLABELLABEL。

類型:字串

長度限制:長度固定為 1。

模式:^[ ~!@#$%^*\-_+=|\\:;\t>?/]$

必要:否S3Uri

輸入資料的 Amazon S3 S3 S3 URI。S3 儲存貯體必須與您呼叫的 API 端點位於同一個區域。URI 可以指向單個輸入文件,也可以為輸入文件的集合提供前綴。

例如,如果您使用 URIS3://bucketName/prefix,如果前置詞是單一檔案,Amazon Comprehend會使用該檔案做為輸入。如果有多個檔案以前綴開頭,Amazon Comprehend 會使用所有這些檔案作為輸入。

如果您設定,則此參數為必要DataFormat至COMPREHEND_CSV。

462

Amazon Comprehend 開發人員指南DocumentClassifierInputDataConfig

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必要:否TestS3Uri

這會指定實體辨識器測試註釋所在的 Amazon S3 位置。URI 必須與您呼叫的 API 端點位於同一個 AWS區域。

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

463

Amazon Comprehend 開發人員指南DocumentClassifierOutputDataConfig

DocumentClassifierOutputDataConfig提供自訂分類器工作的輸出結果組態參數。

內容KmsKeyId

Amazon Comprehend 用於加密分析任務輸出結果的 AWS 金鑰金鑰的 ID。所以此 KmsKeyId 可為下列其中之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰別名:"alias/ExampleAlias"

• KMS 金鑰別名的 ARN:"arn:aws:kms:us-west-2:111122223333:alias/ExampleAlias"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否S3Uri

當您使用OutputDataConfig物件在建立自訂分類器時,您可以指定要寫入混淆矩陣的 Amazon S3 位置。此 URI 必須與您呼叫的 API 端點位於相同的區域。該位置被用作此輸出文件的實際位置的前綴。

自訂分類器工作完成後,服務會在工作特定的目錄中建立輸出檔案。所以此S3Uri字段包含輸出文件的位置,稱為output.tar.gz。它是包含混淆矩陣的壓縮歸檔。

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

464

Amazon Comprehend 開發人員指南DocumentClassifierProperties

DocumentClassifierProperties提供關於文件分類器的資訊。

內容ClassifierMetadata

文件分類器的相關資訊,包括用於訓練分類器的文件數量、用於測試分類器的文件數量,以及準確度等級。

類型:ClassifierMetadata (p. 455) 物件

必要:否DataAccessRoleArn

AWS Identity in Management (IAM) 角色的 Amazon Comprehend ource Name (ARN)。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否DocumentClassifierArn

識別文件分類器的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:document-classifier/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否EndTime

訓練文件分類器完成的時間。

類型:時間戳記

必要:否InputDataConfig

當您建立用於訓練的文件分類器時所提供的輸入資料組態。

類型:DocumentClassifierInputDataConfig (p. 462) 物件

必要:否LanguageCode

訓練分類器之文件語言的語言代碼。

類型:字串

有效值: en | es | fr | de | it | pt

465

Amazon Comprehend 開發人員指南DocumentClassifierProperties

必要:否Message

有關分類器狀態的其他資訊。

類型:字串

必要:否Mode

指出訓練特定分類器的模式。這也表示輸入文檔的格式和混淆矩陣的格式。每個分類器只能在一種模式下進行訓練,一旦分類器經過訓練,就無法更改。

類型:字串

有效值: MULTI_CLASS | MULTI_LABEL

必要:否ModelKmsKeyId

AWS Key Management Service (KMS) 金鑰的 ID。所以此 ModelKmsKeyId 可以是以下格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否OutputDataConfig

提供自訂分類器工作的輸出結果組態參數。

類型:DocumentClassifierOutputDataConfig (p. 464) 物件

必要:否SourceModelArn

來源模型的 Amazon Resource Name (ARN)。此模型是從不同的 AWS 帳戶匯入,以在您的 AWS 帳戶中建立文件分類器模型。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:document-classifier/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否Status

文件分類器的狀態。如果狀態為TRAINED分類器已做好使用準備。如果狀態為FAILED您可以查看有關為什麼分類器未在中進行培訓的其他信息Message欄位。

類型:字串

466

Amazon Comprehend 開發人員指南DocumentClassifierProperties

有效值: SUBMITTED | TRAINING | DELETING | STOP_REQUESTED | STOPPED |IN_ERROR | TRAINED

必要:否SubmitTime

提交文件分類器進行訓練的時間。

類型:時間戳記

必要:否TrainingEndTime

完成文件分類器訓練的時間。指出在文件分類器上完成訓練的時間。系統會依此時間與值之間的時間間隔向您收費 TrainingStartTime。

類型:時間戳記

必要:否TrainingStartTime

指出在文件分類器上開始訓練的時間。系統會依此時間與值之間的時間間隔向您收費TrainingEndTime。

類型:時間戳記

必要:否VersionName

您已指派至文件分類器的版本名稱。

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必要:否VolumeKmsKeyId

Amazon Comprehend 使用的 AWS Key Management Service (KMS) 金鑰來加密連線到處理分析任務的 ML 運算執行個體的儲存磁碟區資料。所以此 VolumeKmsKeyId 可以是以下格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否VpcConfig

私有 Virtual Private Cloud (VPC) (VPC) 的組態參數,其中包含您用於自訂分類器的資源。如需詳細資訊,請參閱 Amazon VPC。

類型:VpcConfig (p. 540) 物件

467

Amazon Comprehend 開發人員指南DocumentClassifierProperties

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

468

Amazon Comprehend 開發人員指南DocumentClassifierSummary

DocumentClassifierSummary描述文件分類器及其版本的相關資訊。

內容DocumentClassifierName

您已指派至文件分類器的名稱。

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必要:否LatestVersionCreatedAt

提交最新文件分類器版本進行處理的時間。

類型:時間戳記

必要:否LatestVersionName

您指派給最新文件分類器版本的版本名稱。

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必要:否LatestVersionStatus

提供最新文件分類器版本的狀態。

類型:字串

有效值: SUBMITTED | TRAINING | DELETING | STOP_REQUESTED | STOPPED |IN_ERROR | TRAINED

必要:否NumberOfVersions

您建立的版本數目。

類型:整數

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK

469

Amazon Comprehend 開發人員指南DocumentLabel

DocumentLabel指定要分析的文件分類的一個或多個標籤。

內容Name

標籤的名稱。

類型:字串

長度限制:長度下限為 1。

必要:否Score

Amazon Comprehend 的可信度分數已正確歸因此標籤。

類型:Float

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

471

Amazon Comprehend 開發人員指南DocumentReaderConfig

DocumentReaderConfig主題偵測任務的輸入屬性。

內容DocumentReadAction

此枚舉字段將以兩個值開頭,這些值將應用於 PDF:• TEXTRACT_DETECT_DOCUMENT_TEXT-服務電話 DetectDocumentText每頁 PDF 文件。• TEXTRACT_ANALYZE_DOCUMENT-服務電話 AnalyzeDocument 每頁 PDF 文件。

類型:字串

有效值: TEXTRACT_DETECT_DOCUMENT_TEXT | TEXTRACT_ANALYZE_DOCUMENT

必要:是DocumentReadMode

此枚舉字段提供了兩個值:• SERVICE_DEFAULT-使用文件閱讀的服務預設值。對於數字 PDF,這意味著使用內部解析器而不是

Textract 議 API• FORCE_DOCUMENT_READ_ACTION-始終使用指定的操作 DocumentReadAction,包括數位 PDF。

類型:字串

有效值: SERVICE_DEFAULT | FORCE_DOCUMENT_READ_ACTION

必要:否FeatureTypes

指定如何處理輸入檔案中的文字:

類型:字串陣列

陣列成員:項目數下限為 1。項目數上限為 2。

有效值: TABLES | FORMS

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

472

Amazon Comprehend 開發人員指南DominantLanguage

DominantLanguage傳回輸入文字中主要語言的程式碼,以及 Amazon Comprehend 對偵測準確度的信賴程度。

內容LanguageCode

主要語言的 RFC 5646 語言代碼。如需的詳細資訊,請參閱用於識別語言的標籤在網際交易工具網站。

類型:字串

長度限制:長度下限為 1。

必要:否Score

對於偵測準確性 Amazon Comprehend 可信度。

類型:Float

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

473

Amazon Comprehend 開發人員指南DominantLanguageDetectionJobFilter

DominantLanguageDetectionJobFilter提供篩選主要語言偵測工作清單的資訊。有關更多資訊,請參閱ListDominantLanguageDetectionJobs (p. 339) 操作。

內容JobName

篩選任務的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

根據工作狀態篩選工作清單。只傳回處於指定狀態的任務。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否SubmitTimeAfter

根據提交工作進行處理的時間篩選工作清單。僅傳回指定時間後提交的工作。工作會以遞減順序 (最新到最舊) 傳回。

類型:時間戳記

必要:否SubmitTimeBefore

根據提交工作進行處理的時間篩選工作清單。僅傳回處於指定時間前提交的任務。工作會以遞增順序傳回,最舊到最新。

類型:時間戳記

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

474

Amazon Comprehend 開發人員指南DominantLanguageDetectionJobProperties

DominantLanguageDetectionJobProperties提供主要語言偵測任務的相關資訊。

內容DataAccessRoleArn

Amazon Resource Name (ARN),可讓 Amazon Comprehend Resource Name (ARN) 授予輸入資料的Amazon Resource Name (ARN)。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要。否EndTime

主要語言偵測工作完成的時間。

類型:時間戳記

必要。否InputDataConfig

您在建立主要語言偵測工作時所提供的輸入資料組態。

類型:InputDataConfig (p. 509) 物件

必要。否JobArn

主要語言偵測任務的 Amazon Resource Name (ARN)。它是任務的唯一、完全合格的識別符。其中包括AWS 帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:dominant-language-detection-job/<job-id>

以下是範例任務 ARN:

arn:aws:comprehend:us-west-2:111122223333:dominant-language-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要。否JobId

指派至主要語言偵測任務的識別符。

類型:字串

475

Amazon Comprehend 開發人員指南DominantLanguageDetectionJobProperties

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要。否JobName

您已指派至主要語言偵測任務的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要。否JobStatus

主要語言偵測任務的目前狀態。如果狀態為FAILED,該Message欄位會顯示失敗的原因。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要。否Message

工作狀態的描述。

類型:字串

必要。否OutputDataConfig

建立主要語言偵測工作時所提供的輸出資料組態。

類型:OutputDataConfig (p. 515) 物件

必要。否SubmitTime

提交主要語言偵測工作進行處理的時間。

類型:時間戳記

必要。否VolumeKmsKeyId

Amazon Comprehend 使用的 AWS Key Management Service (KMS) 金鑰 ID (KMS) 金鑰來加密連線到處理分析任務的 ML 運算執行個體的儲存磁碟區資料。所以此 VolumeKmsKeyId 可以是以下格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

476

Amazon Comprehend 開發人員指南DominantLanguageDetectionJobProperties

必要。否VpcConfig

私有 Virtual Private Cloud (VPC) (VPC) 的組態參數,其中包含您用於主要語言偵測工作的資源。如需詳細資訊,請參閱 Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要。否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

477

Amazon Comprehend 開發人員指南EndpointFilter

EndpointFilter判斷傳回哪些端點的篩選條件。您可以依工作的名稱、模型、狀態或建立工作的日期和時間來篩選工作。您一次只能設定一個篩選條件。

內容CreationTimeAfter

指定一個或多個傳回端點的建立日期。

類型:時間戳記

必要:否CreationTimeBefore

指定在建立傳回端點之前的日期。

類型:時間戳記

必要:否ModelArn

連接端點之模型的 Amazon Resource Number (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier|entity-recognizer)/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否Status

指定傳回之端點的狀態。可能值為:建立、就緒、更新、刪除、失敗。

類型:字串

有效值: CREATING | DELETING | FAILED | IN_SERVICE | UPDATING

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

478

Amazon Comprehend 開發人員指南EndpointProperties

EndpointProperties指定所指定端點的相關資訊。如需端點資訊,請參閱管理端點。

內容CreationTime

端點的建立日期和時間。

類型:時間戳記

必要:否CurrentInferenceUnits

使用此端點的模型目前使用的推論單位數量。

類型:整數

有效範圍:最小值為 1。

必要:否DataAccessRoleArn

AWS Identity. Access Management (IAM) 角色的 Amazon Resource Name (ARN),此角色授權Amazon Comprehend 對使用客戶受管金鑰加密的訓練自訂模型 (IAM)ModelKmsKeyId。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否DesiredDataAccessRoleArn

使用客戶 KMS 金鑰加密新模型時使用的資料存取角色 ARN。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否DesiredInferenceUnits

使用此端點的模型所要使用的推論單位數目。每個推論單元代表每秒 100 個字元的輸送量。

類型:整數

有效範圍:最小值為 1。

必要:否DesiredModelArn

用於更新現有端點的新模型的 ARN。更新進行時,此 ARN 將與模型 ARN 不同

類型:字串

479

Amazon Comprehend 開發人員指南EndpointProperties

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier|entity-recognizer)/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否EndpointArn

端點的 Amazon Resource Number (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier-endpoint|entity-recognizer-endpoint)/[a-zA-Z0-9](-*[a-zA-Z0-9])*

必要:否LastModifiedTime

上次修改端點的日期和時間。

類型:時間戳記

必要:否Message

指定失敗的情況下的原因Failed狀態。

類型:字串

必要:否ModelArn

端點所連結之模型的 Amazon Resource Number (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:(document-classifier|entity-recognizer)/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否Status

指定端點的狀態。由於端點更新和建立是非同步的,因此客戶需要等待端點Ready提出推論請求之前的狀態。

類型:字串

有效值: CREATING | DELETING | FAILED | IN_SERVICE | UPDATING

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

480

Amazon Comprehend 開發人員指南EntitiesDetectionJobFilter

EntitiesDetectionJobFilter提供篩選主要語言偵測工作清單的資訊。有關更多資訊,請參閱 ListEntitiesDetectionJobs (p. 345) 操作。

內容JobName

篩選條件處於任務的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

根據工作狀態篩選工作清單。只傳回處於指定狀態的任務。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否SubmitTimeAfter

根據提交工作進行處理的時間篩選工作清單。僅傳回指定時間後提交的工作。工作會以遞減順序 (最新到最舊) 傳回。

類型:時間戳記

必要:否SubmitTimeBefore

根據提交工作進行處理的時間篩選工作清單。只傳回處於指定時間前提交的任務。工作會以遞增順序傳回,最舊到最新。

類型:時間戳記

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

482

Amazon Comprehend 開發人員指南EntitiesDetectionJobProperties

EntitiesDetectionJobProperties提供實體偵測任務的相關資訊。

內容DataAccessRoleArn

Amazon Resource Name (ARN),提供輸入資料的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否EndTime

實體偵測工作完成的時間

類型:時間戳記

必要:否EntityRecognizerArn

識別實體辨識器的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:entity-recognizer/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否InputDataConfig

建立實體偵測工作時所提供的輸入資料組態。

類型:InputDataConfig (p. 509) 物件

必要:否JobArn

實體偵測任務的 Amazon Resource Name (ARN)。它是任務唯一、完全合格的識別符。包括 AWS 帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:entities-detection-job/<job-id>

以下是範例任務 ARN:

arn:aws:comprehend:us-west-2:111122223333:entities-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

483

Amazon Comprehend 開發人員指南EntitiesDetectionJobProperties

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否JobId

指派給實體偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobName

您已指派至實體偵測任務的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

實體偵測任務的目前狀態。如果狀態為FAILED,該Message欄位會顯示失敗的原因。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否LanguageCode

輸入文件的語言代碼。

類型:字串

有效值: en | es | fr | de | it | pt | ar | hi | ja | ko | zh | zh-TW

必要:否Message

任務的狀態說明。

類型:字串

必要:否OutputDataConfig

建立實體偵測工作時所提供的輸出資料組態。

類型:OutputDataConfig (p. 515) 物件

必要:否

484

Amazon Comprehend 開發人員指南EntitiesDetectionJobProperties

SubmitTime

提交實體偵測工作進行處理的時間。

類型:時間戳記

必要:否VolumeKmsKeyId

Amazon Comprehend 使用的 AWS Key Management Service (KMS) 金鑰 ID 來加密連線到處理分析任務的 ML 運算執行個體的儲存磁碟區資料。所以此 VolumeKmsKeyId 可以是以下格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否VpcConfig

私有虛擬私人雲端 (VPC) 的組態參數,其中包含您用於實體偵測工作的資源。如需詳細資訊,請參閱Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

485

Amazon Comprehend 開發人員指南Entity

Entity提供實體的相關資訊。

內容BeginOffset

輸入文字中的字元偏移量,顯示實體開始位置 (第一個字元位於 0 位置)。偏移量返回字符串中每個UTF-8 代碼點的位置。一個代碼點是來自特定圖形表示的抽象字元。例如,多位元組 UTF-8 字元對應至單一字碼點。

類型:整數

必要:否EndOffset

輸入文字中的字元偏移量,顯示實體結束位置。偏移量返回字符串中每個 UTF-8 代碼點的位置。一個代碼點是來自特定圖形表示的抽象字元。例如,多位元組 UTF-8 字元對應至單一字碼點。

類型:整數

必要:否Score

對於偵測準確性 Amazon Comprehend 可信度,

類型:Float

必要:否Text

實體的文字。

類型:字串

長度限制:長度下限為 1。

必要:否Type

實體的類型。

類型:字串

有效值: PERSON | LOCATION | ORGANIZATION | COMMERCIAL_ITEM | EVENT | DATE |QUANTITY | TITLE | OTHER

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK

486

Amazon Comprehend 開發人員指南Entity

• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

487

Amazon Comprehend 開發人員指南EntityLabel

EntityLabel指定要分析的個人識別資訊 (PII) 實體分類的一個或多個標籤。

內容Name

標籤的名稱。

類型:字串

有效值: BANK_ACCOUNT_NUMBER | BANK_ROUTING | CREDIT_DEBIT_NUMBER |CREDIT_DEBIT_CVV | CREDIT_DEBIT_EXPIRY | PIN | EMAIL | ADDRESS | NAME |PHONE | SSN | DATE_TIME | PASSPORT_NUMBER | DRIVER_ID | URL | AGE | USERNAME| PASSWORD | AWS_ACCESS_KEY | AWS_SECRET_KEY | IP_ADDRESS | MAC_ADDRESS

必要:是Score

對於偵測準確性 Amazon Comprehend 可信度。

類型:Float

必要:是

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

488

Amazon Comprehend 開發人員指南EntityRecognizerAnnotations

EntityRecognizerAnnotations描述與實體辨識器相關聯的註釋。

內容S3Uri

指定實體辨識器的 Amazon S3 位置。URI 必須與您呼叫的 API 端點位於同一個區域。

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必要:是TestS3Uri

指定實體辨識器的 Amazon S3 位置。URI 必須與您呼叫的 API 端點位於同一個區域。

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

489

Amazon Comprehend 開發人員指南EntityRecognizerDocuments

EntityRecognizerDocuments說明使用實體辨識器提交的訓練文件。

內容InputFormat

指定如何處理輸入檔案中的文字。此為選用項目,預設為「一 _ 文件 _ 專用項目」。一個 _ 文件 _文件-每個文件被視為一個單獨的文檔。處理大型文件 (例如報紙文章或科學論文) 時,請使用此選項。ONE_DOC_PER_LINE-在一個文件中的每一行被視為一個單獨的文檔。當您處理許多簡短文件 (例如文字訊息) 時,請使用此選項。

類型:字串

有效值: ONE_DOC_PER_FILE | ONE_DOC_PER_LINE

必要:否S3Uri

指定實體辨識器的訓練文件位於 Super (Amazon S3) 位置。URI 必須與您呼叫的 API 端點位於同一個區域。

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必要:是TestS3Uri

指定實體辨識器的測試文件位於 Super (Amazon S3) 位置。此 URI 必須與您呼叫的 API 端點位於同一個 AWS 區域。

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

490

Amazon Comprehend 開發人員指南EntityRecognizerEntityList

EntityRecognizerEntityList描述使用實體辨識器提交的實體辨識器。

內容S3Uri

指 Amazon S3 體清單位置。URI 必須與您呼叫的 API 端點位於相同的區域。

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必要:是

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

491

Amazon Comprehend 開發人員指南EntityRecognizerEvaluationMetrics

EntityRecognizerEvaluationMetrics有關實體識別器準確性的詳細信息。

內容F1Score

辨識器結果對測試資料的準確度量。它是衍生自Precision和Recall有效值。所以此F1Score是兩個分數的調和平均值。對於純文字實體辨識器模型,範圍是 0 到 100,其中 100 是最佳分數。對於 PDF/Word 實體辨識器模型,範圍是 0 到 1,其中 1 是最佳分數。

類型:Double

必要:否Precision

識別器的有用性的測量結果在測試數據。高精度意味著識別器返回的結果比不相關的結果更具相關性。

類型:Double

必要:否Recall

測試資料的辨識器結果完整程度。高召回意味著識別器返回了大部分相關結果。

類型:Double

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

492

Amazon Comprehend 開發人員指南EntityRecognizerFilter

EntityRecognizerFilter提供篩選實體辨識器清單的資訊。您只能在要求中指定一個篩選參數。如需詳細資訊,請參閱 。ListEntityRecognizers (p. 348)operation. />

內容RecognizerName

您已指派給實體辨識器的名稱。

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必要:否Status

實體辨識器的狀態。

類型:字串

有效值: SUBMITTED | TRAINING | DELETING | STOP_REQUESTED | STOPPED |IN_ERROR | TRAINED

必要:否SubmitTimeAfter

根據提交清單進行處理的時間篩選實體清單。僅傳回指定時間後提交的工作。工作會以遞增順序傳回,最舊到最新。

類型:時間戳記

必要:否SubmitTimeBefore

根據提交清單進行處理的時間篩選實體清單。只會傳回指定時間前提交的任務。工作會以遞減順序 (最新到最舊) 傳回。

類型:時間戳記

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

493

Amazon Comprehend 開發人員指南EntityRecognizerInputDataConfig

EntityRecognizerInputDataConfig指定輸入資料的格式和位置。

內容Annotations

註解訓練文件的 CSV 檔案 S3 位置。

類型:EntityRecognizerAnnotations (p. 489) 物件

必要:否AugmentedManifests

為您的自訂模型提供訓練資料的增強資訊清單檔案清單清單清單清單。增強資訊清單檔案是由 Amazon產生的標記資料集 SageMaker Ground Truth。

如果您設定,則此參數為必要DataFormat至AUGMENTED_MANIFEST。

類型:陣列AugmentedManifestsListItem (p. 445)對象

必要:否DataFormat

訓練資料的格式:• COMPREHEND_CSV:補充訓練文件的 CSV 檔案。CSV 檔案包含訓練過的模型將偵測到的自訂實體的

相關資訊。所需的檔案格式取決於您是提供註釋還是實體清單。

如果您使用此值,您必須使用Annotations或者EntityList參數。您必須使用Documents參數。• AUGMENTED_MANIFEST:由亞馬遜生產的標籤數據集 SageMaker Ground Truth。這個文件是 JSON

行格式。每一列都是一個完整的 JSON 物件,其中包含訓練文件及其標記。每個標籤都會在訓練文件中註解一個具名實體。

如果您使用此值,您必須提供AugmentedManifests您的請求中的參數。

如果您不指定值,Amazon Comprehend 用COMPREHEND_CSV預設值。

類型:字串

有效值: COMPREHEND_CSV | AUGMENTED_MANIFEST

必要:否Documents

資料夾的 S3 位置,其中包含自訂實體辨識器的訓練文件。

如果您設定,則此參數為必要DataFormat至COMPREHEND_CSV。

類型:EntityRecognizerDocuments (p. 490) 物件

必要:否EntityList

CSV 檔案的 S3 位置,該檔案具有自訂實體辨識器的實體清單。

類型:EntityRecognizerEntityList (p. 491) 物件

必要:否

494

Amazon Comprehend 開發人員指南EntityRecognizerInputDataConfig

EntityTypes

Amazon Comprehend 用來訓練自訂實體辨識器的標籤訓練資料中的實體類型。您未指定的任何實體類型都會遭到忽略。

一次最多可以使用 25 種實體類型來訓練實體識別器。實體類型不得包含下列無效字元:\ n (換行符)、\\n (逸出換行符)、\ r (歸位字元)、\\ r (逸出換行字元)、\ t (逸出定位點)、空格和 (逗號)。

類型:陣列EntityTypesListItem (p. 504)對象

必要:是

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

495

Amazon Comprehend 開發人員指南EntityRecognizerMetadata

EntityRecognizerMetadata有關實體識別器的詳細信息。

內容EntityTypes

來自實體辨識器中繼資料的實體類型。

類型:的陣列EntityRecognizerMetadataEntityTypesListItem (p. 497)對象

必要:否EvaluationMetrics

有關實體識別器準確性的詳細信息。

類型:EntityRecognizerEvaluationMetrics (p. 492) 物件

必要:否NumberOfTestDocuments

輸入資料中用來測試實體辨識器的文件數目。一般而言,這是輸入文件的 10% 到 20%。

類型:整數

必要:否NumberOfTrainedDocuments

輸入資料中用來訓練實體辨識器的文件數量。一般而言,這是輸入文件的 80% 到 90%。

類型:整數

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

496

Amazon Comprehend 開發人員指南EntityRecognizerMetadataEntityTypesListItem

EntityRecognizerMetadataEntityTypesListItem實體辨識器中繼資料中的實體類型清單中的個別項目。

內容EvaluationMetrics

實體類型清單上特定項目的實體辨識器準確性的詳細資訊。

類型:EntityTypesEvaluationMetrics (p. 503) 物件

必要:否NumberOfTrainMentions

表示在訓練資料中看到指定實體類型的次數。

類型:整數

必要:否Type

實體辨識器中繼資料中的實體類型清單中的實體類型。

類型:字串

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

497

Amazon Comprehend 開發人員指南EntityRecognizerProperties

EntityRecognizerProperties描述實體辨識器的相關資訊。

內容DataAccessRoleArn

AWS Identity of Management (IAM) 角色的 Amazon Resource Name (ARN),可授予 AmazonComprehend Resource Name (ARN)。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否EndTime

辨識器建立完成的時間。

類型:時間戳記

必要:否EntityRecognizerArn

識別實體辨識器的 Amazon Resource Name (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:entity-recognizer/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否InputDataConfig

實體識別器的輸入數據屬性。

類型:EntityRecognizerInputDataConfig (p. 494) 物件

必要:否LanguageCode

輸入文件的語言。所有文件必要。目前僅支援英文 (「en」)。

類型:字串

有效值: en | es | fr | it | de | pt

必要:否Message

識別器狀態的說明。

類型:字串

498

Amazon Comprehend 開發人員指南EntityRecognizerProperties

必要:否ModelKmsKeyId

AWS Key Management Service (KMS) 金鑰 ID。所以此 ModelKmsKeyId 可以是下列格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否RecognizerMetadata

提供有關實體辨識器的資訊。

類型:EntityRecognizerMetadata (p. 496) 物件

必要:否SourceModelArn

來源模型的 Amazon Resource Name (ARN)。此模型是從不同的 AWS 帳戶匯入,以在您的 AWS 帳戶中建立實體辨識器模型。

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:entity-recognizer/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否Status

提供實體辨識器的狀態。

類型:字串

有效值: SUBMITTED | TRAINING | DELETING | STOP_REQUESTED | STOPPED |IN_ERROR | TRAINED

必要:否SubmitTime

提交辨識器以供處理的時間。

類型:時間戳記

必要:否TrainingEndTime

實體辨識器訓練完成的時間。

類型:時間戳記

必要:否

499

Amazon Comprehend 開發人員指南EntityRecognizerProperties

TrainingStartTime

實體辨識器訓練開始的時間。

類型:時間戳記

必要:否VersionName

您已指派至實體辨識器的版本名稱。

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必要:否VolumeKmsKeyId

在連接到處理分析任務的 ML 運算執行個體的儲存體磁碟區上,Amazon Comprehend 用來加密資料的AWS Key Management Service (KMS) 金鑰 ID。所以此 VolumeKmsKeyId 可以是下列格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否VpcConfig

私有 Virtual Private Cloud (VPC) (VPC) 的組態參數,其中包含您用於自訂實體辨識器的資源。如需詳細資訊,請參閱 Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

500

Amazon Comprehend 開發人員指南EntityRecognizerSummary

EntityRecognizerSummary描述實體辨識器及其版本的相關資訊。

內容LatestVersionCreatedAt

提交最新實體辨識器版本進行處理的時間。

類型:時間戳記

必要:否LatestVersionName

您指派給最新實體辨識器版本的版本名稱。

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必要:否LatestVersionStatus

提供最新實體辨識器版本的狀態。

類型:字串

有效值: SUBMITTED | TRAINING | DELETING | STOP_REQUESTED | STOPPED |IN_ERROR | TRAINED

必要:否NumberOfVersions

您建立的版本數目。

類型:整數

必要:否RecognizerName

您已指派給實體辨識器的名稱。

類型:字串

長度限制:長度上限為 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK

501

Amazon Comprehend 開發人員指南EntityRecognizerSummary

• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

502

Amazon Comprehend 開發人員指南EntityTypesEvaluationMetrics

EntityTypesEvaluationMetrics有關特定實體類型的實體辨識器準確性的詳細資訊。

內容F1Score

測試資料中特定實體類型的辨識器結果準確度量。它是衍生自Precision和Recall有效值。所以此F1Score是兩個分數的調和平均值。最高分為 1,最差分為 0。

類型:Double

必要:否Precision

測試資料中特定實體類型之辨識器結果的實用性測量方法。高精度意味著識別器返回的結果比不相關的結果更具相關性。

類型:Double

必要:否Recall

測試資料中特定實體類型的辨識器結果完整程度。高召回意味著識別器返回了大部分相關結果。

類型:Double

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

503

Amazon Comprehend 開發人員指南EntityTypesListItem

EntityTypesListItemAmazon Comprehend 用來訓練自訂實體辨識器的標籤訓練資料集內的實體類型。

內容Type

Amazon Comprehend 用來訓練自訂實體辨識器的標籤訓練資料集內的實體類型。

實體類型不得包含下列無效字元:\ n (分行符號)、\\ n (逸出換行符、\ r (歸位字元)、\\ r (逸出換行字元)、\ t (逸出定位點)、空格和 (逗號)。

類型:字串

長度限制:長度上限為 64。

模式:^(?![^\n\r\t,]*\\n|\\r|\\t)[^\n\r\t,]+$

必要:是

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

504

Amazon Comprehend 開發人員指南EventsDetectionJobFilter

EventsDetectionJobFilter提供篩選事件偵測工作清單的資訊。

內容JobName

篩選事件偵測工作的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

根據工作狀態篩選工作清單。只傳回處於指定狀態的任務。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否SubmitTimeAfter

根據提交工作進行處理的時間篩選工作清單。僅傳回指定時間後提交的工作。工作會以遞減順序 (最新到最舊) 傳回。

類型:時間戳記

必要:否SubmitTimeBefore

根據提交工作進行處理的時間篩選工作清單。僅傳回處於指定時間前提交的任務。工作會以遞增順序傳回,最舊到最新。

類型:時間戳記

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

505

Amazon Comprehend 開發人員指南EventsDetectionJobProperties

EventsDetectionJobProperties提供事件偵測工作的相關資訊。

內容DataAccessRoleArn

AWS I識別a Access Management (IAM) 角色的 Amazon Resource Name (ARN),可授予 AmazonComprehend Resource Name (ARN)。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否EndTime

事件偵測工作完成的時間。

類型:時間戳記

必要:否InputDataConfig

您在建立事件偵測工作時提供的輸入資料組態。

類型:InputDataConfig (p. 509) 物件

必要:否JobArn

事件偵測任務的 Amazon Resource Name (ARN)。它是任務唯一、完全合格的識別符。其中包括 AWS帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:events-detection-job/<job-id>

以下是範例任務 ARN:

arn:aws:comprehend:us-west-2:111122223333:events-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否JobId

指派給事件偵測任務的識別符。

類型:字串

506

Amazon Comprehend 開發人員指南EventsDetectionJobProperties

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobName

您指派給事件偵測工作的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

事件偵測任務的目前狀態。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否LanguageCode

輸入文件的語言代碼。

類型:字串

有效值: en

必要:否Message

事件偵測工作狀態的描述。

類型:字串

必要:否OutputDataConfig

建立事件偵測工作時所提供的輸出資料組態。

類型:OutputDataConfig (p. 515) 物件

必要:否SubmitTime

提交事件偵測工作進行處理的時間。

類型:時間戳記

必要:否TargetEventTypes

工作偵測到的事件類型。

507

Amazon Comprehend 開發人員指南EventsDetectionJobProperties

類型:字串陣列

陣列成員:項目數下限為 1。

長度限制:長度下限為 1。長度上限為 40。

模式:[A-Z_]*

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

508

Amazon Comprehend 開發人員指南InputDataConfig

InputDataConfig推論工作的輸入屬性。

內容DocumentReaderConfig

文件閱讀器設定欄位僅適用於 InputDataConfig 的 StartEntitiesDetectionJob。

使用 DocumentReaderConfig 提供有關您希望如何閱讀推論文件的規格。目前它適用於 PDF 文檔StartEntitiesDetectionJob 自訂推論。

類型:DocumentReaderConfig (p. 472) 物件

必要:否InputFormat

指定如何處理輸入檔案中的文字:• ONE_DOC_PER_FILE-每個文件被認為是一個單獨的文檔。處理大型文件 (例如報紙文章或科學論文)

時,請使用此選項。• ONE_DOC_PER_LINE-文件中的每一行被視為一個單獨的文檔。當您處理許多簡短文件 (例如文字訊

息) 時,請使用此選項。

類型:字串

有效值: ONE_DOC_PER_FILE | ONE_DOC_PER_LINE

必要:否S3Uri

輸入資料的 Amazon S3 URI。URI 必須與您呼叫的 API 端點位於相同的區域。URI 可以指向單個輸入文件,也可以為數據文件的集合提供前綴。

例如,如果您使用 URIS3://bucketName/prefix,如果前置詞是單一檔案,Amazon Comprehend會使用該檔案做為輸入。如果有多個檔案以前綴開頭,Amazon Comprehend 會使用所有這些檔案作為輸入。

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必要:是

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

509

Amazon Comprehend 開發人員指南KeyPhrase

KeyPhrase描述關鍵名詞短語。

內容BeginOffset

輸入文字中的字元偏移量,顯示關鍵片語的開始位置 (第一個字元位於 0 位置)。偏移量返回字符串中每個 UTF-8 代碼點的位置。一個碼點是來自特定圖形表示的抽象字元。例如,多位元組 UTF-8 字元對應至單一字碼點。

類型:整數

必:否EndOffset

輸入文字中關鍵片語結束的字元偏移量。偏移量返回字符串中每個 UTF-8 代碼點的位置。一個codepoint是來自特定圖形表示的抽象字元。例如,多位元組 UTF-8 字元對應至單一字碼點。

類型:整數

必:否Score

對於偵測準確性 Amazon Comprehend 可信度。

類型:Float

必:否Text

關鍵名詞短語的文字。

類型:字串

長度限制:長度下限為 1。

必:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

510

Amazon Comprehend 開發人員指南KeyPhrasesDetectionJobFilter

KeyPhrasesDetectionJobFilter提供篩選主要語言偵測工作清單的資訊。有關更多資訊,請參閱 ListKeyPhrasesDetectionJobs (p. 357) 操作。

內容JobName

篩選任務的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

根據工作狀態篩選工作清單。只傳回處於指定狀態的任務。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否SubmitTimeAfter

根據提交工作進行處理的時間篩選工作清單。僅傳回指定時間後提交的工作。工作會以遞減順序 (最新到最舊) 傳回。

類型:時間戳記

必要:否SubmitTimeBefore

根據提交工作進行處理的時間篩選工作清單。只傳回處於指定時間前提交的任務。工作會以遞增順序傳回,最舊到最新。

類型:時間戳記

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

511

Amazon Comprehend 開發人員指南KeyPhrasesDetectionJobProperties

KeyPhrasesDetectionJobProperties提供關鍵片語偵測任務的相關資訊。

內容DataAccessRoleArn

提供輸入資料的 Amazon Resource Name (ARN),讓 Amazon Comprehend Name (ARN) 讓 AmazonResource Name (ARN)。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否EndTime

關鍵片語偵測工作完成的時間。

類型:時間戳記

必要:否InputDataConfig

建立關鍵片語偵測工作時所提供的輸入資料組態。

類型:InputDataConfig (p. 509) 物件

必要:否JobArn

關鍵片語偵測任務的 Amazon Resource Name (ARN)。它是任務唯一、完全合格的識別符。其中包括AWS 帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:key-phrases-detection-job/<job-id>

以下是範例任務 ARN:

arn:aws:comprehend:us-west-2:111122223333:key-phrases-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否JobId

指派給關鍵片語偵測任務的識別符。

類型:字串

512

Amazon Comprehend 開發人員指南KeyPhrasesDetectionJobProperties

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobName

您已指派至關鍵片語偵測任務的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

關鍵片語偵測任務的目前狀態。如果狀態為FAILED,該Message欄位會顯示失敗的原因。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否LanguageCode

輸入文件的語言代碼。

類型:字串

有效值: en | es | fr | de | it | pt | ar | hi | ja | ko | zh | zh-TW

必要:否Message

工作的狀態說明。

類型:字串

必要:否OutputDataConfig

建立關鍵片語偵測工作時所提供的輸出資料組態。

類型:OutputDataConfig (p. 515) 物件

必要:否SubmitTime

提交關鍵片語偵測工作進行處理的時間。

類型:時間戳記

必要:否VolumeKmsKeyId

在連接到處理分析任務的 ML 運算執行個體的儲存體磁碟區上,Amazon Comprehend 用來加資料的AWS Key Management Service (KMS) 金鑰。所以此 VolumeKmsKeyId 可以是以下格式之一:

513

Amazon Comprehend 開發人員指南KeyPhrasesDetectionJobProperties

• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否VpcConfig

私有 Virtual Private Cloud (VPC) (VPC) 的組態參數,其中包含您用於關鍵片語偵測工作的資源。如需詳細資訊,請參閱 Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

514

Amazon Comprehend 開發人員指南OutputDataConfig

OutputDataConfig提供推論工作輸出的組態參數。

內容KmsKeyId

Amazon Comprehend 用於加密分析任務輸出結果的 AWS Key Management Service (KMS) 金鑰 ID。所以此 KmsKeyId 可為下列其中之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

• KMS 金鑰別名:"alias/ExampleAlias"

• KMS 金鑰別名的 ARN:"arn:aws:kms:us-west-2:111122223333:alias/ExampleAlias"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否S3Uri

當您使用OutputDataConfig使用非同步操作的物件時,您可以指定要在其中寫入輸出資料的 AmazonS3 位置。URI 必須與您呼叫的 API 端點位於同一個區域。該位置用作輸出檔案實際位置的前綴。

當主題偵測工作完成時,服務會在工作的特定目錄中建立輸出檔案。所以此S3Uri字段包含輸出文件的位置,稱為output.tar.gz。它是一個壓縮的歸檔,其中包含操作的輸出。

對於 PII 實體偵測工作,輸出檔案是純文字,而不是壓縮的歸檔。輸出文件名與輸入文件相同,.out附加在結束。

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必要:是

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

515

Amazon Comprehend 開發人員指南PartOfSpeechTag

PartOfSpeechTag識別令牌所代表的語音部分,並提供 Amazon Comprehend 確定語音部分已正確識別的信心。如需 AmazonComprehend 可識別之語音部分的詳細資訊,請參閱語法Comprehend 在開發人員指南中)。

內容Score

Amazon Comprehend 語音的一部分是正確識別的信心。

類型:Float

必要:否Tag

識別權杖代表的語音部分。

類型:字串

有效值: ADJ | ADP | ADV | AUX | CONJ | CCONJ | DET | INTJ | NOUN | NUM | O |PART | PRON | PROPN | PUNCT | SCONJ | SYM | VERB

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

516

Amazon Comprehend 開發人員指南PiiEntitiesDetectionJobFilter

PiiEntitiesDetectionJobFilter提供篩選 PII 實體偵測工作清單的資訊。

內容JobName

篩選條件處於任務的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

根據工作狀態篩選工作清單。只傳回處於指定狀態的任務。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否SubmitTimeAfter

根據提交工作進行處理的時間篩選工作清單。僅傳回指定時間後提交的工作。工作會以遞減順序 (最新到最舊) 傳回。

類型:時間戳記

必要:否SubmitTimeBefore

根據提交工作進行處理的時間篩選工作清單。只傳回處於指定時間前提交的任務。工作會以遞增順序傳回,最舊到最新。

類型:時間戳記

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

517

Amazon Comprehend 開發人員指南PiiEntitiesDetectionJobProperties

PiiEntitiesDetectionJobProperties提供 PII 實體偵測任務的相關資訊。

內容DataAccessRoleArn

Amazon Resource Name (ARN),讓 Amazon Resource Name (ARN) 提供輸入資料的 AmazonResource Name (ARN)。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否EndTime

PII 實體偵測工作完成的時間。

類型:時間戳記

必要:否InputDataConfig

PII 實體偵測任務的輸入內容。

類型:InputDataConfig (p. 509) 物件

必要:否JobArn

PII 實體偵測任務的 Amazon Resource Name (ARN)。它是任務唯一、完全合格的識別符。其中包括AWS 帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:pii-entities-detection-job/<job-id>

以下是範例任務 ARN:

arn:aws:comprehend:us-west-2:111122223333:pii-entities-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否JobId

指派給 PII 實體偵測工作的識別碼。

類型:字串

518

Amazon Comprehend 開發人員指南PiiEntitiesDetectionJobProperties

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobName

您指派給 PII 實體偵測任務的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

PII 實體偵測任務的目前狀態。如果狀態為FAILED,該Message欄位會顯示失敗的原因。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否LanguageCode

輸入文件的語言代碼

類型:字串

有效值: en

必要:否Message

任務的狀態說明。

類型:字串

必要:否Mode

指定輸出是提供 PII 實體的位置 (位移),還是編輯 PII 實體的檔案。

類型:字串

有效值: ONLY_REDACTION | ONLY_OFFSETS

必要:否OutputDataConfig

建立 PII 實體偵測工作時所提供的輸出資料組態。

類型:PiiOutputDataConfig (p. 523) 物件

必要:否RedactionConfig

提供 PII 實體編輯的組態參數。

519

Amazon Comprehend 開發人員指南PiiEntitiesDetectionJobProperties

如果您將Mode參數ONLY_REDACTION。在這種情況下,您必須提供RedactionConfig定義,其中包括PiiEntityTypes參數。

類型:RedactionConfig (p. 524) 物件

必要:否SubmitTime

提交 PII 實體偵測工作進行處理的時間。

類型:時間戳記

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

520

Amazon Comprehend 開發人員指南PiiEntity

PiiEntity提供 PII 實體的相關資訊。

內容BeginOffset

輸入文字中的字元偏移量,顯示 PII 實體開始位置 (第一個字元位於 0 位置)。偏移量返回字符串中每個UTF-8 代碼點的位置。一個碼點是來自特定圖形表示的抽象字元。例如,多位元組 UTF-8 字元對應至單一字碼點。

類型:整數

必要:否EndOffset

輸入文字中的字元偏移量,顯示 PII 實體結束位置。偏移量返回字符串中每個 UTF-8 代碼點的位置。一個碼點是來自特定圖形表示的抽象字元。例如,多位元組 UTF-8 字元對應至單一字碼點。

類型:整數

必要:否Score

對於對於 Amazon Comprehend 準確性的可信度。

類型:Float

必要:否Type

實體的類型。

類型:字串

有效值: BANK_ACCOUNT_NUMBER | BANK_ROUTING | CREDIT_DEBIT_NUMBER |CREDIT_DEBIT_CVV | CREDIT_DEBIT_EXPIRY | PIN | EMAIL | ADDRESS | NAME |PHONE | SSN | DATE_TIME | PASSPORT_NUMBER | DRIVER_ID | URL | AGE | USERNAME| PASSWORD | AWS_ACCESS_KEY | AWS_SECRET_KEY | IP_ADDRESS | MAC_ADDRESS |LICENSE_PLATE | VEHICLE_IDENTIFICATION_NUMBER | UK_NATIONAL_INSURANCE_NUMBER| CA_SOCIAL_INSURANCE_NUMBER | US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER| UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER | IN_PERMANENT_ACCOUNT_NUMBER| IN_NREGA | INTERNATIONAL_BANK_ACCOUNT_NUMBER | SWIFT_CODE |UK_NATIONAL_HEALTH_SERVICE_NUMBER | CA_HEALTH_NUMBER | IN_AADHAAR |IN_VOTER_NUMBER | ALL

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版

521

Amazon Comprehend 開發人員指南PiiEntity

• 適用於 Ruby 的 AWS SDK 第 3 版

522

Amazon Comprehend 開發人員指南PiiOutputDataConfig

PiiOutputDataConfig提供 PII 實體偵測工作輸出的組態參數。

內容KmsKeyId

Amazon Comprehend 用於加密分析任務輸出結果之 AWS Key Management Service (KMS) 金鑰的識別碼。

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否S3Uri

當您使用PiiOutputDataConfig使用非同步操作的物件時,您可以指定要在其中寫入輸出資料的Amazon S3 位置。

對於 PII 實體偵測工作,輸出檔案是純文字,而不是壓縮的歸檔。輸出文件名與輸入文件相同,具有.out附加在結束。

類型:字串

長度限制:長度上限為 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必要:是

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

523

Amazon Comprehend 開發人員指南RedactionConfig

RedactionConfig提供 PII 實體編輯的組態參數。

內容MaskCharacter

取代已修訂 PII 實體中每個字元的字元。

類型:字串

長度限制:長度固定為 1。

模式:[!@#$%&*]

必要:否MaskMode

指定 PII 實體是使用遮罩字元還是實體類型來編輯。

類型:字串

有效值: MASK | REPLACE_WITH_PII_ENTITY_TYPE

必要:否PiiEntityTypes

Amazon Comprehend 在您的請求的輸入文字中偵測到的 PII 實體類型陣列。

類型:字串陣列

有效值: BANK_ACCOUNT_NUMBER | BANK_ROUTING | CREDIT_DEBIT_NUMBER |CREDIT_DEBIT_CVV | CREDIT_DEBIT_EXPIRY | PIN | EMAIL | ADDRESS | NAME |PHONE | SSN | DATE_TIME | PASSPORT_NUMBER | DRIVER_ID | URL | AGE | USERNAME| PASSWORD | AWS_ACCESS_KEY | AWS_SECRET_KEY | IP_ADDRESS | MAC_ADDRESS |LICENSE_PLATE | VEHICLE_IDENTIFICATION_NUMBER | UK_NATIONAL_INSURANCE_NUMBER| CA_SOCIAL_INSURANCE_NUMBER | US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER| UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER | IN_PERMANENT_ACCOUNT_NUMBER| IN_NREGA | INTERNATIONAL_BANK_ACCOUNT_NUMBER | SWIFT_CODE |UK_NATIONAL_HEALTH_SERVICE_NUMBER | CA_HEALTH_NUMBER | IN_AADHAAR |IN_VOTER_NUMBER | ALL

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

524

Amazon Comprehend 開發人員指南SentimentDetectionJobFilter

SentimentDetectionJobFilter提供篩選主要語言偵測工作清單的資訊。有關更多資訊,請參閱 ListSentimentDetectionJobs (p. 363) 操作。

內容JobName

篩選任務的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

根據工作狀態篩選工作清單。只傳回處於指定狀態的任務。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否SubmitTimeAfter

根據提交工作進行處理的時間篩選工作清單。僅傳回指定時間後提交的工作。工作會以遞減順序 (最新到最舊) 傳回。

類型:時間戳記

必要:否SubmitTimeBefore

根據提交工作進行處理的時間篩選工作清單。只傳回處於指定時間前提交的任務。工作會以遞增順序傳回,最舊到最新。

類型:時間戳記

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

525

Amazon Comprehend 開發人員指南SentimentDetectionJobProperties

SentimentDetectionJobProperties提供情緒偵測任務的相關資訊。

內容DataAccessRoleArn

Amazon Resource Name (ARN),Amazon Comprehend 用要求:

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要。否EndTime

情緒偵測工作結束的時間。

類型:時間戳記

必要。否InputDataConfig

您在建立情緒偵測工作時提供的輸入資料組態。

類型:InputDataConfig (p. 509) 物件

必要。否JobArn

情緒偵測任務的 Amazon Resource Name (ARN)。它是任務的唯一、完全合格的識別符。其中包括AWS 帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:sentiment-detection-job/<job-id>

以下是範例任務 ARN:

arn:aws:comprehend:us-west-2:111122223333:sentiment-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要。否JobId

指派給情緒偵測任務的識別符。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

526

Amazon Comprehend 開發人員指南SentimentDetectionJobProperties

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要。否JobName

您已指派至情緒偵測任務的名稱

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要。否JobStatus

情緒偵測任務的目前狀態。如果狀態為FAILED,該Messages欄位會顯示失敗的原因。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要。否LanguageCode

輸入文件的語言代碼。

類型:字串

有效值: en | es | fr | de | it | pt | ar | hi | ja | ko | zh | zh-TW

必要。否Message

任務狀態的描述。

類型:字串

必要。否OutputDataConfig

您在建立情緒偵測工作時提供的輸出資料組態。

類型:OutputDataConfig (p. 515) 物件

必要。否SubmitTime

提交情緒偵測工作進行處理的時間。

類型:時間戳記

必要。否VolumeKmsKeyId

Amazon Comprehend 使用的 AWS Key Management Service (KMS) 金鑰 ID (KMS) 金鑰來加密連線到處理分析任務的 ML 運算執行個體的儲存磁碟區資料。所以此 VolumeKmsKeyId 可以是以下格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

527

Amazon Comprehend 開發人員指南SentimentDetectionJobProperties

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要。否VpcConfig

私人虛擬私人雲端 (VPC) 的組態參數,其中包含您用於情緒偵測工作的資源。如需詳細資訊,請參閱Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要。否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

528

Amazon Comprehend 開發人員指南SentimentScore

SentimentScore描述 Amazon Comprehend 對偵測情緒的準確性所具有的信心程度。

內容Mixed

Amazon Comprehend 對其檢測的準確性的信心程度MIXED情緒。

類型:Float

必要:否Negative

Amazon Comprehend 對其檢測的準確性的信心程度NEGATIVE情緒。

類型:Float

必要:否Neutral

Amazon Comprehend 對其檢測的準確性的信心程度NEUTRAL情緒。

類型:Float

必要:否Positive

Amazon Comprehend 對其檢測的準確性的信心程度POSITIVE情緒。

類型:Float

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

529

Amazon Comprehend 開發人員指南SyntaxToken

SyntaxToken表示在輸入文本中被識別並分配一部分語音的工作。來源文字中的每個字都有一個語法 Token 記錄。

內容BeginOffset

從來源文字開頭到單字中第一個字元的偏移量 (從零開始)。

類型:整數

必要:否EndOffset

從來源文字開頭到單字中最後一個字元的偏移量 (從零開始)。

類型:整數

必要:否PartOfSpeech

提供語音標籤的一部分,以及 Amazon Comprehend 能夠正確識別語音部分的信賴度。如需詳細資訊,請參閱「」語法Comprehend 在開發人員指南中)。

類型:PartOfSpeechTag (p. 516) 物件

必要:否Text

在來源文字中辨識的字詞。

類型:字串

長度限制:長度下限為 1。

必要:否TokenId

令牌的唯一識別符。

類型:整數

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

530

Amazon Comprehend 開發人員指南Tag

Tag一種鍵值對,可將做為中繼資料新增至 Amazon Comprehend 所使用的資源中繼資料。例如,可能會將具有鍵值配對「部門」: 'Sales' 的標籤新增至資源,以指示特定部門使用該標籤。

內容Key

組成與指定資源關聯的標籤的鍵/值組的初始部分。例如,如果您想要顯示哪些部門正在使用哪些資源,則可以使用「部門」作為配對中的關鍵部分,其中包含多個可能的值,例如「銷售」、「法律」和「管理」。

類型:字串

長度限制:長度下限為 1。長度上限為 128。

必要:是Value

組成與指定資源關聯的標籤的鍵/值組的第二部分。例如,如果您想要顯示哪些部門正在使用哪些資源,則可以使用「部門」作為配對的初始 (索引鍵) 部分,值為「sales」來表示銷售部門。

類型:字串

長度限制:長度下限為 0。長度上限為 256。

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

531

Amazon Comprehend 開發人員指南TargetedSentimentDetectionJobFilter

TargetedSentimentDetectionJobFilter提供篩選主要語言偵測工作清單的資訊。有關更多資訊,請參閱ListTargetedSentimentDetectionJobs (p. 368) 操作。

內容JobName

篩選任務的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

根據工作狀態篩選工作清單。只傳回處於指定狀態的任務。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否SubmitTimeAfter

根據提交工作進行處理的時間篩選工作清單。僅傳回指定時間後提交的工作。工作會以遞減順序 (最新到最舊) 傳回。

類型:時間戳記

必要:否SubmitTimeBefore

根據提交工作進行處理的時間篩選工作清單。只傳回處於指定時間前提交的任務。工作會以遞增順序傳回,最舊到最新。

類型:時間戳記

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

532

Amazon Comprehend 開發人員指南TargetedSentimentDetectionJobProperties

TargetedSentimentDetectionJobProperties提供目標情緒偵測任務的資訊。

內容DataAccessRoleArn

Amazon Resource Name (ARN),讓 Amazon Comprehend Resource Name (ARN)。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否EndTime

目標情緒偵測工作結束的時間。

類型:時間戳記

必要:否InputDataConfig

推論工作的輸入屬性。

類型:InputDataConfig (p. 509) 物件

必要:否JobArn

目標情緒偵測任務的 Amazon Resource Name (ARN)。它是任務的唯一、完全合格的識別符。其中包括AWS 帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:targeted-sentiment-detection-job/<job-id>

以下是範例任務:

arn:aws:comprehend:us-west-2:111122223333:targeted-sentiment-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否JobId

指派給目標情緒偵測工作的識別碼。

類型:字串

長度限制:長度下限為 1。長度上限為 32。

533

Amazon Comprehend 開發人員指南TargetedSentimentDetectionJobProperties

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobName

您已指派至目標情緒偵測任務的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

目標情緒偵測任務的目前狀態。如果狀態為FAILED,該Messages欄位會顯示失敗的原因。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否LanguageCode

輸入文件的語言代碼。

類型:字串

有效值: en

必要:否Message

任務的狀態。

類型:字串

必要:否OutputDataConfig

提供推論工作輸出的組態參數。

類型:OutputDataConfig (p. 515) 物件

必要:否SubmitTime

提交目標情緒偵測工作進行處理的時間。

類型:時間戳記

必要:否VolumeKmsKeyId

在連接到 AWS Key Management Service (KMS) 的 ML 運算執行 Amazon Comprehend 體的連接到處理目標情緒偵測任務的 ML 運算執行個體的資料。所以此 VolumeKmsKeyId 可以是以下格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

534

Amazon Comprehend 開發人員指南TargetedSentimentDetectionJobProperties

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否VpcConfig

選擇性私有虛擬私人雲端 (VPC) 的組態參數,其中包含您用於工作的資源。如需詳細資訊,請參閱Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

535

Amazon Comprehend 開發人員指南TopicsDetectionJobFilter

TopicsDetectionJobFilter提供篩選主題偵測工作的資訊。如需詳細資訊,請參閱 ListTopicsDetectionJobs (p. 371)。

內容JobName

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

根據工作狀態篩選主題偵測工作清單。僅傳回處於指定狀態的任務。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否SubmitTimeAfter

根據提交工作進行處理的時間篩選工作清單。僅傳回指定時間後提交的工作。工作會以遞增順序傳回,最舊到最新。

類型:時間戳記

必要:否SubmitTimeBefore

根據提交工作進行處理的時間篩選工作清單。只傳回處於指定時間前提交的任務。工作會以遞減順序 (最新到最舊) 傳回。

類型:時間戳記

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

536

Amazon Comprehend 開發人員指南TopicsDetectionJobProperties

TopicsDetectionJobProperties提供主題偵測任務的相關資訊。

內容DataAccessRoleArn

AWS Identity in Management (IAM) 角色的 Amazon Resource Name (ARN),可授予任務資料的Amazon Resource Name (ARN)。

類型:字串

長度限制:長度下限為 20。長度上限為 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必要:否EndTime

主題偵測工作完成的時間。

類型:時間戳記

必要:否InputDataConfig

建立主題偵測工作時提供的輸入資料組態。

類型:InputDataConfig (p. 509) 物件

必要:否JobArn

主題偵測任務的 Amazon Resource Name (ARN)。它是任務的唯一、完全合格的識別符。它包括 AWS帳戶、區域和任務 ID。ARN 的格式如下:

arn:<partition>:comprehend:<region>:<account-id>:topics-detection-job/<job-id>

以下是範例工作 ARN:

arn:aws:comprehend:us-west-2:111122223333:topics-detection-job/1234abcd12ab34cd56ef1234567890ab

類型:字串

長度限制:長度上限為 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:[a-zA-Z0-9-]{1,64}/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

必要:否JobId

指派給主題偵測任務的識別符。

類型:字串

537

Amazon Comprehend 開發人員指南TopicsDetectionJobProperties

長度限制:長度下限為 1。長度上限為 32。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobName

主題偵測任務的名稱。

類型:字串

長度限制:長度下限為 1。長度上限為 256。

模式:^([\p{L}\p{Z}\p{N}_.:/=+\-%@]*)$

必要:否JobStatus

主題偵測任務的目前狀態。如果狀態為Failed,則為筆記本故障的原因Message欄位。

類型:字串

有效值: SUBMITTED | IN_PROGRESS | COMPLETED | FAILED | STOP_REQUESTED |STOPPED

必要:否Message

工作狀態的描述。

類型:字串

必要:否NumberOfTopics

建立主題偵測工作時要偵測的主題數目。預設為 10。

類型:整數

必要:否OutputDataConfig

建立主題偵測工作時提供的輸出資料配置。

類型:OutputDataConfig (p. 515) 物件

必要:否SubmitTime

提交主題偵測工作進行處理的時間。

類型:時間戳記

必要:否VolumeKmsKeyId

Amazon Comprehend 使用的 AWS Key Management Service (KMS) 金鑰來加密連線到處理任務的 ML運算執行個體的儲存磁碟區資料。所以此 VolumeKmsKeyId 可以是以下格式之一:• KMS 金鑰 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

538

Amazon Comprehend 開發人員指南TopicsDetectionJobProperties

• KMS 金鑰的 Amazon Resource Name (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

類型:字串

長度限制:長度上限為 2048。

模式:^\p{ASCII}+$

必要:否VpcConfig

私有虛擬私人雲端 (VPC) 的組態參數,其中包含您用於主題偵測工作的資源。如需詳細資訊,請參閱Amazon VPC。

類型:VpcConfig (p. 540) 物件

必要:否

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

539

Amazon Comprehend 開發人員指南VpcConfig

VpcConfig選擇性私有虛擬私人雲端 (VPC) 的組態參數,其中包含您用於工作的資源。如需詳細資訊,請參閱 AmazonVPC。

內容SecurityGroupIds

私有 VPC 執行個體上安全群組的 ID 號碼。VPC 功能上的安全群組可做為虛擬防火牆,以控制輸入和輸出流量,並為您將在 VPC 上存取的資源提供安全性。這個身份證號碼前面加上「sg-」,例如:「SG-」。如需詳細資訊,請參閱「」VPC 的安全群組。

類型:字串陣列

陣列成員:項目數下限為 1。項目數上限為 5。

長度限制:長度下限為 1。長度上限為 32。

模式:[-0-9a-zA-Z]+

必要:是Subnets

私有 VPC 中使用的每個子網路的識別碼。此子網路是 VPC 使用的一系列 IPv4 位址的子集,特定於 VPC 區域中指定的可用區域。此識別碼前面加上「子網路」,例如:「子網路-04ccf456919e69055」。如需詳細資訊,請參閱 VPC 和子網路。

類型:字串陣列

陣列成員:項目數下限為 1。項目數上限為 16。

長度限制:長度下限為 1。長度上限為 32。

模式:[-0-9a-zA-Z]+

必要:是

另請參閱如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明:

• 適用於 C++ 的 AWS SDK• 適用於 Go 的 AWS SDK• 適用於 Java 的 AWS SDK 第 2 版• 適用於 Ruby 的 AWS SDK 第 3 版

常見參數下列清單包含所有動作用於使用查詢字串簽署簽署簽署第 4 版請求的參數。任何專屬於特定動作的參數則列於相應動作的主題中。如需簽章版本 4 的詳細資訊,請參閱。Signature 第 4 版簽署程序中的Amazon WebServices 一般參考。

Action

要執行的動作。

540

Amazon Comprehend 開發人員指南常見參數

類型:字串

必要要:是Version

編寫請求所憑藉的 API 版本,以 YYYY-MM-DD 格式表示。

類型:字串

必要要:是X-Amz-Algorithm

建立請求簽章時所使用的雜湊演算法。

條件:當您在查詢字串而非 HTTP 授權標頭中包含驗證資訊時,請指定此參數。

類型:字串

有效值: AWS4-HMAC-SHA256

必要要:有條件X-Amz-Credential

登入資料範圍值 (字串),其中包含您的存取金鑰、日期、目標區域、您請求的服務,以及終止字串(「aws4_request」)。這個值是以下格式表示:access_key/YYMMDD/區域/服務/aws4 請求。

如需詳細資訊,請參閱「」任務 2:建立 Signature 第 4 版的登入字串中的Amazon Web Services 一般參考。

條件:當您在查詢字串而非 HTTP 授權標頭中包含驗證資訊時,請指定此參數。

類型:字串

必要要:有條件X-Amz-Date

用來建立簽章的日期。格式必須符合 ISO 8601 基本格式 (YYMMDD'T'HHMMSS'Z')。例如,下列日期時間是有效的 X-Amz-Date 值:20120325T120000Z。

條件:X-Amz-Date 是選用要求;它可以用於覆寫用於簽署請求的日期。如果日期標頭是以 ISO 8601 基本格式指定的,則不需要 X-Amz-Date。當使用 X-Amz-Date 時,一律覆寫日期標頭的值。如需詳細資訊,請參閱「」Signature 第 4 版中的處理日期中的Amazon Web Services 一般參考。

類型:字串

必要要:有條件X-Amz-Security-Token

透過呼叫取得的暫時性安全權杖AWSSecurity Token ServiceAWSSTS)。如需支援臨時安全登入資料的服務清單AWSSecurity Token Service,前往AWS可搭配 IAM 運作的服務中的IAM User Guide。

條件:如果您使用暫時性安全登入資料AWS保安編碼器服務,您必須包括安全令牌。

類型:字串

必要要:有條件X-Amz-Signature

指定從要簽署的字串和衍生的簽章金鑰計算的十六進位編碼簽章。

541

Amazon Comprehend 開發人員指南常見錯誤

條件:當您在查詢字串而非 HTTP 授權標頭中包含驗證資訊時,請指定此參數。

類型:字串

必要要:有條件X-Amz-SignedHeaders

指定包含為標準要求一部分的所有 HTTP 標頭。如需如何指定已簽署標頭的詳細資訊,請參閱。任務1:建立 Signature 第 4 版的正式請求中的Amazon Web Services 一般參考。

條件:當您在查詢字串而非 HTTP 授權標頭中包含驗證資訊時,請指定此參數。

類型:字串

必要要:有條件

常見錯誤本部分列出所有 API 動作的常見錯誤AWS服務。如需此服務之 API 動作的特定錯誤,請參閱該 API 動作的主題。

AccessDeniedException

您沒有足夠存取權可執行此動作。

HTTP 狀態碼:400IncompleteSignature

請求簽章未符合AWS標準。

HTTP 狀態碼:400InternalFailure

由於不明的錯誤、例外狀況或故障,處理請求失敗。

HTTP 狀態碼:500InvalidAction

請求的動作或操作無效。確認已正確輸入動作。

HTTP 狀態碼:400InvalidClientTokenId

提供的 X.509 憑證或 AWS 存取金鑰 ID 不存在於我們的記錄中。

HTTP 狀態碼:403InvalidParameterCombination

同時使用了不應搭配使用的參數。

HTTP 狀態碼:400InvalidParameterValue

無效或 out-of-range 為輸入參數提供了值。

HTTP 狀態碼:400

542

Amazon Comprehend 開發人員指南常見錯誤

InvalidQueryParameter

所以此AWS查詢字串格式不正確或未遵循AWS標準。

HTTP 狀態碼:400MalformedQueryString

查詢字串包含語法錯誤。

HTTP 狀態碼:404MissingAction

請求中遺失動作或必要參數。

HTTP 狀態碼:400MissingAuthenticationToken

請求必須包含有效 (已註冊) 的 AWS 存取金鑰 ID 或 X.509 憑證。

HTTP 狀態碼:403MissingParameter

未提供適用於指定動作的必要參數。

HTTP 狀態碼:400NotAuthorized

您未獲得執行此動作的許可。

HTTP 狀態碼:400OptInRequired

AWS 存取金鑰 ID 需要訂閱服務。

HTTP 狀態碼:403RequestExpired

請求送達服務已超過戳印日期於請求上之後的 15 分鐘,或者已超過請求過期日期之後的 15 分鐘 (例如預先簽章的 URL),或者請求上的日期戳印在未來將超過 15 分鐘。

HTTP 狀態碼:400ServiceUnavailable

由於伺服器暫時故障,請求失敗。

HTTP 狀態碼:503ThrottlingException

由於請求調節,因此請求遭到拒絕。

HTTP 狀態碼:400ValidationError

輸入不符合指定的限制AWSService (服務)

HTTP 狀態碼:400

543

Amazon Comprehend 開發人員指南

Amazon Comprehend 的文件歷史記錄

下表說明此版本 Amazon Comprehend 的說明文件。

update-history-change update-history-description update-history-date

降低訓練辨識者的最低註解 Amazon Comprehend 已降低使用純文字 CSV 註解檔案訓練辨識器的最低需求。您現在可以建立一個自訂實體辨識模型,每個圖元類型最少包含三個註釋的文件和至少25 個註記。如需詳細資訊,請參閱「」準備訓練練練練練練練。

2022 年 8 月 3 日

增加即時 API 的輸入文件大小 現在,針對大部分的即時API,Amazon Comprehend 最高可支援 100 KB 的輸入文件。如需詳細資訊,請參閱「」指導方針和配額。

2022 年 7 月 18 日

其他 PII 實體類型 Amazon Comprehend 現在可以偵測到其他 PII 實體類型。如需詳細資訊,請參閱「」在 AmazonComprehend 中偵測 PII 實體。

2022 年 5 月 20 日

目錄重組 重新架構 Amazon Comprehend發人員指南目錄,以便於瀏覽。如需詳細資訊,請參閱「」什麼是Amazon Comprehend。

2022 年 4 月 7 日

目標 Amazon Comprehend 現在支援目標情緒分析,可決定與文件中特定實體相關聯的情緒。如需詳細資訊,請參閱「」亞馬遜的目標情緒理解。

2022 年 3 月 9 日

新功能 Amazon Comprehend 現在允許您分析圖像以進行自定義實體識別。如需詳細資訊,請參閱「」在Amazon Comprehend 中檢測自定義實體。

2022 年 2 月 28 日

新功能 您現在可以在之間複製訓練過的自訂模型AWS帳戶。如需詳細資訊,請參閱「」在 AmazonComprehend 帳戶之間複製自定義模型。

2022 年 2 月 2 日

新功能 您現在可以使用AWS TrustedAdvisor以檢視可協助您最佳化Amazon Comprehend 端點成本和安全性的建議。如需詳細資訊,

2021 年 9 月 29 日

544

Amazon Comprehend 開發人員指南

請參閱「」使用Trusted Advisor與Amazon Comprehend。

新功能 Amazon Comprehend 已推出Comprehend 自訂功能套件,讓您能夠建立新模型版本、在特定測試集上持續測試,以及執行即時移轉至新模型端點,藉此持續改善模型。

2021 年 9 月 21 日

新功能 Amazon Comprehend 現在允許您分析 PDF 和 Word 文檔以進行自定義實體識別。使用 PDF 和Word 格式,您可以從包含標題,列表和表格的文檔中提取信息。

2021 年 9 月 14 日

新功能 Amazon Comprehend 推出了新的端點概觀功能,可為您提供端點的全球視圖。在端點概觀頁面中,您可以在一個位置查看所有端點,以了解端點使用情況與實際資源使用情況。

2021 年 8 月 24 日

新功能 Amazon Comprehend Medical現在可讓您藉由建立界面 VPC端點,與 Virtual Private Cloud(VPC) 端 (VPC) 建立私有連線。如需詳細資訊,請參閱「」VPC端點PrivateLink)。

2021 年 6 月 13 日

語言 Amazon Comprehend 為主要語言功能新增了四種額外的語言:豪薩(ha),老撾語(lo),馬耳他(mt)和奧羅莫(om)。如需詳細資訊,請參閱「」AmazonComprehend 支援的語言。

2021 年 5 月 10 日

新功能 使用 Amazon Comprehend,您現在可以使用客戶受管金鑰(CMK) 來加密自訂模型。如需詳細資訊,請參閱「」AmazonComprehend 中的 KMS 加密。

2021 年 3 月 31 日

新功能 您現在可以使用 Amazon S3 物件 Lambda 存取點來設定如何從Amazon S3 儲存貯體擷取包含個人識別資訊 (PII) 的文件。您可以控制包含 PII 的文件存取,並從文件編輯 PII。如需詳細資訊,請參閱「」使用 Amazon S3 物件Lambda 存取點取得個人識別資訊(PII)。

2021 年 3 月 18 日

545

Amazon Comprehend 開發人員指南

新功能 您現在可以在文件上標識別資訊(PII)。Amazon Comprehend 可以分析您的文件是否存在 PII,並傳回已識別之 PII 實體類型的標籤,例如姓名、地址、銀行帳戶號碼或電話號碼。如需詳細資訊,請參閱「」使用 PII 標籤文件。

2021 年 3 月 11 日

新功能 使用 Amazon Comprehend,您現在可以偵測一組文件中的事件。當您建立非同步事件偵測任務時,Amazon Comprehend 可以偵測支援的金融事件類型。如需詳細資訊,請參閱「」偵測事件。

2020 年 11 月 24 日

新功能 Amazon Comprehend 現在可讓您針對自訂實體辨識器端點使用自 auto 擴展。透過 auto 動擴充功能,您可以自動設定端點佈建以符合您的容量需求。如需詳細資訊,請參閱「」搭配端點。

2020 年 9 月 28 日

新功能 若要訓練自訂分類器或實體辨識器,您現在可以提供擴增資訊清單檔案,這些檔案是由 Amazon產生的標籤資料集 SageMakerGround Truth。如需這些檔案的詳細資訊和範例,請參閱多類別分類、多標籤分辨識,以及註釋。

2020 年 9 月 22 日

新的教學課程 Amazon Comprehend 現在提供一個教學課程,可引導您完成分析客戶評論和視覺化分析結果的多服務工作流程。如需詳細資訊,請參閱「」教學課程:分析評論中的洞察。

2020 年 9 月 17 日

新功能 使用 Amazon Comprehend,您現在可以偵測文字中包含個人識別資訊 (PII) 的實體,例如地址、銀行帳戶號碼或電話號碼。AmazonComprehend 可以在您的文字中提供每個 PII 實體的位置,也可以提供編輯 PII 的文字副本。如需詳細資訊,請參閱「」偵測個人身分識別資訊。

2020 年 9 月 17 日

新功能 以前,您最多只能在 12 個自訂實體上訓練模型。現在,AmazonComprehend 可讓您一次訓練多達 25 個自訂實體的模型。如需詳細資訊,請參閱「」自訂實體辨識。

2020 年 8 月 12 日

546

Amazon Comprehend 開發人員指南

語言 Amazon Comprehend 為自訂實體辨識功能新增了五種額外的語言:德文 (de)、西班牙文 (es)、法文 (fr)、義大利文 (it) 和葡萄牙文 (pt)。如需詳細資訊,請參閱「」Amazon Comprehend 支援的語言。

2020 年 8 月 12 日

新功能 Amazon Comprehend 現在可讓您藉由建立界面 VPC 端點,與 Virtual Private Cloud (VPC)端 (VPC) 建立私有連線。如需詳細資訊,請參閱「」VPC 端點PrivateLink)。

2020 年 8 月 11 日

新功能 透過 Amazon Comprehend,您現在可以透過執行即時分析,快速偵測個別文字文件中的自訂實體。如需詳細資訊,請參閱「」使用亞馬遜理解實時檢測自定義實體。

2020 年 7 月 9 日

新功能 Amazon Comprehend 現在針對文件提供非同步自訂分類中的第二種模式支援,可在將自訂類別套用至文件時提供更大的彈性。雖然多重類別模式只會將單一類別與每個文件產生關聯,但新的多標籤模式可以關聯多個文件。例如,電影可以同時分類為科幻小說和動作。如需詳細資訊,請參閱「」自定義分類中的多類和多標籤模式。

2019 年 12 月 19 日

新功能 Amazon Comprehend 現在可為包含非結構化文字的文件提供即時自訂分類支援。客戶可以使用即時自訂分類,根據自己的業務規則同步理解、標記和路由資訊。如需詳細資訊,請參閱「」搭配自訂分類分類。

2019 年 11 月 25 日

增加了新語言 亞馬遜為其中幾個功能增加了六種額外的語言:阿拉伯文 (ar)、印地文 (hi)、日文 (ja)、韓文 (ko)、簡體中文 (zh) 和繁體中文 (zh-TW)。這些新語言僅支援「判斷情緒」、「偵測關鍵片語」和「非自訂偵測實體」作業。如需詳細資訊,請參閱「」支援的語言。

2019 年 11 月 6 日

新功能 以前,您只能在單一自訂實體上訓練模型。因此,您只能使用實體辨識作業搜尋該實體。AmazonComprehend 已經改變了這一點,您現在可以一次最多在 12 個自訂實體上訓練模型。如需詳細資訊,請參閱「」自訂實體辨識

2019 年 7 月 9 日

547

Amazon Comprehend 開發人員指南

新功能 Amazon Comprehend 現在提供了一個多類別混淆矩陣,可在訓練自訂分類器時增加分析指標的能力。目前僅使用 API 支援此功能。如需詳細資訊,請參閱「」在Amazon Comprehend 域標記資源

2019 年 4 月 5 日

新功能 Amazon Comprehend 為自訂分類器和自訂實體辨識器提供標籤,這些標籤可用作中繼資料,讓您以比以往更精細的控制層級來組織、篩選和控制對資源的存取。如需詳細資訊,請參閱「」在 AmazonComprehend 域標記資源

2019 年 4 月 3 日

新功能 Amazon S3 已經讓您加密您的輸入文件,而 AmazonComprehend 將其擴展得更遠。透過使用自己的 KMS 金鑰,您不僅可以加密任務的輸出結果,還可以加密連接至處理分析工作之運算執行個體的儲存磁碟區上的資料。結果為 end-to-end安全性。如需詳細資訊,請參閱「」AmazonComprehend 中的 KMS 加密

2019 年 3 月 28 日

新功能 自訂實體辨識功能可讓您識別不支援的新實體類型做為預設泛型實體類型之一,藉此擴展 AmazonComprehend 的功能。這表示您可以分析文件,並擷取符合您特定需求的產品代碼或業務特定實體等實體。如需詳細資訊,請參閱「」自訂實體辨識

2018 年 11 月 16 日

新功能 您可以使用 AmazonComprehend 建立自己的模型以進行自訂分類,並將文件指派給類別或類別。如需詳細資訊,請參閱「」文件分類。

2018 年 11 月 15 日

區域擴展 Amazon Comprehend 現已在歐洲 (法蘭克福) 提供。

2018 年 10 月 10 日

語言 除了英文和西班牙文,AmazonComprehend 現在也可以檢查法文、德文、義大利文和葡萄牙文的文件。如需詳細資訊,請參閱「」Amazon Comprehend 支援的語言。

2018 年 10 月 10 日

區域擴展 Amazon Comprehend 現已在亞太區域 (雪梨) (ap-southeast-2) 上市。

2018 年 8 月 15 日

548

Amazon Comprehend 開發人員指南

新功能 Amazon Comprehend 現在會剖析文件,以探索文件的語法以及每個字詞的語音部分。如需詳細資訊,請參閱「」語法。

2018 年 7 月 17 日

新功能 Amazon Comprehend 現在支援語言、關鍵片語、實體和情緒偵測的非同步批次處理。如需詳細資訊,請參閱「」非同步批次處理。

2018 年 6 月 27 日

新的指南 (p. 544) 這是第一版的AmazonComprehend 開發人指南。

2017 年 11 月 29 日

549

Amazon Comprehend 開發人員指南

AWS 詞彙表如需最新 AWS 術語的清單,請參閱 AWS 一般參考中的 AWS 詞彙表。

550

Amazon Comprehend 開發人員指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

dli