自然语言处理服务Amazon Comprehend现支援Word和PDF文
更新时间: 2021-09-24

  过去Amazon Comprehend只能处理純文字dangan,而現在还能处理Word和PDF文件dangan,以及笔记或是列表等数据內容。

  AWS更新自然語言处理服务Amazon Comprehend,开始支援Word和PDF文件,让用戶可以从這些类型的dangan擷取数据。Amazon Comprehend能夠分析不同語言的文字,並且辨识這些文字的內容,諸如人名、地點、品牌和產品等,同時还能理解文本中的關鍵句子和情緒,或對大量文件的內容,依照主題加以分類。

  无论是开设銀行帳戶、申請保險或是房屋借款等程序,皆大量使用紙本文件,而這些文件动则超过百頁,對於企业來說,手動处理這些文件是一件繁瑣的工作,不只需要人工,而且速度緩慢容易出錯,而藉由使用Amazon Comprehend,可以大幅加速文件的創建和管理,並且降低出錯機率。

  Amazon Comprehend新的解決方案,可处理PDF、Word和原始文字等dangan格式,或是笔记和列表等布局,並進行內容擷取和分析,AWS提到,這次推出的解決方案,結合自然語言处理和光學字元辨识技術,能夠減少企业文件的預处理和後处理工作量,用戶不再需要將dangan轉換成原始文本,就能夠使用自定义命名实际辨识(NER)功能。

  過去Amazon Comprehend只能处理純文字dangan,這需要用戶先將文件整理成机器可读的文本,但用戶現在能夠利用Amazon Comprehend以相同的API,直接從PDF和Word中的文字或是列表等不同文件布局,擷取特定詞語。

  新的Amazon Comprehend自定义实体辨识模型,綜合分析結構上下文和自然語言上下文,從文件中的任何位置,擷取自定义实体。AWS提到,用戶对于每一種实体类型,只要提供250個文件和100个注解,即可訓練模型並且开始使用該功能,而為了要掃描PDF並擷取空間位置,Amazon Comprehen。d會呼叫Amazon Textract服务,來執行必要的处理。

  這項新功能有助於企业处理保險、抵押、金融等業務中的文件处理工作流程,通常這些文件布局复杂,用戶也不需要頁面上的每一個数据點,因此擷取特定资讯存在困难,而Amazon Comprehend這項新功能,可以使用机器學習,使用單個模型和API呼叫,快速擷取自定义的詞語,像是处理汽車或健康保險文件中的索賠金額,甚至是在抵押貸款中,擷取申請人姓名、共同签署人或是其他財務文件资讯等