Amazon Comprehend 기능
Amazon Comprehend를 사용해야 하는 이유
Amazon Comprehend는 기계 학습(ML)을 사용하여 텍스트에서 인사이트를 도출하는 자연어 처리(NLP) 서비스입니다. Amazon Comprehend는 사용자 지정 엔터티 인식, 사용자 지정 분류, 핵심 문구 추출, 감성 분석, 엔터티 인식 및 추가 API를 제공하므로 NLP 기능을 애플리케이션에 쉽게 통합할 수 있습니다. 애플리케이션에서 Amazon Comprehend API를 호출하고 소스 문서 또는 텍스트의 위치를 입력하면 됩니다. API는 엔터티, 핵심 문구, 감성 및 언어를 애플리케이션에서 사용할 수 있는 JSON 형식으로 출력합니다.
사용자 지정 엔터티 인식
사용자 지정 엔터티 인식으로 Amazon Comprehend를 사용자 지정하여 해당 도메인 특유의 용어를 파악할 수 있습니다. AutoML을 사용하여 Amazon Comprehend는 작은 예시(예: 정책 번호 목록, 클레임 번호 또는 SSN(사회보장번호)) 세트를 학습한 후 프라이빗 사용자 지정 모델을 훈련하여 PDF 내 다른 텍스트 블록, 평문이나 Microsoft Word 문서에 있는 클레임 번호 등 이러한 용어를 인식하게 하며 기계 학습이 필요하지 않습니다. 자세한 내용은 이 설명서 페이지를 참조하세요.
-
예: 이 예에서 보험 회사는 해당 비즈니스와 관련된 엔터티, 정책 번호에 대한 텍스트 문서를 분석하려고 합니다.
샘플 텍스트: 안녕하세요, 저는 Sam Ford라고 하는데 자동차 사고 보험금 청구서를 작성 중입니다. 제 정책 코드는 456-YQT이고요.
개체 범주 개수 신뢰도 456-YQT Policy_ID 1 0.95
사용자 지정 분류
사용자 지정 분류 API를 사용하면 ML을 배우지 않고도 사업 고유의 레이블로 사용자 지정 텍스트 분류 모델을 손쉽게 빌드할 수 있습니다. 예를 들어 고객 지원 조직은 사용자 지정 분류 기능을 사용하여 고객이 문제를 어떻게 설명하는지에 따라 문제 유형별로 인바운드 요청을 자동으로 분류할 수 있습니다. 사용자 지정 모델을 사용하면 손쉽게 웹 사이트 댓글을 조정하고, 고객 피드백을 분류하고, 작업 그룹 문서를 정리할 수 있습니다. 자세한 내용은 이 설명서 페이지를 참조하세요.
-
예: 어떤 항공사에서 고객 지원 피드백을 정리하려 한다고 가정하겠습니다. 각각의 피드백을 계정 관련 질문, 항공권 환불, 비행 불만으로 분류하고 싶습니다. 이 서비스를 훈련시키기 위해 사안별 예제 텍스트가 들어 있는 CSV 파일을 만들고, 각각의 샘플에 해당하는 세 가지 레이블 중 하나를 지정합니다. 그러면 사용자 대신 이 서비스가 사용자 지정 모델을 자동으로 훈련시킵니다. 다음 날, 이 모델을 사용하여 모든 통화를 분석하기 위해 각 텍스트 파일을 서비스에 제출했더니 레이블 지정된 결과와 함께 레이블 일치 신뢰도가 돌아왔습니다.
텍스트 레이블 신뢰도 점수 행 0 계정 관련 질문 0.92 행 1 항공권 환불 1 행 2 비행 불만 1 행 3 비행 불만 0.91 Doc5.csv 항공권 환불 1
엔터티 인식
엔터티 인식 API는 입력된 텍스트를 기반으로 자동 분류된 명명된 엔터티(‘사람’, ‘장소’, ‘위치’ 등)를 반환합니다. 자세한 내용은 이 설명서 페이지를 참조하세요.
-
예시: 이 예에서는 회사 설명을 볼 수 있습니다. API는 조직, 날짜, 위치와 같은 엔터티를 식별하고 신뢰도 점수를 반환합니다.
샘플 텍스트: 1994년 7월 5일 Jeff Bezos가 설립한 Amazon.com, Inc.는 워싱턴주 시애틀에 있으며, 책에서 블렌더까지 모든 품목을 판매합니다. 시애틀은 포틀랜드의 북쪽, BC 밴쿠버의 남쪽에 있습니다. 시애틀에 위치한 다른 회사로는 Starbucks와 Boeing이 있습니다.
개체 범주 신뢰도 Amazon.com, Inc.
조직 0.96 워싱턴 시애틀 위치 0.96 1994년 7월 5일 날짜 0.99 제프 베조스 사람 0.99 Seattle
위치 0.98 포틀랜드
위치 0.99 브리티시 컬럼비아주 밴쿠버 위치 0.97 Starbucks
조직 0.91 Boeing
조직 0.99
감정 분석
감성 분석 API는 텍스트(긍정, 부정, 중립 또는 혼합)의 전체적인 감성을 반환합니다. 자세한 내용은 이 설명서 페이지를 참조하세요.
-
예시: 이 예에서 고객은 신발에 대한 의견을 게시하고 있습니다. API는 신뢰도 점수와 함께 고객이 표현하는 감성을 파악합니다.
샘플 텍스트: 스몰 사이즈를 주문하면 딱 맞을 줄 알았는데 미디엄-라지 사이즈에 가까운 것 같아요. 품질은 매우 좋아요. 사진보다 밝은 브라운 컬러이긴 하지만 거의 비슷하고요. 내피를 면이나 울 소재로 했으면 10배는 더 좋았을 것 같아요.
감성 점수 혼합 0.89 긍정 0.09 부정 0.01 보통 0.00
표적 감정
표적 감정에서는 텍스트 내 엔터티에서 감정(긍정, 부정, 중립 또는 혼합)을 식별하여 더욱 세밀한 감정 인사이트를 제공합니다. 자세한 내용은 이 설명서 페이지를 참조하세요.
-
예제: 이 예제에서, 레스토랑은 비즈니스를 개선할 수 있는 여지를 파악하기 위해 고객 리뷰를 검토하려고 합니다.
샘플 텍스트: 햄버거를 좋아하지만, 서비스가 너무 느립니다.
텍스트 엔터티 유형 엔터티 신뢰도 점수 감정 점수 I 사람 0.99 중립 0.99 햄버거 기타 0.99 긍정 0.99 서비스 속성 0.99 부정 0.99
PII 식별 및 수정
Amazon Comprehend 기계 학습 기능을 사용하여 고객 이메일, 지원 티켓, 제품 후기, 소셜 미디어 등에서 개인 식별 정보(PII)를 감지하고 편집할 수 있습니다. 기계 학습 경험은 필요하지 않습니다. 예를 들어 지원 검색 솔루션에서 문서를 인덱싱하기 전에 티켓 및 기술 자료를 분석하여 PII 엔터티를 감지하고 텍스트를 편집할 수 있습니다. 이렇게 하면 검색 솔루션의 문서에 PII 엔터티가 포함되지 않습니다. PII 엔터티를 편집하면 개인 정보를 보호하고 지역 법률 및 규정을 준수하는 데 도움이 됩니다. 자세한 내용은 이 설명서 페이지를 참조하세요.
-
예제: 이 예제에서는 은행 입출금 내역서에서 개인 데이터 및 금융 데이터를 편집하려고 합니다. PII 편집 API는 신뢰도 점수와 함께 PII를 식별하고 편집합니다.
샘플 텍스트: John Smith 님, 안녕하세요. 귀하가 보유한 AnyCompany Financial Services, LLC 신용카드 계좌 1111-0000-1111-0008의 최소 결제 금액은 24.53 USD이고 결제 날짜는 7월 31일입니다. 귀하의 자동 결제 설정에 따라 결제 날짜에 은행 계좌 XXXXXX1111에서 식별 번호 XXXXX0000번으로 결제 금액이 인출됩니다.
엔터티
유형
점수
John Smith
이름
0.99+
1111-0000-111-0008
신용카드 번호
0.99+
7월 31일
날짜 및 시간
0.99+
XXXXXX111
은행 계좌 번호
0.99+
XXXXX0000
은행 식별 번호
0.99+
유해성 검출
Comprehend 유해성 검출은 텍스트 기반 문서의 유해성을 검출하기 위한 간단한 NLP 기반 솔루션을 제공합니다. 이 기능은 온라인 플랫폼 및 생성형 AI 입력 및 출력에서 P2P 대화를 조정하는 데 바로 사용할 수 있습니다. 자세한 내용은 이 설명서 페이지를 참조하세요.
프롬프트 안전 분류
Comprehend는 입력 프롬프트의 유해성을 분류할 수 있는 사전 훈련된 바이너리 분류자를 제공합니다. LLM에 통합하여 무해한 콘텐츠에만 응답하도록 할 수 있습니다. 자세한 내용은 이 설명서 페이지를 참조하세요.
핵심 문구 추출
핵심 문구 추출 API는 핵심 문구 또는 논점과 이것이 핵심 문구임을 뒷받침하는 신뢰도 점수를 반환합니다. 자세한 내용은 이 설명서 페이지를 참조하세요.
-
예시: 이 예에서 고객은 DSLR 카메라를 즉석 필름 카메라와 비교합니다. API가 핵심 문구를 추출하고 결과에 대한 신뢰도 점수를 반환합니다.
샘플 텍스트: 저는 열성적인 사진 작가로서, 취미용으로 들고 다니는 DSLR이나 즉석 필름 카메라로 사진을 찍곤 합니다. 성능과 편의성은 DSLR이 최고이지만 즉석 필름 카메라에는 마술처럼 신비한 면이 있습니다. 실제 필름에 사진을 찍기 때문이거나, 촬영하는 모든 사진이 하나뿐인 물리적 실체로 남기 때문이겠죠(온갖 사진이 넘쳐나는 Instagram과 Facebook 세상에서 더욱 각별한 느낌을 주죠). 한 가지 확실한 것은, 사용하는 과정 자체가 매우 재미있고 파티에서 사람들의 눈길을 끌 수 있다는 것입니다.
핵심 문구 신뢰도 열성적인 사진 작가 0.99
DSLR 0.97 즉석 필름 카메라 0.99
취미용 0.99
성능과 편의성 0.94 실제 필름 0.99 모든 사진 0.92 하나뿐인 물리적 아티팩트 0.99
오늘 0.91 세상 0.99
Instagram과 Facebook 0.99
이벤트 감지
Comprehend Events를 사용하면 문서에서 이벤트 구조를 추출할 수 있습니다. 텍스트 페이지를 AI 애플리케이션 또는 그래프 시각화 도구에서 손쉽게 처리하여 사용할 수 있는 데이터로 바꿀 수 있습니다. 이 API를 사용하면 사전 NLP 경험 없이도 방대한 문서 세트에서 누가, 무엇을, 언제, 어디서에 대한 질문의 답을 찾을 수 있습니다. Comprehend Events를 사용하여 비정형 텍스트로 표현된 실제 이벤트 및 연결된 엔터티에 대한 세분화된 세부 정보를 추출해 보세요. 자세한 내용은 이 설명서 페이지를 참조하세요.
언어 감지
언어 감지 API는 100개 이상의 언어로 작성된 텍스트를 자동으로 식별하고, 언어의 우세함을 뒷받침하는 신뢰도 점수와 함께 우세 언어를 반환합니다. 자세한 내용은 이 설명서 페이지를 참조하세요.
-
예시:이 예에서 API는 텍스트를 구문 분석하고, 텍스트의 우세 언어가 이탈리아어임을 신뢰도와 함께 식별할 수 있습니다.
샘플 텍스트: Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud. È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.
ISO-639-1 언어 코드 언어 신뢰도 it 이탈리아어 1.0
구문 분석
Amazon Comprehend 구문 API를 사용하는 고객은 토큰화 및 품사(PoS)를 사용하여 텍스트를 분석하고 텍스트 내에서 명사 및 형용사와 같은 단어 경계와 레이블을 식별할 수 있습니다. 자세한 내용은 이 설명서 페이지를 참조하세요.
-
예시: 이 예시에서는 Comprehend 구문 API를 사용하여 간단한 문서를 분석합니다. 구문 API는 텍스트를 토큰화(단어 경계 정의)하고 명사 및 동사와 같은 스피치 일부와 연관된 각 단어를 레이블 처리합니다. 시작 및 종료 오프셋(텍스트 내 단어 위치를 알 수 있음)을 확인하는 기능 외에 신뢰도 점수도 제공합니다.
샘플 텍스트: 빠르고, 새로운 저의 Kindle Fire가 좋아요!
텍스트 태그 I 대명사 좋다 동사
저의 대명사 신속함 형용사 , 구두점 신규 형용사 Kindle 대명사 Fire
대명사 ! 구두점
주제 모델링
주제 모델링은 Amazon S3에 저장된 문서 집합에서 관련 용어 또는 주제를 식별합니다. 모음에서 가장 보편적인 주제를 식별하고, 이를 그룹으로 분류한 후, 어떤 문서가 어느 주제에 속하는지 매핑합니다. 자세한 내용은 이 설명서 페이지를 참조하세요.
-
예시: 문서(Doc1.txt, Doc2.txt, Doc3.txt 및 Doc4.txt)가 Amazon S3에 저장되어 있고 Amazon Comprehend에 문서의 위치를 지시하면 Comprehend가 문서를 분석하고 다음 두 가지 보기를 반환합니다.
1. 주제 키워드 그룹화
각 키워드 그룹은 주제 그룹과 연결됩니다. 가중치는 그룹 내에서 해당 키워드의 사용 빈도를 나타냅니다. 키워드의 가중치가 1에 가까울수록 주제 그룹의 컨텍스트를 가장 잘 나타냅니다.주제 그룹 키워드 무게 1 Amazon 0.87 1 Seattle 0.65 2 공휴일 0.78 2 쇼핑 0.67 각 키워드 그룹은 주제 그룹과 연결됩니다. 가중치는 그룹 내에서 해당 키워드의 사용 빈도를 나타냅니다. 키워드의 가중치가 1에 가까울수록 주제 그룹의 컨텍스트를 가장 잘 나타냅니다.2. 주제별 문서 그룹화
문서 이름 주제 그룹 비율 Doc1.txt 1 0.87 Doc2.txt 1 0.65 Doc3.txt 2 0.78 Doc4.txt 2 0.67 문서에서 주제 그룹의 가중치를 적용한 키워드의 비율에 따라 주제 그룹에 각 문서가 매핑됩니다.
다중 언어 지원
Amazon Comprehend는 독일어, 영어, 스페인어 및 이탈리아어
포르투갈어, 프랑스어, 일본어, 한국어, 힌두어, 아랍어, 중국어(간체), 중국어(번체) 텍스트에 대한 텍스트 분석을 수행할 수 있습니다. 다른 언어로 애플리케이션을 구축하려는 고객은 Amazon Translate를 사용하여 텍스트를 Amazon Comprehend 지원 언어로 변환하고 Amazon Comprehend를 사용하여 텍스트 분석을 수행할 수 있습니다. 언어 지원에 대한 자세한 내용은 설명서 페이지를 참조하세요.
Amazon Comprehend 요금에 대해 자세히 알아보기