자막 파일 안에는 텍스트뿐만 아니라 <SYNC> 라는 싱크 정보를 위한 태그도 들어가 있습니다. 어떤 분들은 대본용으로 쓴다고 텍스트만 추출하기를 원하더군요. 엑셀을 이용하면 한번에 태그를 제외한 텍스트만 뽑아 낼 수 있습니다. 이것이 가능한 이유는 HTML 이나 XML 태그가 포함된 데이터인 경우 텍스트로 저장하게 되면 텍스트를 제외한 나머지 코드들은 삭제가 되기 때문입니다. 엑셀을 이용해서 자막에 있는 HTML 태그를 제외하고 텍스트만 추출해 보도록 하겠습니다.
▼ 그림처럼 자막파일을 열어 보면 텍스트와 함께 태그들이 함께 있습니다. 이것은 CSS 와 싱크정보 태그인데 화면에 언제쯤 텍스트가 나와야 되는지 지정한 코드입니다. 오늘에 목적은 이것을 다 삭제하고 대본이 되는 텍스트만 남겨야 합니다.
▼ 데이터에서 외부 데이터 추가를 할 필요 없이 자막파일을 엑셀 화면으로 드래그 해서 집어 넣습니다. 그럼 그림과 같은 경고 메시지가 뜹니다. 파일이 손상될지도 모른다는 메시지 인데 무시하고 [예]를 누릅니다.
※ 아래는 참고하면 좋을 만한 글들의 링크를 모아둔 것입니다. ※ ▶ 엑셀 Excel 텍스트 여러가지 세로쓰기, 줄 바꿈 방법 ▶ 엑셀 Excel 텍스트 글자 수 세는 방법 ▶ 엑셀 Excel 텍스트 셀에 맞추는 여러가지 방법 ▶ 엑셀 Excel 문자열과 숫자 합치기, 연산자 합치기 ▶ 엑셀 Excel 기초 MID, SEARCH 함수, 텍스트에서 잘라 낼 때 |
▼ 파일이 열리면 화면에 내용이 보이는 것은 아닙니다. 완전 HTML 파일이면 보이겠지만 관련없는 SMI 태그들이 들어가 있기 때문입니다. 이것을 다시 TXT 파일로 저장해 줘야 합니다. F12 를 눌러 다른 이름으로 저장 팝업창을 띄웁니다.
▼ 파일 저장 팝업창에서 파일 형식을 [유니코드 텍스트]로 설정합니다. 위에서도 설명했지만 텍스트로 저장하면 텍스트를 제외한 나머지는 삭제가 됩니다. 태그는 텍스트로 인식하지 않는 것이죠.
▼ 자막 저장이 끝나고 TXT 파일을 열어 봅니다. 그럼 태그를 제외한 나머지 대사 부분만 저장된 것을 알 수 있습니다. 다른 웹 페이지에서 저장한 HTML 파일도 동일한 절차를 거치면 텍스트만 추출이 가능합니다.
※ 아래는 참고하면 좋을 만한 글들의 링크를 모아둔 것입니다. ※ ▶ 엑셀 Excel 텍스트 여러가지 세로쓰기, 줄 바꿈 방법 ▶ 엑셀 Excel 텍스트 글자 수 세는 방법 ▶ 엑셀 Excel 텍스트 셀에 맞추는 여러가지 방법 ▶ 엑셀 Excel 문자열과 숫자 합치기, 연산자 합치기 ▶ 엑셀 Excel 기초 MID, SEARCH 함수, 텍스트에서 잘라 낼 때 |
'엑셀(Excel) > Excel' 카테고리의 다른 글
엑셀 Excel 피벗 테이블 단계별 요약 정보 만들기 (1) | 2024.10.31 |
---|---|
엑셀 Excel 나누기 사칙연산 기호, 함수 사용하는 방법 (6) | 2024.10.31 |
엑셀 Excel 지정한 영역의 모든 셀에 특수 문자 넣기 (0) | 2024.10.31 |
엑셀 Excel 이전 버전과 호환되도록 통합 문서 저장하는 방법 (2) | 2024.10.31 |
엑셀 Excel 텍스트(TEXT) 함수 사용법 (6) | 2024.10.30 |
엑셀 Excel 데이터에서 VLOOKUP 함수 이용해서 자료 찾기 (9) | 2024.10.30 |
엑셀 Excel 함수 PHONETIC 윗주의 내용을 추출하기 (1) | 2024.10.25 |
엑셀 Excel 매크로 소스 디버깅으로 결과 확인하기 (1) | 2024.10.25 |