본문 바로가기

카테고리 없음

Common Voice 문장 기여 규칙 번역

Common Voice? 그게 뭐죠?

voice.mozilla.org/ (공식 웹사이트는 번역되어 있습니다.)

 

Common Voice by Mozilla

Common Voice is a project to help make voice recognition open to everyone. Now you can donate your voice to help us build an open-source voice database that anyone can use to make innovative apps for devices and the web.

voice.mozilla.org

리뷰 조건 번역

common-voice.github.io/sentence-collector/#/how-to

  1. 문장의 철자가 올바라야 합니다
  2. 문장이 문법적으로 올바라야 합니다
  3. 문장이 말 할 수 있는 문장이야 합니다
  4. 문장이 위 조건들에 맞으면, 오른쪽의 yes 버튼을 눌러주세요
  5. 문장이 위 조건에 안 맞으면, 오른쪽의 no 버튼을 눌러주세요. 맞는지 틀린지 잘 모르겠으면 그 문장은 넘어가셔도 좋습니다.
  6. 검토할 문장이 다 떨어졌으면 부디 문장을 모으는 데 도와주세요!

역: "리뷰 끝내기"를 눌러야 저장되더라구요. 이 점 주의해주세용

문장 기부 조건 번역

common-voice.github.io/sentence-collector/#/how-to

  • 올려주시는 모든 문장은 퍼블릭 도메인 (CC-0) 라이선스여야 합니다.
    • (역: 위키백과 안 됩니다. 나무위키 안 됩니다. 저자가 죽은 지 50년 지난 저작권이 만료된 글은 됩니다. 창작한 글은 됩니다. 저작권을 포기하라는 의미입니다.)
  • 숫자. 원본 문자열에 숫자가 있으면 안 됩니다. 읽는 데 문제가 있을 수 있기 때문입니다. 숫자를 읽는 방법은 문맥에 따라 달라서 데이터셋에 혼란을 줄 수 있습니다. (역: 데이터 드러워진다는 얘깁니다. 기계 훈련시키자고 만드는데 기계를 바보로 만드는 거죠) 예를 들자면, 2409 라는 숫자는 "이십사 공구" 와 "이천사백구" 두 가지 방법으로 읽을 수 있습니다.
  • 약어. USA나 ICE 같은 단어는 적혀있는 글자하고는 읽는 법이 다를 수 있어서 피해야 합니다. 추가로, 약어는 정확하게 읽는 법이 여러가지일 수 있습니다. 예를 들어서 ICE는 아이-씨-이 라고 읽을수도 있지만, 아이스 라고 읽을수도 있습니다.
  • 구두점. 특수 기호나 구두점은 정말 필요한 경우에만 넣어야 합니다. 예를 들어, 영어 단어 don't 나 we're 같은 데 들어가는 구두점은 문장에 들어가야 하지만, @ 나 # 같은 기호가 필요할 일은 없겠죠.
  • 외국어 글자. 문장의 글자들은 그 언어로 말한다고 생각했을 때 올바른 글자들이어야 합니다. 예를 들어서 “ж” 라는 글자는 러시아어에서는 올바른 글자겠지만 영어(역: 한국어두요) 에서는 정말 안 쓰이는 단어이므로 절대로 영어 원본 텍스트에는 나오면 안 됩니다.
    • (궁금한 게 있는데 이건 한국어 문장을 기여할 때는 영어 알파벳 쓰지 말라는 거겠죠?)
  • 길이 . 문장은 반드시 단어 14개 이하여야 합니다.

저희는 자연스러운 / 대화체 문장을 더 선호합니다. 문장에서의 발음적 다양성이 중요하기는 하지만, 우리는 문장 녹음하는 작업을 가능하면 재미있게 만들고 싶네요. 그러니 문장을 자연스럽게 / 매력적으로 만들어주시려고 노력해주시면 좋을 것 같습니다.