プロジェクトPollockガイドライン和訳・Appenアッペン

  • このエントリーをはてなブックマークに追加

Pollock英語転写ガイドライン(意訳)

トランスクライブ(転写)プロジェクトPollock(英語版)のガイドラインを17ページを完全和訳しました。

日本語版はAmpersandから見ることができます。

Appen Avaluatprs’ Caféのオンラインサロンに参加いただくとパスワードロックされた部分も見られるようになります。2020年10月7日(水) 1:28 PMに更新されたガイドラインを元にしています。

それはそうと、Appen Evaluators’ Caféのオンラインサロンが出来ました!Appenのお仕事をしていく上で悩んでいることや疑問などを一緒に話し合いませんか?ご参加はこちらから♪

プロジェクトの概要 Project Overview

プロジェクトの目標:このプロジェクトの目標は、最終的にクライアントが最先端の自動音声認識システムを構築するのに役立つ音声ファイルを書き写すしモデルを作成することです。このプロジェクトの目的は、あなたに提示されたスピーチを音声ファイルに正確に書き写すことです。また、以下のことも行います。

タイムスタンプを挿入します。あなたは「Ampersand」と呼ばれる当社のオンライン転写プラットフォームを使用することになります。「Ampersand」を使用するための別のガイドも用意されています。

これらのガイドラインを完全に読み、書き写す際には手元に置いておいてください。覚えておかなければならないことがたくさんありますが、慣れてくればそんなに難しいことではありません。
このガイドラインの内容を使って書き起こしがスムーズに行えます。また、このサイトの下部に要約表がありますので参照してください。何か不明な点があれば、プロジェクトサポートチームに連絡してください。幸運を祈ります。

一般的な情報 General information

このプロジェクトは、様々なソースからの放送メディアの録音で構成されています。
あなたが書き写すデータは機密事項です。あなたはデータの機密性を維持しなければならない契約上の義務を負っていることを忘れないでください。
データを使用したり、開示したり、共有したりしないことを含めて機密事項です。このデータ収集の参加者はは、本人の同意を得て録音されています。

このプロジェクトのためのテープ起こしには、以下のものが含まれます。
1. これらのガイドラインに記載されているように、正確なスペル句読点を使って音声の単語を書くこと。
2. speaker話者を一貫して識別する
3. これらのガイドラインに記載されているように、タグとタイムスタンプを挿入します。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

専門用語 用語の定義

バッチ Batch   転写作業のバッチは、多数の発話からなる単一の連続した音声ファイルです。

ページ Page バッチは、通常、各20の音声で構成されたページで表示されます。1 つのバッチは、複数のページの発話で構成されている場合もあります。

発話 Utterance 音声の完全な録音(バッチ)は、複数の短い発話に分割されます。

発話(utterance)は、1 つの転写の単位です。各発話(utterance)には、独自のテキスト入力ボックスと波形(waveform・発話の音の上下を示す波形のようなグラフ)があります。各発話(utterance)は、次の発言に移る前に保存されている必要があります。
発話(utterance)はutt とも呼ばれます。

タグ Tag タグは、オーディオに関する追加情報をテープ起こしに挿入する際に使用する方法です。

タイムスタンプ Timestamp  (waveform・発話の音の上下を示す波形のようなグラフ)に挿入され、転写で表現される発話の中のタグの一種。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

書き方 Writing

曲名、映画、テレビ番組、ブランド名などを参照する場合は必要に応じてAmazon、Googleをご利用ください。

句読点 Punctuation

1. 文末の句読点(. )と( ?)と ( !)を使用します。  文が不完全な場合にも使用できます。
2. カンマは、転写文を読みやすくしたり、理解しやすくするために使用することができます。

a. 長い文を分割する場合
b. 3つ以上のリストの中で項目を分けること。
c. 直接人などに対処した後 例、ジョンは、我々は今日何について話しているのですか?John, what are we talking about today?

3. 感嘆符を使用することができますが、必須ではありませんし、スピーチのために明確に適切な場合にのみ挿入してください。

4. 4. アポストロフィーやハイフンなどの句読点記号を使う。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

what is your name?

wow! that sounds really amazing.

my name is John.

play my workout playlist. <timestamp>  turn up the volume.

コンマを有効に使った例

アイテムを3つ以上のリストとして分ける場合

most people have an interest in some kind of sport and personally I like cricket, rugby, and soccer but I know there are others who prefer tennis or golf or even sports like skiing, climbing, and swimming.

人物を直接呼ぶ場合

John, what are we talking about today?

長い文章を管理しやすくする場合

I thought about it for a while, then decided against it after all.

特定の単語’therefore’の後など

therefore, we decided not to go.

本筋ではないが、興味をそそる文中のフレーズ(by the wayなど)の周辺

we decided to go, by the way, because it was such good weather.

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

不完全な思考 Incomplete Thoughts

人が自然に話すとき、人は常に完全な文章やアイデアを出すわけではありません。もし、話している人が
文やアイデアについての話がきちんと終わってないのに、話題が変わた場合は、full-stop (別々の文として句読点で区切ること)を使います。
不完全な思考は、話者が単語の途中で止まるフラグメントfragmentとは異なることに注意してください。以下の「フラグメント」のセクションを参照してください。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Example

話者は「for」の前の考えを変えて「for」の後に新しい考えやアイディアが続く。

set my alarm for. <timestamp> what is this song called?

例 目覚ましをセットして <timestamp> この曲の名前は?

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

その他の句読点 Other Punctuation

単語のスペルに必要な場合は、句読点を使用してください(例:you’reのアポストロフィ)。単語にアポストロフィがある場合は、周りにスペースを追加しないでください。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Example
eleven o’clock.
Sinead O’Connor.
read Jess’s email.
that’s where it’s at.

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

ハイフンは、ブランド名に登場するときに使用する必要があります。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Example – Brand Name

X-Box
Hyphens must also be used in the following English words:
• A-line
• D-day
• ex-boyfriend, ex-drummer, ex-girlfriend, ex-husband, ex-wife
• extra-loud
• self-aware
• T-shirt
• U-turn
• V-neck
• X-ray

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

特殊文字 Special Characters

引用符やドル記号などの特殊文字や記号は使用しないでください。
全ての単語を書き写してください。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Example

$ → dollar
% → percent

Example – speaker pronounces the word “slash”

You hear: it was great slash weird
You transcribe: it was great slash weird
INCORRECT: it was great/weird

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

大文字 Capital letters

存在する名前付きのもの(人名、地名など)は、英国英語の通常の書き方に準じて大文字で綴る必要があります。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Example

John
Monday

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

固有名詞の頭文字は、大文字の後にアンダースコア(_)を付けてください。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Example

George W_ Bush
J_K_ Rowling

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

ビジネス名の綴りで、単語の初めではなく中に大文字がある場合はそのように綴ります。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Example

eBay
iPhone
YouTube

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

ブランド名や固有名詞が記号を使って綴られている場合でも標準的な文字を使用します。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Example
P!nk -> Pink
Ke$ha -> Kesha

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

文頭に単語があるからといって、大文字を使わないようにしましょう。人称代名詞の「I」は大文字にします。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Example – the first word is only capitalised if it is a proper name

they think Sydney is a beautiful city.
I think Sydney is a beautiful city.
what are you doing on Tuesday night?

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

数字 Numbers

数字は使わないでください(例:1 2 3 4 5 …)。すべての数字は、それらが発音された様に完全な単語として綴ってください。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Example – the number ‘2012’ may be pronounced in many different ways:

2012 ==> two zero one two
2012 ==> two oh one two
2012 ==> two thousand and twelve
2012 ==> twenty twelve
Transcription must be exactly how the words are spoken.

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Example
5th ==> fifth
1st ==> first

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

ゼロが「オー」と発音される場合は、「オー」と書きます。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Example
0101 ==> oh one oh one

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

数字を綴るときには、言語のルールに応じてハイフンを使用します。英語では、21から99までの数字は
はハイフンで綴られています。その他はハイフンで綴られていません。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Example
25==> twenty-five
159 ==> one hundred and fifty-nine

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

契約 Contractions

標準的な短縮形は、発音通りに書き写す必要があります。話し手が以下の短縮形を発音する場合は、以下のように書き写す必要があります。

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Acceptable contractions in English

can’t / won’t / don’t / didn’t
I’d / I’ll / I’m / I’ve
isn’t / aren’t
o’clock
let’s
that’s / that’d / that’ll
there’s / there’d / there’ll
would’ve / could’ve / should’ve
ma’am
where’d
they’re / you’re
y’all
gimme
gonna
gotta
lemme
wanna
watcha
dunno
sorta
innit

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

略語 Abbreviations

略語は使用しないでください。単語は完全にスペルアウト(書き出す)する必要があります。

Example

Dr Smith ==> Doctor Smith
Elizabeth St ==> Elizabeth Street

例外1
A word is pronounced as an abbreviation
略語として発音された単語

Appen Butler Hill Inc → Appen Butler Hill Inc(「Inc」を「インコーポレイテッド」ではなく「Inc」と発音した場合
I live in Cambridge Mass → I live in Cambridge Mass(「マス」を「マサチューセッツ」ではなく「マス」と発音した場合

例外 2
英語では、Ms,Mr,Mrsのように人名の前につける肩書きは略語ではありません

Mr
mister as colloquial form of address
Mr. as title before a person’s name

Example
Speaker says: Where do you think you’re going, mister?
Transcription: where do you think you’re going, mister?

Speaker says: Please let me introduce Mr. Green.
Transcription: please let me introduce Mr. Green.

Mrs
missus as colloquial form of address
Mrs. as title before a person’s name

Example
Speaker says: Oh, really? I thought she was the missus.
Transcription: oh really? I thought she was the missus.

Speaker says: The new teacher is called Mrs. Patel.
Transcription: the new teacher is called Mrs. Patel.

Ms
 title before a person’s name

Miss
miss as colloquial form of address
as title before a person’s name

Example
Speaker says: Are you alright, miss?
Transcription: are you alright, miss?

Speaker says: This is Miss Brown.
Transcription: this is Miss Brown.

標準的な単語やフレーズの代替 Alternatives to Standard Words/Phrases

話し手は、「はい」や「いいえ」などの標準語の異なるバージョンを使うことができます。話し手の言っていることに最も近い言葉を書き写しましょう。

Example – speaker uses standard word
Speaker says: yes.
Transcription: yes.

Example – speaker uses non-standard word
Speaker says: yeah.
Transcription: yeah.

Standard word/phrase Acceptable alternatives
yes
yeah, yup, yep

no
nope, nah

because
cos

information
info

reputation, repeats
rep

you all
y’all

kind of
kinda

until
till

Words to watch out for

0 (数字) のゼロで ‘oh’と発音される場合は「oh」と書き起こす。

O (文字) のオーで’oh’と発音される場合は「O」と書き起こす。

Ooh (感嘆詞)のオーで’oh my goodness!’ や ‘oh, really?’の oh。 (Interjection span tagでハイライトする)

OKはokay, ok okayと書き起こす。

thank you はthank you (as two words)

goodbyeはgoodbye (as one word)

ya/yah (youの意味の他の単語) you

s’poseは suppose

’emは them

’bout はabout

uh oh はuh-oh (Interjection span tagでハイライトする)

頭字語 Acronyms

頭字語とは、複数の単語の頭文字で構成された単語で、ナサやフィーファのように(例:NASA、FIFA)単語として話されているものです。

頭字語はスペースを入れず大文字を使って綴られます。

Example

NASA
FIFA

頭文字 Initialisms

頭文字とは、特定の意味を持つ言葉のようなものです。それは、複数の単語の最初の文字からの文字列で、それぞれのアルファベットを別々に発音する(例:IBMアイビーエム、CPUシーピーユー、ADHDエイディーエイチディー)。

1. 大文字で、文字と文字の間にスペースを入れないこと。
2.イニシャリズムを強調するためにInitials spanタグでタグ付けします

Example
IBM
ADHD

Example
they were asked to provide IDs at the time.
I was SSHing into the server

アルファベットのイニシャルの連続として発音される小文字の略語にもタグを付けなければなりません。

Example
there was no change, i_e_ they have not made a decision.

スペルされた文字 Spelled Letters

スペルされた文字とは、アルファベットが一文字ずつ発音されている場合のことです(例:L I A I S E)。スペルされた文字は、大文字を使用してスペースを入れて転記します。
単語の綴り文字は頭文字Initialismsではありません。Initialism spanタグは使用しないでください。

Example
my name is Jayme and it’s spelled J A Y M E.

私の名前はJayme、スペルはJ A Y M Eです。

メールアドレスとウェブサイトのアドレス Email and website addresses

メールアドレスやウェブサイトのアドレスを書き写す場合は、それを聞いたまま書き写します。

Example
www.amazon.com ==> WWW dot Amazon dot com(WWWは頭文字なのでInitials spanタグでハイライトします)
jsmith@gmail.com ==> J_ Smith at Gmail dot com

フラグメント Fragments

話し手が単語の一部だけを発音する場合は、その部分を書き、ハイフンを付けます。ハイフンの後にスペースがあることを確認してください。

Example – someone begins to say ‘music’ but stops after ‘mu’
Alexa stop the mu- I mean song.
Example: someone begins to say ‘music’ but stops after ‘mu’ and then repeats the word in full
Alexa stop the mu- music.
Example: someone begins to say ‘music’ but stops/trails off after ‘mu’ and the thought ends.
Alexa stop the mu- .

断片化された単語が何であるかわからない場合は、単語を書き写さず、代わりに意味不明タグ(unintelligible tag.)を使用してください。詳細はUnintelligible Speech の項をご覧ください。

Example – the speaker fragments the word following “song” and you can’t make out the fragment at all.

話し手が “song “に続く単語を断片化していて、その断片を聞き取れない場合

play the song<unintelligible> .

Example – someone fragments the word after “the” but you can’t make out the fragment at all.

“the “の後に誰かが単語を断片化しているが、あなたはその断片を全く聞き取れない場合

Alexa stop the <unintelligible> I mean the song

誤って発音してしまった言葉 Mispronounced words

話し手が単語の発音を間違えていることが明らかな場合は、発音を間違えた単語を通常の正しいスペルで入力してください。

Example

You hear the speaker say “bargage” instead of “garbage”
You transcribe: garbage

話し手が意図した言葉とは異なる言葉を使っている場合や、文脈上では意味があると思われる言葉を使っていても、それが有効な言葉である場合は、次のように書き写します。
話し言葉のように 誤まった発音ではありません。文脈上で敢えて正しい文法ではない言葉を使った場合など。

Example
You hear the speaker say “the volcano said: I lava you.”
You transcribe: the volcano said I lava you.

***Note***
Words pronounced with dialectic variation should be transcribed using standard spelling.

訛りなどは標準的な綴りを用いて転記する必要があります。

Example
You hear: issall well n’ good darlin.
You transcribe: it’s all well and good darling.

スパンタグ Span Tags

インタージェクション(間投詞、感嘆詞)
間投詞、感嘆詞は話し言葉では非常によく使われますが、辞書に載っていない場合もあります。
すべての間投詞、感嘆詞は文字にします。下の表のように綴ってください。これらが唯一許可されている間投詞、感嘆詞です。
転写された後に、interjection highlighting tagを使用して、間投詞、感嘆詞をハイライトしてください。

Example
You hear: mhm
You transcribe : mhm

Description /Spelling for Common Interjections
Agreement/ mm, mhm, uh-huh
Disagreement /mm-mm
Surprise/ oh (as in ‘oh really’), eee, jeez, whoa
Seeking Confirmation/ huh, hmm, eh
Disgust/ ew, ugh, yech
Delight/ yay, ooh
Concern /uh-oh, aww
Relief /whew
Disappointment/ aww
Other/ ow, shh, oops, ra

重なったスピーチ Overlapping Speech

放送されたデータでは、話者間で重なっている部分が聞こえることがあります。

– 重なっている発話が始まるtimestamp を挿入します。
– ((<overlap>))タグを挿入して、重複する発話の部分を表現します。重複する音声を書き写す必要はありません。
– 重複した発話の後に、どちらの話者が発話を続けるかを示します。

Example
Where overlapping speech occurs after hi Taste Squad! and speaker 1 speaks after the overlapping speech.
hi Taste Squad!の後にオーバーラップが発生し、オーバーラップの後に話者1が発話する場合。

UTTERANCE 1:<speaker_1> hi Taste Squad!<timestamp> ((overlap))<speaker_1> good to be here!

Where overlapping speech occurs after hi Taste Squad are you… and speaker 2 speaks after the overlapping speech.
hi Taste Squad are you…の後にオーバーラップスピーチが発生し、そのオーバーラップスピーチの後にスピーカー2が話します。

UTTERANCE 1: <speaker_1>hi Taste Squad are you . <timestamp>((overlap)) <speaker_2>yes we are!

スピーチを中断する Interrupting Speech

放送データでは、あるスピーカーが他のスピーカーの話を遮っているのが聞こえることがあります。これは通常の話者の交代として扱ってください。

Example

Where you can clearly hear speech from an interrupting speaker:

UTTERANCE 1:<speaker_1> hi everyone, are you .<timestamp><speaker_2> hurry up would you! <timestamp><speaker_1> ready to start?

明瞭な外国語 Intelligible Foreign Words

もし誰かが外国語を使っていて、その綴りを知っている場合は、その単語を書き出して、 “foreign word”を使ってその単語をハイライトします。

Example: the word in bold is highlighted because it is not English
例:太字の単語は英語ではないのでハイライトされる

does arrivederci mean goodbye in Italian?

外国人の名前(人名、地名、祭りの名前など)は外国語ではないので、ハイライトせずに完全に書き写す必要があります。
スペルがわからない場合は、Googleで検索して最も一般的なスペルのものを探してください。

ローンワード
ローンワードとは、今では言語の一部とされている外国語由来の言葉です。もし外国語由来の言葉が話者(もしくは話者のコミュニティ)に普通に使われて理解されていたら、それらの言葉は出てくるたびに転写してください。もしあなたの言語の辞書にその言葉が出てくるようなら外国語としてタグ付けする必要はありません。

ベストな推測 Best Guess

話し手が何を言っているか分かっている気はするが確かではない場合は、スピーチを書き写して、best guess span tagを使ってハイライトしてください。
このタグは注意して使用し、発話が明確でない場合にのみ使用してください。
このタグを使いすぎたり、意味不明なスピーチを書き写してbest guess span としてタグを付けたりすると、正確さの評価が下がります。

Example

It is not 100% clear to you what the speaker says after “me” but you can guess:
話し手が「me」の後に何を言っているのかは100%明確ではありませんが、推測はできます。

please read me Cat in the Hat tonight.

イベントタグ Event Tags

タグは、オーディオに情報を追加するために使用されます。
タグには、speakerIDタグ、ノイズイベント、無音部分、フィラー、外国語スピーチなどが含まれます。

各Appenプロジェクトは異なる場合がありますので、以下に示すタグのガイドラインに従うことが重要です。

– Standaloneタグは、独立してテキストボックスに挿入されます。「Ampersand」では、これらのタグは画像として表示されます。以下の例では、これらのタグは < > 括弧を使用してテキスト形式で表現されます。

– Spanタグは、テキストボックス内の転写を強調表示するために使用されます。

話者 ID Speaker ID

このデータでは、各録音で各話者をSpeaker IDタグを使って識別する必要があります。

– このSpeaker IDタグは、オーディオ録音全体を通して同じスピーカに一貫して適用されなければなりません。言い換えれば、作業中の同じファイルのバッチでは、同じスピーカー(話者)には同じSpeaker IDを使用します。

– 新しいデータのバッチで最初に聞くスピーカーはspeaker 1、次に聞くスピーカーはspeaker 2などです。

– 1つの録音(ファイル)で5人以上の異なるスピーカーの声を聞くことはまずありません。

– 特定の発話者が誰なのかわからない場合は、最も可能性のある話者のspeaker ID タグを使用する必要があります。

speaker ID タグを使わなければならない場所

1. それぞれの発話が始まる時に、同一の話者が前の発話の文章を続けない場合。
このような場合は<continued>タグまたは<truncation>タグを発話の初めに入れてください。ガイドラインの「思考の継続 Thought Continues」と「切り捨て Truncations」のセクションを参照してください。

2. すべてのタイムスタンプの後。

3. 3. 重複した発話の後に、どの話者が続けているかを示すために、オーバーラップタグの後に使用します。

Example UTTERANCE 1:<speaker_1> clouds gathered today over the mountains.

UTTERANCE 2: <speaker_2>that is a beautiful image, Jo.

UTTERANCE 3:<speaker_3> yes, I agree, Sue. I would have loved to have seen that, Jo.

UTTERANCE 4:<speaker_2> did you take a photo of it?

UTTERANCE 5:<speaker_1> no I didn’t, unfortunately.

上記のやり取りから、各話者がどのように識別され、話者が変わるたびに同じ話者IDタグが使用されているかに注意してください。また、書き写す際には、「Ampersand」での各発言のデータの提示方法によっては、以下のようになることもあります。

From the above exchange note how each speaker is identified and the same speaker ID tag is used for each speaker, each time there is a change of speaker. When you are transcribing, the following may also be correct, depending on how the data is presented to you in each utterance in Ampersand:

UTTERANCE 1:<speaker_1> clouds gathered today over the mountains. <timestamp><speaker_2>that is a beautiful<continued>

UTTERANCE 2:<continued> image, Jo.

UTTERANCE 3: <speaker_3>yes, I agree, Sue. <timestamp><speaker_3>I would have loved<continued>

UTTERANCE 4:<continued> to have seen that, Jo.

UTTERANCE 5: <speaker_2>did you take a photo of it?<timestamp> <speaker_1>no I didn’t, unfortunately.

注意

– 発話者が変わっていなくても1つの発言から次の発言へと文が続く場合を除き、すべての発言はspeaker IDタグで始まります。

– 発話者が変わっていなくても、発言内のすべてのタイムスタンプの後にspeakerIDタグが使用されます

Note, in the above examples:
• All utterances start with speaker ID tags unless a sentence continues from one utterance to the next, with no speaker change
• Speaker ID tags are used after all timestamps within utterances, even if the speaker does not change

スピーカー音量 Speaker Volume

– 標準的な音量設定で再生された場合、各スピーカー(話者)からの発話のほとんどは通常の音量になります。

– 話し手が異常に大きな声で叫んだり、話したりする場合は、<shout>タグを使用してください。

– 話し手がささやき声や話し声が異常に小さい場合は、<whisper>タグを使用します。

– これらのタグは、文中の非常に大きな声で話したり、非常に静かな声で話したりする最初の単語の前に挿入します。

– 大きな声で話したり、静かな声が聞こえた場合は、それぞれの新しい文にspeaker volumeタグを使用します。

Example

Speaker starts to whisper from the word “do”

<speaker_1>we were just talking about that. <timestamp><speaker_1> <whisper>do you know what she said?

Speaker starts to shout from the word “I”, then whispers from the word “okay”.

<speaker_1> we were just talking about that.<timestamp> <speaker_2> <shout> I don’t know what you mean! <timestamp> <speaker_1><whisper>okay calm down.

思考は続くThought Continues

最も一般的に使用されるタグの1つは、<continued>タグです。このタグは、ある発話の中の思考や文章が
次の発話に続く場合に使用します。

Example

UTTERANCE 1:<speaker_1> clouds gathered today over the mountains and<continued>

UTTERANCE 2:<continued> we are expecting rain for the next few days.

たとえ発話の後、発話が終わる前に無言の期間が続いたとしても、文や思考が発言が終了した時点で終わっている場合は、<continued>タグは使わないでください。

Example

UTTERANCE 1: <speaker_1> clouds gathered today over the mountains. <timestamp> <pause>

UTTERANCE 2: <speaker_1> we are expecting rain for the next few days

Every utterance must end with one of the following: 1. OR 2. OR 3. punctuation . or ? or ! 4. punctuation . or ? or ! followed by
すべての発話は、次のいずれかで終わらせなければなりません。

1. <continued>
2. <truncation>
3.句読点「 .」または「 ?」
4.句読点「 .」または「 ? 」または「 ! 」の後に <timestamp> <pause>

フィラー Fillers

フィラーとは、人が次に何を言おうかと考えているときに発する音のことです。
フィラーが聞こえたら、その音に最も近いフィラータグを挿入してください。
フィラータグの全リストについては、後述の「タグサマリー」の表を参照してください。

例:話し手は “was” の後に “um” と言います。

I was <um> just wondering.

例:話し手が何かを言っていて、wasの後に “eh “のように聞こえるので、最も近いと思われる<er>を選択します。

I was <er> just wondering.

意味不明な外国語 Unintelligible Foreign Words

誰かが外国語で話しているのが聞こえるかもしれません。その外国語がわからない場合は<foreign_utx>を外国語か理解できない言葉の場所にタグ付けしてください。

Example

スピーカーが「does」の後に外国語を言って、その外国語を特定できない場合

what does <foreign_utx> mean in Russian?

意味不明なスピーチ Unintelligible Speech

何かの干渉があったり、録音音声の問題があったり、話者が全くはっきり話さないなどの理由で、はっきりしない単語や複数の単語に出くわした場合は<unintelligible>のタグを入力してください。

しかし、聞いたことを理解し、書き写すために最善を尽くしてください。目安として、少なくとも3回は何が言われているのかを理解するように試みてください。

タグを挿入する必要があるのは、それがの意味不明な単語一つであっても、文字列であっても一度だけです。

Example

話し手は「her」に続く単語をつぶやいてから、明瞭な発話を続けます。

well I already told her<unintelligible> you know I told her.

Speaker mumbles a string of words after “her” and you cannot make them out well I already told her .

話し手は「her」の後に何か(いくつかの単語)をつぶやいていますが、あなたはそれを聞き出すことができません。

転写できないスピーチ Untranscribable Speech

音声のノイズや歪みのために、音声全体が完全に理解できない場合は、<utx>タグのみを挿入してください。
このタグは頻繁に使用する必要はありません。

音声なし No Speech

発話全体に音声がない場合、例えば、無音やノイズだけがある場合。

– 無音または無音に近い場合: 無音または無音に近い場合は<no_speech>タグを挿入して次へ進みます。
– 明らかなノイズの場合: 最も顕著なノイズタグのみを挿入して次に進みます。複数のタグを使用しないでください。ノイズタグに関しては以下のノイズタグの種類を参照してください。

意味不明な発話、フィラーや感動詞・間投詞は発話とみなされます意味不明な音声、フィラー、間奏を含む音声があるからと言って<no_speech>タグを使わないでください。

その他のすべての雑音(人間のものとそうでないもの)、すなわち、唇を叩く、笑う、息をする、咳をする、クリックする、ベルなどが鳴る、dtmf(電話のトーン)などはノイズとみなされます。

無言時間 Pause

– このタグは、発話を伴う発話(発話が発生している、無音だけの発話ではない)で使用されます
– 転写する音声やその他のノイズイベント情報がない1秒以上の期間には、このタグを挿入します。
0.1秒を示す波形上のかすかな垂直線を見てください。これらの線は、無言時間の長さを決定する際の指針となります。
– 「ミシシッピ」という単語の発音には約1秒かかります。これは、無言時間の長さがタグを付けるのに十分な長さかどうか計る指針になります。

例 – 話し手は “just “と “feels “の間で2秒の間を取ります。

UTTERANCE 1: <speaker_1> I don’t know why it just <pause> feels different now.

このタグは、発話中(単語間)の1秒以上の無言時間や、発話が始まる前発話中、または話者が文を終えた後、の1秒以上の無音に使用します。
無言時間周辺のタイムスタンプのルールについては、ガイドラインの「タイムスタンプ」のセクションを参照してください。

話し手のノイズ Speaker Noises

メインスピーカーから発生するすべてのノイズには、以下のいずれかのタグを付けてください。

– タグはノイズが最初に発生した場所に正確に挿入してください。
単語と同時に発生する場合は、その単語のにタグを挿入します。
– ノイズが複数回連続して発生する場合は、タグは1つで済みます。

Tag When to use it

<lipsmack>

• lip smacks • tongue clicks – リップスマック- 舌打ち

<breath>

• loud inhalation and exhalation between words • yawning言葉の間に大きな吸気と呼気がある。- あくび

<cough>

• coughing • throat clearing • sneezing- 咳き込み- のどごし- くしゃみ

<laugh>

• laughing • chuckling- 笑い- クスクス笑い

<cry>

• crying • sobbing- 泣き- すすり泣き

 

その他の騒音 Other Noises

発話者によるものではなく、発話と同じような音量のノイズを聞いたときに、該当するタグを挿入します。

– タグは、ノイズが最初に発生した場所に正確に挿入してください。

– 単語と同時に発生した場合は、その単語の前にタグを挿入します。

– ノイズが複数回連続して発生している場合は、タグは1つだけ付けてください。

NOTE: Each timestamp indicates the start of a new segment. If a noise continues across multiple sentences and speakers within the same utterance, use the noise tag in each segment in which it occurs

Example, you hear continuous loud rain starting from ‘we’ we were just talking about that.

do you know what she said? You transcribe we were just talking about that. do you know what she said? Result captures the noise in each separate segment ——————————————— If you hear the same short noise several times in a row, just use one tag Example, you hear a car horn three times, starting between ‘talking’ and ‘about’ You transcribe we were just talking about that.
注:各タイムスタンプは新しいセグメント(発話の区切り、かたまり)の開始を示します。ノイズが複数のセンテンスやスピーカにまたがって続く場合、同じ発話では、それが発生する各セグメントでノイズタグを使用します。

例:「We」の部分から連続して大きな雨が降っている。
<speaker_1> we were just talking about that.<timestamp> <speaker_1>do you know what she said?

転写すると

<speaker_1> <long_noise> we were just talking about that.<timestamp> <speaker_1> <long_noise> do you know what she said?

各セグメントにノイズタグを配置してください。
———————————————
同じような短いノイズが何度か連続して聞こえてきた場合は、1つのタグのみを使用してください
例:車のクラクションが3回鳴っていて、「talking 」と「about」の間から始まる場合。

転写すると

<speaker_1>we were just talking<short_noise>about that.

Tag When to use it

<applause> 

The sound of clapping 拍手

<click>

Machine or phone click 機械や電話のクリック音

<ring>

The sound of a phone ringing 電話の呼び出し音

<dtmf>

The sound made by pressing the telephone keypad (DTMF stands for Dual Tone Multi- Frequency).

電話のトーン音

<static>

Continuous static.継続する静かな雑音・テレビの砂嵐など

<music>

Music that is 1 second or more in length, and does not occur at the same time as speech. DO NOT use this tag for background music overlapping with speech.

1秒以上の長さで、発話と同時に発生しない音楽。発話と重なるBGMには使用しないでください。

<short_noise>

Any other short noises not covered in the list above. NOTE: place the tag at the point at which the noise occurs. If the noise starts at the same time as a word, put the tag BEFORE the word. Low level background sounds that are barely noticeable are expected and do not need to be tagged.

上記リストに記載されていないその他の短いノイズ。注:タグはノイズが発生した地点に配置してください。ノイズが単語と同時に始まる場合は、単語のにタグを付けてください。ほとんど気づかれないような低レベルの背景音もあると思いますがタグを付ける必要はありません。

<long_noise>

Any other continuous noises not covered in the list above, that is, noises that extend across several words (heavy rain, shouting from a crowd) NOTE: place the tag at the point at which the noise occurs. If the noise starts at the same time as a word, put the tag BEFORE the word. Low level background sounds that are barely noticeable are expected and do not need to be tagged.

上記のリストに含まれていないその他の連続したノイズ、つまり、複数の単語にまたがって続くノイズ(大雨、群衆からの叫び声) 注意:タグは、ノイズが発生したポイントに配置してください。ノイズが単語と同時に始まる場合は、その単語のにタグを付けてください。ほとんど気づかれないような低レベルの背景音もあると思いますがタグを付ける必要はありません。

切り捨て Truncations

録音装置によって発話の最初または最後の単語が切断された場合、これは切り捨てtruncationと呼ばれます。
切り捨ては、断片fragment(話者が単語の途中で話を止めること)とは異なります。切り捨てでは、録音装置が誰かの発話の単語の部分をカットしています。とはいえ、切り捨ては、発話の開始時または終了時にのみ発生します。

(発話が前後2つある場合)前の発話の最後に切り捨てがあった場合は、切り捨てられた完全な単語を転写します。そしてその単語の後ろに<truncation>タグをつけてその単語が録音装置によって切り捨てられたことを示します。
この場合、後ろの発話の冒頭では切り捨てられた単語の後ろ部分が残っていますが、その部分は転写せず(すでに前の発話に転写しているので)<truncation>タグのみを挿入します。

例 – “in that case we should probably consider other options” という文が2つに分割されています。

前の発話の最後と後ろの発話の最初で「probably」という言葉が切り取られています。
前の発話の最後に “prob “が聞こえます。 後ろの発話では切り捨ての後「ably」と聞こえます。

utterance 1: in that case we should probably<truncation>
utterance 2: <truncation> consider other options

単語が切り捨てられたことはわかるが、その単語が何なのかわからない場合は、単語の代わりに<unintelligible>タグを挿入してその後に<truncation>タグを使用します。

例 – “in that case we should probably consider other options “という文を2つに分割します。
前の発話と、後ろの間で「probably」という言葉が切れてしまいましたが、切り捨てられた言葉がわからないという場合は

utterance 1: in that case we should<unintelligible> <truncation>
utterance 2:<truncation> consider other options

タイムスタンプ Timestamping

一般的な紹介

各音声の波形(音の強弱を表す波形)が「Ampersand」で表示されます。

1. タイムスタンプタグのある転写テキストボックスにカーソルを置きます。
2. タイムスタンプタグをクリックします。
3. タイムスタンプが発生する波形をクリックします。
4. タイムスタンプタグが転写した文章と波形に表示されます。

タイムスタンプが示すのは以下の場合です。

– 文章の終わり
– 発言者の変更
– 重複スピーチの開始
– 発話の中で、文と文の間に1秒以上の非音声の期間があること。
– 発話の開始時に話者が話し始めるまでの1秒以上の無言の期間
– 発話の最後に話者が話を止めた後、1秒以上の無言の期間

実際の作業を始める前に、サポートチームが作った紹介ビデオをリンクを介して見てください。
また、タグの配置方法や操作方法に関する一般的な「Ampersand」のガイドラインについては、’How to use Ampersand – Timestamping Projects’を参照してください。

精度 Accuracy

タイムスタンプは、有効な音声以外の音声を最小限に抑えるため、音声の0.2秒以内に配置してください。
音声波形の中にタイムスタンプを入れないでください。そうすると、データ内の音声のカットが悪くなります。
波形上のわずかな縦線は、0.1 秒間隔を表しています。この線は、どこにタイムスタンプを配置するかを決定する際の指針となります。

タイムスタンプの配置 Timestamp Placement

下記では、タイムスタンプを入れるべき場所と入れてはいけない場所を示しています。このプロジェクトではタイムスタンプを、少なくとも2~3回の発話ごとに連続して設定します。

 

注意 転載は厳禁です。

 

  • このエントリーをはてなブックマークに追加

SNSでもご購読できます。