CTC: В чем разница между пробелом и пробелом?

В статье 2006 года о временной классификации коннекционистов Алекс Грейвс и др. представила модель декодирования речи с 27 метками: 26 для букв алфавита и одна для пробела, что означает отсутствие метки (что я понимаю как молчание).

Тем не менее, я вижу много реализаций CTC, которые используют метки 28, одна из которых является пустой, а другая — пробелом. До сих пор я не смог найти объяснения необходимости использования обоих этих ярлыков, и для меня они означают одно и то же.

Не могли бы вы объяснить разницу между пробелом и пробелом в контексте CTC и зачем нужны обе эти метки?


person Nicole D.    schedule 21.03.2019    source источник
comment
Пробел — это специальный символ, который используется внутри CTC, он не имеет реального представления в мире. С другой стороны, пробел — это обычный пробел, который используется для разделения слов. Здесь я написал краткое введение в CTC: towardsdatascience.com/3797e43a86c   -  person Harry    schedule 27.03.2019


Ответы (1)


Во временной классификации коннекционистов пробел — это просто пробел, а пробел — это «-», который мы используем для устранения повторения данных. например, «пицца» будет закодирована как «пицца».

TLDR;

ссылка: https://towardsdatascience.com/beam-search-decoding-in-ctc-trained-neural-networks-5a889a3d85a7

В CTC ​​есть проблема, как кодировать повторяющиеся символы. Решается введением псевдосимвола (называемого пробелом, но не путайте его с «настоящим» пробелом, т.е. символом пробела). Этот специальный символ будет обозначаться в тексте как «-». Мы используем хитрую схему кодирования для решения проблемы дублирующихся символов: при кодировании текста мы можем вставлять произвольное количество пробелов в любую позицию, которые будут удалены при его декодировании. Однако мы должны вставить пробел между повторяющимися символами, как в «привет». Кроме того, мы можем повторять каждый символ столько раз, сколько захотим. Давайте рассмотрим несколько примеров: «to» → «---tttttooo», или «-t-o-», или «to» «too» → «---ttttto-o», или «-t-o-o-», или « к-о», но не «слишком». Как видите, эта схема также позволяет нам легко создавать различные выравнивания одного и того же текста, например. «t-o», «too» и «-to» представляют один и тот же текст («to»), но с разным расположением относительно изображения. НС обучена выводить закодированный текст (закодированный в выходной матрице НС).

person mohitsinghdz    schedule 07.02.2020