发布时间:2022-09-12 07:00
Connectionist Temporal Classification (CTC)
CTC适合语音识别和手写字符识别任务
定义
输入表示:符号序列 X = [ x 1 , x 2 , . . . , x T ] X=[x_{1},x_{2},...,x_{T}] X=[x1,x2,...,xT]
输出表示:符号序列 Y = [ y 1 , y 2 , . . . , y U ] Y=[y_{1},y_{2},...,y_{U}] Y=[y1,y2,...,yU]
目标:找到输入X与输出Y之间精确的映射关系。
难点:
1、X和Y都是变长的
2、X和Y的长度比也是变化的
3、X和Y相应的元素之间没有严格的对齐(即 x t 与 y u x_{t}与y_{u} xt与yu不一定对齐)