SOFTWARE DE RECONOCIMIENTO DE VOZ
![]() |
La precisión del software de Reconocimiento de Voz de las generaciones anteriores alcanzo poco más del 90%, por lo que era cuestionable como herramienta para mejorar la productividad. La buena noticia acerca del software de voz más reciente es que la mayor parte de los productos ofrecen una precisión en el reconocimiento de más del 95% y le ayudan a realizar mayor cantidad de trabajo en menos tiempo, siempre y cuando tenga suficiente velocidad en su computadora, una tarjeta de sonido y un micrófono adecuado y la capacidad de hablar con claridad en todo momento. |
El
reconocimiento de voz se acerca más a la corriente principal y encuentra su
mercado nicho en las comunidades medica y legal, en las que se emplean
vocabularios especializados, pero aun no se deseche el teclado y el mouse. Estos
programas están diseñados para complementar los medios de captura
tradicionales, no para reemplazarlos. Pueden ofrecer un gran
incremento en la productividad de los usuarios con habilidades limitadas
para mecanografiar. Pero para aquellos que tienen una discapacidad, y que sufren
daños constantes por el estrés o simplemente siempre tienen las manos ocupadas
estos productos son magníficos.
Para
esta competencia, los laboratorios de PC Magazine pusieron a prueba, las
actualizaciones más recientes de los cuatro productos de reconocimiento de voz:
Dragon Naturallly Speaking Preferred 4.0, Free Speech 2000 de Philips, L
& H Voice Xpress Profesional Versión 4.0 y Via Voice Pro Millenium Edition
de IBM. Todos los fabricantes refinaron sus mecanismos de voz y mejoraron la
facilidad de uso e incrementaron el soporte destinado a comandos y controles, así
como para el Natural Language Command (NLC) de modo que funcionen en una extensa
variedad de aplicaciones, como Microsoft Excel y Outlook.
En
los resultados de nuestras pruebas, es evidente que la precisión a mejorado,
incluso con menos tiempo de capacitación. En la competencia del año pasado,
los evaluadores lograron una precisión promedio de 80 a 90%. Pero para el artículo
de este año la precisión inicial va del 91 a 95% en todo el grupo, y aumenta
con el tiempo de uso, subiendo hasta 98% en el caso de Via Voice .
La
mayor precisión le corresponde a los modelos de lenguaje más inteligentes.
Durante nuestras pruebas, observamos una mejor selección de palabras con base
en el contexto por parte de Naturally Speaking y Via Voice. Esto no solo produce
mayor precisión, también da como resultado la puntuación y aplicación de mayúsculas
en forma automática, con ahorro de tiempo al revisar y corregir los dictados.
Naturally Speaking, Voice Xpress y Via Voice ahora requieren de unos 10 minutos
de lectura para aprenderlos, en lugar de los 30 minutos o más que se
necesitaban el año pasado. En la mayor parte de los casos, puede instalar el
programa y dictarle con una exactitud muy buena en poco más de 20 minutos. Los
tutoriales y las tarjetas de consulta rápida son esenciales para aprender las
características del dictado, la navegación y los controles y comandos.
Voice Xpress y Via Voice siempre han tenido un fuerte soporte para controlar su escritorio en Windows y otras aplicaciones que utilizan comandos en lenguaje natural, y ahora amplían ese soporte a los comandos específicos de Microsoft Office 2000, por ejemplo “ al enviar como correo electrónico” o “guardar como pagina Web”. Todos los productos le permiten crear marcos de voz para insertar texto o dictar en cualquier aplicación de windows.
![]() |
Todos lo productos que participaron en esta competencia ofrecen algunas características Web que se activan con la voz. Natural Web de Naturally Speaking es el más sencillo de usar para navegar en la Web. Le permiten capturar URL con facilidad y seleccionar vínculos para las paginas por medio de la voz. Via Voice indexa cada pagina en forma dinámica conforme las carga y despliega un número junto a cada vínculo, de modo que solo necesita mencionar el dicho numero para mencionar un vínculo. Via Voice ofrece soporte para Jargon de Charter, un vocabulario para los programas de conversiones en Internet. Free Speech actualiza de forma dinámica su Command |
Explorer con base en la página web que esta cargada en ese momento para mostrar
todos lo vínculos activados con la voz, y Via Voice Xpress incluye Web Finder
que es una herramienta de metabusqueda que se activa con la voz. Aún tiene más
sentido navegar con la Web con un mouse y un teclado, pero el futuro de la
tecnología de reconocimiento de voz podría utilizarse para navegar en la web
en dispositivos portátiles más pequeños.
Precio de lista : $199 USD. Requiere: Pentium MMX/200 o equivalente; 48 MB en RAM; 200MB de espacio en disco duro; tarjeta de sonido de 16 bits compatible con Creative Labs Sound Blaster; Microsoft Windows 95 , 98 o NT.
Nuestra selección de los editores en esta competencia, Dragon Naturally Preferred 4.0, marca el estándar para la facilidad de uso, desde la instalación directa hasta el formato sencillo y la navegación en el Web activada por la voz.
Con
una mejor optimización para los nuevos procesadores y avances en el
reconocimiento de palabras y comandos, Naturally Speaking ofrece una exactitud
impresionante desde el desempaque. Sólo tiene la desventaja de un soporte
limitado para el lenguaje natural en aplicaciones distintas de Microsoft Word.
La precisión inicial de Naturally Speaking empató con la de nuestra mención
honorífica, el Via Voice, 95%, y aunque este último subió a 98% con
capacitación adicional, Naturally Speaking termino en 96%.
Sin
embargo, los evaluadores informaron, de manera unánime, haber tenido el menor número
de problemas al entender
los comandos de voz de Naturally Speaking para la navegación y el
formato.
Después
de una práctica de 5 minutos, Naturally Speaking tarda alrededor de 2 minutos
más en ajustar el modelo de lenguaje de base de acuerdo
con su voz y pronunciación. El Vocabulary Builder importa palabras
solas, listas de palabras o documentos completos, y le permite practicar todas
las palabras o las seleccionadas tan pronto como las importa. Igual que con Via
Voice, puede importar documentos para mejorar el reconocimiento.
![]() |
Naturally
Speaking tiene atajos intuitivos para el dictado y el formato. Por ejemplo, sólo
tiene que decir “all cap” o “cap“ para escribir todo en mayúsculas. Los
evaluadores encuentran esto más fácil
que decir “capitalize” en FreeSpeech y Voice Xpress, o incluso
“capitalize this” en Via Voice . Cuando hace una corrección, Naturally
Speaking le pide que diga la palabra correcta y la incorrecta, lo cual le ayuda
a aprender cómo pronuncia ambas palabras. La corrección de ortografía
funciona en forma adecuada, siempre y cuando hable en forma lenta y sin dudar.
Naturally Speaking es el único producto
en esta competencia que le
perimite dictar, corregir y practicar sin utilizar las manos. |
Precio lista: con audífonos Plantronics, $99.99 USD; con Philiphs SpeechMike , $149.99 USD. Requiere: Pentium/MMX 166 o equivalente; 48 MB en RAM; 100MB de espacio en disco duro; tarjeta de sonido compatible con Sound Blaster; Microsoft Windows 95,98 o NT con SP3.
FreeSpeech
2000 de Philips Speech Products presenta
varios avances respecto a su predecesor: soporte para dictado en seis idiomas.
Macros de voz y mayor precisión. Y aun incluye el práctico Philips SpeechMike.
Pero las bajas calificaciones en precisión, la información limitada y el hecho
de tener que cambiar en forma manual entre los modos de dictado y comandos
reduce la facilidad de uso del FreeSpeech.
FreeSpeech,
con una calificación inicial de 91% en precisión, mejoró en forma sustancial
en comparación con su versión anterior. Pero en una categoría en la que un
par de puntos porcentuales afecta la utilidad del producto, ésta es una
calificación muy baja. FreeSpeech también se colocó en el último lugar en
exactitud, a 93%. Probamos el FreeSpeech con SpeechMike y con Plantronics SR1.
Obtuvimos una calidad de sonido aceptable durante la activación del audio con
SpeechMike, pero sólo después de tres intentos. El programa también carece de
una tarjeta de consulta rápida e incluye poca información de los comandos.
El
modo de dictado tiene una característica EasyEdit, que destaca las palabras
mientras reproduce el dictado, y la característica EasyCorrect del programa
le permite interrumpir la reproducción y reemplazar la palabra subrayada
con la opción seleccionada de una lista de alternativas. Para utilizar los
comandos de los menús y los cuadros de diálogo, o para navegar en un
documento, debe cambiar al modo Comandos con la barra de herramientas o un botón
especial de SpeechMike. Esto puede ser confuso, sobre todo comparado con los
otros programas, que por el momento no tienen modelos. El botón de SpeechMike
facilita el proceso, excepto que, cuando lo suelta, el micrófono se apaga y
debe pasar en forma manual al modo de Dictado , lo que reduce los beneficios del
botón. Para deletrear palabras, debe cambiar al modo Deletrear, y si desea
interrumpir la grabación de la voz, recurra al modo Inactivo. Utilizar cuadros
de diálogo que requieren una combinación de navegación y dictado puede
ser difícil.
Las
herramientas para macros de FreeSpeech le permiten insertar varias líneas de
texto, ejecutar programas y golpes de teclas y clics del mouse programados en
forma previa. FreeSpeech tiene un soporte adecuado para NCL así como para
comandos y controles en todas las aplicaciones. Al igual que Voice Xpress,
incluye una lista de comandos de voz en la que es posible buscar por palabras
clave.
Los
usuarios encontrarán mayor precisión y facilidad de uso en otros programas que
participan en esta competencia. Y muchos usuarios se cansarán muy pronto de
cambiar en forma manual entre los modos de FreeSpeech.
Precio
al público: $150 USD. Requiere: Pentium II; 48 MB en RAM con Microsoft Windows
95 o 98, o 64 MB con Windows NT; 200 MB de espacio en disco
duro; tarjeta de sonido de 16 bits compatible con Sound Blaster o micrófono
USB.
L
& H Voice Xpress Professional ofrece las características básicas que todos
esperamos en un programa de reconocimiento de voz: es posible dictar en
cualquier aplicación, crear macros de voz y controlar las aplicaciones con
comandos de voz. El punto fuerte del programa son sus comandos intuitivos con
lenguaje natural para Microsoft Word, Excel y el sencillo procesador de palabras
Voice Xpress. Pero sus características de corrección son limitadas; por
ejemplo, carecen de reproducción de audio.
La
instalación del programa y la lectura de información necesaria que tomó 10
minutos se realizaron sin problemas, pero la instalación del audio fue menos
intuitiva. Al probar el volumen del micrófono, no hay indicación que le diga
cuándo dejar de leer. Al terminar la instalación, aparece una barra de control
en la parte superior de la pantalla, pero no es muy evidente cómo encender el
micrófono. El delgado manual incluye pocas pantallas o ilustraciones, por lo
que es difícil empezar a trabajar cuando se es nuevo en el reconocimiento de
voz. En nuestras pruebas, Voice Xpress quedó en tercer lugar en precisión
final, con 94%, detrás de Via Voice y Naturally Speaking. Para el uso casual,
quizá sea suficiente, pero para un dictado más formal, querrá una calificación
de 95% o más alta.
Voice
Xpress es fácil de utilizar para dar formato al texto. Reconoce frases como
“convertir en negritas las ultimas tres palabras”, convertir en negritas las
tres palabras anteriores” y muchas otras variaciones del mismo comando. El
programa responde con rapidez a lo que usted dice, por lo que la edición
y el formato son rápidos y sencillos. Sus comandos para Excel también
funcionan en forma adecuada.
Voice
Xpress le permite respaldar sus archivos de voz con facilidad en Iomega Zip
Drive u otro lugar aseguro. Los usuarios que desean controlar Excel y Word por
medio de la voz quizá consideren que Voice Xpress es una opción adecuada.
Precio al público: $180 USD. Requiere: Pentium/233 o equivalente; 48 MB en RAM con Microsoft Windows 95 o 98, o 64 MB con Windows NT; 100 MB de espacio en disco duro ; tarjeta de sonido de 16 bits.
Nuestra
mención honorífica en esta ronda, Via Voice Pro Millenium Edition de IBM,
ofrece una amplia variedad de funcionalidad tanto para aplicaciones de dictado
como de control, además de las mejores calificaciones de precisión del grupo.
Los novatos empezarán a trabajar con rapidez, mientras que los usuarios de
poder apreciarán las capacidades
avanzadas de macros del programa. No obstante, los evaluadores encontraron que
algunas de las características de edición de Via Voice son complicadas, un
factor determinantes en su facilidad de uso en general. La instalación y el
manejo inicial transcurrieron sin problemas gracias a las pantallas del
asistente bien diseñadas y un personaje animado que explica cómo empezar. Los
usuarios podrán empezar a dictar de 20 a 30 minutos después de la instalación
del software, lo que incluye de 10 a 15 minutos de lectura del texto del
registro.
![]() |
En
nuestras pruebas, Via Voice fue el producto más preciso: después del registro
fue de 95%, que aumento a un sobresaliente 98% cuando dictamos el mismo
documento después de hacer correcciones. En el uso diario, la mayoría de los
usuarios deben tener una precisión
entre estos porcentajes.
|
Via
Voice, al igual que los otros productos que evaluamos, le permite controlar los
menús y cuadros de diálogo en la mayor parte de los programas de Windows, con
comandos en lenguaje natural disponibles para Microsoft Word y Excel, entre
otros. Via Voice también le permite navegar el Web al activar Internet Explorer
con la voz. Naturally Speaking también le permite decir los nombres de los vínculos,
pero sólo Via Voice numera los
elementos de la pagina, de modo que puede decir el nombre del elemento
requerido.
Con
todo, es complicado corregir los errores en Via Voice. El manual del programa
sugiere emplear una combinación de mouse, teclado y voz para editar, en lugar
de usar sólo comandos de voz.
Asimismo,
es imposible emplear comandos de formato común en SpeakPad, el propio
procesador de texto sencillo de Via Voice. Según las experiencias de los
evaluadores, comandos como convertir en negritas las tres últimas palabras únicamente
funcionaron en Microsoft Word.
A
las excelentes calificaciones de precisión de Via Voice les afectan las
limitadas capacidades de corrección del programa. Pero quienes son nuevos en el
reconocimiento de voz y los usuarios de poder que valoran las capacidades de
macros del programa y su capacidad de guardar audio para reproducirlo después,
encontrarán muchas características agradables en Via Voice.
Articulo tomado de la revista :
PC MAGAZINE

POR: Silvia Janet Espinosa de la Peña.
Carrera: Ing. Sistemas Computacionales
Septimo Semestre
Materia: Admon. de los Servicios de Centros de Comp.
Maestra: María Magdalena Noguez