تقنية التعرف على الكلام

التعرف على الكلام ، قدرة الأجهزة على الاستجابة للأوامر المنطوقة. يتيح التعرف على الكلام التحكم بدون استخدام اليدين لمختلف الأجهزة والمعدات (نعمة خاصة لكثير من المعوقين) ، ويوفر مدخلات للترجمة التلقائية ، ويخلق إملاء جاهز للطباعة. من أوائل التطبيقات للتعرف على الكلام كانت أنظمة الهاتف الآلية وبرامج الإملاء الطبي. وكثيرا ما تستخدم للإملاء ، والاستعلام عن قواعد البيانات ، وإعطاء أوامر للأنظمة المستندة إلى الكمبيوتر ، وخاصة في المهن التي تعتمد على المفردات المتخصصة. كما أنها تمكن المساعدين الشخصيين في المركبات والهواتف الذكية ، مثل Siri من Apple.

قبل أن تتمكن أي آلة من تفسير الكلام ، يجب أن يترجم الميكروفون اهتزازات صوت الشخص إلى إشارة كهربائية تشبه الموجة. يتم تحويل هذه الإشارة بدورها بواسطة أجهزة النظام - على سبيل المثال ، بطاقة صوت الكمبيوتر - إلى إشارة رقمية. إنها الإشارة الرقمية التي يحللها برنامج التعرف على الكلام من أجل التعرف على الصوتيات المنفصلة ، وهي اللبنات الأساسية للكلام. ثم يتم إعادة دمج الأصوات في الكلمات. ومع ذلك ، تبدو العديد من الكلمات متشابهة ، ومن أجل تحديد الكلمة المناسبة ، يجب أن يعتمد البرنامج على السياق. تضع العديد من البرامج السياق من خلال تحليل Trigram ، وهي طريقة تستند إلى قاعدة بيانات للمجموعات المتكررة المكونة من ثلاث كلمات والتي يتم فيها تعيين الاحتمالات بأن أي كلمتين ستتبعها كلمة ثالثة معينة. على سبيل المثال ، إذا قال أحد المتحدثين "من أنا" ، فسيتم التعرف على الكلمة التالية على أنها الضمير "أنا" بدلاً من "العين" التي تبدو متشابهة ولكن أقل احتمالًا. ومع ذلك ، هناك حاجة في بعض الأحيان للتدخل البشري لتصحيح الأخطاء.

تعمل برامج التعرف على بعض الكلمات المعزولة ، مثل أنظمة الملاحة الصوتية عبر الهاتف ، لكل مستخدم تقريبًا. من ناحية أخرى ، يجب تدريب برامج الكلام المستمرة ، مثل برامج الإملاء ، للتعرف على أنماط الكلام لدى الفرد ؛ يشمل التدريب على المستخدم قراءة عينات من النص بصوت عالٍ. اليوم ، مع القوة المتزايدة لأجهزة الكمبيوتر الشخصية والأجهزة المحمولة ، تحسنت دقة التعرف على الكلام بشكل ملحوظ. تم تخفيض معدلات الخطأ إلى حوالي 5 في المائة في المفردات التي تحتوي على عشرات الآلاف من الكلمات. يتم الوصول إلى دقة أكبر في المفردات المحدودة للتطبيقات المتخصصة مثل إملاء التشخيصات الإشعاعية.