Использование распознавания речи в Windows
Перед тем как настроить распознавание речи, убедитесь, что у вас настроен микрофон.

- Выберите (Начните)>Параметры >Time & language >Speech.
- В разделе Микрофоннажмите кнопку Начать.
- Откроется окно мастера речи, и настройка начнется автоматически. Если мастер обнаружит проблемы с микрофоном, они будут указаны в диалоговом окне мастера. Вы можете выбрать параметры в диалоговом окне, чтобы указать проблему и помочь мастеру ее устранить.
Помогите компьютеру распознавать ваш голос
Вы можете Windows 11 распознавать свой голос. Настройка приложения
-
Нажмите Windows клавиши с логотипом+CTRL+S. Откроется окно мастера «Настройка распознавания речи» со страницей «Добро пожаловать в распознавание речи».
Совет: Если вы уже настроили распознавание речи, при нажатии клавиши Windows клавиша с логотипом+CTRL+S откроется распознавание речи, и вы будете готовы к использованию. Если вы хотите переучить компьютер распознаванию голоса, нажмите клавишу с Windows, введите Панель управления и выберите Панель управления в списке результатов. На панели управлениявыберите Ease of Access > распознавание > обучение компьютеру, чтобы лучше понимать вас.
См. также
Настройка микрофона
Прежде чем приступить к настройке функции распознавания речи, убедитесь, что настроен микрофон.

- Нажмите кнопку Пуск , затем выберите Параметры >Время и язык >Речь.
- В разделе Микрофоннажмите кнопку Начать.
Помогите компьютеру распознавать ваш голос
Можно обучить Windows 10 распознавать ваш голос. Настройка приложения
- Введите в поле поиска на панели задач Распознавание речи Windows и выберите элемент Распознавание речи Windows в списке результатов.
- Если вы не видите диалоговое окно с сообщением «Приветствуем вас в средстве обучения распознаванию речи», то в поле поиска на панели задач введите Панель управления и выберите Панель управления в списке результатов. Затем выберите Специальные возможности >Распознавание речи >Обучить компьютер для улучшения распознавания вашего голоса.
- Следуйте инструкциям для настройки распознавания речи.
Распознавание речи
С помощью функции распознавания речи можно вводить данные, указывать действия или команды и выполнять задачи.
Для распознавания речи используется специальная среда выполнения, API распознавания для программирования среды выполнения, готовые грамматики для диктовки и веб-поиска, а также системный пользовательский интерфейс по умолчанию, который помогает пользователям обнаруживать и использовать функции распознавания речи.
Настройка распознавания речи
Для поддержки распознавания речи в приложении пользователь должен подключить и включить микрофон на своем устройстве, а также принять политику конфиденциальности Майкрософт, предоставляющую вашему приложению разрешение на его использование.
Чтобы автоматически запрашивать у пользователя системное диалоговое окно, запрашивающее разрешение на доступ к звуковому каналу микрофона и его использование (пример из примера распознавания речи и синтеза речи, показанного ниже), просто задайте возможность устройстваМикрофон в манифесте пакета приложения. Дополнительные сведения см. в разделе Объявления возможностей приложений.

Если пользователь нажимает кнопку Да, чтобы предоставить доступ к микрофону, ваше приложение будет добавлено в список утвержденных приложений на странице Параметры —> Конфиденциальность —> Микрофон. Однако, так как пользователь может отключить этот параметр в любое время, необходимо убедиться, что приложение имеет доступ к микрофону, прежде чем пытаться использовать его.
Если вы также хотите поддерживать диктовку, Кортану или другие службы распознавания речи (например, предопределенную грамматику , определенную в ограничении темы), необходимо также убедиться, что функция распознавания речи в Интернете (Параметры —> Конфиденциальность —> Речь) включена.
В этом фрагменте кода показано, как приложение может проверка наличия микрофона и разрешения на его использование.
public class AudioCapturePermissions < // If no microphone is present, an exception is thrown with the following HResult value. private static int NoCaptureDevicesHResult = -1072845856; /// /// Note that this method only checks the Settings->Privacy->Microphone setting, it does not handle /// the Cortana/Dictation privacy check. /// /// You should perform this check every time the app gets focus, in case the user has changed /// the setting while the app was suspended or not in focus. /// /// True, if the microphone is available. public async static Task RequestMicrophonePermission() < try < // Request access to the audio capture device. MediaCaptureInitializationSettings settings = new MediaCaptureInitializationSettings(); settings.StreamingCaptureMode = StreamingCaptureMode.Audio; settings.MediaCategory = MediaCategory.Speech; MediaCapture capture = new MediaCapture(); await capture.InitializeAsync(settings); >catch (TypeLoadException) < // Thrown when a media player is not available. var messageDialog = new Windows.UI.Popups.MessageDialog("Media player components are unavailable."); await messageDialog.ShowAsync(); return false; >catch (UnauthorizedAccessException) < // Thrown when permission to use the audio capture device is denied. // If this occurs, show an error or disable recognition functionality. return false; >catch (Exception exception) < // Thrown when an audio capture device is not present. if (exception.HResult == NoCaptureDevicesHResult) < var messageDialog = new Windows.UI.Popups.MessageDialog("No Audio Capture devices are present on this system."); await messageDialog.ShowAsync(); return false; >else < throw; >> return true; > >
/// /// Note that this method only checks the Settings->Privacy->Microphone setting, it does not handle /// the Cortana/Dictation privacy check. /// /// You should perform this check every time the app gets focus, in case the user has changed /// the setting while the app was suspended or not in focus. /// /// True, if the microphone is available. IAsyncOperation^ AudioCapturePermissions::RequestMicrophonePermissionAsync() < return create_async([]() < try < // Request access to the audio capture device. MediaCaptureInitializationSettings^ settings = ref new MediaCaptureInitializationSettings(); settings->StreamingCaptureMode = StreamingCaptureMode::Audio; settings->MediaCategory = MediaCategory::Speech; MediaCapture^ capture = ref new MediaCapture(); return create_task(capture->InitializeAsync(settings)) .then([](task previousTask) -> bool < try < previousTask.get(); >catch (AccessDeniedException^) < // Thrown when permission to use the audio capture device is denied. // If this occurs, show an error or disable recognition functionality. return false; >catch (Exception^ exception) < // Thrown when an audio capture device is not present. if (exception->HResult == AudioCapturePermissions::NoCaptureDevicesHResult) < auto messageDialog = ref new Windows::UI::Popups::MessageDialog("No Audio Capture devices are present on this system."); create_task(messageDialog->ShowAsync()); return false; > throw; > return true; >); > catch (Platform::ClassNotRegisteredException^ ex) < // Thrown when a media player is not available. auto messageDialog = ref new Windows::UI::Popups::MessageDialog("Media Player Components unavailable."); create_task(messageDialog->ShowAsync()); return create_task([] ); > >); >
var AudioCapturePermissions = WinJS.Class.define( function () < >, <>, < requestMicrophonePermission: function () < /// /// Note that this method only checks the Settings->Privacy->Microphone setting, it does not handle /// the Cortana/Dictation privacy check. /// /// You should perform this check every time the app gets focus, in case the user has changed /// the setting while the app was suspended or not in focus. /// /// True, if the microphone is available. return new WinJS.Promise(function (completed, error) < try < // Request access to the audio capture device. var captureSettings = new Windows.Media.Capture.MediaCaptureInitializationSettings(); captureSettings.streamingCaptureMode = Windows.Media.Capture.StreamingCaptureMode.audio; captureSettings.mediaCategory = Windows.Media.Capture.MediaCategory.speech; var capture = new Windows.Media.Capture.MediaCapture(); capture.initializeAsync(captureSettings).then(function () < completed(true); >, function (error) < // Audio Capture can fail to initialize if there's no audio devices on the system, or if // the user has disabled permission to access the microphone in the Privacy settings. if (error.number == -2147024891) < // Access denied (microphone disabled in settings) completed(false); >else if (error.number == -1072845856) < // No recording device present. var messageDialog = new Windows.UI.Popups.MessageDialog("No Audio Capture devices are present on this system."); messageDialog.showAsync(); completed(false); >else < error(error); >>); > catch (exception) < if (exception.number == -2147221164) < // REGDB_E_CLASSNOTREG var messageDialog = new Windows.UI.Popups.MessageDialog("Media Player components not available on this system."); messageDialog.showAsync(); return false; >> >); > >)
Распознавание речевого ввода
В ограничении определяются слова и фразы (словарь), которые приложение распознает в речевом вводе. Ограничения являются основой распознавания речи и дают приложению больший контроль над точностью распознавания речи.
Для распознавания речевых данных можно использовать следующие типы ограничений.
Предопределенные грамматики
Предопределенные грамматики диктовки и веб-поиска обеспечивают распознавание речи в приложении без необходимости создавать грамматику. Когда используются эти грамматики, распознавание речи выполняется удаленной веб-службой, а результаты возвращаются на устройство.
Стандартная грамматика для диктовки в свободной форме может распознавать большинство слов и фраз, произносимых пользователем на данном языке, и оптимизирована для распознавания коротких фраз. Предопределенная грамматика для диктовки используется, если для объекта SpeechRecognizer не заданы никакие ограничения. Диктовка в свободной форме удобна, если не нужно ограничивать область высказываний пользователя. Обычно она используется для создания текстов заметок и диктовки сообщений.
Грамматика веб-поиска, например грамматика диктовки, содержит большое количество слов и фраз, которые пользователь может произнести. Однако она оптимизирована для распознавания терминов, которыми люди обычно используются, выполняя поиск в Интернете.
Поскольку предопределенные грамматики для диктовки и веб-поиска могут иметь большой размер и размещаются в сети (а не на устройстве), они могут уступать в производительности настраиваемым грамматикам, установленным на устройстве.
Эти предопределенные грамматики можно использовать для распознавания до ввода речи продолжительностью до 10 секунд, и для этого не потребуется никаких доработок с вашей стороны. Однако потребуется подключение к сети.
Чтобы использовать ограничения веб-службы, необходимо включить поддержку голосового ввода и диктовки в параметрах , включив параметр «Знакомство со мной» в разделе Параметры —> конфиденциальность —> речь, рукописный ввод и ввод.
Здесь показано, как проверить, включен ли голосовой ввод, и если нет, как открыть страницу Параметры -> Конфиденциальность -> Голосовые функции, рукописный ввод и ввод с клавиатуры.
Сначала мы инициализируем глобальную переменную (HResultPrivacyStatementDeclined) до значения HResult 0x80045509. См . раздел Обработка исключений для в C# или Visual Basic.
private static uint HResultPrivacyStatementDeclined = 0x80045509;
Затем мы отберем все стандартные исключения во время распознавания и проверим, равно ли значение HResult значению переменной HResultPrivacyStatementDeclined. При положительном результате мы отобразим предупреждение и вызовем await Windows.System.Launcher.LaunchUriAsync(new Uri(«ms-settings:privacy-accounts»)); , чтобы открыть страницу «Параметры».
catch (Exception exception) < // Handle the speech privacy policy error. if ((uint)exception.HResult == HResultPrivacyStatementDeclined) < resultTextBlock.Visibility = Visibility.Visible; resultTextBlock.Text = "The privacy statement was declined." + "Go to Settings ->Privacy -> Speech, inking and typing, and ensure you" + "have viewed the privacy policy, and 'Get To Know You' is enabled."; // Open the privacy/speech, inking, and typing settings page. await Windows.System.Launcher.LaunchUriAsync(new Uri("ms-settings:privacy-accounts")); > else < var messageDialog = new Windows.UI.Popups.MessageDialog(exception.Message, "Exception"); await messageDialog.ShowAsync(); >>
Ограничения программных списков
Программные ограничения-списки представляют упрощенный подход к созданию простой грамматики с использованием списка слов или фраз. Для распознавания коротких четких фраз удобно использовать ограничения-списки. Явно указание всех слов в грамматике также повышается точность распознавания, так как подсистема распознавания речи должна обрабатывать голосовые данные только в рамках подтверждения соответствия. Список можно также обновлять программными средствами.
Ограничение-список состоит из массива строк, представляющих ввод речи, принимаемый приложением для операции распознавания. Чтобы создать ограничение-список в приложении, создайте объект ограничения-списка для распознавания речи и передайте ему массив строк. Затем добавьте этот объект в коллекцию ограничений распознавателя. Когда распознаватель речи распознает любую из строк в массиве, распознавание завершается успешно.
Грамматики SRGS
Грамматика SRGS – это статический документ, который, в отличие от программного ограничения-списка, использует формат XML, определенный в спецификации SRGS Version 1.0. Грамматика SRGS предоставляет больший контроль над распознаванием речи и позволяет создавать несколько семантических значений в одном распознавании.
Ограничения голосовых команд
С помощью XML-файлов определения голосовых команд можно задать команды, которые пользователь может произносить, чтобы выполнять определенные действия при активации вашего приложения. Дополнительные сведения см. в статье Активация приложения переднего плана с помощью голосовых команд через Кортану.
Примечание Тип используемого типа ограничения зависит от сложности создаваемого интерфейса распознавания. Каждый может оказаться наилучшим для конкретной задачи распознавания, и в приложении может найтись место всем типам ограничений. Сведения об ограничениях см. в статье Определение настраиваемых ограничений распознавания.
Предопределенная грамматика универсального приложения для Windows для диктовки распознает большинство слов и коротких фраз в заданном языке. По умолчанию она активируется, когда создается экземпляр объекта распознавателя речи без настраиваемых ограничений.
В этом разделе мы покажем, как:
- Создать распознаватель речи.
- Скомпилировать ограничения универсального приложения для Windows по умолчанию (в набор грамматик распознавателя речи не добавлены грамматики).
- Начать прослушивание речи с помощью простого интерфейса распознавания и результатов преобразования текста в речь, передаваемых методом RecognizeWithUIAsync. Если пользовательский интерфейс по умолчанию не требуется, используйте метод RecognizeAsync.
private async void StartRecognizing_Click(object sender, RoutedEventArgs e) < // Create an instance of SpeechRecognizer. var speechRecognizer = new Windows.Media.SpeechRecognition.SpeechRecognizer(); // Compile the dictation grammar by default. await speechRecognizer.CompileConstraintsAsync(); // Start recognition. Windows.Media.SpeechRecognition.SpeechRecognitionResult speechRecognitionResult = await speechRecognizer.RecognizeWithUIAsync(); // Do something with the recognition result. var messageDialog = new Windows.UI.Popups.MessageDialog(speechRecognitionResult.Text, "Text spoken"); await messageDialog.ShowAsync(); >
Настройка пользовательского интерфейса распознавания
Когда ваше приложение пытается распознать речь при помощи вызова SpeechRecognizer.RecognizeWithUIAsync, отображаются несколько экранов в следующем порядке.
Если вы используете ограничение на базе предварительно заданной грамматики (диктовки или веб-поиска):
Если вы используете ограничение на базе списка слов или фраз или ограничение на базе грамматического файла SRGS:
- Экран Слушаю.
- Экран Вы сказали, если сказанное пользователем можно интерпретировать по-разному.
- Экран Я услышал или экран ошибки.
На следующем изображении представлен пример потока между экранами распознавателя речи, использующего ограничение на базе грамматического файла SRGS. В этом примере распознавание речи прошло успешно.



Экран Слушаю может предоставлять примеры слов или фраз, которые приложение может распознать. Здесь мы покажем, как использовать свойства класса SpeechRecognizerUIOptions (его можно получить, вызвав свойство SpeechRecognizer.UIOptions) для настройки содержимого на экране Слушаю.
private async void WeatherSearch_Click(object sender, RoutedEventArgs e) < // Create an instance of SpeechRecognizer. var speechRecognizer = new Windows.Media.SpeechRecognition.SpeechRecognizer(); // Listen for audio input issues. speechRecognizer.RecognitionQualityDegrading += speechRecognizer_RecognitionQualityDegrading; // Add a web search grammar to the recognizer. var webSearchGrammar = new Windows.Media.SpeechRecognition.SpeechRecognitionTopicConstraint(Windows.Media.SpeechRecognition.SpeechRecognitionScenario.WebSearch, "webSearch"); speechRecognizer.UIOptions.AudiblePrompt = "Say what you want to search for. "; speechRecognizer.UIOptions.ExampleText = @"Ex. 'weather for London'"; speechRecognizer.Constraints.Add(webSearchGrammar); // Compile the constraint. await speechRecognizer.CompileConstraintsAsync(); // Start recognition. Windows.Media.SpeechRecognition.SpeechRecognitionResult speechRecognitionResult = await speechRecognizer.RecognizeWithUIAsync(); //await speechRecognizer.RecognizeWithUIAsync(); // Do something with the recognition result. var messageDialog = new Windows.UI.Popups.MessageDialog(speechRecognitionResult.Text, "Text spoken"); await messageDialog.ShowAsync(); >
Похожие статьи
Примеры
Windows Speech Recognition
From Wikipedia, the free encyclopedia, “Windows Speech Recognition”, публичный перевод на русский с английского Подробнее об этом переводе .
Windows Speech Recognition это приложение распознавания речи включенное в Windows Vista и совсем недавно в Windows 7.
3 Известные инцеденты
4 Технические детали
5 Проблемы безопасности
6 Смотрите также
8 Внешние ссылки
В Windows Vista есть руководство по Windows Speech Recognition tutorial in Windows Vista
Windows Speech Recognition позволяет пользователю управлять компьютером произнося определенные голосовые команды. Программа также может использоваться для диктовки текста, чтобы пользователь мог управлять своим компьютером с Vista или Windows 7.
Приложения, которые не понимают «команд» могут быть управляемы голосом, система присваевает номера главным элементам интерфейса; Номера затем можно говорить, что бы активировать эту функцию. Программы нуждающиеся в управлении мышью в
Windows Speech Recognition has a fairly high recognition accuracy and provides a set of commands that assists in dictation.[citation needed] A brief speech-driven tutorial is included to help familiarize a user with speech recognition commands. Training could also be completed to improve the accuracy of speech recognition.
Currently, the application supports several languages, including English (U.S. and British), Spanish, German, French, Japanese and Chinese (traditional and simplified).
In 1993, Microsoft hired Xuedong Huang from Carnegie Mellon University to lead its speech efforts. Microsoft has been involved in research on speech recognition and text to speech. The company’s research eventually led to the development of the Speech API (SAPI).
Speech recognition technology has been used in some of Microsoft’s products, including Microsoft Dictation (a research prototype that ran on Windows 9x). It was also included in Office XP, Office 2003, Microsoft Plus! for Windows XP, Windows XP Tablet PC Edition, and Windows Mobile (as Microsoft Voice Command). However, prior to Windows Vista, speech recognition was not mainstream. In response, Windows Speech Recognition was bundled with Windows Vista and released in 2006, making the operating system the first mainstream version of Microsoft Windows to offer fully integrated support for speech recognition.
The use of Windows Speech Recognition during a demonstration of Windows Vista at a Microsoft Financial Analyst Meeting on July 27, 2006, resulted in a well-publicized and embarrassing incident. The software failed to function correctly initially, resulting in an unintended output of «Dear aunt, let’s set so double the killer delete select all». A developer with Vista’s speech recognition team later explained that Windows Speech Recognition’s failure to function properly during the demonstration was the result of a bug in the volume control feature, which caused the application to pick up extra noise that affected its performance. The software bug was fixed by Microsoft prior to the release of Vista to the general public.
Windows Speech Recognition relies on Microsoft SAPI version 5.3 (included in Windows Vista) to function. The application also utilizes Microsoft Speech Recognizer 8.0 for Windows as its speech profile engine.
В 2007 появились сообщения о том, что Windows Speech Recognition может быть использован для удаленного доступа и/или контроля компьютера пользователя. Теоретически, проигрывая заранее записанное сообщение содержащие команды для Windows Speech Recognition, управление компьютером можно осуществлять удаленно Эта проблема была одной из первых уязвимостей Vista, выплывших на поверхность после выпуска операционной системы для широкой публики
Microsoft официально признала проблему, но по их оценкам она не представляет серьезной угрозы, потому что даже если хакер сможет воспользоваться этой брешью, то он не сможет выполнять любые действия без административных прав доступа. Кроме того, в Windows 7 эта проблема решается с помощью настраиваемых пользователем опции для включения или отключения голосовой активации распознавания речи
Windows Speech Recognition
From Wikipedia, the free encyclopedia, “Windows Speech Recognition”, публичный перевод на русский с английского Подробнее об этом переводе .
Участники
| Bungalla — | 232 | очка |
Прежде чем переводить, нужно зарегистрироваться . Если вы уже регистрировались, то залогиньтесь.
Можно войти c помощью OpenID.
Страницы: ← предыдущая Ctrl следующая → следующее недопереведенное →
Windows Speech Recognition
Windows Speech Recognition
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
Windows Speech Recognition is a speech recognition application included in Windows Vista and more recently, Windows 7.
Windows Speech Recognition это приложение распознавания речи включенное в Windows Vista и совсем недавно в Windows 7.
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
3 Notable incident
3 Известные инцеденты
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
4 Technical details
4 Технические детали
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
5 Security issue
5 Проблемы безопасности
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
6 Смотрите также
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
8 External links
8 Внешние ссылки
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
Windows Speech Recognition tutorial in Windows Vista
В Windows Vista есть руководство по Windows Speech Recognition tutorial in Windows Vista
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
Windows Speech Recognition allows the user to control the computer by giving specific voice commands. The program can also be used for the dictation of text so that the user can control their Vista or Windows 7 computer.
Windows Speech Recognition позволяет пользователю управлять компьютером произнося определенные голосовые команды. Программа также может использоваться для диктовки текста, чтобы пользователь мог управлять своим компьютером с Vista или Windows 7.
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
Applications that do not present obvious «commands» can still be controlled by asking the system to overlay numbers on top of interface elements; the number can subsequently be spoken to activate that function. Programs needing mouse clicks in arbitrary locations can also be controlled through speech; when asked to do so, a «mousegrid» of nine zones is displayed, with numbers inside each. The user speaks the number, and another grid of nine zones is placed inside the chosen zone. This continues until the interface element to be clicked is within the chosen zone.
Приложения, которые не понимают «команд» могут быть управляемы голосом, система присваевает номера главным элементам интерфейса; Номера затем можно говорить, что бы активировать эту функцию. Программы нуждающиеся в управлении мышью в
История изменений (Последнее: Bungalla 11 лет, 9 месяцев назад) §
Windows Speech Recognition has a fairly high recognition accuracy and provides a set of commands that assists in dictation.[citation needed] A brief speech-driven tutorial is included to help familiarize a user with speech recognition commands. Training could also be completed to improve the accuracy of speech recognition.
Currently, the application supports several languages, including English (U.S. and British), Spanish, German, French, Japanese and Chinese (traditional and simplified).