«Лефт, лефт, оупен»

Наука и технологии
IT
«Эксперт» №49 (831) 10 декабря 2012
Общаться с компьютером становится все проще. Вместо клавиатуры и мыши уже сейчас достаточно речи и жеста, а в будущем, возможно, хватит и мысли. Только, по мнению специалистов, это может привести к потере здоровья и деградации нашего интеллекта.
«Лефт, лефт, оупен»

С момента создания первого компьютера прослеживается тенденция к упрощению интерфейса взаимодействия с ним. Сначала информация вводилась в компьютеры переключателями, а «общение» велось в машинных кодах, известных узкому кругу программистов. Переход на перфокарты, а затем на привычные нам устройства ввода — клавиатуру и мышь — позволил упростить и интерфейсы взаимодействия. Программировать на первых персональных компьютерах было способно большинство технически подкованных людей, а уж с играми справлялись и далекие от техники пользователи. Правда, чтобы запустить игру, требовалось выучить десяток-другой команд, понимать, что такое дерево каталогов... или звать на помощь знакомого, сведущего в IT.

Современный компьютер не требует от владельца специальных навыков, интерфейс, особенно сенсорный, позволяет достаточно просто найти и запустить необходимое приложение. Но для написания постов в соцсети по-прежнему требуется знать раскладку клавиатуры, так что некоторым приходится долго набивать текст двумя пальцами. Облегчат их участь голосовые интерфейсы, которые все шире применяются в различных устройствах. Возможность просто надиктовать текст уже доступна многим. А если голосовой ввод невозможен, остается развести руками. Или помахать, или описать круг — это зависит от того, какую команду вы хотите дать системе управления жестами, которые нередко бывают реализованы в технике, управляемой голосом.

Отдать приказ голосом или жестом просто, но современный уровень техники позволяет не задумываться даже над произношением. Ведутся работы по управлению взглядом, а уж самое прямое общение между человеком и компьютером — чтение мыслей. Точнее, управление мыслью, которое на текущем технологическом уровне уже можно реализовать даже с помощью недорогих устройств. К чему ведет такое стремление предоставить самый простой способ ввода? Не упрощается ли пользователь одновременно с усложнением машины?

Легкое исчезновение клавиатуры

Начало 2000-х. «Лефт, лефт, оупен». Курсор скачет по иконкам и послушно открывает указанную программу. Отлично — голосовой ввод работает на КПК. Поход на кухню и попытка продемонстрировать возможности голосового ввода расставляют точки над i — даже шум льющейся воды нарушает работу системы распознавания. Приходится вернуться к вводу с сенсорного экрана.

Собственно, сам ввод с экрана был большим шагом если не к естественным интерфейсам, то к упрощению взаимодействия с компьютером. Выучить раскладку клавиатуры удается не каждому взрослому, а разблокировать экран и запустить нужное приложение под силу даже ребенку. При переходе от обычных телефонов к смартфонам, на которых надо отобразить не просто набираемый номер, а результат действия разнообразных программ, сенсорный дисплей оказался как нельзя кстати. Зачем утяжелять телефон клавиатурой и занимать кнопками место, когда все действия можно выполнить с экрана? Когда нужно — часть сенсорного экрана показывает клавиатуру, когда клавиатура не нужна — она ис

От звуков к смыслу

Процесс распознавания звука происходит по следующей схеме. При анализе аудиофайла детектор речи выделяет фрагменты, в которых есть слова, и посылает их на распознавание. Сначала звуковой ряд проходит спектральное преобразование, раскладывается по частотам. По данным частотного анализа выделяются фонемы (минимальные звуковые единицы речи), которые затем собираются в слова на базе акустических моделей для данного языка. Окончательный выбор слов (а вариантов при одном и том же наборе фонем может быть множество) производится с помощью фонетических и лексических сетей, которые, как кубики, перебирают возможные сочетания и оставляют наиболее вероятные. Если необходимо, можно добавить еще одну стадию, на которой выделяется смысл сообщения (например, программе для путешествий все равно, какой набор слов вы произнесли, ей нужны время и конечный пункт поездки).

Очки, управляемые взглядом

Взгляните, что мы делаем: надо посмотреть на экран, провести пальцем до нужного объекта или произнести команду. Есть путь короче. Компания Google представила прототип очков, которые управляются взглядом. В очки вмонтирован прозрачный ЖК-дисплей, благодаря которому пользователь видит так называемую дополненную реальность. Например, обложка книги, которую вы взяли с полки в гостях, будет распознана, и вам предложат приобрести ее в интернет-магазине; а проходя мимо кафе, вы сможете узнать цены, отзывы о нем и даже то, находятся ли там сейчас ваши друзья.

Управление взглядом стоит несколько особняком в естественных интерфейсах. Конечно, можно указать взглядом, «стрельнуть глазками», но обычно это из области «тонких чувств», полунамеков, а не полноценного общения людей. Вызывает вопрос способность глаз работать в таком режиме целый день. Кроме того, непонятна степень готовности этой технологии: пока существует всего несколько прототипов очков, да и не ясно, можно ли запустить их в производство.