В настоящее время обмен информацией между человеком и машиной осуществляется по сравнительно небольшому числу каналов, главным образом посредством выполняемых двигательных актов: нажатием кнопок, ключа телеграфного аппарата, клавиш, перемещением рычагов, педалей, поворотом рулевого колеса и т. п. Что же касается информации, поступающей от машины к человеку, то она сводится лишь к звуковым и световым сигналам (включение различных табло, цифровая индикация). Между тем возможности связи человека с машинами значительно обширнее, чем это имеет место сейчас. Достаточно напомнить, что, кроме зрения и слуха, человек обладает обонянием, осязанием, вкусом, а также проприоцептивной чувствительностью. Все эти входы живой системы - человека - могут весьма успешно использоваться для ввода в машину самой разнообразной информации. И бионика идет именно по этому пути. В целях обеспечения наилучшего общения человека с машиной бионика пытается широко использовать биологические принципы в технике. Иными словами, в отличие от кибернетики и инженерной психологии, пытающихся разработать оптимальные методы использования человеческих возможностей для управления сложнейшими техническими системами, бионика идет по пути улучшения связи человека с машиной не за счет рационализации человеческих качеств, а за счет "биологизации" машин. Примером может служить проводимая в настоящее время работа по созданию "слышащих" машин.
Такую машину нужно прежде всего снабдить отличным слуховым аппаратом. Это задача, так сказать, номер один. Но услышать сообщение - распознать "слуховые образы" - еще полдела. Нужно также научить машину "понимать" его смысл - в противном случае автомат превратится в некое кибернетическое подобие гоголевского Петрушки, который, как известно, отличался тем, что все читал с равным вниманием. Его увлекал сам процесс чтения: "... что вот-де из букв вечно выходит какое-нибудь слово, которое иной раз черт знает что и значит". "Научить" машину "понимать" человеческую речь - задача номер два. Обе задачи неотделимы друг от друга - это типичные бионические проблемы.
Итак, бионический аспект рассматриваемой нами проблемы "человек - машина" ("человек - автомат") заключается в поиске новых путей для построения машин (автоматов), наилучшим образом согласованных с человеком-оператором. Задача состоит в создании своеобразного симбиоза человека и машины, т. е. такой их кооперации, при которой машина будет выполнять устные команды, заданные инструкции или выдвигать гипотезы и доказывать их, а человек - оценивать их и давать новые распоряжения или инструкции. Процесс общения человека с машиной нельзя разделять. Для достижения этого нужно усовершенствовать (формализовать) обычный язык так, чтобы каждое сообщение человека при его связи с машиной имело для нее определенный логический вес. В этом направлении уже получены некоторые результаты.
По сообщениям американской печати, датированным январем 1962 г., в Корнельском университете был разработан первый перцептрон "Тоберморей", способный "опознавать" произносимые слова. Система памяти этого экспериментального перцептрона содержала около 1000 ячеек, а электроакустический преобразователь (микрофон с последующей записью на магнитную ленту) принимал до 1600 отдельных акустических сигналов. Почти одновременно или немного позднее сотрудники Иллинойского университета разработали динамический преобразователь сигналов для выделения инвариантов, т. е. неизменных частотных составляющих, служащих основой данного звука речи. Этот прибор содержит систему фильтров и дифференцирующих цепей, при помощи которых производится разложение звуков на частотные составляющие и выделение инвариантов. Создатели прибора считают, что он может быть использован для разработки системы автоматического опознавания слов, а также для предварительной обработки данных в адаптивных системах.
Значительная и даже, пожалуй, основная часть исследований, проводимых в США в области распознавания речи, посвящена созданию квазислуховых автоматов для военных целей. Так, по контракту с Министерством обороны США одна фирма разработала "обучающуюся" машину "Кибертрон" типа К-100, предназначенную для распознавания сигналов гидролокационного устройства. Процесс самообучения проводится путем сравнения записей на перфоленту блока памяти сигналов, создаваемых звуколокационным устройством, с последующей записью других сигналов, например сигналов, создаваемых надводным кораблем, которые по своему частотному спектру близки к сигналам от подводных лодок. Машина сравнивает эти сигналы и выдает ответ. Процесс повторяется до тех пор, пока ответ не будет правильным. Обученная таким образом система, по сообщениям американской печати, обеспечивает быстрое и правильное распознавание шумов, подводных лодок с ошибкой не большей, чем у самого опытного оператора гидролокационной станции. Кроме машины типа К-100 фирма разработала другой вариант - "Кибертрон" типа К-200, предназначенный для распознавания слов английской речи.
Сегодня оператору и диспетчеру приходится не только наблюдать, но и активно вмешиваться в производственные процессы, регулировать, управлять ими. В таких случаях управление голосом могло бы существенно облегчить работу. Учитывая это, в нашей стране и за рубежом в последние годы разработан ряд устройств, срабатывающих при произнесении заранее определенных командных слов. Так, например, несколько лет назад в Институте электроники, автоматики и телемеханики Грузинской ССР была создана экспериментальная тележка несколько необычной формы. Ученые научили ее выполнять 7 слов-команд. Как удалось им достичь этого? Если одно и то же слово повторять много раз и притом разными голосами, а затем изучить сделанную запись, то можно найти общие черты, характерные только для данного слова. Составленная на основе такого исследования схема закладывается в машину. И тогда, принимая через микрофон уже знакомые ей сигналы, она реагирует на них включением вполне определенных приборов. Повинуясь командам оператора, металлическая тележка срывается с места и послушно движется вперед, поворачивает налево или направо и по сигналу "стоп" мгновенно останавливается. А ведь вместо металлического зверька легко себе представить "понимающих" устные команды-приказы прокатные станы на заводе, работающие в поле тракторы и любые другие машины.
Интересно отметить и такую деталь: изображение звука так же постоянно для каждого человека, как и отпечатки его пальцев. Криминалисты на Западе уже пытаются использовать это обстоятельство для опознания преступников. А ученые Грузии намерены на этой основе создать машины, выполняющие команды только определенных лиц. В общем, как в сказке: "Сезам, откройся!"
Из литературы известно о создании устройства, производящего по устной команде перестройку радиоприемников на фиксированные волны. Создано также несколько моделей машин для автоматического набора номера телефона голосом. Правда, большинство из них хорошо работает только при настройке на данный голос, причем точность набора составляет в этом случае 97-99%, но без настройки она падает до 50 - 70%.
Изготовлены выключатели, реагирующие на резкие звуковые команды. Оказывается, человеческий голос обладает интересным свойством, называемым "асимметрией огибающей". Особенно большой асимметрией обладают гласные звуки. Прибор, основанный на этом свойстве, "слышит" резко сказанные слова или крик и отключает (в случае опасности) двигатели или другие агрегаты. И вот еще что важно: это устройство способно реагировать на речевые сигналы, которые в 20 раз слабее, чем окружающий шум, - шумы не обладают асимметрией огибающей.
Один из зарубежных институтов разработал станок с программным управлением. От других подобных конструкций этот станок отличается тем, что программу для него составляет электронная счетная машина. Точнее, она не составляет программу, а преобразует в понятную для станка цифровую форму команды, отдаваемые оператором в микрофон (на это уходит всего несколько секунд). Станок, программируемый голосом, позволяет сэкономить время, нужное для перевода величин подачи, глубины резания и т. д. в машинный код, -устройство само выполняет эту работу. Разумеется, программу можно наговорить и заранее, тогда станок будет обрабатывать деталь сам, без оператора. Конструкторы сделали так, что электронной вычислительной машине "безразлично", каким голосом отдается приказ: громким или тихим, басом или дискантом. Ее не смутит и различная интонация, особенное произношение и даже акцент. На входе устройства, управляющего работой станка, стоит "швейцар". Он пропускает только самую суть слова (т. е. то, что отличает данную команду от другой, например "два" от "три" и т. д.). А всяческие "украшения" - то, что ученые называют избыточной информацией, - попросту не воспринимаются машиной.
Не так давно на Брюссельской автомобильной выставке демонстрировался автомобиль фирмы "Крейслер", управляемый посредством устных распоряжений. Стартер запускал мотор, повинуясь словесному приказу водителя. Устное распоряжение заставляло машину включать и выключать сцепление, переключать скорости. Даже повороты водитель совершал, не прикасаясь к рулю (его вовсе не было на машине!), а лишь произнося условные сигналы. Объемистый багажник автомобиля был весь заполнен электронной аппаратурой, среди которой первое место занимало счетно-решающее устройство и "рецепторы", воспринимающие акустические сигналы.
При разработке различных устройств, управляемых голосом, не остались забытыми и устройства для космонавтов. Так как у космонавта, вышедшего в космос из кабины своего корабля, "не хватает рук" для управления индивидуальным ракетным двигателем - он будет занят выполнением различных операций (работа с инструментами, кино- и фотокамерами и т. п.), - американские инженеры разрабатывают электронное устройство, с помощью которого это управление будет осуществляться командами, подаваемыми голосом космонавта. Для этого, как полагают конструкторы, будет достаточно 10 команд.
В Институте кибернетики Академии наук УССР, в лаборатории, руководимой В. А. Ковалевским, создана машина, "запомнившая" два десятка слов. Она узнает их почти безошибочно, независимо от того, кто их произносит. Если учесть, что из двух десятков слов можно составить не одну сотню разнообразных сочетаний, то выходит, что уже сегодня машина в состоянии воспринимать несколько сот различных голосовых команд. Спору нет, этого слишком мало, чтобы вести с машиной свободную беседу, но достаточно для того, например, чтобы она могла мгновенно "понять" команду о выходе из какой-либо аварийной ситуации.
Из всего приведенного выше следует, что разработка устройств, управляемых голосом человека, идет в определенном направлении. Однако до сих пор еще не созданы устройства для ввода любого речевого сообщения в вычислительные машины. Пока ведутся только научные поиски, эксперименты, ведь совершенно ясно, что поставленная задача много сложнее проблемы опознавания зрительных образов. Преодолеть языковую пропасть между человеком и машиной одним прыжком очень трудно.
Речь состоит из слогов, слов, фраз и т. д. Наименьшим элементом речи является звук (фонема). С физической точки зрения звуки речи различаются и частотным составом, и интенсивностью, и продолжительностью. В речи нет четких границ между звуками. Так же как рукописные буквы соединяются друг с другом промежуточными элементами, звуки речи в словах стыкуются с помощью "переходов" - звуков, которые возникают при перестройке нашего голосового аппарата для произнесения очередного звука. У разных людей форманты даже одних и тех же гласных звуков несколько разнятся по своей частоте и интенсивности (в детском и женском голосе все форманты несколько выше, чем в мужском). Кроме того, даже у одного и того же человека форманты одного и того же звука заметно различаются в зависимости от того, в каком слове произносится звук, ударный он или безударный, высок он или низок. Важной характеристикой звуков являются также число и частота обертонов. Индивидуальные особенности характеристик формант, а также присутствие в голосе еще и других специфических для каждого человека обертонов придают голосу человека неповторимый, присущий только ему одному тембр. Все это многообразие особенностей речевого сигнала заставляет ученых идти различными путями в поисках оптимального решения задачи распознавания речи.
Долгое время считалось, что в машинную память следует закладывать все признаки, которые в интересующем нас образе встречаются чаще всего. Однако при таком статистическом подходе вычислительная машина должна перерабатывать огромное количество сведений о множестве признаков. Но человек никогда не решает так задачу распознавания. Он сразу же выхватывает главное. При этом он выбирает всякий раз особую, часто очень сложьгую, но всегда наиболее эффективную тактику отбора. То же происходит и при распознавании речи (устной или письменной). Мы не отыскиваем каждый раз в памяти фонемы, не сличаем их с услышанными. Нам достаточно небольшого числа опорных ориентиров (первые звуки, ударение), чтобы понять слово. Мы часто понимаем и с "полуслова". Забывая об этом, машину учили постепенно составлять слова, последовательно складывать их из запасенных в памяти фонем. Вот почему, по мнению ряда ученых, практически никто не добился до сих пор большого успеха. Пока есть только машины, слушающиеся небольшого количества совершенно определенных устных команд, но не машины, в совершенстве "понимающие" речь.
Однако такого мнения придерживаются далеко не все специалисты, занимающиеся проблемой распознавания речи. Наоборот, опираясь на свои исследования, они считают, что восприятие слов в нашем мозге происходит по фонемам, а наличие автоматизма в приеме объясняется тем, что в памяти человека имеется набор слов и после прихода цепочки фонем (звуков) в мозгу автоматически создается соответствующий образ. "Это явление, - пишет М. А. Сапожков, - аналогично, например, печатанию на пишущей машинке: машинистка не может точно сказать, какие буквы были ею напечатаны, а при прочтении слова в мозге оно автоматически разлагается на буквы, и соответствующие сигналы поступают из мозга в пальцы. Следовательно, наиболее вероятно, что в мозге происходит опознавание фонем, а уже по ним - узнавание слов по образцам, хранящимся в памяти человека".
А вот Л. А. Чистович, А. В. Кожевников и другие сотрудники Института физиологии имени И. П. Павлова считают, "...что фонемы не представлены в акустическом потоке непосредственным образом и в процессе восприятия речи переход от акустического сигнала к символам фонем осуществляется иным, более сложным способом, чем это предполагает гипотеза пофонемного распознавания". Исследования Л. А. Чистович и В. А. Кожевникова показывают, что наша речь разбивается совсем не на фонемы, как это представляется многим. Письмо дробится на буквы, поэтому и в устной речи понятия, слова мы привыкли связывать с серией отдельных звуков. Но внутренняя организация устной речи другая: она разбивается не на фонемы, а на слоги. Человек принимает решение о предыдущей фонеме только после анализа последующего звука, т. е. он должен проанализировать весь слог.
Так как "...слог является той минимальной единицей, на уровне которой возможен переход от акустического сигнала к смыслоразличительным элементам языка", Л. А. Чистович и В. А. Кожевников пытаются организовать понимание машинами слов, или, как говорят, "распознавание образов речи", исходя из нового принципа. Они считают, что для машины различительными единицами должны были бы служить слоги. Тогда весь непрерывный поток устной речи можно разбить на слоговые группы и обрабатывать их, основываясь на звуках, которыми заканчиваются слоги. Как только начат переход к другому слогу, машина приступает к обработке данных о предыдущем, а затем передает полученные результаты в устройство памяти или на выход.
Быть может, следует идти по пути создания устройств, автоматически распознающих целые слова и фразы? О распознавании фраз речь может идти только в очень узком понимании: распознавание некоторых команд. Такой путь опознавания образа целого сообщения, по мнению ряда ученых, вполне себя оправдывает в том случае, когда дело идет об автоматизированном распознавании ограниченного набора (до нескольких десятков) команд, состоящих из одного-двух слов. Однако при переходе от ограниченного набора сообщений к общему случаю, когда число возможных речевых сообщений можно принять равным, например, числу осмысленных предложений на данном языке, рассматриваемый путь опознавания образа каждого отдельного сообщения, по мнению В. А. Кожевникова и Л. А. Чистович, явно не рационален. И действительно, для того чтобы хранить в памяти образы всех возможных предложений, распознающему устройству понадобился бы совершенно невероятный объем памяти. Как показывают произведенные Миллером, Галантером и Прибрамом расчеты, для того чтобы хотя бы один раз прослушать все грамматически возможные английские фразы длиной до 20 слов, человеку пришлось бы слушать примерно по 3 o 1020 фраз в секунду в течение 100 лет без перерывов!
Что касается обучения машин распознаванию целых слов, то сторонники фонемного метода рассуждают так. Каждый человек, говорящий по-русски, использует для передачи сообщений около 40 основных звуков-фонем и примерно 10 000 слов. Так что же легче - научить машину различать 40 фонем или десятки тысяч слов? "Как показывает опыт, - говорят специалисты, - идентифицировать фонемы трудно, но все же это единственно разумное решение".
Как мы видим, среди ученых нет единого мнения относительно выбора оптимального метода автоматического распознавания речи. И в этом нет ничего удивительного. Ведь до сих пор нам неизвестны инвариантные признаки фонем, по которым происходит их опознавание. Более того, неизвестно точно, опознаются ли элементы речи по фонемам, образы которых накоплены в памяти человека, или в памяти заложены образцы слов с их окончаниями и приставками и по этим образцам опознаются слова.
"Наивысшим и совершеннейшим человеческим приспособлением" назвал звуковую речь человека выдающийся русский физиолог И. П. Павлов. Физическая природа звуковой речи хранит в себе множество тайн. Как образуются звуки в голосовом аппарате человека, как они воспринимаются слухом и от чего зависит характер звука - вот проблема, в центре которой еще по сей день скрещиваются интересы ученых, работающих в самых разнообразных областях науки. Для того чтобы машины могли безошибочно выделять какой-то один образ из множества других сходных, нужно точное знание характерных его признаков. Но как выбрать такие признаки? Над решением этой задачи во всем мире ныне работают физиологи и лингвисты, акустики и невропатологи, специалисты по бионике и логопеды, психологи и инженеры, математики и конструкторы. Объединенные усилия всех этих специалистов, надо полагать, в конце концов раскроют тайны устной речи, дадут нам достоверные сведения о механизмах речи, о том, как мы говорим и слышим, почему понимаем слова.
А пока? А пока каждый ученый, работающий над созданием устройств по автоматическому распознаванию речи, идет избранным им путем.
Для проверки того или другого принципа автоматического распознавания речи ученые обычно строят фонетограф. Его блок-схема выглядит так: микрофон - усилитель - распознающееустройство - электрическая пишущая машинка. Появление фонетографов навело ученых на такую мысль: а что, если использовать это устройство в качестве самой обыкновенной пишущей машинки? Диктовать в микрофон текст доклада или научной статьи и получать на выходе тот же текст отпечатанным? Так сказать, автоматизировать труд машинисток или стенографисток, а может быть, и работу типографских наборщиков. Такой аппарат мог бы оказать неоценимую услугу также сотрудникам вычислительных центров. Они смогли бы вводить данные в вычислительную машину, просто диктуя их в микрофон.
Небезынтересно отметить, что возможность создания автоматического стенографа - пищущей машинки была доказана еще в начале сороковых годов советским ученым профессором Л. Л. Мясниковым, построившим динамический анализатор - прибор для объективного распознавания звуков речи. Однако реализация этой идеи была отложена из-за начавшейся Великой Отечественной войны.
Над созданием пишущих машинок-автоматов, печатающих под диктовку, ныне работают ученые ряда стран. Можно проектировать машинки, печатающие с голоса, для печатания слов, слогов, букв или звуков (фонем). По сложности конструкции и трудоемкости изготовления эти устройства очень разнятся. Так, для словесных машинок требуется очень большая память и само печатное устройство получается сложным и громоздким. Зато чисто фонетическая машинка должна содержать в памяти около 40 знаков и иметь столько же печатных знаков. Но такие устройства обладают чрезвычайно существенным недостатком: для чтения напечатанного материала требуется определенный навык, так как фонетографы дают на выходе фонетическую запись, т. е. значки, соответствующие звукам речи, а не буквам продиктованного текста, - своего рода транскрипцию. Почему же они непохожи друг на друга?
Дело в том, что произносимые звуки не соответствуют буквам русского алфавита. Сорока фонемам русской речи соответствуют 33 буквы алфавита. Помимо того, что в нашем алфавите есть непроизносимые буквы (ь, ъ), но и пишем-то мы часто совсем не то, что слышим. Произнесите, например, слово "лоб". На конце отчетливо слышится "п". Но если вы напишите так, как слышите, вас сочтут неграмотным.
Займись наши ученые проблемой распознавания речи не 15 - 20 лет назад, а во времена Кирилла и Мефодия - положение было бы совсем другим. И вот почему. 13 веков назад Кирилл и Мефодий создали русскую письменность, в которой каждому звуку соответствовала буква. Но за прошедшие 1300 лет в нашем произношении произошли большие изменения, а эволюция фонетической системы языка не получила достаточного отражения в письменной речи. Вот и получается описанная выше ситуация.
Как же заставить фонетическую машинку выполнять работу по перекодированию звуков в буквы подобно тому, как это делает пишущая под диктовку машинистка? Да и возможно ли это вообще? Возможно. Перевод звуков речи в буквы должен происходить в соответствии с грамматическими, орфографическими и лексическим:и правилами. Для ЭТОГО машинка должна быть наделена "памятью" на определенное количество звуков, сочетаний или слогов. Отсюда, конечно, не следует, что в памяти машинки должны быть заложены все звукосочетания, вполне достаточно иметь наиболее ходовые и типичные звукосочетания, при произнесении которых возможен неточный перевод звуков в буквы. Очень редких сочетаний или сочетаний, легко распознаваемых машинкой, может в памяти и не быть, так как это не вызовет трудностей в чтении материала и легко может быть исправлено в процессе чтения.
Примером удачного решения задачи является фонетическая пишущая машинка, созданная американскими учеными Г. Олсоном и Г. Беларом. Общий вид ее конструктивного оформления показан на рис. 6.
Блок-схему всего устройства можно рассматривать как сложный аналог слухового аппарата, части мозга, нервной системы и нервно-мышечного аппарата человека, печатающего под диктовку. Бионическая схема человека, печатающего под диктовку, и блок-схема фонетической пишущей машинки показаны на рис. 7. Чтобы понять принцип работы устройства, проследим, каким образом перерабатывается звуковая информация по пути ее следования.
Звуковая энергия улавливается наружным ухом человека, передается по слуховому проходу и воздействует на барабанную перепонку среднего уха. Механическое движение последней передается жидкости, заполняющей улитку (внутреннее ухо), при помощи слуховых косточек, которые, подобно рычажкам, перемещаются нелинейно. При этом происходит "компрессия" ("сжатие") сигнала, т. е. большие амплитуды уменьшаются сильнее, чем малые, причем уменьшение амплитуды пропорционально ее величине.
Рисунок ниже - /Общий вид фонетической пишущей машинки (модель III), разработанной Г. Олсоном и Г. Беларом/:
Нет комментариев