Доклад

Студентки первого курса филологического факультета МПГУ Проскурниной Наташи.

Анализ лингвистических принципов компьютерной обработки русскоязычных текстов и разработка языковой модели.

После создания первых персональных компьютеров, лингвисты задумались над тем, как поставить себе на службу "искусственный интеллект". Появился даже новый раздел филологии - компьютерная лингвистика, которая по-своему расширяет коммуникацию между машиной и человеком. В настоящий момент она приняла очертания стройной науки, которая находится на стыке двух областей знания: информационных технологий и языкознания. Развитие информационных технологий предоставляет новые средства для работы с текстами и увеличивает шансы создания искусственной языковой модели.

В своем реферате я попыталась проанализировать системы автоматических обработок текста, на примере самых распространенных программ по проверке орфографических и пунктуационных ошибок WORD.

Я несколько лет работаю с данными пакетами и могу сказать с уверенностью, они не являются полноценными корректорами русскоязычных текстов.

В моей работе осуществлена попытка ответить на три основных вопроса: Что из себя представляют программы корректоры. Что они могут и какие их недоработки? Как персональный компьютер находит ошибки? Почему в данный момент версии недостаточно совершенны, что можно сделать, чтобы их усовершенствовать?

 Системы автоматической обработки текста.

Как известно, коммуникация между человеком и компьютером происходит в основном на уровне письменных сообщений. Практика показывает, что около 90% всех ошибок, которые мы допускаем при работе с компьютером, вызваны неправильным набором слов на клавиатуре дисплея, т. е. тесно связаны с орфографией русского языка.

Как я уже отметила, в последние годы интенсивно разрабатываются программы автоматического исправления ошибок, например: The Writer's Workbench (рабочее место писателя), представляющая собой систему из 32 программ, которая может исправлять и грамматические, и пунктуационные ошибки, а также анализировать стиль, известная русская программа ОРФО. Самый известный пакет The word выпущен иностранными производителями, но адаптирован русскими программистами.

В большинстве обучающих и контролирующих программ компьютер, анализируя письменные ответы, как правило, сравнивает их с эталонами правильных ответов, заложенных в программу, и если одна или несколько букв ответа не совпадают с эталоном, то компьютер сигнализирует об ошибке. При этом для компьютера безразлично, допущена ли серьезная грамматическая ошибка или же ошибкой является неправильно написанная буква. И в том, и в другом случае он оценивает ответ как неправильный.

Это, с одной стороны, существенно тормозит работу пользователя, но, с другой, способствует формированию у него навыков грамотного письма. Компьютер, неустанно сигнализируя об ошибке, очень быстро добивается от человека правильного написания того или иного слова. Человек же на практике убеждается, что неправильное написание отдельных букв создает реальные помехи для коммуникации, отсюда более внимательное отношение к орфографии.

Таким образом, компьютер является прекрасным тренажером по выработке навыков правописания. Независимо от того хочет ли этого пользователь или нет. В связи с этим трудно согласиться с некоторыми разработчиками компьютерных программ по русскому языку, предлагающими заменить ввод письменного сообщения на русском языке обыкновенными цифровыми кодами (они предлагают вместо обыкновенного набивания букв введение алгоритмов). Подобные замены мотивируются разными причинами. Одни разработчики, например, полагают, что в тех случаях, когда контролируется не правописание, а скажем, семантика, можно пользоваться цифровым кодом ответов, другие же используют цифровые коды в целях экономии времени. Но я считаю, что это неправильно, т.к. это развивает у пользователя элементарную неграмотность.

Ошибки, которые выявляются Wordом:

Орфографические ошибки.

Обозначения: подчеркивание - ошибки, проверяемые Wordom. Курсив - ошибки, которые Word проверить не может.

1). Итак, что касается орфографических ошибок. Word безупречно исправляет ошибки в тех словах , чье написание не зависит от смысла.

 Это ошибки правописания, которые легко находит Word, справляясь в электронном словаре. Так, например, если вы случайно нажали соседние клавиши или ваши руки опередили мысли, в результате чего появились "коротый" вместо который", и "совешрать" вместо "совершать", то машина без труда исправит вам эти и другие ошибки, допущенные в словах с более сложным написанием.

Пример: Если бы кооператив, выпускавший оригинал-макет книги  "Детектив США", вып.1,-М.:СП "Интер бук", 1990. - 295с., имел хотя бы такие программные средства для работы с русскими текстами, в ниже приведенном списке ошибок не осталось бы ни одной. Итак: стр. 24 - грзное дело (далее в тексте подчеркивание обозначает ошибку, обнаруженную редактором), стр.32 - Лаверно, и он...; стр. 33 - пока я топливо обходил, стр 54 - желающих пот нцевать, стр. 78 - ЗнЖю, на ее вечеринке, стр.83 - на ачете калифорнийской полиции не состоят, стр.84 - фотосьёмка, стр.85 в "византийско-голливудском жтиле",стр. 215 - хочет выговриться, стр. 127 - болльше итд. Хотя ошибка со стр. 33 Wordом не замечена. Это объясняется тем, что вне контекста слово "топливо" написано правильно, но об этом чуть позже, см. Ошибки, не проверяемые Wordом.

Следует также упомянуть о правилах, которые, как утверждает сам Word, (см. статистику удобочитаемости) он безупречно проверяет.

А). Правило: Слова с цифрами:

Данное правило служит для обнаружения и исправления опечаток, возникающих при наборе текста на компьютере, а именно цифр, появляющихся в конце или в начале слова вместо требуемых знаков препинания, находящихся на тех же клавишах клавиатуры. Например, данная функция обнаружит в тексте слова  "Здравствуйте1", и "следующие6" и предложит их заменить на "Здравствуйте!" и "следующее:". Это осуществляется при стандартной клавиатуре.

Б). Второе правило, указанное компьютером - это удвоенная "нн" в прилагательных и причастиях.

В случаях, когда  существует два варианта написания слова с "н" или "нн" в суффиксах, следует правило: Если слово выступает в роли обычного прилагательного, то в нем пишется "н" (вареная картошка, вяленая рыба), а, когда слово используется в роли страдательного причастия (картошка, варенная в мундире; рыба, вяленная на солнце), то пишется НН.

Я проверила это правило рядом упражнений, в которых специально задавала ошибки, и нашла некоторые недоработки программы. Вот отрывок из моих исследований:

Багряный закат, бесчисленное множество, ветряная погода ( правописание "н" и "нн" в слове проверяется, но компьютер не различает прилагательное "ветреный" в значении " с ветром" от "ветряный" в значении "приводимый в движение ветром". Это можно объяснить лишь недоработкой  автора), глиняная посуда, дискуссионный  вопрос, кованный, жеванный, организованный, кованный на все четыре ноги конь (ПК выдает ошибку,  обосновывая это тем, что отглагольное прилагательное "кованый" пишется с "Н". Но в данном примере "кованный" является причастием, так как имеет при себе зависимые слова. Недоработка автора), поношенный костюм, отчаяный  поступок, богатое приданое, названый брат, посаженный отец,  смышленный мальчик, сонный человек, кожаный ремень, оловяный солдатик, желаный, священый, негаданный ,  раненый пулей, он долго не мог пошевелиться (ПК  не выдает ошибку , т.к. ,по-видимому,  слово "раненый" занесено в словарь, как исключение без альтернатив написания), тканая скатерть, непрошеный гость, масленый блин, масляный взгляд, (как и в слове "ветряный", ПК не различает гласную перед " н", написание которой зависит именно от смысла). См. Ошибки, не проверяемые Wordом.

В). Беглая гласная "о" в предлогах. Данное правило позволяет обнаруживать и исправлять случаи неверного употребления некоторых предлогов, имеющих варианты написания с конечной буквой "о" и без нее, например: "безо/без",  "во/в", "со/с", "надо/над", "ото/от", "обо/об" и т.д. Употребление того или иного варианта таких предлогов бывает обусловлено как законами произношения, так и смыслом конкретного высказывания. Например, следует использовать вариант "со" предлога "с", если следующее слово начинается с буквы "с-" или "з-" с последующей согласной. Например: "со стола", "со свечой". Как правило, носители русского языка легко определяют, какой вариант предлога нужен в том или ином случае. Ошибки в употреблении предлога чаще вызваны описками.

Г). Слитное, раздельное и дефисное написание. Правило обнаруживает ошибки в слитном и раздельном написании слов. Например, будет обнаружено и исправлено употребление существительного с предлогом " во время" в словосочетании "во время праздника".

 а ). Написание частиц  же (ж), бы (б), ли (ль): Ведь былиж схватки боевые, да, говорят, еще какие.  Он отворил мне дверь, я вошел в обширную комнату и чтоже увидел? Кудаже они едут? В город чтоли?  Нет ничего в мире, чтобы могло прикрыть Днепр. Посмотрика, как дивчина хороша. "Слушаюс", - промолвил Петр. Тактаки  брат к тебе и вошел? Дай ка мне покачать Митю. 

б ) Сложные существительные : полкомнаты,  поллимона,  полметра, полапельсина, полМосквы,  дизельэлектроходдинамомашина,  аэро золь, северозападОрехово Зуево, штабскапитан.

 в) сложные прилагательные: древнегреческий бог, обще-славянский, , бледнорозовый, внутреннесодержательный, детски наивные высказывания ,медикобиологические,   северо западный,  Орехово Зуевский.

 г). Наречия: Мы все учились по немногу чему-нибудь и как - нибудь.  Изба состояла из одной горницы, довольно опрятной, разделенной на двое перегородкой. По куда есть хлеб - будет и жизнь. Наура возьмем. Ознобишин увидел, что на много старше стала Маша.  Будьте на чеку. Как видно, что - то знал старик, и Давыдов решил идти воткрытую.   Я не писал тебе во первых, потому что мне было не до тебя, вовторых, за неимением верного случая. ( В слове " во первых" ПК выделяет ошибку, но предлагает лишь заменить предлог "во" на "в", т.к. возможно раздельное написание этого слова с предлогом "в", но в другом контексте. Пример: "В первых рядах ...". Но так как ПК не различает смысла контекста, то он допускает эту ошибку.) Я вас, батюшка, пригласил теперь подомашнему, совершенно этак, по дружески. Сорокин начал рассказывать - задрожали губы едва едва справился с собой. Взглянув к верху, можно было заметить, что небо начинало светлеть на Востоке. Женщина стала всматриваться в даль с видом беспокойства. Военному совету пришлось все налаживать с начала.  Он а исчезала вглубь веков, не оставляя и следа.  Вначале года ученики изучали лишь арифметику. Иван надел фуражку на бок и ушел, что -то насвистывая.  Вдруг лошадь куда - то ухнула под ним, стала биться и падать набок.  Он испугался на смерть.  Бороться не на жизнь, а насмерть.   На завтра отправились  в путь (наречие в значение "на следующий день").  Отложили отъезд назавтра (предложное сочетание в значение  "на завтрашний день").  Да я тебя не видал от роду и  знать не хочу!  Степану двадцать лет отроду.

д). Предлоги. В следствие ранения Ибрагим вместо парика носил повязку.  Мне было лет двадцать, когда я начал  писать в роде воспоминаний.   В продолжении  дороги мы два раза переехали через реку.(Окончание у сложного предлога ПК тоже проверяет).Сколько я ни старался различить что-нибудь наподобие лодки, но безуспешно.  Имейте ввиду  -  задание ответственное. Но! В виду  предстоящего отъезда нужно поторопиться со сборами.   В виду бурной погоды спасатели беспокоились за катер. (Дело в том, что выражение "иметь в виду" занесено в словарь ПК, поэтому он улавливает ошибку, но компьютер не различает предлог с существительным от сложного предлога).  Вроде Толстых было немало одаренных людей. Получилось что-то в роде самодельного велосипеда. (См. Предыдущий случай).

е). Союзы. Подложили цепи под колеса вместо тормозов, что бы они не раскатывались. Чтобы не говорили, а я выполню эту работу. Василек во чтобы то ни стало хотел все рассказать брату. Снегу было мало, снежных буранов то же.  У меня тоже серое пальто, в котором вы видели меня в  прошлом году. Меняется деревня Щипачи, но в мелкой речке  также месяц тонет. Старики были дома, так же и Ивлев. Прибыл он за тем, чтобы продать лес. Вслед затем он встал с постели. Мы выпили по стакану воды, при чем старик нам кланялся в пояс. Причем здесь старший брат, когда проступок совершил младший? И так все ясно. Поступали итак и сяк. (Написание союзов зависит от смысла, от того, в каком значении  они употреблены.  Вот поэтому, компьютер и не может их проверить).

ж). Слитное и раздельное написание не со всеми частями речи.

Это был непобедимый воин. Мне было нестерпимо больно. Солнце - неогнистое, не раскаленное, но светлое и лучезарное  всплывает из-под узкой длинной тучки.  Я невольно любовался Павлушей.    Сын поцеловал мать и,  несмотря на нее, вышел из комнаты. Не смотря на сильный ливень,  мужики продолжали косить.(П.К.  не может определить разницу между частями речи, отсюда  возникает ряд недочетов. См. ошибки, не проверяемые Wordом). Несколько рублей ничего не изменят.  Не ты, неон - никто  мне не мил. (Написание  местоимения и отрицательной  частицы не будет восприниматься, как верное, т.к. в словаре ПК есть  слово "неон", правда, в другом значении. См. далее). Он был не рад  своему кузину.  Рабочий недовыполнил  план.  Обломов не тупая  апатическая натура, а человек, чего-то ищущий. На столе лежала непрочитанная мною книга.  Ученик прочел стихотворение негромко. Ученик прочел стихотворение негромко, а тихо. Капля не велика, а камень разбивает. Кепка была не велика, а мала.

( Машина не улавливает разницу написания между словами с противопоставлением и без него, с зависимыми словами и без них).

Д). Предложный падеж без предлога. Данное правило позволяет найти ошибки, связанные с опечатками в окончаниях слов. Каждому существительному в предложном падеже должен предшествовать управляемый им предлог, отсутствие  его может указывать на ошибку.  Особенно часты ситуации. Когда допущена ошибка в окончании существительного, например: « Нами не было обнаружено недостачи строительных,  облицовочных материалах на складе.»

Е). Ошибки в прописных буквах. Но данное правило касается лишь заглавных букв предложения, в именах собственных со сложным написанием программа не разбирается.

Пунктуационные ошибки:

Разделы, касающиеся тех или иных ошибок, и правила даны самим Wordом. Причем эти разделы имеют очень узкую направленность. Так ПК рассматривает обособление деепричастных и причастных оборотов вместо обособления обстоятельств и определений и т.д.  

А). Запятые в деепричастных оборотах. С помощью данного правила можно обнаружить пропуски запятых в деепричастных оборотах и некоторых других глагольных конструкциях.  Например: деепричастные обороты, наподобие «подойдя к дому», «читая книгу», должны обязательно выделяться запятыми. Более подробно: деепричастный оборот – деепричастие и зависимые от него слова обозначают действие или состояние,  сопутствующее основному действию, названному глаголом-сказуемым.  « К ночи  стали в лесу, не разнуздывая  коней, не разжигая огня». Деепричастный оборот обычно выделяется запятыми с обеих сторон, если только он не является устойчивым  словосочетанием или фразеологическим оборотом  («Он работал спустя рукава»).

Пример:  Держа кувшин над головой грузинка узкою тропой сходила к берегу. ( ПК предупреждает, что возможно не хватает запятой после слова "головой" ). Лодка помчалась бесшумно и легко вертясь среди судов.  Пошумев река успокоилась вновь легла в свои берега. Довольные пассажиры, примолкнув любовались солнечным днем. Казаки сдержанно посматривали на него расступаясь.  Лодка помчалась бесшумно и легко вертясь среди кустов. Батареи медным строем скачут и гремят, и дымясь, как перед боем, фитили горят.

Эх!  Давай работать засучив рукава! Отец засучив рукава тщательно вымыл пол. (ПК не различает разницы между фразеологическим оборотом и деепричастным оборотом, советуя в обоих случаях выделять их запятой.) Все ребятишки слушали деда раскрыв рот. Жили Артамоновы ни с кем не знакомясь. О прогулке он рассказывал смеясь (ПК не различает одиночные деепричастия, близкие к наречиям, выступающим в роли обстоятельства образа действия, от простых одиночных деепричастий).   Старик сидел опустив голову. Она вошла не постучавшись. Дмитрий слушал его нахмурясь. (В данном случае деепричастие  с зависимым словом  тесно по смыслу сливается с глаголом. Здесь важно не то, что старик сидел, а то, что он сидел с опущенной головой. Эту смысловую тонкость компьютер не учитывает)  Мальчик отвечал на вопросы откровенно и нисколько не смущаясь. 

Б). Запятые в причастных оборотах. Это правило позволяет обнаруживать пропуск запятых в причастных оборотах. Причастные обороты обычно выделяются запятыми с одной или двух сторон. Например, причастный оборот наподобие: «Это были отряды, решительно выдвигаемые на передовые рубежи», должен отделяться запятой. Более подробно: Причастный оборот, образован причастием и зависимыми от него словами и обозначает  признак или состояние. Причастный оборот, предшествующий определяемому им члену предложения, не выделяется запятыми («Вошедший передо мною посетитель уже сидел в кресле и беседовал с секретарем»), если только не несет дополнительной смысловой нагрузки ( причинной, уступительной), приближающих его по значению к придаточным предложениям, например: Согретый солнцем, мох расцвел белыми цветами».= «Мох расцвел белыми цветами, потому что был согрет солнцем». Причастный оборот, следующий за определяемым словом, всегда обособляется запятыми: «Одно добро, совершенное в мире, порождает второе».

Примеры: Утомленный долгой речью я закрыл глаза и заснул. (Обособляются на письме запятыми одиночные и согласованные определения, стоящие впереди определяемого слова, если имеют добавочное обстоятельственное значение. А значение, как я уже говорила, ПК разобрать не может).   Он утомленный борьбой, обессиленный позором лежал молча. Пораженный страхом я иду за матушкой в спальню. До шалаша мы добежали, промокшие насквозь. ( Одиночные и согласованные определения, относящиеся к личному местоимению не обособляются, если по смыслу связаны со сказуемым. ПК не улавливает этих тонкостей. Об  обособленных определениях в целом и говорить не стоит, т.к. создатели, видимо, даже не пытались  обеспечить их проверку.) Струйки дыма вились  в ночном воздухе полном влаги и свежести. Солнце великолепное и яркое поднималось над морем. Сила сильнее его воли сбросила его оттуда Мелькнуло что-то, махавшее светлыми крылышками. (Причастия, стоящие после неопределенного местоимения, не обособляются, так как образуют одно целое с предшествующим местоимением. Но ПК это не учитывает). Все, явившиеся на экзамен студенты, были хорошо подготовлены. (Определительные, указательные и притяжательные местоимения не отделяются  запятой от следующего за ними причастного оборота). Проверка: Тополи покрытые росой наполняли воздух нежным ароматом.   Улица ведущая в город была свободна.  

В). Запятые в сложном предложении. Данное правило помогает восстановить  пропущенные запятые между частями сложносочиненного предложения и между главным и придаточным предложениями, входящими в состав сложноподчиненного предложения. Например: «Она мне нравилась все больше и больше, я тоже был симпатичен ей», «Когда мы пересекали Восточную Пруссию, видел я колонны военнопленных».

Проверка:  Сложное предложение представляет собой сочетание двух или более простых предложений. Простое предложение сообщает об одной отдельной ситуации: "Мальчик пишет", "Девочка читает". Сложное предложение сообщает о нескольких ситуациях и об отношении между ними.

Части сложносочиненного предложения являются более или менее независимыми сообщениями: "Мальчик пишет, а девочка читает".

В составе сложноподчиненного предложения, значение одной части (придаточного) обуславливается значением другой части (главного). "Она краснела, когда волновалась".  "Я  помогу тебе. Если хочешь". Части сложноподчиненного предложения выделяются запятыми во всех случаях, кроме следующих. Запятая не ставится  перед соединительными  и разделительными союзами (и, а, но), если 1. Соединяемые ими предложения имеют общий второстепенный член или общее придаточное предложение. "Звезды уже начинали бледнеть и небо серело, когда  коляска подъехала к крыльцу". 2. Если во второстепенных предложениях содержится неожиданное присоединение или резкое противопоставление, то между предложениями ставится тире: "Он знак подаст - они хохочут ".

Проверка:

1. Сложносочиненные предложения. Разговор показался ему интересен и он остановился, ожидая случая высказать свои мысли. Я хотел бы спросить его насчет собаки да он видимо не в духе был.  Залает пес, зашелестит ветерок к дубраве и птица робко пролетит Вода в пруде почернела и легкая лодочка уже скользила по ней  и слышались плеск и смешки какой-то гражданки в лодочке. (ПК замечает непоставленную запятую лишь между первым и вторым простыми предложениями в составе сложносочиненного, между вторым же и третьим - ошибка постоянно не замечается).  По улицам шли прохожие, и проносились машины. Когда окончился футбольный матч, зрители покинули стадион, и трибуны опустели.  От долгого сидения  у него затекли ноги, и болела спина. В сенях пахло свежими яблоками, и висели лисьи и волчьи шкуры. (Несмотря на указание в правилах, которые выдает Word, программа не может правильно определить ошибку в сложносочиненных предложениях, имеющих общий второстепенный член или придаточное предложение). Неверное движение руки  и машина дробит вам кости, солнечный удар и готово. Стрела выходит из колчана, взвилась и падает казак с окровавленного кургана. (Так как во втором предложении содержится неожиданное присоединение, то между первыми и вторыми  предложениями должно быть поставлено тире, но ПК не замечает этого, он  даже не отмечает, что в данных предложениях знаков препинания нет вообще).

2. Сложноподчиненное предложение. Всюду где только лес был пореже лежали холсты лунного света. Свежий воздух рванул в комнату так что сдул лежавшую пыль.   Смотри с печальной усладой как в свет зари вползает дым. Если завтра увидите его то попросите чтобы он ко мне заехал на минутку. Оленин знал что в лесу опасно что абреки всегда скрываются в этих местах. Он не явился на занятия, потому что заболел. Мы вынуждены были сделать такой большой обход, потому что весенним половодьем снесло пешеходный мостик. (ПК советует ставить запятую перед составным союзом "потому что", хотя постановка этой запятой в очень многом зависит от интонации и смысла).

3. Бессоюзное предложение. Небо очистилось замелькали звезды становилось уже светло. Герасим схватил Муму, стиснул ее в своих объятиях  она в одно мгновение облизал ему нос, глаза, усы и бороду.  Меня грызет сомнение может быть и в самом деле надо было переждать до вечера?  Всю дорогу до хутора молчали говорить мешала тряская езда. (ПК  предлагает поставить запятую, хотя, опираясь на правило, надо поставить двоеточие).  Вдруг мужики с топорами явились лес зазвенел, застонал, затрещал. Косили версту выкосили грош. Лес рубят щепки летят.(ПК предлагает поставить запятую. Но по правилу в этих предложениях нужно поставить тире).

Г). Запятые между однородными членами. По этому правилу восстанавливаются пропущенные запятые, которые должны стоять между однородными членами предложения, не соединенными  союзами или соединенными противительными или повторяющимися союзами. Пример: "Лицо радиста то хмурилось, то улыбалось". Более подробно: Однородные члены предложения занимают одну и ту же синтаксическую позицию и выполняют одну и ту же функцию (сказуемого, подлежащего, дополнения, определения). Они могут быть связаны между собой союзами и интонацией, пример: "Одежда, бумаги, безделушки в беспорядке валялись по всей комнате". В состав однородных членов могут входить целые словосочетания. "Люблю дымок спаленной жнивы,  в степи ночующий обоз и на холме средь желтой нивы чету белеющих берез".

Проверка: звуки росли крепли  полнели  становились все более и более властными, захватывали сердца толпы. И берег и море молчали. Поворчал он но не посмел ослушаться. Пушкин создал замечательные реалистические произведения не только в стихах но и в прозе. На наш взгляд он хорош да зелен. Однажды Лебедь, Рак, да Щука везти с поклажей воз взялись. (ПК не различает противительный союз "да" от соединительного  - не может правильно поставить знаки препинания). Дети собирали в лесу лечебные травы, и ягодыгрибы, и орехи. (Внутри  групп однородных членов, соединенных попарно, запятая не ставится. ПК не улавливает этих тонкостей.) Он был ни жив, ни мертв. (В цельных выражениях с повторяющимися союзами запятая не ставится. ПК этих тонкостей не улавливает тоже - недоработка автора). Татьяна верила преданьям простонародной старины  и снам, и карточным гаданьям, и предсказаниям луны.  (В данном случае ПК не заметил ошибку,  в выделенном случае стоит поставить запятую, так как перед первым однородным членом подразумевается союз "и". Но машина не может уловить смысл).  В корзине была дичь два тетерева и утка. Ничто не шевелилось ни одна травка внизу, ни один лист на верхней ветви дерева.  Он предложил ей два варианта, а именно пойти работать в школу или подрабатывать в газете.   Река, деревья, оба берега все было залито солнечным светом. (ПК не проверяет знаки препинания при обобщающих словах, быть может, это связано со смыслом, который не улавливает Word. Хотя, как мне кажется, можно сделать алгоритм для проверки  основных видов обобщающих слов: все, как-то, а именно, например).

Д). Запятые при вводных словах и предложениях. Данное правило помогает находить слова и обороты, грамматически не связанные с членами предложения. Вводные слова,  словосочетания, вводные и вставные предложения, междометия, утвердительные и отрицательные слова выделяются запятыми.

Проверка: Но может быть вы хотите знать окончательно историю Бэлы?  Отец как видно был сведущ только в совете копить копейку. Платок был отличный и наверное стоил копеек сорок.  К  сожалению мальчик не видел  ни плакучих ив, ни светлого неба. Итак разговор наш с вами закончен. Видите ли это была очень серьезная ситуация. 

Е). Запятые при сравнительных оборотах. При данном правиле обнаруживаются не выделенные запятыми сравнительные обороты, начинающиеся союзами как, словно, будто, как будто, точно, чем, нежели.

Проверка: Морозило сильнее чем с утра.  С утра поползли серые как дым облака. Она была бледна как смерть. Ноги ступали неслышно и мягко как по ковру.

Ж) Запятые при обособленных членах. (Смотри причастные и деепричастные обороты).

З). Пропуск точки перед заглавной буквой.

Ошибки, которые не выявляются.

Это все ошибки, которые как- либо связаны со значением ,  смыслом. Их очень много, так как русский язык полон исключений, поэтому я просто приведу самые яркие из них, параллельные тем правилам, которые проверяет Word.

А). Имена собственные,  научные термины, устаревшие слова, которые ПК не знает, если вы, конечно, не внесли их в словарь. Они будут выделяться как неправильно написанные.

Б). Следует помнить, что Word только сравнивает слова в вашем документе со словами в некотором электронном списке, называемым словарем. Если по отношению к контексту слова  в вашем документе содержат ошибку, а вне контекста они написаны правильно, то Word  будет полагать, что ошибок в этих словах нет. Так  ПК думает, что с фразой "с нашим печением" ( вместо " с нашим почтением") все в порядке, то есть слова, использованные в неверном контексте, остаются незамеченными, поэтому  содержательная часть текста, как таковая, не  анализируется.

Смотри ошибки с объяснением, выделенные курсивом, в разделе: "Ошибки, проверяемые Wordом". Я поместила их в первый раздел для удобства просмотра.

Краткий обобщенный анализ проверки правописания Word.

Наиболее актуальными и технически реализованными являются системы обработки текстов. Самое распространенное программное средство, проверяющее орфографические, пунктуационные и стилевые ошибки - WORD. Но анализ этого пакета позволяет сделать вывод о том, что он не является полноценным корректором русскоязычных текстов. Можно выделить две причины, из-за которых программное обеспечение несовершенно:

1).Недоработка авторов (некоторые ошибки ПК сможет исправлять, если занести ряд данных в электронный словарь WORDа. Смотри "ошибки, исправляемые Wordом".)

2).Смысловые принципы. Для того, чтобы машина могла идеально проверять, она должна владеть всеми лингвистическими принципами, в том числе и смысловыми, то есть быть, как таковой, искусственной языковой моделью. А это задача всего человечества, т.к. при ее создании машина сможет вести осмысленный диалог, полноценно владеть языками. Первоначально я попыталась рассмотреть данный пакет как основу для языковой модели. Но это лишь наработки, в основу которых я положила уже существующие исследования с добавлением собственного словаря по измерению качественного ореола слова.

Сущность языковой модели.

Первоначально в языке, как и в компьютерных программах осуществлялся атомарный подход: брались отдельные группы, типы слов, но не связывались единой идеей в одну систему.

Для совершенной модели компьютерной языковой программы необходима идея моделирования. Когда мы читаем или слышим что-либо, мы наблюдаем результаты речи человека:

текст

◄▬▬▬▬►

Х

◄▬▬▬▬►

Смысл

Что между ними? Неизвестно.

Если удастся построить аналог этого процесса, появится языковая модель.

Свойства языковой модели:

1.Существование аналога процесса, который происходит при преобразовании[1] смысла в текст, и при извлечении смысла из текста (Это задача всего человечества, в данный момент ПК не может "понимать" смысл, но уже осуществлены попытки имитировать это понимание).

2.Это описание аналога (технологий, определенных закономерностей).

Требования к описанию:

1. Отражать все существующие свойства данного языка. (ПК частично может моделировать "строение русского языка": орфографию, синтаксис, морфологию и т.д., но все свойства машина отражать не может.)

2. Схематичность.

3. Наличие объяснительной силы. Пример: железное здоровье, смертельно больной, круглый дурак (= "очень, в высокой степени" )- идиоматические русские выражения, которые должна уметь объяснять модель. Есть набор смыслов, которые в разных языках выражаются по-разному. (Это возможно для компьютера, т.к. на данном этапе можно занести различные идиоматические выражения и их значения в электронный словарь).

Что значит владеть языком?

1. Уметь выражать заданный смысл различными, в идеале, всеми возможными способами этого языка. Пример: Переводя с французского, он почти не пользуется словарем. Тождественно =  "Когда он переводит с французского...", "При переводе с французского...", "..он редко использует словарь", "...редко пользуется словарем", "... словарь ему почти не нужен".(Машина может использовать идею структуралистов)

2. Уметь понимать сказанное или написанное в данном языке. Различать внешне сходные, но разные по смыслу высказывания. Находить общий смысл у внешне различных высказываний. Пример: Студенты из Красноярска поехали в Москву. При разном логическом ударении возникает несколько смыслов. Первое значение - перемещение из места в место, второе значение - Красноярские студенты едут в Москву. (Постановка логического ударения - это более сложная стадия, которую ПК пока не воспринимает)

3. Уметь отличать правильные языковые высказывания от неправильных. * - знак неправильной фразы. Пример: *"Он оказывал впечатление делового человека". *"Я имею 80 кг веса". *"Преступники угнали несколько государственных и собственных машин", то есть машина должна следить за культурой речи, чего современные пакеты не могут. Ведь человек не просто говорит, он вставляет свою речь в определенную ситуацию, в определенный стиль речи - языковой отбор. (Культура речи не под силу даже некоторым людям, ПК на сегодняшний день не владеет ею, хотя, разработки на эту тему уже появляются).

В понятии "владение языком" есть несколько уровней:

1. лингвистический ( попытка овладеть им была осуществлена, см. теорию структуралистов, анализ программ - корректоров Wоrdа);

2. ситуативный (сообразно ситуации);

3. социальный (соблюдение условностей и ограничений, налагаемых на речевое общение социальной структурой данного общества и социальными характеристиками участниками общения= языковой отбор). Пример: К старшему в русском языке не принято обращаться только по имени. (Добиться осуществления социального уровня компьютером, можно с помощью особого интерфейса. Например: перед созданием документа, ПК может сам предложить пользователю выбрать форму своего сообщения: помимо деловой переписки и обычной, можно ввести форму личной переписки и т.д.. Далее нужно указать кем является вам ваш оппонент, его возраст и уже основываясь на эти данные машина будет вносить кое - какие свои коррективы);

4. социально - культурный (владение национально-обуславливаемой спецификой языковых средств). Пример: "заваривать чай" - русское - "варить чай" - венгерское. Также с социально-культурным уровнем связано явление коннотации- стандартные ассоциации, связанные с определенным понятием. Пример: "сокол" в русском языке имеет два значения: птица и удалой человек. Во французском языке слово "сокол" обозначает лишь птицу. (Различные коннотации и их смысловые значения можно внести в электронный словарь компьютера, чтобы он мог их проверять и использовать в данном контексте.)

5. энциклопедический - владение не только словом, но и "миром" слова. Нужно знать не только, как устроено слово, но и из чего состоит предмет, каким бывает и т.п.

 

Прежде всего важно понимание "логическое истолкование понятия" - это не все значение слова, а только часть. Очень важная, наиболее определенная часть, как бы ядро, понятийное ядро значения. Но как к нему подступиться? Сейчас надежды на успех связываются вот с какой идеей. Что, если ядро не является монолитом, а, в свою очередь, состоит из небольшого числа каких-то более простых единиц, комбинации которых дают все новые и новые ядра? Обнаружить бы такие единицы, выявить правила их сборки, и тогда компьютер сам мог бы конструировать понятия и оперировать ими.

Группа исследователей под руководством члена-корреспондента АН СССР Ю. Н. Караулова решила поручить эту работу самому компьютеру. Пусть не совсем самому, но все же. Машина сравнивала описания значений слов в толковых словарях и из этих описаний (сделанных, понятно, людьми - составителями словарей) отбирала семантические множители. А затем для любого предложенного ей понятия подбирала группу слов со сходными семантическими множителями.

Так, компьютер подобрал к слову БЕРЕЗА слова, в чем-то сходные в значении: кора, лиственный, подберезовик, хвойный, дуб, липа,  осина, почва, клен, листва, платан, пробка. Не правда ли, просто не верится, что машина совершенно не понимает смысла этих слов, ведь они явно семантически тесно связаны.

 Машина, опираясь на выделенные ею же самой семантические множители, способна на различение еще более тонких смысловых оттенков. Так, к слову ВОРОБЕЙ она подобрала слова жаворонок, попугай, ворона, ласточка, соловей, голубь, павлин, чайка. Как видим, сюда попали только птицы, но не все. Скажем ОРЕЛ—тоже птица, однако попал он не сюда, а в компанию к волку и щуке. Решение машины понятно: у слова орел есть семантический множитель «хищник», которого нет у воробья, зато есть у волка и щуки.

Но это ядро окружено оттенками, или ореолами, несущими важную дополнительную информацию. Один из ореолов - качественно-признаковый. Он описывается перечислением качественных признаков, важных, существенных для данного ядра. Конечно, это менее четкий, менее определенный аспект значения, чем понятийный.

Человеческое мышление неразрывно связано с эмоциональным восприятием мира, которое образует полюса сознания. У нас есть органы чувств, тело, система получения и отдачи энергии, благодаря им формируется и действует главный фактор человеческого восприятия действительности - фактор оценки. С первых дней жизни этот фактор и связанные с ним раздражители (звуки. люди, предметы, запахи) притягиваются одним полюсом и образуют группу, которую можно условно обозначить знаком "+". Соответственно неприятные ощущения и все, что с ними связано, группируются на поле со знаком "-". Позже это распределение перерастает в систему человеческих эмоций.

Представим себе некоторую шкалу такого вида:

Нечто хорошее "+"                                                                           Нечто плохое "-"

Крайними точками этой шкалы будут притягиваться самые "хорошие" и самые "плохие" слова, образы, переживания, ощущения.

Разделение слов на группы мало зависит от их понятийных ядер, в основном оно происходит по соотнесенности их качественных ореолов с отрицательным или положительным полюсом оценочной шкалы.

Например: возьмем два слова - ОТРЯД и БАНДА. Их понятийные ядра сходны. Это группа людей, объединенных общей целью. Чтобы машина уловила разницу между ними, в нее нужно вложить очень много различной информации. Но проще указать компьютеру на разницу качественных ореолов. По их значению слово отряд будет стоять в ряду со словами СОЛДАТ, ОТЕЧЕСТВО, СВОБОДА. А слово "банда" попадет в группу: АВАНТЮРИСТ, БАНДИТ, ВОПЛЬ, УЖАС и т.д. Таким образом, закладывая в ПК наше положительное или отрицательное отношение к словам, мы всего в трех символах передаем машине информацию, позволяющую ей улавливать тонкие оттенки значения.

Разобьем шкалу на пять участков:

Очень хорошее

хорошее

Никакое

Плохое

Очень плохое

1

2

3

4

5

.

"Приборы" для измерения слов по факторам активности, родокомфортности и силы строятся аналогично фактору оценки. Чтобы построить модель необходимо измерить заряды слов. Эту информацию можно получить только от человека, поэтому приходится опрашивать информантов, измеряя с их помощью различные компоненты качественного ореола слов по всем четырем шкалам. В результате качественный ореол получит уже не одну среднюю оценку, а четыре. Благодаря этому ПК постигает некоторые тонкости во владении словом, которыми владеет только человек.

В результате измерений качественных ореолов возникает необычный словарь, в котором против каждого слова стоит комбинация из восьми цифр. Первые две - оценочный ряд, вторые - силовой, третьи - показатель активности, четвертые - родокомфортность. Фрагмент такого словаря:

Слова

О

С

А

Р

Камень

3.1

2.3

3.7

3.4

Карась

3.0

3.8

3.6

3.4

Карга

4.0

3.2

2.9

3.2

Кино

2.3

3.0

2.0

2.8

Клоп

4.5

3.7

2.3

3.3

Кобра

4.2

1.7

2.1

2.9

Кобыла

3.2

2.1

3.0

2.8

Комар

3.8

4.2

2.4

2.9

Конюшня

3.6

3.2

3.2

3.4

Королева

2.0.

2.1

2.6

2.1

Костюм

2.2

2.9

3.0

3.6

Культура

2.1

2.3

2.3

2.8

Лак

2.8

3.4

3.2

3.1

Лезвие

3.8

2.5

2.6

3.8

Лимон

3.0

3.7

2.8

3.6

Лоцман

2.1

2.2

2.4

4.0

Лужа

3.9

4.8

5.0

2.9

Люк

3.2

3.2

3.1

3.9

Описание экспериментальной программы:

Данная программа сделана в базе данных. О ее составе говорилось ранее, я лишь немного обобщу. Она упрощает расчет качественных ореолов слова. Она запоминает занесенные в нее значения и подсчитывает среднее арифметическое, то есть мы получаем коллективную эмоциональную оценку слова. В моем эксперименте участвовало около ста информантов (людей, дающих экспериментатору нужную информацию). Информанты должны были быть непосредственными носителями русского языка. Их задача - поставить слову оценку по вышеперечисленным шкалам. Данные словаря должны меняться в зависимость от времени (разное восприятие слов, например, слова "революция"). Эмоциональное восприятие также зависит от возраста информантов, от их профессии.

Для чего нужна эта программа? Она - один из примеров того, что подсчет эмоционального восприятия слова возможен. У нее еще много недоработок: так, например, пять эмоционально-экспрессивных уровней (как в английском) вместо двенадцати (как в русском), а также очень маленький словарный запас. Но эта программа - доказательство того, что измерение качественных ореолов слова технически возможно. Если мы сделаем подобный эксперимент для всех слов русского языка, то простейшая имитация смысла будет достигнута. В данный момент, машина, разбивая понятийное ядро на семантические множители, находит ряд близких по смыслу предметов, но этот способ очень сложен и несовершенен, качественные ореолы расширяют возможность подбирать сравнения, близкие по смыслу и эмоциональной окраске слова и метафоры. Также компьютер может оценивать эмоциональную окраску текста, его динамичность, воссоздавая особый вид восприятия. Это приведет к простейшему диалогу между человеком и компьютером. Также данные измерения упростят подбор ПК слов для словосочетаний. Он будет меньше допускать семантических ошибок, составляя собственное предложение. Связь между словосочетаниями тоже во многом зависит от качественного ореола. Так с очень пассивными словами практически не будут употребляться глаголы перемещения (по крайней мере возвратные), если же с "пассивными" словами употребляется причастие, возникшее от глагола перемещения, то оно обязательно должно быть страдательным и т. д. Словарь качественных ореолов - это еще одна ступенька к освоение компьютером смысла.

Однако это не все грани, не все аспекты значения. Сравним два слова: ЛИК и ХАРЯ. Понятийные ядра у них одинаковы: в том и другом случае это лицо. Но звучание этих слов способствует образованию именно таких ореолов: лик - прекрасное лицо, харя - отвратительное. Слово лик и звучит нежно, красиво, а харя - грубо, некрасиво. Вот это и есть еще один ореол звуковой, или фонетической значимости. Совсем расплывчатый, неопределенный аспект значения слова. Но все же он существует и играет в семантике значимую роль. Это содержательность, информативность самой звуковой формы языка.

Введем следующие обозначения:

- фоносемантический ореол слова;

 - средняя оценка содержательности звука;

 - коэффициент для учета информативного веса каждого звука в слове ( - коэффициент для начального звука в слове, . - для ударного);

- частотность звука в речи ( - частотность начального звука слова,  - частотность ударного звука,   - максимальная частотность звука в данном слове).

Для всех звуков, кроме начального и ударного, нужно учитывать разницу употребительности (частотности):

Поскольку в слове наименее информативен звук с максимальной частотностью, а все остальные звуки во столько раз информативнее, во сколько раз их частотность меньше максимальной для данного слова.

Начальный звук в четыре раза информативнее остальных, следовательно

А ударный звук в два раза:

Все коэффициенты готовы, т.е. информативный вес всех звуков слова вычислен, значит, осталось усреднить взвешенные оценки содержательности звучания, чтобы получить суммарную оценку фоносемантического ореола слова:

Рассмотрим пример:

Звукобуквы

Исходные данные

Промежуточные результаты вычислений.

         

М'

3.8

0.007

2.86

11.44

43.47

И

3.4

0.020

1.00

2.00

6.80

Г

2.6

0.015

1.33

1.33

3.46

Итоговая  сумма

     

14.77

53.73

Окончательный результат:

Обратите внимание на то, что выбранные величины - только М имеет значимую оценку -  "маленькое". Для И т Г средняя оценка находится в нейтральной зоне. Но звукобуква М' оказывается и начальной, и самой низкочастотной. Она в пять раз информативней, чем И и в десять раз информативней, чем Г. Вот и получается, что эта "маленькая" звукобуква берет на себя основную фоносемантическую нагрузку всего слова, делая его "маленьким". Не забудем, что И смягчает впередистоящую М, а это играет решающую роль для восприятия по шкале "маленький - большой", так что слово МАГ, например, по этой шкале (2.4) будет оценено как "большое".

То есть слово можно изобразить:

Фоносемантический ореол

Качественный ореол

Понятийное ядро

Для овладения миром слова машина должна разбираться прежде всего в этих понятиях.

Первый путь, с помощью которого я хотела  усовершенствовать программы- корректоры, это овладение ПК словом, создание «имитации машиной смысла» с помощью понятийного ядра, качественного ореола и фоносемантического ореола с добавлением разработок структуралистов (работу последних я рассмотрела в своем реферате, но не стала представлять в своем докладе) . Но создание словаря по измерению качественных ореолов слова ни к чему конкретно в данный момент не привели, так как мне сейчас очень трудно соединить в единую систему все эти наработки и не хватает особых данных.  На это уйдет очень много времени, это глобальная задача, которая сейчас мне одной не под силу. Причем машина начнет понимать смысл слова  (это поможет программам – корректорам выделять слова с опечатками, неисправляемые Wordom), но это слишком тяжелый путь, как говорится «цель не оправдывает средства». Может быть, когда-нибудь это получится.

Усовершенствование программы-корректора.

Существует два вида клавиатур, каждая имеет свое распределение клавиш. В основу первой положен алфавит английского языка, причем буквы в этой клавиатуре располагаются по мере употребления. То есть наиболее часто используемые находятся в центре - это облегчает работу пользователя. Русские же буквы при таком типе клавиатуры располагаются в согласии с английским алфавитом. Пример: букве V соответствует буква. В и т.д. Но этот тип клавиатуры  не так распространен, более популярен иной, именно его я и буду разбирать в этой работе. В его основу положен уже русский алфавит с распределением букв по их частоте употребления. Поэтому в центре находятся самые распространенные буквы (с их английскими аналогами). Этим и обуславливается наибольшее количество ошибок, связанных с опечатками, но непроверяемых Wordoм. Так, например, бывают случаи, когда пользователь опечатывается, но ПК не находит ошибки, так как это слово есть у него в словаре. В итоге, в текст вклинивается совсем неподходящее по смыслу слово. Как я уже говорила, ПК не различает смысл написанного. Чтобы избежать таких недоразумений, надо подсчитать возможные варианты описок. Так, например, буква "г" может случайно заменяться буквой "н", так как они расположены рядом друг с другом. Эти вариации можно подсчитать. В идеале это будет выглядеть так: в предложении "В горе сидела мышка" будет подчеркнуто зеленой волнистой линией слово "гора", и ПК спросит: "Здесь точно должно быть это слово или же слово "нора"? А уже для самого пользователя ясно, опечатка это или нет. С одной стороны, постоянное появление таких сносок осложнит коммуникацию между ПК и человеком,  с другой стороны, это пока единственный способ контролировать "осмысление" машиной текста. Если мы это сделаем, то соединив эти наработки со словарным запасом русского языка и сделав особый массив, мы сможем избежать таких опечаток. В. В своей работе я начну исследование с двух символьных слов, потому что  они наиболее просты  в классификации по количеству описок

Так как при набивании текста пальцы человека двигаются в основном по горизонтали, то и буква, неверно набранная, будет располагаться в основном справа или слева от требуемой. Если учитывать, что при опечатке интервал очень маленький, то есть обычно нажимается лишь ближайшая соседняя клавиша, то можно просто выделить ряд возникающих вариаций.

Н – Г, Г-Ш, Ш-Щ, Щ-З, З – Х, П – Р, Л –Д, Д – Ж, Ч – С, С – М.

Но бывают случаи, когда опечатки имеют вертикальную или вертикально-горизонтальную направленность, тогда возможны и такие вариации:

Р-Н, Л–Ш, Д–Щ, З–Ж, Б–Л, В-К, Л-Щ, Д-Щ, П-К, Л-Г, П-Н, Л-Ш, Ж-Щ, Щ-Х, В-С, В-Ч, М-П, Р-Т, Л-Б, Б-Д.

Очень редко при набивании может возникнуть опечатка,касающаяся гласных букв. Это обуславливается их количеством и расположением на клавиатуре. Но все –таки подобные варианты могут существовать:

Ы-Я, А-У, У-Ы, А-Е.

Подведя итог,  могу сказать, что в данный момент я наметила два пути усовершенствования проверки программ-корректоров. Один из них более сложный и глобальный, требующий немалых усилий, другой возможно применить уже сейчас, прикрепив его к одному из словарей Worda, но он тоже имеет ряд недостатков, связанных с неудобствами интерфейса.  




к разделу докладов на главную страницу

отзыв первого оппонениа.

отзыв второго оппонента.