Сколько в среднем букв в русском слове

Лингвисты подсчитали количество слов в русском языке

В Оксфордском словаре в четыре раза больше слов, чем в БАСе — Большом академическом словаре русского языка. «Великий и могучий» полон английских заимствований. Школьники перестали понимать Пушкина. Что происходит с русским языком? Рождает ли он новые слова? Почему наши словари такие тонкие? На эти вопросы «РГ» отвечает один из авторов Большого академического словаря русского языка — знаменитого БАСа Людмила Кругликова.

Как считают словарный запас? Почему Оксфордский словарь такой толстый?

Людмила Кругликова: Лингвисты избегают такого рода сравнений между языками и словарями. У каждого своя специфика. Скажем, в Вебстеровский словарь в качестве самостоятельных статей включаются символы, например, химических элементов: B (бор), Ba (барий), Be (бериллий), Br (бром) и так далее, сокращенные наименования мер длины, веса, объема: km (километр), kg (килограмм), bbl (баррель). Мало того, толковые словари английского языка начали включать символы обозначений размеров листов бумаги: А3, А4, А5, а также, например, символ @.

Поэтому вывод о бедности русского языка и богатстве английского на том основании, что Большой академический словарь русского языка (БАС), который начал выходить в 2004 году (опубликовано 22 тома из предполагаемых 33), будет содержать 150 000 слов, а Оксфордский (Тhe Oxford English Dictionary, сокращенно OED) — 600 000, не что иное, как обман. БАС отражает лексику только современного литературного языка, а Оксфордский словарь — слова всех разновидностей и всех вариантов (американского, канадского и т.д.) английского языка начиная с 1150 года, включая мертвые.

А сколько слов в русском языке, если считать по-английски?

Людмила Кругликова: Если мы добавим к 150 000 слов современного русского литературного языка, например, еще и диалектные слова, то получим уже 400 000 слов.

Как объяснить тот факт, что один из самых известных английских словарей Вебстеровский стал резко худеть, и время «похудения» пришлось на Вторую мировую войну и начало «холодной»?

Людмила Кругликова: Не стоит искать в лингвистических процессах какую-то политику. Вебстеровский словарь, появившийся в 1909 году, содержал 400 000 английских слов. В его втором издании (1934 год) содержится 600 000 слов, в третьем (1961 год) — 450 000 слов. На основании этого можно заявить, что с 1934 года началось катастрофическое вырождение английского языка. А причина таких резких скачков всего лишь в том, что у второго и третьего изданий были разные редакторы, а у них разные принципы подхода к отбору слов.

На сайте издательской фирмы Merriam-Webster сказано: «Считается, что словарь английского языка включает примерно миллион слов». Это честная цифра?

Людмила Кругликова: Большинство лингвистов восприняло такую оценку с долей юмора, а некоторые сказали, что они не были бы удивлены, если бы он оценивался в четверть миллиона.

Откуда тогда взялся миллион?

Людмила Кругликова: Начиная с 2006 года некто Дж. Дж. Паяк, специалист по маркетингу и аналитике, основатель компании Global Language Monitor неоднократно заявлял о том, что скоро будет зафиксировано миллионное слово английского языка. Таким словом стало, по версии Паяка, «Web 2.0», которое является техническим термином. Кстати, уже есть и Web 3.0, а в Сети идет речь о скором появлении Web 4.0, Web 5.0. Если включать все подобные образования, то скоро можно будет говорить о миллиардном слове английского языка.

Как англичане и американцы относятся к таким сенсациям?

Людмила Кругликова: Приведу высказывание Нунберга, лингвиста из Школы информации в Калифорнийском университете в Беркли: «Наше восхищение необъятностью английского языка возникает из своего рода лингвистического империализма — ощущения, что «наши словари больше, чем их словари». Но это на самом деле не делает нас сколь-либо богаче лингвистически».

Но и среди исследователей «великого и могучего» есть лингвистические пессимисты, которые считают, что корни русского языка «бесплодны»: не рождают новых слов, а большинство неологизмов имеет иностранное происхождение.

Людмила Кругликова: Лингвист и философ Михаил Эпштейн утверждает, что в XIX веке было 150 слов с корнем «люб», а наши современники знают в три раза меньше. Между тем в «Словообразовательном словаре русского языка» Тихонова, насчитывающем около 145 000 слов современного русского литературного языка, имеется 310 слов с корнем «люб». А если считать начиная с первых памятников письменности, то получится 441 слово. В английском языке, по данным OED, только 108 лексем с аналогичным корнем (love) в начале слова.

Новые слова «про любовь» современные россияне производят?

Людмила Кругликова: В начале ХХ века появилось существительное «книголюб», а затем «природолюб», «однолюбка», «любовь-игра», «любовь-ненависть», «любовь-морковь», «безлюбье». При беглом просмотре я насчитала не менее 40 слов с корнем «люб», которые появились в XX — начале XXI века. В английском языке с корнем (love) только пять единиц вошло в язык в ХХ веке (с 1907 по 1989 год), а после этого времени ни одной.

Насколько активны сейчас наши соотечественники в политическом словотворчестве?

Людмила Кругликова: В этом отношении весьма интересно читать комментарии в Интернете. События на Украине вызвали к жизни такие лексемы, как майдауны, майданутые, онижедети, укры, укропы, псакинг, Фашингтон, Гейропа и другие. Приживутся они или нет, покажет время.

Наши депутаты периодически восстают против заимствований. Где их критический предел в языке? 70% — катастрофично?

Людмила Кругликова: По подсчетам лингвистов, во втором издании Вебстеровского словаря только 35% исконных английских слов, остальные 65% — заимствования. Но пока ничего катастрофического не случилось. Русский язык действительно испытывает большое влияние английского. Но обогащение его англицизмами наблюдается прежде всего в сфере необщенародной лексики, среди которой преобладают термины из области спорта, компьютерного дела, экономики, финансов. Плохо, если они начинают влиять на структуру языка. С русским этого не происходит. Иноязычные слова подстраиваются под систему, заимствованные корни обрастают русскими аффиксами, например: постить, смайлик, океюшки, лайкать и даже облайканный.

За 10 лет работы над БАСом сделано 22 тома — это две трети работы. Вас не упрекают за медлительность?

Людмила Кругликова: Над БАСом работают 5 штатных лингвистов, 3 совместителя и несколько сотрудников издательства. В год выходит в среднем по два тома. Над Оксфордским словарем работают 78 лингвистов, 46 внештатных сотрудников, а также 200 консультантов, штат программистов, маркетологов. Когда в нью-йоркском офисе Оксфордского словаря узнали о наших темпах работы мизерными силами, то план работы их сотрудников увеличили, а главного редактора отправили на пенсию.

12 Графика, орфография, история русского алфавита

Для передачи речи на письме мы пользуемся буквами, каждая из которых имеет определённое значение. Соотношением знаков, используемых на письме, со звуковой стороной языка и их значением, занимается графика. Совокупность букв, расположенных в установленном порядке, называется алфавитом или азбукой (Касаткин 2014, 246).

В современном русском алфавите 33 буквы, каждая буква представлена в двух вариантах – печатном и рукописном. Каждая буква может иметь два варианта – прописнáя буква (большая, заглавная) и стрóчная (малая). У каждой буквы есть своё графическое обозначение и название.

Буква	Название	Буква	Название
А, а	а	П, п	пэ
Б, б	бэ	Р, р	эр
В, в	вэ	С, с	эс
Г, г	гэ	Т, т	тэ
Д, д	дэ	У, у	у
Е, е	[jэ]	Ф, ф	эф
Ё, ё	[jо]	Х, х	ха
Ж, ж	жэ	Ц, ц	цэ
З, з	зэ	Ч, ч	че
И, и	и	Ш, ш	ша
Й, й	и краткое	Щ, щ	ща
К, к	ка	ъ	твёрдый знак (ер)
Л, л	эль	ы	ы
М, м	эм	ь	мягкий знак (ерь)
Н, н	эн	Э, э	э
О, о	о	Ю, ю	[jу]
Я, я	[jа]

Ниже вы можете посмотреть видеоурок «Говорящие буквы»:

Транскрипционная система IPA

Теория русской орфографии начала создаваться с середины XVIII в. (В.К. Тредиаковский, М.В. Ломоносов). Важный шаг на пути к нормализации русской орфографии был сделан в конце XVIII в., когда вышел в свет «Словарь Академии Российской» (1789-1794) и «Российская грамматика» (1802).

Первым реальным опытом кодификации письма был труд Я.К. Грота «Русское правописание» (1885), который не раз переиздавался (URL: https://imwerden.de/pdf/grot_russkoe_pravopisanie_1894.pdf).

В 1904 г. была создана Орфографическая комиссия при Академии наук, которая должна была заниматься вопросами упрощения правописания. Однако первый свод правил русской орфографии был издан только в 1956 г. – «Правила русской орфографии и пунктуации» (коллектив под руководством М.В. Панова). Одним из новейших изданий, учитывающим и новую лексику русского языка, является справочник «Правила русской орфографии и пунктуации. Полный академический справочник», изданный Орфографической комиссией при Институте русского языка им. В.В. Виноградова.

12.3 История русского алфавита

История русского письма прослеживается с введения письменности на Руси в X в. Современный русский алфавит восходит к кириллице, которая отличалась от него количеством букв, их начертанием и названиями. Здесь стоит упомянуть, что первой графической системой, которая была использована для записи текстов на старославянском языке , была глаголица, которая заметно отличалась от кириллицы, возникшей немного позже.

Глаголица, кириллица

Бонус: игра «Глаголический космический корабль», созданная сотрудниками Института церковнославянского языка Академии наук Хорватии

Первоначально кириллица состояла из 43 букв, некоторые из них изначально были дублетными (обозначали одни и те же фонемы), некоторые становились дублетными в связи с изменениями в фонетической системе языка. Постепенно дублетные буквы выходили из употребления – так исчезло 12 букв. Две буквы были добавлены: й введена Академией наук в 1735 г., ё придумана Н. М. Карамзиным и впервые применена им в 1797 г . (Касаткин 2014, 263).

Памятник букве Ё

С историей буквы ё вы можете познакомиться, посмотрев видео и прочитав интервью (ниже).

Остромирово Евангелие

Интересные факты

Рукопись (манускрипт) Остромирова Евангелия хранится в Российской национальной библиотеке (РНБ) в Санкт-Петербурге. РНБ предоставляет доступ к фотокопиям древнейших текстов русского языка. В 2017 г. был открыт интернет-ресурс «Остромирово Евангелие»: http://expositions.nlr.ru/ex_manus/Ostromir_Gospel/index.php.
Новгородская псалтырь (другое название — Новгородский кодекс) была найдена в июле 2000 г. во время раскопок в Великом Новгороде. Новгородская псалтырь считается древнейшем памятником (древне)русской письменности. До июля 2000 г. древнейшим датированным памятником считалось Остромирово Евангелие. Новгородская псалтырь представляет собой три небольшие липовые дощечки, на каждой дощечке — прямоугольные углубления, залитые воском; средняя дощечка имеет такие углубления с двух сторон. Таким образом, псалтырь содержит четыре восковые страницы (т.н. церы). В псалтыри есть основной текст (текст на воске), который составляют псалмы, и «скрытый» текст (процарапанный на дереве под воском) (Зализняк, Янин 2001). Подробнее о Новгородской псалтыри на чешском языке: https://www.rodon.cz/ikony/Iluminovane-rukopisy/Novgorodsky-zaltar-nejstarsi-ruska-kniha-1676.

Новгородская служебная минея

Первое датированное издание, напечатанное в Московском государстве, – это «Апостол» (1564 г.):

Апостол

Что такое «Апостол»?

Подробнее о первой датированной печатной книге, изданной в Московском государстве, можете прочитать здесь: https://virtmuseum.aonb.ru/z5/z5_ap64.html

Первая реформа русского письма была осуществлена в 1708-1710 гг. при Петре I: ряд букв был исключён из алфавита , были упрощены и округлены начертания букв. Этот шрифт получил название гражданская азбука или гражданица (гражданка). Кириллические названия букв аз, буки, веди и т.д. употреблялись в школах до 1917 г. Современные названия букв русского алфавита а, бэ, вэ вошли в употребление только после 1917 г.

«Азбука гражданская с нравоучениями» была издана в январе 1710 г. с комментариями (исправлениями) Петра I. С полным текстом можете ознакомиться, перейдя по ссылке под рисунком.

Гражданский шрифт Кирилловский шрифт Русские газеты последней трети 19-го в Языки, использующие кириллицу

Подр. об изменениях русской графики вы можете прочитать в (Князев, Пожарицкая 2012, 370-375, 386-393), (Касаткин 2014, 263-269) либо в интерактивном курсе Е.А. Кузьминовой «Из истории русской азбуки»:

Микрокурс о буквах русского алфавита можно найти здесь:

Литература

ЗАЛИЗНЯК, А.А., ЯНИН, В.Л. Новгородский кодекс первой четверти XI в. — древнейшая книга Руси. Вопросы языкознания. 2001 (5), с. 3-25.

КАСАТКИН, Л.Л. Современный русский язык: Фонетика: учеб. пособие для студ. учреждений высш. проф. образования. 3-е изд., испр. М.: Издательский центр «Академия», 2014. 272 с. ISBN 978-5-4468-0221-0.

КНЯЗЕВ, С.В., ПОЖАРИЦКАЯ, С.К. Современный русский литературный язык: Фонетика, орфоэпия, графика и орфография: Учебное пособие для вузов. 2-е изд., перераб. и доп. М.: Академический Проект; Гаудеамус, 2012. 430 с. ISBN 978-5-8291-1252-3 (Академический Проект), 978-5-98426-101-2 (Гаудеамус).

КРЫСЬКО, В.Б. Древнерусский язык. Большая российская энциклопедия. Электронная версия, 2018. URL: https://bigenc.ru/linguistics/text/2631460.

Орфографический академический ресурс «Академос» [онлайн]. Режим доступа: http://orfo.ruslang.ru/.

Правила русской орфографии и пунктуации. Полный академический справочник. Под ред. В. В. Лопатина. М.: АСТ-Пресс Книга, 2016. 432 с. ISBN 978-5-462-00930-3.

РГАДА — Российский государственный архив древних актов [онлайн]. Режим доступа: http://rgada.info/index.php.

Современный русский язык. В 3 т. Т. 1. Фонетика. Фонология; Орфоэпия; Графика. Орфография; Лексикология; Фразеология; Морфемика. Словообразование. Под ред. С. М. Колесниковой. М.: Издательство Юрайт, 2016. 306 с. ISBN 978-5-9916-5185-5.

VEČERKA, R. Staroslověnština v kontextu slovanských jazyků. 1. vydání. Olomouc: Univerzita Palackého v Olomouci; Praha: Nakladatelství Euroslavica, 2006. 273 s. ISBN 80-244-0889-9 (Univerzita Palackého v Olomouci), 80-85494-71-X (Nakladatelství Euroslavica).

Старославянский язык – первый литературный язык славян, созданный (придуманный) Кириллом и Мефодием в IX в.

Буква ё начала использоваться вместо двухбуквенного сочетания io.

Так, были исключены буквы ѱ (пси), Ѡ (омега) и лигатура Ѿ (от). Были введены буквы э, я, у (вместо диграфа оу. Также были отменены титла (надстрочные знаки, указывающие на сокращённое написание слова) и силы (знаки ударения). Буквенные обозначения чисел были заменены арабскими цифрами (Князев, Пожарицкая 2012, 370).

Mgr. Anastasija Sokolova, Ph.D.Кафедра русского языка и литературы – Педагогический факультет Университета им. Масарика

Техническое и графическое сотрудничество:

Сервисный центр по электронному обучению в Университете им. Масарика, Факультет информатики Университета им. Масарика

Частота букв в русском языке

Написал забавный php-скрипт. Погонял через него все тексты на « Спектаторе» на предмет языка. Всего в текстах употребляется 39110 разных словоформ. Сколько именно разных слов — определить довольно сложно. Чтобы хоть как-то приблизиться к этой цифре, я брал только первые 5 букв слова и сравнивал их. Получилось 14373 таких комбинаций. С большой натяжкой это можно назвать словарным запасом « Спектатора».

Потом я взял слова и иследовал их на предмет частоты повторения букв. В идеале надо брать какой-нибудь словарь, для полноты картины. Прогонять тексты нельзя, нужно только уникальные слова. В тексте же одни слова повторяются чаще, чем другие. Итак, получились следующие результаты:

о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%

Тем, кто поедет на « Поле чудес», советую заучить эту таблицу наизусть. И называть слова в таком порядке. Так, например, казалось бы, такая « привычная» буква « б» употребляется реже, чем « редкая» буква « ы». Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным. И кроме того, слово угадывается именно по согласным. Сравните: « **а**и*е» и « ср*вн*т*». И в том и в другом случае — это слово « сравните».

И еще одно соображение. Как вы учили английский? Помните? Э пен, э пенсил, э тэйбл. Что вижу — о том и пою. А смысл. Как часто вы в нормальной жизни говорите слово « карандаш»? Если задача — научить говорить как можно быстрее и эффективнее, то и учить надо соответствующе. Проводим анализ языка, выделяем самые употребимые слова. И учить начинаем именно с них. Чтобы более-менее говорить на английском языке, достаточно всего полторы тысячи слов.

Еще одно баловство: составлять слова из букв случайным образом, но учитывая частоту появления, чтобы было похоже на нормальные слова. В первой же десятке « случайных» четырехбуквенных слов выскочило « осел». В следующей полсотне — слова « мчим» и « нато». Но, увы, очень много неблагозвучных комбинаций, таких, как « блтт» или « нрро».

Поэтому — следующий шаг. Я разбил все слова на двухбуквенные сочетания и начал случайным образом (но с учетом частоты повторения) комбинировать их. Стали в больших количествах получатся слова, похожие на « нормальные». Например: « коивдиот», « воабма», « апый», « депоид», « дебяко», « орфа», « поеснавы», « озза», « ченя», « риторя», « урдеед», « утоичи», « стых», « сапоть», « гравда», « абабап», « обарто», « еелует», « лярезы», « мыни», « бромомер» и даже « тодебыст».

Куда применить. есть варианты. Например, написать генератор красивых фирменных игривых имен. Для йогуртов. Типа, « мемолисо» или « уторорерто». Или — генератор футуристических стихов « Бурлюк-php»: « опелдиий миатон, линоаз окмиая. деесопен одесон».

И есть еще один вариант. Надо попробовать.

Некоторые статистические данные об использовании русских слов:

После заметки мне пришло вот такое письмо:

Здравствуйте, Дмитрий !

Проанализировав статью « Язык до Киева доведет» и ту ее часть, где Вы описываете свою программу, возникла идея.
Вами написанный скрипт кажется мне предназначенным абсолютно не для « Поля чудес» в большей мере, а для другого.
Первое самое разумное применение результатов работы Вашего скрипта — определение порядка букв при программировании кнопок для мобильных устройств. Да, да — именно в мобильниках и нужно все это.

Я распределил это по волнам (см. рисунок)

Далее распределение по кнопкам:
1. Все буквы из первой волны уходят на 4 кнопки в первый ряд
2. Все буквы из второй волны тоже на остальные 4 кнопки в тот же первый ряд
3. Все буквы из третьей волны туда же на оставшиеся две кнопки
4. 4,5 и 6 волны уходят во второй ряд
5. 7,8,9 волны уходят на третий ряд, причем 9-я волна уходит вся полностью (не смотря на кажущееся большое количество букв) в третий ряд 9-й кнопки, что-бы 10 кнопку оставить под всякие там знаки препинания (точка, запятая и прочее).

Я думаю все понятно и так, без детальных обьяснений. Но все же не могли бы Вы обработать Вашим скриптом (включая знаки припинания) тексты следующего содержания:

1. Л. Н. Толстой. « Анна Каренина» (лучше конечно « Войну и мир», но я не нашел на www.lib.ru) -http://www.lib.ru/LITRA/TOLSTOJ/anna_kar.txt
2. Ф. М. Достоевский. « Игрок» — www.lib.ru/LITRA/DOSTOEWSKIJ/igrok.txt
3. Леонид Филатов. « Про Федота Стрельца» — www.lib.ru/ANEKDOTY/fedot.txt
4. Вильям Шекспир. Сонеты (перевод С. Я. Маршака) www.lib.ru/SHAKESPEARE/sonets.txt
5. Б. И А.Стругацкие. Пикник на обочине. www.lib.ru/STRUGACKIE/picnic.txt

А потом выложить статистику? Мне показалось? что тексты максимально отражают нашу современную речь, а ведь мы как говорим, так и пишем sms.

Заранее большое спасибо.

Итак, анализировать частоту повторения букв можно двумя способами. Способ 1. Взять текст, найти в нем уникальные (не повторяющиеся) словоформы и анализировать их. Способ хорош для построения статистики по словам русского языка, а не по текстам. Способ 2. Не искать в тексте уникальные слова, а сразу перейти к подсчету частоты повторения букв. Получаем частоту букв в русском тексте, а не в русских словах. Для создания клавиатур и прочего нужно использовать именно этот способ: на клавиатуре набираются именно тексты.

Клавиатуры должны учитывать не только частоту букв, но и самые упортебимые слова (словоформы). Не так уж и трудно догадаться, какие именно слова самые употребимые: это, во-первых, служебные части речи, ибо роль у них такая — служить всегда и везде, и местоимения, роль у которых не менее важная: заменять в речи любую вещь/человека (это, он, она). Ну и основные глаголы (быть, сказать). По результатам анализа перечисленных выше текстов я получил такие самые « популярные» слова: « и, не, в, что, он, я, на, с, она, как, но, его, это, к, а, все, ее, было, так, же, то, сказал, за, ты, о, у, ему, мне, только, по, меня, бы, да, вы, от, был, когда, из, для, еще, теперь, они, сказала, уже, него, нет, была, ей, быть, ну, ни, если, очень, ничего, вот, себя, чтобы, себе, этого, может, того, до, мы, их, ли, были, есть, чем, или, ней» и так далее.

Возвращаясь к клавиатурам — очевидно, что в клавиатуре буквосочетания « не», « что», « он», « на» идругие должны находится как можно ближе друг к другу, или если не вплотную, то каким-то наиболее оптимальным образом. Нужно провести исследования, каким именно образом пальцы движутся по клавиатуре, найти самые « удобные» позиции и поместить в них самые употребляемые буквы, не забывая, однако, про буквосочетания.

Проблема, как всегда, одна: даже если и получиться создать Уникальную Клавиатуру, куда деть миллионы людей, которые уже привыкли к qwerty/йцукен?

Насчет же мобильных устройств. Наверное, it makes sense. По крайней мере, буквы « о», « а», « е» и « и» должны точно находиться на одной клавише. Знаки препинания в порядке частоты употребления : , . — ? ! » ; : ) (

Запятая употребляется в 2 раза чаще, чем точка. А точка на стандартной русской клавиатуре расположена удобней.

Статистика по приведенным выше текстам:

По уникальным словам:

о — 9.36%
а — 8.40%
е — 8.08%
и — 6.91%
н — 6.12%
с — 5.67%
т — 5.49%
р — 5.30%
л — 5.00%
в — 4.67%
п — 3.38%
у — 3.17%
к — 3.14%
м — 2.97%
д — 2.72%
я — 2.50%
ь — 2.08%
ы — 2.06%
з — 1.85%
б — 1.61%
г — 1.47%
ш — 1.32%
ч — 1.22%
й — 1.21%
ж — 1.01%
ю — 0.99%
х — 0.97%
щ — 0.48%
ц — 0.37%
ф — 0.20%
э — 0.06%
ъ — 0.05%

По текстам в целом:

о — 11.35%
е — 8.93%
а — 8.23%
н — 6.71%
и — 6.48%
т — 6.17%
с — 5.22%
л — 4.95%
в — 4.47%
р — 4.17%
к — 3.35%
д — 2.97%
м — 2.93%
у — 2.86%
п — 2.39%
я — 2.17%
ь — 2.09%
ы — 1.90%
г — 1.811%
б — 1.77%
ч — 1.67%
з — 1.65%
ж — 1.14%
й — 1.09%
ш — 0.89%
х — 0.79%
ю — 0.66%
э — 0.33%
ц — 0.29%
щ — 0.29%
ф — 0.10%
ъ — 0.02%

СКОЛЬКО СЛОВ В РУССКОМ ЯЗЫКЕ?

Кандидат филологических наук С. КАРПУХИН, (г. Самара).

Миниатюра из Радзивилловской летописи (ХIII век), на которой изображены создатели азбуки Кирилл и Мефодий.

«Букварь» Кариона Истомина. Гравюра на меди Л. Бунина (1694).
Первая светская гравюра появилась в «Азбуке» В. Ф. Бурцева (1637). Слева вверху надпись: «училище».

На вопрос, казалось бы, ответить очень просто. Достаточно обратиться к самому авторитетно му из современных словарей — Большому академическому словарю в 17-ти томах. БАС — так неофициально именуют это издание филологи; титульное же его название «Словарь современного русского литературного языка». Здесь нелишне вспомнить, что в 1970 году этот труд был отмечен Ленинской премией. К сожалению, с первого дня появления на свет он стал библиографической редкостью, и сегодня менее известен и доступен рядовому читателю, чем знаменитый, но несколько устаревший словарь Даля. Так вот, в Большом академическом словаре зафиксировано 131 257 слов.

Число, как видим, точное, но ответ на поставленный вопрос не то чтобы неточен или неполон — он условен и требует слишком многих оговорок, которые способны на порядок изменить это число. Так, указанное количество может «подрасти», если считать наречия на -о, -е, образован ные от качественных прилагательных, вроде откровенно (от откровенный ), безмолвно (от безмолвный), — они приводятся в словаре не самостоятельными единицами, а в статьях при исходных прилагательных.

Но это еще, так сказать, цветочки… Как указывает само название словаря, он включает только слова литературного, то есть нормированного , языка. Между тем общенародный русский язык богат огромным числом бытующих до сих пор в сельской местности и не учтенных полностью ни одним словарем диалектных слов, вроде вологодского нухрить в значении искать или существительного потка (птичка), бытующего в вятских селах, и т.д. Конечно, огромное богатство диалектной лексики (но опять-таки далеко не исчерпывающее!) отразил словарь Даля, составленный в позапрошлом веке. Всего в нем более 200 тысяч словарных единиц. Существуют и современные словари русских диалектов, выпущенные в той или иной области.

Однако если диалектизмы не свойственны литературному языку (за исключением художественной речи), то в нем весьма часто используются слова другого типа, которые вы тоже не найдете в общих толковых словарях, даже самых полных. Это термины, собственные имена, неологизмы и некоторые другие разряды слов. Возьмем обычную газетную фразу: «Создал этот уникальный учебник по компьютерной оптике коллектив сотрудников Института систем обработки изображений РАН во главе с известным ученым». Здесь все слова общепонятны и общеупотребительны. Однако в Большом академическом словаре отсутствует сокращение РАН (аббревиатуры лингвисты признают сегодня самостоятельными, отдельными от расшифровки словами, кстати, существуют специальные словари сокращенных слов), а также прилагательное компьютерный , которое, впрочем, как и исходное существительное компьютер , просто не могло попасть в словарь, созданный около полувека назад. Новые слова, появившиеся в русском языке за последние десятилетия, особенно связанные с бурными изменениями в общественной жизни 90-х годов, должно было отразить 2-е издание Большого академического словаря в 20-ти томах. Но… после 4-го тома, вышедшего в 1993 году, дело заглохло.

Особая область лексики — терминология — обозначение научных и технических понятий. Они известны и употребляются только среди специалистов той или иной научно-технической отрасли. Вряд ли кому-то знакомы, например, такие слова, как зигнелла — вид водоросли (бот.), изафет — вид словосочетаний в некоторых языках (лингв.) и т.п. Все термины, употребляемые в нашем языке, один человек знать не может в принципе — из-за их громадного количества. Каждая наука, техническая отрасль выработала свою терминологию, состоящую подчас из десятков тысяч единиц. Представьте, например, сколько их содержится в многотомной медицинской энциклопедии!

Собственные же имена существительные составляют такой лексический пласт общенародного языка (носящий специальное название — «ономастика»), который, видимо, не поддается даже приблизительной количественной оценке. В самом деле, сколько, скажем, в Российской Федерации городов и сел, рек и озер, местностей и гор? Общеизвестными, как и в любой другой стране, являются названия более или менее крупных географических объектов (Волга, Урал, Париж, Сена) — они образуют лишь малый процент всей топонимики. Львиную же долю составляют топонимы, употребляемые местными жителями на ограниченной территории, где нередко овраг или ручей, бугор или роща имеют собственное имя. Например, в Самарской области есть село Молгачи. Если жители употребляют в речи «был в Молгачах», «я из Молгачей» , значит, оно входит в русский язык, причем независимо от происхождения! А сколько космических объектов имеют собственные наименования — так называемые астронимы!

Есть и еще одно существенное замечание. В языкознании вообще нет точного и исчерпывающего определения, что такое слово. «Виновны» в этом не ученые-языковеды, а чрезвычайная сложность такого явления, как язык. Простой пример: идти и шедший — два слова или разновидности одного? Так же: дом и домишко? Вопрос не так-то легко разрешить. Ведь если считать отдельными словами все причастия (шедший), деепричастия, формы субъективной оценки (домишко) и другие образования и включить их в словарь, он может так разбухнуть, что один его экземпляр не поместится, пожалуй, в комнате средних размеров. Преувеличение? Тогда попробуйте сами прикинуть количество так называемых потенциальных слов, которые не являются устойчивыми единицами языка, а возникают в речи по потребности и в то же время внешне очень похожи на те, которыми мы обычно пользуемся. К ним, в частности, относятся сложные прилагательные с первым компонентом — числительным. Например: двухрублевый, двенадцатирублевый, однодневный, тридцатидневный, шестисотвосьмидесятипятикилометровый и т.д. Мой компьютер подчеркнул как несуществующие два последних слова(?!). Поэкспериментируем дальше: одноногий, двуногий, трехногий, четырехногий, пятиногий… Компьютер уверенно подчеркнул предпоследнее слово, а «поколебавшись», и последнее. Сколько же таких слов в принципе может встретиться в речи? И сколько их реально было употреблено за последние два века — приблизительно так оценивается возраст современного русского языка? Включать их все в словарь или нет? В Большом академическом словаре зафиксированы лишь некоторые из подобных образований.

Все слова конкретного живого языка сосчитать нельзя уже потому, что он ни одного дня не остается неизменным. Выходят из употребления одни слова или отдельные их значения, появляются новые, и зафиксировать каждый такой факт, конечно, невозможно, поскольку процесс этот постепенный и, как правило, неуловимый.

Итак, если говорить о каком-то определенном, ограниченном «участке» языка, то более или менее точное количество слов известно: уже названо число наиболее употребительных в разных стилях и жанрах, — около 40 тысяч (по данным «Частотного словаря русского языка» под ред. Л. Н. Засориной. М., 1977). Можно назвать также, к примеру, количество наиболее употребительных сокращений — около 18 тысяч (см.: Алексеев Д. И. и др. «Словарь сокращений русского языка». М., 1983). На фоне данных о лексических богатствах всего национального языка представляет интерес объем личного словника, или, как говорят лингвисты, объем активного словаря, то есть количество слов, употребляемых одним человеком. Для образованного «простого смертного» он оценивается в среднем в 5-10 тысяч слов.

Но и здесь есть свои вершины. Так, в «Словаре языка Пушкина» в 4-х томах (М., 1956-1961) зафиксирован непревзойденный пока показатель — приблизительно 24 тысячи. Только «Словарь языка В. И. Ленина», который долго готовился к изданию Институтом русского языка и по известным причинам так и не вышел в свет, по некоторым данным, должен был включать около 30 тысяч слов. Но сегодня, при отсутствии самого словаря, трудно судить, чего в этом обещанном рекорде было больше — гениальности или идеологии.

Имеются статистические характеристики и по многим другим локальным проявлениям. Сосчитать же абсолютно все слова общенародного современного русского языка никто не может — ни ученые, ни самый мощный компьютер. Потому-то языковеды и пришли к выводу: язык в количественном отношении неисчислим.