Глава 9 Символьная информация и строки
Для представления текстовой информации в языке СИ используются символы (константы), символьные переменные и строки (строковые константы), для которых в языке СИ не введено отдельного типа в отличие от некоторых других языков программирования.
Символьные константы используются для изображения отдельных знаков, имеющих индивидуальные внутренние коды. Каждая символьная константа – это лексема (элемент языка СИ), которая состоит из изображения символа и ограничивающих апострофов: ‘A’, ‘a’,’B’,’8’,’+’,’;’.
Внутри апострофов можно записать любой символ, изображаемый на экране или принтере в текстовом режиме а также управляющие символы.
Для символьных данных (переменных) введен базовый тип char. Описание символьных переменных имеет вид:
char список_имен_переменных;
Пример:
char a, z;
9.1 Ввод - вывод символьных данных
Для ввода и вывода символьных значений в форматных строках библиотечных функций printf( ) и scanf( ) используется спецификация преобразования % c.
Пример:
Ввести предложение, слова в котором разделены пробелами и в конце которого стоит точка. Удалить повторяющиеся пробелы между отдельными словами (оставить по одному пробелу), вывести отредактированное предложение на экран.
/* удаление повторяющихся пробелов */
#include<stdio.h>
void main()
{
char z,s; /*z–текущий вводимый символ*/
/*s–предыдущий введенный символ*/
printf(“\nНапишите предложение с точкой в конце: \n”);
for ( z=s=’ ’;z!=’.’;s=z ) {
scanf(“%c”,&z); // z=getch();
if ( z ! =’ ‘ || s !=’ ‘)
printf(“%c”,z); } /*конец цикла обработки*/
} /*конец программы*/
В программе две символьные переменные: z – для чтения очередного символа и s – для хранения предыдущего. В заголовке цикла переменные s и z получают значение “пробел”. Очередной символ вводится как значение переменной z, и пара z, s анализируется. Если хотя бы один из символов значений пары отличен от пробела, то значение z печатается. В заголовке цикла z сравнивается с символом “точка” и при несовпадении запоминается как значение s. Далее цикл повторяется до появления на входе точки, причем появление двух пробелов (z и s)приводит к пропуску оператора печати.
9.2 Внутренние коды и упорядоченность символов
ВАЖНО ! В языке принято соглашение, что везде, где синтаксис позволяет использовать целые числа, можно использовать и символы, т.е. данные типа char, которые при этом представляются числовыми значениями своих внутренних кодов. Такое соглашение позволяет сравнительно просто упорядочивать символы, обращаясь с ними как с целочисленными величинами.
Например, внутренние коды десятичных цифр в таблицах кодов ASCII упорядочены по числовым значениям, поэтому несложно перебирать символы десятичных цифр в нужном порядке.
Пример:
Следующая программа печатает цифры от 0 до 9 и шестнадцатеричные представления их внутренних кодов.
/*печать десятичных цифр*/
#include<stdio.h>
void main()
{ char z;
for ( z=’0’, z<=’9’, z++ ) {
if ( z= =’0’ | |z= =’5’) printf(“\n”);
printf( “%c – %x”, z, z);
}
} /*конец программы*/
Результат выполнения программы:
0–30 1–31 2–32 3–33 4–34
5–35 6–36 7–37 8–38 9–39
Обратите внимание на то, что символьная переменная z является операндом арифметической операции ‘++’, выполняемой над числовым представлением ее внутреннего кода. Для изображения значения символов в форматной строке функции printf( ) используется спецификация %с. шестнадцатеричные коды выводятся с помощью спецификации %х.
Пример:
Воспользовавшись упорядоченностью внутренних кодов букв латинского алфавита, очень просто его напечатать.
/*печать латинского алфавита*/
#include<stdio.h>
void main() {
char z;
for ( z=’A’, z<=’Z’, z++)
printf(“%c”,z);
} /*конец программы*/
Результат выполнения программы:
ABCDEFGHIJKLMNOPQRSTUVWXYZ
9.3 Строки или строковые константы
В программе строки, или строковые константы, представляются последовательностью изображений символов, заключенной в кавычки (не в апострофы), например “любые символы”. Среди символов строки могут быть эскейп-последовательности, соответствующие кодам не изображаемых (специальных) символьных констант.
Примеры:
“1234567890”
“\t состав президиума”
“начало строки \t и конец строки”.
В качестве терминирующего символа выбран символ с кодом 0 (не путайте его с символом '0'). Таким образом, определение
char HelloStr [] = "Hello, world";
фактически интерпретируется как
char HelloStr [] = {'H', 'e', 'l', 'l', 'o', ' ', ',', 'w', 'o', 'r', 'l', 'd', '\0'};
Это происходит при инициализации массива строкой. Во всех остальных случаях встретившаяся строка интерпретируется как еще не созданный безымянный массив соответствующей длины. То есть выражение
printf ("Hello, world\n");
на самом деле интерпретируется как
char str1 [ ] = "Hello, world\n";
printf (str1);
При размещении строки в памяти транслятор автоматически добавляет в ее конец символ ‘\0’, т.е. нулевой байт.
Количество элементов в таком массиве на 1 больше, чем в изображении соответствующей строковой константы, т.к. в конец строки добавили нулевой байт ‘\0’.
У строк есть еще особенность: транслятор отводит каждой строке отдельное место в памяти ЭВМ даже в тех случаях, когда несколько строк полностью совпадают (стандарт языка СИ предполагает, что в конкретных реализациях это правило может не выполняться).
Присвоить значение массиву символов (т.е. строке) с помощью обычного оператора присваивания нельзя. Поместить строку в массив можно либо с помощью инициализации (при определении символьного массива), либо с помощью функций ввода. В функции scanf() или printf() для символьных строк используется спецификация преобразования %s.
Пример:
/*печать символьной строки*/
#include<stdio.h>
void main()
{ char B[]=”Cезам, откройся!”;
printf(“%s”,B); } /*конец программы*/
Результат выполнения программы: Сезам, откройся!
В программе длина массива В – 17 элементов, т.е. длина строки, помещаемой в массив (16 символов), плюс нулевой байт окончания строки. Именно 17 байтов выделяется при инициализации массива в приведенном примере. Инициализация массива символов с помощью строковой константы представляет собой сокращенный вариант инициализации массива и введена в язык для упрощения. Можно воспользоваться обычной инициализацией, поместив начальные значения элементов массива в фигурные скобки и не забыв при этом поместить в конце списка начальных значений специальный символ окончания строки ‘\0’. Таким образом, в программе была допустима такая инициализация массива В:
char B[ ] = {‘C’,’е’,’з’,’а’,’м’,’,’,’ ’,’о’,’т’,’к’,’р’,’о’,’й’,’с’,’я’,’!’,’\0’};
Дата добавления: 2015-06-10; просмотров: 1551;