Эта книга представляет собой великолепное практическое руководство по основам программирования на языке ассемблера. Изложение сопровождается большим количеством подробно откомментированных примеров, что способствует наилучшему пониманию и усвоению материала. Доходчиво объясняются все основные вопросы программирования на этом языке.
Вы узнаете, как писать ассемблерные программы под разные операционные системы (Windows, DOS, Linux), как создавать резидентные программы, как писать ассемблерные вставки в программы на языках высокого уровня и многое другое. Попутно вам будут разъяснены основные моменты работы процессора, операционных систем, управления памятью и взаимодействия программ с аппаратными устройствами ПК - то есть все то, без знания чего нельзя обойтись при программировании на языке низкого уровня, которым и является ассемблер.
Книга написана доступным языком. Лучший выбор для начинающих.
Книга посвящена методам объектно-ориентированного программирования для 32-разрядных операционных систем Windows. Рассмотрен широкий круг вопросов разработки диалоговых и многооконных приложений. Обсуждаются вопросы создания различных типов справочных систем приложения, их русификации и преобразования из одного типа в другой. Большое внимание уделено применению механизма исключений для обработки ошибок, работе с шаблонами, многозадачности и взаимодействию потоков. Отдельная глава посвящена созданию библиотек динамической компоновки (DLL). Приведен обширный справочный материал по функциям и классам Visual C++.
От издателя: Итак, вы решили серьезно взяться за Visual C++ .NET. Это хорошая идея, ведь вы в действительности убиваете сразу трех зайцев: в ваших руках оказывается мощный, полезный и широко распространенный инструмент. С языком С++ можно сделать очень многое. С его помощью созданы такие продукты, как Hxeel и Access. 'Jror язык также применяется при разработке управленческих информационных систем и систем целевого назначения, используемых для анализа деятельности предприятий и принятия решений в сфере управления бизнесом. И. конечно же, целые армии хакеров и не только хакеров используют C++ для создания инструментов, утилит, игр и шедевров мультимедиа. Знания, которые вы получите, изучив язык C++ .NET. позволят создавать не просто приложения, а приложения, работающие в разных операционных системах. Возможности этого языка практически не ограничены, и вы сами в этом убедитесь, прочитав эту книгу.
В книге даются начальные сведения по системе программирования Delphi, разработанной американской корпорацией Borland International Inc. (с апреля 1998 г. является подразделением корпорации Inprise Corporation). Книга рассчитана на широкий круг читателей -как начинающих программистов, так и имеющих опыт программирования. В ней описывается версия Delphi 6, работающая под управлением современных 32-разрядных операционных систем Windows 95/98/NT/2000 (Windows 32). Умение пользоваться операционными системамиWindows 32 (на уровне пользователя) является непременным условием усвоения материала книги.
Oxygen SMS ActiveX Control позволит Вам отправлять текстовые сообщения, логотипы и мелодии; считывать и устанавливать номер центра SMS, получать количество хранимых сообщений и номера соответствующих ячеек, читать и удалять содержимое папок SMS. Кроме того, Вы получаете доступ к различным параметрам телефона: IMEI, модель телефона, версию и дату прошивки, а также уровень сигнала, заряда батарей и др. При приходе сообщения или отчета на телефон Oxygen SMS Control генерирует соответствующее события. Версия SMSPlus также позволяет читать из памяти телефона последние набранные, отвеченные и пропущенные номера, посылать мелодии и логотипы операторов. Этот ActiveX Control может быть использован в любой среде программирования, которая поддерживает ActiveX (например, Microsoft Visual Basic, Microsoft Visual C++, Microsoft Access, Borland Delphi, Borland C++ Builder). Oxygen SMS ActiveX Control работает в операционных системах Microsoft Windows 95, 98, NT и 2000 и поддерживает GSM телефоны Nokia серий 3***, 51**, 61**, 62**, 71**, 8*** Версия 2.2, пробная версия. Ограничения пробной версии: - в начало каждого посылаемого сообщения добавляется www.oxygensoftwre.com - при посылке мелодии будут переданы только 10 первых нот. - при отправке логотипов к ним будет добавлена надпись Oxygen. - доступны только 3 ячейки последних набранных, принятых, пропущенных звонков. - текст некоторых входящих сообщений будет замещен информацией о продукте. Зарегистрированная версия не имеет этих ограничений и стоит от $399.
В форме головоломок в книге рассмотрены практически все способы хакерских атак и защит от них, в том числе: методы криптоанализа, способы перехвата данных в компьютерных сетях, анализ log-файлов, поиск и устранение ошибок в программах, написание эксплоитов, дизассемблирование программного обеспечения, малоизвестные возможности операционных систем, используемые хакерами. Присутствуют головоломки для программистов, Web-разработчиков и даже простых пользователей. Все головоломки снабжены решениями и ответами с подробными объяснениями. Книга написана на основе рубрики "X-Puzzle" из известного российского журнала "Хакер".
Компакт-диск содержит исходные коды, откомпилированные программы, текстовые и графические файлы, необходимые для решения головоломок.
Книга посвящена методам объектно-ориентированного программирования для 32- разрядных операционных систем Windows. Рассмотрен широкий круг вопросов разработки диалоговых и многооконных приложений. Обсуждаются вопросы создания различных типов справочных систем приложения, их русификации и преобразования из одного типа в другой. Большое внимание уделено применению механизма исключений для обработки ошибок, работе с шаблонами, многозадачности и взаимодействию потоков. Отдельная глава посвящена созданию библиотек динамической компоновки (DLL). Приведен обширный справочный материал по функциям и классам Visual C++.
Реляционная система управления базами данных MySQL разработана и до сих пор поддерживается шведской компанией MySQL AB. На сегодняшний день MySQL - одна из самых распространенных СУБД с открытыми исходными кодами. Это означает, что за рядом мелких исключений ей можно пользоваться бесплатно, а кроме того, модифицировать исходный код, который доступен в сети Internet.
В данной книге рассматривается установка MySQL в операционных системах Windows, Linux, Mac OS; подробно описываются запуск СУБД и работа с ней, причем основное внимание уделяется доступу к базе данных и администрированию из командной строки. Ряд глав посвящен программированию на языках PHP, Perl и Java. В тексте приводятся упражнения облегчающие изучение MySQL начинающими пользователями.
В приложениях рассматриваются вопросы диагностики и устранения ошибок, приводятся справочная информация и ссылки на другие источники.
Paragon Drive Backup 9.0 (32-bit) - В случае выхода из строя аппаратуры или вирусной атаки переустановка операционной системы и приложений отнимет очень много времени, а некоторые (или все) данные могут оказаться безвозвратно утерянными, поэтому желательно заранее побеспокоиться об их сохранности. С помощью Drive Backup сделать это довольно быстро и просто, так как программа позволяет создавать архивные копий разделов и целых жестких дисков. Например, можно сделать резервную копию системного раздела с установленной на нем операционной системой после установки всех необходимых приложений. В этом случае, если в процессе работы произошел сбой системы, можно будет быстро восстановить рабочий раздел и продолжать работать.
Кроме этого, в дистрибутив входит утилита, которая пригодится тем, у кого на компьютере установлено несколько операционных систем - BootManager позволяет выбирать в процессе начальной загрузки, какую из установленных операционных систем следует загрузить.
При необходимости можно восстановить только нужные папки или файлы, не восстанавливая весь раздел целиком. Резервные копии (образы) могут располагаться на жестком диске, любом из его разделов, сменных носителях (CDROM, DVD, ZIP, JAZ, LS120), а также сетевых дисках. Drive Backup поддерживает все распространенные операционные и файловые системы: FAT16/32, NTFS, Ext2/3FS. Возможна запись образа непосредственно на CD/DVD диски, при этом образ будет автоматически разнесён на несколько дисков.
Drive Backup обладает также несколькими весьма полезными дополнительными функциями: создание, удаление, форматирование и восстановление удаленных разделов, клонирование жестких дисков, а также проверка целостности файловой системы.
Без регистрации: 30-ти дневный период работы; недоступны функции копирования жестких дисков и поиска и восстановления случайно удаленных разделов.
Это с нетерпением ожидаемое, переработанное и исправленное издание всемирного бестселлера включает в себя сведения о последних достижениях в области технологий операционных систем. Книга построена на примерах и содержит информацию, необходимую для понимания функционирования современных операционных систем.
Благодаря практическому опыту, приобретенному при разработке нескольких операционных систем, и высокому уровню знания предмета Эндрю Таненбаум смог ясно и увлеченно рассказать о сложных вещах. В книге приводится множество важных подробностей, которых нет ни в одном другом издании.
Эксперты в области операционных систем и системного администрирования написали эту книгу для тех, кому нужна надежная серверная операционная система. Если раньше вам не приходилось работать с Free BSD , книга поможет перейти на эту систему c Linux или Windows. В ней подробно рассказано об инсталляции системы, управлении загрузкой, конфигурировании системы X-windows и важнейших пользовательских сервисах. Если вы системный администратор корпоративного сервера, книга предложит подробное описание функциональных возможностей free BSD, в том числе методику настройки и сборки ядра. Освещаются такие вопросы, как подключение к Internet, защита сетей и совместное использование ресурсов.
Может служить в качестве справочника по настройке серверов Apache, Samba и DNS. Книга предназначена для широкого круга пользователей и сис. администраторов
Книга представляет собой практическое руководство по программированию драйверов для всей линейки операционных систем Windows NT, включая новую ОС Windows Vista. Разбираются важнейшие драйверные архитектуры — традиционная WDM и новая WDF. Излагаются основы теории программирования драйверов для многопроцессорных систем. Показано, как создать простейший драйвер, а также приведены практические примеры написания сложных драйверов для принтера, монитора, видеокарты и USB-камеры.
Учебное пособие содержит оригинальный научный и учебно-методический материал, посвященный созданию систем безопасности для операционных сред Windows NT/2000. Рассматриваются вопросы создания различных драйверов уровня ядра ОС, предназначенных для шифрования трафика и контроля доступа. Учебное пособие используется при организации занятий на факультете информационной безопасности МИФИ.
Книга Ядро Linux в комментариях представляет наиболее детализированные и емкие комментарии кода ядра Linux, которые окажутся полезными для многих программистов и студентов. Автор подробно исследует код ядра, предоставляя обширные комментарии для наиболее важных функций, системных вызовов и структур данных.
Основным источником вдохновения, побудившим написать эту и другие книги серии «... в комментариях» послужила популярная книга «Lions` Commentary on Unix», написанная Джоном Лайонсом (John Lions). Эта книга, прочитанная и размноженная бесчисленным множеством студентов, посвящена подробному анализу внутренней работы ранней версии операционной системы Unix от AT&T.
Книга Ядро Linux в комментариях также обеспечивает анализ всех особенностей внутренней структуры и функционирования одной из самых мощных и популярных операционных систем.
Основные цели, которым служит книга, таковы:
Обеспечить печатную копию одной из последних версий ядра.
Предоставить общие концепции функционирования каждой подсистемы.
Представить принципиально важные функции и структуры данных в каждой подсистеме.
Предложить потенциальным разработчикам способы усовершенствования и расширения ядра за счет модификации его исходного кода.
Последняя цель, связанная с настройкой ядра под специфические потребности, — это одна из главных побудительных причин изучения исходного кода ядра. Понимание особенностей функционирования ядра позволит разрабатывать собственный код таким образом, что это обеспечит корректную и согласованную работу собственных функций операционной системы. Если вы делитесь своими усовершенствованиями с другими, разработанный вами код может даже попасть в официальный дистрибутив ядра и использоваться миллионами пользователей во всем мире.
Возможность работать над кодом и расширять его функциональность — вот что дает концепция открытого исходного кода (open source). Она же является и одной из главных причин столь быстрого развития Linux. От запуска игр до путешествий по Web, построения устойчивых Web-серверов для мелких и крупных Internet-провайдеров и решения серьезных вычислительных задач — все это под силу Linux. Linux нравится народу, а разработчики имеют хорошую мотивацию к изучению, обучению и расширению системы.
Поиск по шаблону является настолько обычным занятием в разработке программного обеспечения, что для облегчения этой задачи была создана специальная технология — регулярные выражения. Узнайте, как можно использовать ее при написании кода, прочитав эту статью.
Все устройства получают входную информацию, выполняют какие-либо операции и выдают результат. Например, телефон во время разговора преобразует звуковую энергию в электрический сигнал и обратно. Двигатель потребляет топливо (пар, расщепление атомных ядер, бензин, мышечные усилия) и преобразует его в энергию. Блендер поглощает ром, лед, лайм и кюрасао и взбалтывает их в коктейль Mai Tai. (Или, если вам хочется чего-то изысканного, сделайте Bellini из шампанского и грушевого сока. Блендер – замечательное универсальное устройство.)
Так как программное обеспечение преобразует данные, то каждое приложение фактически является устройством (хоть и виртуальным, так как у него нет физических составляющих). Например, компилятор в качестве входной информации получает исходную программу и преобразует ее в двоичный исполняемый код. Программа прогнозирования погоды генерирует предсказания на основе результатов прошлых (исторических) замеров, а графический редактор обрабатывает пикселы, применяя правила к отдельным пикселам или их группам, чтобы, например, сделать изображение более четким или изменить его стиль.
Так же, как и любое другое устройство, программное обеспечение предназначено для работы с определенным исходным материалом, например, набором чисел, данными XML-схемы или протоколом. Если программе задать некорректную входную информацию — неподходящую по форме или типу, то существует большая вероятность того, что результат будет непредсказуемым и, возможно, даже катастрофическим. Как говорится: "Мусор заложишь - мусор получишь".
На самом деле для решения всех нетривиальных задач необходимо отделять правильные данные от некорректных и отклонять некорректные данные во избежание ошибок в результатах. Это, конечно же, актуально и для Web-приложений, написанных на языке PHP. Неважно, получены ли входные данные из формы для ввода с клавиатуры или в результате выполнения программного запроса Asynchronous JavaScript + XML (Ajax), прежде чем начать какие-либо вычисления, программа должна проверить входную информацию. Возможно, что числовые значения должны находиться в пределах определенного диапазона чисел или представлять собой только целые числа. Возможно, значение должно соответствовать определенному формату, например, почтового индекса. Например, почтовый индекс в США представляет собой пять цифр плюс дополнительный префикс "Plus 4", состоящий из дефиса и 4 дополнительных цифр. Возможно, другие строки также должны состоять из определенного количества символов, например, две буквы для указания аббревиатуры штата США. Строковые данные доставляют особенно много проблем: PHP-приложение должно быть начеку по отношению к злонамеренным программам-агентам, вложенным в SQL-запросы, код JavaScript или любой другой код, которые способны изменить поведение приложения или обойти защиту.
Однако каким образом программа может определить, являются ли входные данные числом или соответствуют ли определенным требованиям, например, к почтовому индексу? На самом деле для реализации проверки путем сопоставления с шаблоном необходим небольшой парсер, создающий конечный автомат, считывающий входные данные, обрабатывающий маркеры, отслеживающий состояние и выдающий результаты. Однако создание и обслуживание даже самого простого парсера может оказаться непростым делом.
К счастью, анализ на основе сопоставления с шаблоном настолько широко распространен в компьютерных технологиях, что с течением времени (примерно с момента появления UNIX®) были разработаны специальные технологии и, конечно же, механизмы обработки, чтобы облегчить рутинную работу. Регулярное выражение (regex) описывает шаблоны посредством лаконичных и удобочитаемых обозначений. Получив регулярное выражение и данные, механизм regex сообщает, совпадают ли эти данные с шаблоном, и если совпадение было обнаружено, что именно совпало.
Вот небольшой пример использования регулярного выражения, взятый из UNIX-утилиты, работающей в режиме командной строки, которая ищет заданный шаблон в содержимом одного или нескольких текстовых файлов UNIX. Команда grep -i -E '^Bat' ищет последовательность символов beginning-of-line (начало строки), обозначаемое "крышкой", [^]), за которым следуют буквы b, a, и t верхнего или нижнего регистра (ключ -i указывает на то, что при сопоставлении с шаблоном регистр не учитывается, таким образом, например, B и b - тождественны). Следовательно, для файла heroes.txt:
Листинг 1. heroes.txt
Вышеупомянутая команда grep выдаст два совпадения:
Batman
Batgirl
Регулярные выражения
PHP предлагает два программных интерфейса регулярных выражений: один -- для интерфейса переносимых операционных систем (POSIX), а второй - для регулярных выражений, совместимых с языком Perl (PCRE). В общем и целом второй интерфейс является более предпочтительным, так как PCRE сам по себе мощнее, чем POSIX, и предоставляет все операторы, используемые в языке Perl. Более подробная информация по обращению к regex-функциям POSIX представлена в документации по языку PHP (см. раздел Ресурсы). В данной статье мы сосредоточим свое внимание на свойствах PCRE.
Регулярные выражения PHP PCRE содержат операторы, позволяющие путем сопоставления находить конкретные символы или другие операторы, определенные местоположения, например, начало и конец строки, начало или конец слова. Регулярные выражения также позволяют описывать альтернативы, которые можно задать альтернативы типа "или"-"или"; повторения фиксированной, изменяемой или неопределенной длины; наборы символов (например, "любая буква от a до m"); и классы, или типы символов (печатаемые символы, знаки препинания). Специальные операторы также разрешают использовать группировку — возможность применить оператор к целой группе других операторов.
В таблице 1 показаны некоторые типичные операторы регулярных выражений. Для создания сложных выражений можно последовательно объединять элементарные операторы из таблицы 1 (и другие).
Таблица 1. Типичные операторы регулярных выражений
Оператор Значение
. (точка) Любой одиночный символ
^ (крышка) Пустая последовательность в начале строки или цепочки
$ (знак доллара) Пустая последовательность в конце строки
A Буква A верхнего регистра
a Буква a нижнего регистра
\d Любая цифра
\D Любой нецифровой символ
\w Любая буква или цифра; синоним - [:alnum:]
[A-E] Любая заглавная буква из A, B, C, D или E
[^A-E] Любой символ, за исключением заглавных букв A, B, C, D или E
X? Найти совпадение по отсутствию или наличию одной заглавной буквы X
X* Ни одной или любое количество заглавных букв X
X+ Одна или несколько заглавных букв X
X{n} Ровно n заглавных букв X
X{n,m} Не менее n и не более m заглавных букв X; если опустить m, то выражение будет искать не менее n заглавных букв X
(abc|def)+ По меньшей мере одно вхождение последовательности abc и def
В следующем примере показано типичное использование регулярного выражения. Например, для web-сайта необходимо, чтобы каждый пользователь регистрировался. Имя пользователя должно начинаться с буквы и содержать от 3 до 10 буквенно-цифровых символов. Для проверки имени пользователя на соответствие ограничениям при отправке данных в приложение можно использовать следующее регулярное выражение: ^[A-Za-z][A-Za-z0-9_]{2,9}$.
Знак "крышка" соответствует началу строки. Первый набор [A-Za-z] соответствует любой букве. Второй набор [A-Za-z0-9_]{2,9} соответствует последовательности, содержащей от 2 до 9 букв, цифр или символов подчеркивания. Знак доллара ($) соответствует концу строки.
На первый взгляд, знак доллара может показаться лишним, однако его использование важно. Если его пропустить, то условиям данного регулярного выражения будет отвечать любая строка, которая начинается с буквы, содержит от 2 до 9 буквенно-цифровых символов и любое количество других символов. Иными словами, если бы не было знака доллара как привязки к концу строки, то подошла бы недопустимо длинная строка с подходящим началом, например, "martin1234-cruft" .
Программирование на языке PHP и регулярные выражения
В PHP есть функции для поиска совпадений в тексте, замены каждого совпадения на другой текст (похоже на операцию "найти и заменить") и поиска совпадений среди элементов списка. Вот эти функции:
Чтобы показать, как работают эти функции, давайте создадим небольшое PHP-приложение, которое будет просматривать список слов на соответствие определенному шаблону. Слова и регулярные выражения будут вводиться из обычной web-формы, а результаты отображаться в браузере посредством функции simple print_r(). Эта программка пригодится, если возникнет желание проверить или отладить регулярное выражение.
PHP-код показан в листинге 2. Все входные данные берутся из обычной HTML-формы. (Для краткости эту форму и PHP-код, отслеживающий ошибки, опустим.)
Листинг 2. Сравнение текста с шаблоном
Вначале с помощью функции preg_split() строка из слов, разделенных запятыми, преобразуется в отдельные элементы. Данная функция разбивает строку в тех местах, которые соответствуют условиям регулярного выражения. В данном случае регулярное выражение представляет собой просто "," , (запятая - разделитель списка слов, указанных через запятую). Слэш в начале и в конце просто показывает начало и конец regex.
Третий и четвертый аргументы функции preg_split() необязательны, но полезны. Добавьте в третий аргумент число n целого типа, если необходимо вернуть только первые n совпадений, или -1, если необходимо вернуть все совпадения. Если в качестве четвертого аргумента задать идентификатор PREG_SPLIT_NO_EMPTY, то функция preg_split() не будет возвращать пустые результаты.
Затем каждый элемент списка слов, разделенных запятыми, корректируется (убираются начальные и конечные пробелы) с помощью функции trim() и сравнивается с заданным регулярным выражением. Функция preg_grep() существенно упрощает процесс обработки списка: просто укажите в качестве первого аргумента шаблон, а в качестве второго - массив слов для сравнения. Функция возвращает массив совпадений.
Например, если в качестве шаблона задать регулярное выражение ^[A-Za-z][A-Za-z0-9_]{2,9}$ и список слов разной длины, то можно получить результат, показанный в листинге 3.
Листинг 3. Результат работы простого регулярного выражения
Кстати, с помощью дополнительного маркера PREG_GREP_INVERT можно инвертировать операцию preg_grep() и найти элементы, которые не совпадают с шаблоном (аналогично оператору grep -v в командной строке). Заменяя 22 строку на $matches = preg_grep( "/${_REQUEST[ 'regex' ]}/", $words, PREG_GREP_INVERT ) и используя входные данные из листинга 3, мы получим Array ( [1] => 1happy [2] => hermanmunster ).
Разбор строк
Функции preg_split() и preg_grep() очень удобны. Первая из них может разбирать строку на подстроки, если подстроки разделяются определенным шаблоном. Функция preg_grep() позволяет быстро отфильтровать список.
Но что произойдет, если строку нужно разобрать на составные части, используя одно или несколько сложных правил? Например, в США номера телефонов обычно выглядят следующим образом: "(305) 555-1212," "305-555-1212," или "305.555.1212." Если убрать пунктуацию, то количество символов сократится до 10 цифр, что легко можно определить с помощью регулярного выражения \d{10}. Однако код и префикс (каждый из которых состоит из трех цифр) телефонного номера США не могут начинаться с нуля или единицы (так как нуль и единица используются как префиксы для междугородных звонков). Вместо того чтобы разбивать числовую последовательность на отдельные цифры и создавать сложный код, для верификации можно использовать регулярное выражение.
Фрагмент кода позволяющий решить эту задачу, показан в листинге 4.
Листинг 4. Проверка американского телефонного номера
Давайте пройдем по этому коду:
* Как показано в таблице 1, в регулярных выражениях используется ограниченный набор специальных символов, например, квадратные скобки ([ ]) для наименования последовательности. Если надо найти такой символ в тексте, необходимо "выделить" специальный символ в регулярном выражении, поставив перед ним обратный слэш (\). Когда символ выделен, можно задать его посик, как и любого другого символа. Если нужно найти символ точки, например, в полном составном имени хоста, то напишите \.. При желании строку можно подать в функцию preg_quote() которая выполняет автоматическую изоляцию всех специальных символов регулярных выражений, как показано в строке 1. Если поставить echo() $punctuation после первой строки, то вы должны увидеть \(\)\.-.
* В строке 2 из телефонного номера убираются все знаки пунктуации. Функция preg_replace() заменяет все символы из $punctuation — операторы из набора [ ] - пустой строкой, эффективно устраняя такие символы. Возвращаемая новая строка присваивается переменной $number.
* В строке 4 определен шаблон верифицируемого телефонного номера США.
* Строка 5 реализует сопоставление, сравнивая телефонный номер, который теперь состоит только из цифр, с шаблоном. Функция preg_match() возвращает 1, если есть совпадение. Если совпадения нет, функция preg_match() возвращает нулевое значение. Если во время обработки возникла ошибка, то функция возвращает значение False (ложно). Таким образом, чтобы проверить удачное завершение, необходимо посмотреть, было ли возвращено значение 1. В противном случае проверьте итоговое значение функции preg_last_error() (если используется PHP версии 5.2.0 или выше). Если оно не равно нулю, то, возможно, был превышен лимит вычислений, например, разрешенная глубина рекурсии регулярного выражения. Обсуждение констант и ограничений, применяемых в регулярных выражениях PHP, представлено на странице, посвященной функциям регулярных выражений PCRE (см. раздел Ресурсы).
Извлечение данных
Во многих случаях необходимо только получить ответ на вопрос: "Соответствуют ли данные шаблону?" – например, при проверке данных. Однако чаще регулярные выражения используются для подтверждения соответствия и получения информации о совпадении.
Вернемся к примеру с телефонным номером. Пусть при соответствии шаблону нам необходимо сохранить код, префикс и номер линии в отдельных полях базы данных. Регулярные выражения могут запоминать совпадающие с шаблоном данные с помощью оператора capture. Оператор capture обозначается круглыми скобками и может использоваться в любой части регулярного выражения. Операции capture можно делать вложенными для поиска подсегментов в извлеченных сегментах данных. Например, чтобы из 10-значного номера телефона извлечь код города, префикс и номер линии, можно использовать следующую строку:
/([2-9][0-9]{2})([2-9][0-9]{2})([0-9]{4})/
Если входные данные соответствуют шаблону, первые три цифры захватываются первой парой круглых скобок, следующие три цифры - второй парой, а последние 4 цифры - последним оператором. Модификация вызова функции preg_match() возвращает извлеченные данные.
Листинг 5. Возврат извлеченных данных функцией preg_match()
Если в качестве третьего аргумента функции preg_match() указать переменную, например, в нашем коде, $matches, то в качестве ее значения будет выступать список извлеченных результатов. Нулевой элемент списка (с индексом 0) - это все совпадение целиком; первый элемент - совпадение, относящееся к первой паре круглых скобок, и так далее.
Вложенные операторы capture извлекают сегменты и подсегменты фактически любой глубины. Сложность с вложенными операторами capture состоит в том, чтобы определить, в какой части массива соответствий находится каждое соответствие, например, $matches. Действует следующее правило: подсчитайте порядковый номер открывающей скобки в регулярном выражении — этот номер и будет индексом нужного совпадения в массиве соответствий.
В листинге 6 показан пример (немного надуманный) извлечения частей городского адреса.
Листинг 6. Код для извлечения городского адреса
Опять все совпадение целиком хранится по индексу 0. А где хранится номер улицы? Если считать слева направо, номер улицы проверяется \d+. Это вторая открывающая круглая скобка слева, следовательно, значением $matches[2] будет 123. В $matches[4] оказывается название города, а в $matches[6] - почтовый индекс.
Продвинутые технологии
Обработка текста – широко распространенная задача, и PHP предоставляет ряд функций, упрощающих выполнение большого числа операций. Обратите внимание на следующее:
* Функция preg_replace() может работать как с одной строкой, так и с массивом строк. Если вызвать preg_replace() для массива строк, замена будет выполнена во всех элементах массива. В этом случае код preg_replace() возвращает массив измененных строк.
* Как и во всех остальных реализациях PCRE, здесь для осуществления замены можно прибегать к сравнению с вложенным шаблоном. Для наглядности давайте рассмотрим проблему стандартизации формата телефонного номера. Заменим все знаки пунктуации точками. Наше решение показано в листинге 7.
Листинг 7. Замена знаков пунктуации точками
Сопоставление с шаблоном и, в случае совпадения, перевод в стандартный телефонный номер выполняется за один шаг.