PHP: substr и мощные альтернативы, чтобы вырезать часть строки
Поговорим о том, как обрезать строку в PHP. Функция substr в предназначена для получения части строки. Она выделяет подстроку из переданной строки и возвращает её. Для этого нужно указать строку, порядковый номер символа, начиная с которого нужно вырезать строку, порядковый номер символа, до которого мы верезаем подстроку.
Обратите внимание, что substr неправильно работает с многобайтовыми кодировками, поэтому мы будем использовать mb_substr, которая работает с ними корректно. Об этой проблеме немного ниже.
mb_substr( string $string, int $start, int|null $length = null, string|null $encoding = null ): string
- $string — строка, из которой мы будем вырезать подстроку
- $start — символ, с которого мы будем вырезать подстроку
- $length — сколько символов мы будем вырезать (по умолчанию будем вырезать все оставшиеся)
- $encoding — кодировка
Теперь перейдем к примерам.
Получаем строку начиная с определенного символа
$url = 'https://phpstack.ru/admin/'; $result = mb_substr($url, 8); echo $result; // результат: phpstack.ru/admin/
Мы вырезали первые 8 символов из строки, содержащей URL адрес.
Получаем определенное количество символов
Теперь давайте вырежем еще и «/admin/» в конце.
Мы бы могли сделать это указав количество символов, которое нужно взять, оно равно количеству символов в домене, их 11
$url = 'https://phpstack.ru/admin/'; $result = mb_substr($url, 8, 11); // возьмем 11 символов начиная с 8-го echo $result; // результат: phpstack.ru
Вырезаем символы с конца
Что если мы не знаем количества символов в домене, но знаем что нужно вырезать строку «/admin/», длина которой составляет 7 символов? Иными словами нам нужно вырезать с конца.
В таком случае нужно указать отрицательное число:
$url = 'https://phpstack.ru/admin/'; $result = mb_substr($url, 8, -7); // удаляем 8 символов с начала и 7 символов с конца echo $result; // результат: phpstack.ru
Получаем несколько последних символов
Что если нам нужно вернуть наоборот только 7 последних символов? Тогда код будет следующим:
$url = 'https://phpstack.ru/admin/'; $result = mb_substr($url, -7); // Получаем 7 символов с конца, остальное удаляем echo $result; // результат: /admin/
Получаем первый символ строки
$url = 'https://phpstack.ru/admin/'; $result = mb_substr($url, 0, 1); // Начиная с 0 берем 1 символ echo $result; // результат: h
Получаем последний символ строки
$url = 'https://phpstack.ru/admin/'; $result = mb_substr($url, -1); // начинаем на 1 символ относительно конца echo $result; // результат: /
Получение подстроки по регулярному выражению
Если вам не хватает возможностей substr, возможно вам необходим более мощный инструмент: preg_match — эта функция позволяет получить подстроки по регулярному выражению.
Проблема при работе с многобайтовыми кодировками.
Рассмотрим такой пример:
$url = 'привет'; $result1 = mb_substr($url, 3); // удаляем 3 символа с начала $result2 = substr($url, 3); // удаляем 3 символа с начала var_dump($result1); // вет var_dump($result2); // �ивет
Что случилось? Почему в первом случае, где мы использовали mb_substr все сработало хорошо, а во втором случае вернулся какой-то битый символ?
Дело в том, что в UTF-8 кириллица кодируется 2 байтам, вместо одного. substr считает, что символ равен байту и поэтому вырезает 3 байта с начала. Таким образом она вырезала букву «П», и только половину буквы «Р». В общем вы поняли: всегда используйте mb_substr когда работаете с текстом, который потенциально может содержать многобайтовые символы.
Продвинутая работа со строками
Если вы часто работаете со строками, вам пригодится это расширение: symfony/string
С его помощью вы сможете легко вырезать строки. Взгляните на несколько примеров:
// returns a substring which starts at the first argument and has the length of the // second optional argument (negative values have the same meaning as in PHP functions) u('Symfony is great')->slice(0, 7); // 'Symfony' u('Symfony is great')->slice(0, -6); // 'Symfony is' u('Symfony is great')->slice(11); // 'great' u('Symfony is great')->slice(-5); // 'great' // reduces the string to the length given as argument (if it's longer) u('Lorem Ipsum')->truncate(3); // 'Lor' u('Lorem Ipsum')->truncate(80); // 'Lorem Ipsum' // the second argument is the character(s) added when a string is cut // (the total length includes the length of this character(s)) u('Lorem Ipsum')->truncate(8, '…'); // 'Lorem I…' // if the third argument is false, the last word before the cut is kept // even if that generates a string longer than the desired length u('Lorem Ipsum')->truncate(8, '…', false); // 'Lorem Ipsum'
Свежие записи
- SQL UPDATE: примеры обновления строк в таблице
- PHP: substr и мощные альтернативы, чтобы вырезать часть строки
- Степень в C, C++ и С#: как возвести число в любую степень, побитовые операции
- Скачать ShowKeyPlus: ссылка на последнюю официальную версию, скачивание, установка
- Как создать файл в Linux: 12 способов
- SQL INSERT INTO: примеры вставки строк в таблицу БД MySQL
- PHP: str_replace — замена или удаление подстроки в строке
- Функция date() в php: распространенные форматы, примеры, советы
- cURL в PHP: примеры POST, GET запросов с headers, cookie, JSON и многопоточностью
- JSON в PHP: примеры json_encode, json_decode, работа с кириллицей и utf-8
- Файл gitignore — примеры и документация
- Сортировка массивов в php: ksort, asort и прочие sort’ы
- jQuery onclick: как выполнить код при клике на кнопку
- 500 Internal Server Error — в чем причина?
- SMTP от Yandex: как отправить письма из PHP — пример настроек
- No such file or directory — в чем причина?
- Как получить первый элемент массива в php
- Cтроку в массив по разделителю в PHP: explode, str_split, strtok — что выбрать?
- 301 редирект на https с www через htaccess
- Как в php добавить к массиву другой массив?
- 301 редирект на https без www с помощью htaccess
- Регулярные выражения в PHP
- PHP json_decode — как декодировать результат в массив?
- Yii2 ActiveRecord шпаргалка по составлению запросов
- Поиск подстроки в строке с помощью PHP
- Отправка почты на php
- Как подключить php код в html
- Конвертировать массив в строку при помощи PHP
- Подключение одного php файла в другой
- Подборка ссылок для веб-разработчика
- Проблема с кириллицей в PHPWord
mb_substr
Корректно выполняет substr() для многобайтовых кодировок, учитывая количество символов. Позиция отсчитывается от начала string . Позиция первого символа — 0, второго — 1 и т.д.
Список параметров
Исходная строка для получения подстроки.
Если start неотрицательный, возвращённая строка начнётся с позиции start от начала строки string , начальный символ имеет индекс 0. К примеру, в строке ‘ abcdef ‘, символ в позиции 0 — это ‘ a ‘, символ в позиции 2 — ‘ c ‘ и т.д.
Если start отрицательный, возвращаемая строка начнётся отсчитывая start символов с конца string .
Максимальное количество символов возвращаемой из string подстроки. Если не указан или равен NULL — извлекаются все символы до конца строки.
Параметр encoding представляет собой символьную кодировку. Если он опущен или равен null , вместо него будет использовано значение внутренней кодировки.
Возвращаемые значения
mb_substr() возвращает часть строки string , заданную параметрами start и length .
Список изменений
| Версия | Описание |
|---|---|
| 8.0.0 | Теперь параметр encoding может принимать значение null . |
Смотрите также
- mb_strcut() — Получение части строки
- mb_internal_encoding() — Установка/получение внутренней кодировки скрипта
User Contributed Notes 9 notes
8 years ago
As you often need to iterate over UTF-8 characters inside a string, you might be tempted to use mb_substr($text,$i,1).
The problem with this is that there is no «magic» way to find $i-th character inside UTF-8 string, other than reading it byte by byte from the begining. Thus a loop which calls mb_substr($text,$i,1) N times for all possible N values of $i, will take much longer than expected. The larger the $i gets, the longer is the search for $i-th letter. As characters are between 1 to 6 bytes long, one can convince oneself, that the execution time of such loop is actually Theta(N^2), which can be really slow even for moderately long texts.
One way to work around it is to first split your text into an array of letters using some smart preprocessing, and only then iterate over the array.
Here is the idea:
class Strings
public static function len ( $a ) return mb_strlen ( $a , ‘UTF-8’ );
>
public static function charAt ( $a , $i ) return self :: substr ( $a , $i , 1 );
>
public static function substr ( $a , $x , $y = null ) if( $y === NULL ) $y = self :: len ( $a );
>
return mb_substr ( $a , $x , $y , ‘UTF-8’ );
>
public static function letters ( $a ) $len = self :: len ( $a );
if( $len == 0 ) return array();
>else if( $len == 1 ) return array( $a );
>else return Arrays :: concat (
self :: letters ( self :: substr ( $a , 0 , $len >> 1 )),
self :: letters ( self :: substr ( $a , $len >> 1 ))
);
>
>
?>
As you can see, the Strings::letters($text) split the text recursively into two parts. Each level of the recursion requires time linear in the length of the string, and there is logarithmic number of levels, so the total runtime is O(N log N), which is still more than theoretically optimal O(N), but sadly this is the best idea I’ve got.
18 years ago
Note: If borders are out of string — mb_string() returns empty _string_, when function substr() returns _boolean_ false in this case.
Keep this in mind when using «== default»>
var_dump ( substr ( ‘abc’ , 5 , 2 ) ); // returns «false»
var_dump ( mb_substr ( ‘abc’ , 5 , 2 ) ); // returns «»
?>
It’s especially confusing when using mbstring with function overloading turned on.
12 years ago
I’m trying to capitalize only the first character of the string and tried some of the examples above but they didn’t work. It seems mb_substr() cannot calculate the length of the string in multi-byte encoding (UTF-8) and it should be set explicitly. Here is the corrected version:
function mb_ucfirst ( $str , $enc = ‘utf-8’ ) <
return mb_strtoupper ( mb_substr ( $str , 0 , 1 , $enc ), $enc ). mb_substr ( $str , 1 , mb_strlen ( $str , $enc ), $enc );
>
?>
cheers!
18 years ago
Thanks Darien from /freenode #php for the following example (a little bit changed).
It just prints the 6th character of $string.
You can replace the digits by the same in japanese, chinese or whatever language to make a test, it works perfect.
mb_internal_encoding ( «UTF-8» );
$string = «0123456789» ;
$mystring = mb_substr ( $string , 5 , 1 );
echo $mystring ;
?>
(I couldn’t replace 0123456789 by chinese numbers for example here, because it’s automatically converted into latin digits on this website, look :
零一二三四
五六七八九)
9 days ago
Here is an example demonstrating the difference between `substr` and `mb_substr` functions:
1- When working with non UTF-8 characters, both functions behave the same and give the same output:
$str = ‘abcdef’;
echo substr($s, 0, 3); // abc
echo mb_substr($s, 0, 3); // abc
2- When working with UTF-8 characters, each function will behave differently and give a different result:
2.A- The ‘substr’ function works on the byte-level and with single-byte encoded characters only (doesn’t support multibyte encoding).
echo substr($str_utf8, 0, 3); // dé
echo substr($str_utf8, 0, 2); // d�
=> That’s because the special character «é» (and «à») is internally coded with two bytes:
PHP will start reading the first byte at index 0, which represents `d`, then move to the second byte, which is a part of the two-byte encoding of the character ` é `, and since the length is set to 2, PHP will stop here and doesn’t continue reading the third byte, so it doesn’t recognize the character ` é ` and prints � instead of é.
2.B- The ‘mb_substr’ function works on the character-level and supports multibyte encoded characters. This means, PHP counts the number of characters only and doesn’t take into consideration the number of bytes of their encoding, for example:
echo mb_substr($str_utf8, 0, 4, «UTF-8»); // Déjà
echo mb_substr($str_utf8, 1, 4, «UTF-8»); // éjà_
echo mb_substr($str_utf8, 6, 4, «UTF-8»); // u
echo mb_substr($str_utf8, 7, 4, «UTF-8″); // »
echo mb_substr($str_utf8, -2, «UTF-8»); // vu
echo mb_substr($str_utf8, -2, 1, «UTF-8»); // v
echo mb_substr($str_utf8, -2, 3, «UTF-8»); // vu
10 years ago
quick and dirty loop through multibyte string
function get_character_classes ( $string , $encoding = «UTF-8» ) $current_encoding = mb_internal_encoding ();
mb_internal_encoding ( $encoding );
$has = array();
$stringlength = mb_strlen ( $string , $encoding );
for ( $i = 0 ; $i < $stringlength ; $i ++) $c = mb_substr ( $string , $i , 1 );
if (( $c >= «0» ) && ( $c <= "9" )) $has [ 'numeric' ] = "numeric" ;
> else if (( $c >= «a» ) && ( $c <= "z" )) $has [ 'alpha' ] = "alpha" ;
$has [ ‘alphalower’ ] = ‘alphalower’ ;
> else if (( $c >= «A» ) && ( $c <= "Z" )) $has [ 'alpha' ] = "alpha" ;
$has [ ‘alphaupper’ ] = «alphaupper» ;
> else if (( $c == «$» ) || ( $c == «£» )) $has [ ‘currency’ ] = «currency» ;
> else if (( $c == «.» ) && ( $has [ ‘decimal’ ])) $has [ ‘decimals’ ] = «decimals» ;
> else if ( $c == «.» ) $has [ ‘decimal’ ] = «decimal» ;
> else if ( $c == «,» ) $has [ ‘comma’ ] = «comma» ;
> else if ( $c == «-» ) $has [ ‘dash’ ] = «dash» ;
> else if ( $c == » » ) $has [ ‘space’ ] = «space» ;
> else if ( $c == «/» ) $has [ ‘slash’ ] = «slash» ;
> else if ( $c == «:» ) $has [ ‘colon’ ] = «colon» ;
> else if (( $c >= » » ) && ( $c <= "~" )) $has [ 'ascii' ] = "ascii" ;
> else $has [ ‘binary’ ] = «binary» ;
>
>
mb_internal_encoding ( $current_encoding );
$string = «1234asdfA£^_<>|>~žščř» ;
echo print_r ( get_character_classes ( $string ), true );
?>
Array
(
[numeric] => numeric
[alpha] => alpha
[alphalower] => alphalower
[alphaupper] => alphaupper
[currency] => currency
[ascii] => ascii
[binary] => binary
)
10 years ago
A serious pitfall when using mb_substr() set to HTML-ENTITIES encoding is that the function performs a number of conversions before returning the value, the worst one being that html special characters are not just counted but decoded.
mb_internal_encoding ( «ISO-8859-1» ); echo mb_internal_encoding (), «\n
\n» ;
echo mb_substr ( $a , 0 , strlen ( $a ), ‘HTML-ENTITIES’ );
// page source: jüst ä » simple » 日本 test
7 years ago
you can make mb_substr working faster with long strings with usage of ucs-2 encoding.
function test ( $string , $encoding = ‘utf8’ ) $t1 = microtime ( true );
$textlen = mb_strlen ( $string );
$substr_len = 3 ;
for( $i = 0 ; $i < $textlen - $substr_len + 1 ; $i ++)$substr = mb_substr ( $string , $i , $substr_len );
>
echo ‘mb_substr, ‘ . $encoding . ‘: ‘ .( microtime ( true )- $t1 );
echo ‘ . check: ‘ ;
if( $encoding == ‘ucs2’ ) $substr = mb_convert_encoding ( $substr , ‘utf-8’ , ‘ucs2’ );
>
var_dump ( $substr );
echo ‘ .
‘ ;
echo ‘
‘ ;
>
$corpus_short = str_repeat ( ‘тест Тест ‘ , 1000 );
// it works likewise slowly with «test Test» with utf8
mb_internal_encoding ( ‘utf-8’ );
test ( $corpus_short );
$corpus_short_ucs2 = mb_convert_encoding ( $corpus_short , ‘ucs2’ , ‘utf-8’ );
mb_internal_encoding ( ‘ucs2’ );
test ( $corpus_short_ucs2 , ‘ucs2’ );
mb_substr, utf8: 0.26480984687805 . check: string(5) «ст » .
mb_substr, ucs2: 0.0048871040344238 . check: string(5) «ст » .
15 years ago
First letter in upper case
header ( ‘Content-type: text/html; charset=utf-8’ );
function ucfirst_utf8 ( $str ) if ( mb_check_encoding ( $str , ‘UTF-8’ )) $first = mb_substr (
mb_strtoupper ( $str , «utf-8» ), 0 , 1 , ‘utf-8’
);
return $first . mb_substr (
mb_strtolower ( $str , «utf-8» ), 1 , mb_strlen ( $str ), ‘utf-8’
);
> else return $str ;
>
>
?>
- Функции для работы с многобайтовыми строками
- mb_check_encoding
- mb_chr
- mb_convert_case
- mb_convert_encoding
- mb_convert_kana
- mb_convert_variables
- mb_decode_mimeheader
- mb_decode_numericentity
- mb_detect_encoding
- mb_detect_order
- mb_encode_mimeheader
- mb_encode_numericentity
- mb_encoding_aliases
- mb_ereg_match
- mb_ereg_replace_callback
- mb_ereg_replace
- mb_ereg_search_getpos
- mb_ereg_search_getregs
- mb_ereg_search_init
- mb_ereg_search_pos
- mb_ereg_search_regs
- mb_ereg_search_setpos
- mb_ereg_search
- mb_ereg
- mb_eregi_replace
- mb_eregi
- mb_get_info
- mb_http_input
- mb_http_output
- mb_internal_encoding
- mb_language
- mb_list_encodings
- mb_ord
- mb_output_handler
- mb_parse_str
- mb_preferred_mime_name
- mb_regex_encoding
- mb_regex_set_options
- mb_scrub
- mb_send_mail
- mb_split
- mb_str_pad
- mb_str_split
- mb_strcut
- mb_strimwidth
- mb_stripos
- mb_stristr
- mb_strlen
- mb_strpos
- mb_strrchr
- mb_strrichr
- mb_strripos
- mb_strrpos
- mb_strstr
- mb_strtolower
- mb_strtoupper
- mb_strwidth
- mb_substitute_character
- mb_substr_count
- mb_substr
- Copyright © 2001-2024 The PHP Group
- My PHP.net
- Contact
- Other PHP.net sites
- Privacy policy
mb_strcut
mb_strcut() вырезает подстроку из строки также, как mb_substr() , но оперирует байтами вместо символов. Если начало вырезаемой части попадает между байтами одного символа, функция вырежет подстроку, начиная с первого байта этого символа. Это существенное отличие от substr() , которая просто вырежет подстроку, начиная с середины символа, и нарушит тем самым последовательность байт в строке.
Список параметров
Если start не отрицательное, возвращённая строка начнётся с позиции start в байтах от начала string , начальный байт имеет индекс 0. К примеру, в строке ‘ abcdef ‘, байт в позиции 0 — это ‘ a ‘, байт в позиции 2 — ‘ c ‘ и т.д.
Если start отрицательное, возвращаемая строка будет начинаться с байта start с обратным отсчётом от конца string . Однако, если величина отрицательного start превышает длину строки, возвращаемая часть начнётся с начала string .
Длина подстроки в байтах bytes. Если не указана, то передаётся NULL и вырезаются все байты до конца строки.
Если length отрицательное, возвращаемая строка будет заканчиваться байтом length с обратным отсчётом от конца string . Однако если величина отрицательного значения length превышает число символов после позиции start , будет возвращена пустая строка.
Параметр encoding представляет собой символьную кодировку. Если он опущен или равен null , вместо него будет использовано значение внутренней кодировки.
Возвращаемые значения
mb_strcut() возвращает часть строки string , заданную аргументами start и length .
Список изменений
Версия Описание 8.0.0 Теперь параметр encoding может принимать значение null . substr обрезать строку PHP
Возвращает часть строки, заданную параметрами offset и length.
Параметры
Строка, с которой будет работать функция.
If offset is non-negative, the returned string will start at the offset’th position in string, counting from zero. For instance, in the string ‘abcdef’, the character at position 0 is ‘a’, the character at position 2 is ‘c’, and so forth.
If offset is negative, the returned string will start at the offset’th character from the end of string.
If string is less than offset characters long, an empty string will be returned.
Пример #1 Использование отрицательного значения offset
If length is given and is positive, the string returned will contain at most length characters beginning from offset (depending on the length of string).
If length is given and is negative, then that many characters will be omitted from the end of string (after the start position has been calculated when a offset is negative). If offset denotes the position of this truncation or beyond, an empty string will be returned.
If length is given and is 0, false or null, an empty string will be returned.
If length is omitted, the substring starting from offset until the end of the string will be returned.
Пример #2 Использование отрицательного значения length
Возвращаемые значения
Функция substr() возвращает часть строки или пустую строку.