Рэгулярныя выразы (або, часам, рэгвыры), якія ўжываюцца ў пошуках і правілах сэгмэнтаваньня, гэта выразы, якія падтрымліваюцца Java. Калі патрабуюцца больш спэцыфічныя зьвесткі, зьвяртайцеся да “Java Regex documentation”. Дадатковыя спасылкі і прыклады гл. ніжэй.
Гэты разьдзел — для дасьведчаных карыстальнікаў, якім патрабуецца вызначаць уласныя варыянты правілаў сэгмэнтаваньня або ўжываць у пошуках складаныя выразы.
Table 17.1. Рэгулярны выраз — сьцягі.
| Канструктыўны элемэнт | … адпавядае наступнаму |
|---|---|
| (?i) | Ня ўлічваць рэгістар пры падборы адпаведнікаў (па змаўчаньні шаблён улічвае рэгістар). |
Table 17.2. Рэгулярны выраз — сымбаль
| Канструктыўны элемэнт | … адпавядае наступнаму |
|---|---|
| x | Сымбаль x, за выключэньнем наступнага… |
| \uhhhh | Сымбаль з шаснаццатковым значэньнем 0xhhhh |
| \t | Сымбаль табуляцыі ('\u0009') |
| \n | Сымбаль новага радка ('\u000A') |
| \r | Сымбаль вяртаньня карэткі ('\u000D') |
| \f | Сымбаль падачы блянка ('\u000C') |
| \a | Сымбаль “званок” ('\u0007') |
| \e | Сымбаль кіроўнай пасьлядоўнасьці ('\u001B') |
| \cx | Кіроўны сымбаль, адпаведны x |
| \0n | Сымбаль з васьмічным значэньнем 0n (0 <= n <= 7) |
| \0nn | Сымбаль з васьмічным значэньнем 0nn (0 <= n <= 7) |
| \0mnn | Сымбаль з васьмічным значэньнем 0mnn (0 <= m <= 3, 0 <= n <= 7) |
| \xhh | Сымбаль з шаснаццатковым значэньнем 0xhh |
Table 17.3. Рэгулярны выраз — цытаваньне
| Канструктыўны элемэнт | … адпавядае наступнаму |
|---|---|
| \ | Нічога, проста азначае наступны сымбаль. Гэта патрабуецца, каб увесьці літаральна адзін з мэта-сымбаляў !$()*+.<>?[\]^{|}. |
| \\ | Напрыклад, гэта — сымбаль зваротнай косай рысы. |
| \Q | Нічога, проста азначае ўсе сымбалі да \E. |
| \E | Нічога, проста азначае канец цытаваньня, пачатага з \Q. |
Table 17.4. Рэгулярны выраз — Клясы для блёкаў і катэгорыя Unicode
| Канструктыўны элемэнт | … адпавядае наступнаму |
|---|---|
| \p{InGreek} | Сымбаль з грэцкага блёку (просты блёк) |
| \p{Lu} | Сымбаль у верхнім рэгістры (простая катэгорыя) |
| \p{Sc} | Сымбаль валюты |
| \P{InGreek} | Які заўгодна сымбаль ня з грэцкага блёку (адмаўленьне) |
| [\p{L}&&[^\p{Lu}]] | Якая заўгодна літара ня ў верхнім рэгістры (адыманьне) |
Table 17.5. Рэгулярны выраз — Клясы сымбаляў
| Канструктыўны элемэнт | … адпавядае наступнаму |
|---|---|
| [abc] | a, b або c (просты кляс) |
| [^abc] | Які заўгодна сымбаль апроч a, b або c (адмаўленьне) |
| [a-zA-Z] | Ад a да z або ад A да Z уключна (дыяпазон) |
Table 17.6. Рэгулярны выраз — Вызначаныя клясы сымбаляў
| Канструктыўны элемэнт | … адпавядае наступнаму |
|---|---|
| . | Які заўгодна сымбаль (апроч канцоў радкоў) |
| \d | Лічба: [0-9] |
| \D | Ня лічба: [^0-9] |
| \s | Прабельны сымбаль: [ \t\n\x0B\f\r] |
| \S | Непрабельны сымбаль: [^\s] |
| \w | Сымбаль у слове: [a-zA-Z_0-9] |
| \W | Сымбаль ня ў слове: [^\w] |
Table 17.7. Рэгулярны выраз — Вызначальнікі межаў
| Канструктыўны элемэнт | … адпавядае наступнаму |
|---|---|
| ^ | Пачатак радка |
| $ | Канец радка |
| \b | Мяжа слова |
| \B | Мяжа няслова |
Table 17.8. Рэгулярны выраз — Прагныя квантары
| Канструктыўны элемэнт | … адпавядае наступнаму |
|---|---|
| X? | X, адзін раз або ніколі |
| X* | X, нуль або некалькі разоў |
| X+ | X, адзін або некалькі разоў |
прагныя квантары адпавядаюць як мага большай пасьлядоўнасьці. Напрыклад, для a+ будзе адпаведнікам aaa у aaabbb
Table 17.9. Рэгулярны выраз — Няпрагныя квантары
| Канструктыўны элемэнт | … адпавядае наступнаму |
|---|---|
| X?? | X, адзін раз або ніколі |
| X*? | X, нуль або некалькі разоў |
| X+? | X, адзін або некалькі разоў |
няпрагныя квантары адпавядаюць як мага меншай пасьлядоўнасьці. Напрыклад, для a+? будзе адпаведнікам першае a у пасьлядоўнасьці aaabbb
Table 17.10. Рэгулярны выраз — Лягічныя апэратары
| Канструктыўны элемэнт | … адпавядае наступнаму |
|---|---|
| XY | X з Y за ім |
| X|Y | Або X, або Y |
| (XY) | XY як адзіная група |
Для тэставаньня рэгулярных выразаў можна скарыстацца з шэрагу інтэрактыўных інструмэнтаў. Яны звычайна працуюць аднолькавым чынам (для прыкладу ўзяты Regular Expression Tester, гл. ніжэй): з рэгулярным выразам (верхні элемэнт) аналізуецца шуканы тэкст (тэкставае поле ў сярэдзіне), знаходзяцца нейкія адпаведнікі, вынікі паказваюцца ў полі выніковага тэксту.
Вэрсіі аўтаномнага інструмэнта для Windows, Linux, FreeBSD: гл. The Regex Coach. Гэта амаль тое самае, што і ў прыкладзе вышэй.
Добры збор карысных прыкладаў рэгулярных выразаў можна ўзяць з самой OmegaT (гл. Налады → Сэгмэнтаваньне). Наступны сьпіс уключае выразы, карысныя для пошукаў у памяці перакладаў:
Table 17.11. Regex — Прыклады рэгулярных выразаў у перакладах
| Рэгулярны выраз | Знойдзецца наступнае: |
|---|---|
| (\b\w+\b)\s\1\b | паўтор словаў |
| [\.,]\s*[\.,]+ | коска або кропка, затым прабелы і яшчэ адна коска або кропка |
| \. \s+$ | лішнія прабелы пасьля кропкі ў канцы радка |
| \s+a\s+[aeiou] | Для ангельскай мовы: перад словамі, якія пачынаюцца з галосных, звычайна павінна стаяць “an”, а ня “a” |
| \s+an\s+[^aeiou] | Для ангельскай мовы: праверка, падобная на апісаную вышэй, але для зычных (“a”, а ня “an”) |
| \s{2,} | адзін або некалькі прабелаў |
| \.[A-Z] | Кропка, за ёй літара ў верхнім рэгістры — магчыма, прапушчаны прабел паміж кропкай і пачаткам новага сказу? |
| \bis\b | пошук “is”, але ня “this” або “isn't” і да г. п. |