Чистим текст

4 Май
2010

Есть куча текста, большая куча текста, который нужно подправить, а именно удалить все знаки переносов строк, подобный скрипт писать совсем не долго, проблема в том, что каждый раз я их пишу, и после того как они отработали, я забываю что где писал, на этот раз решил сделать более расширенный скриптик, который должен мне служить верой и правдой.

Смысл работы его будет прост до слез, есть файл, который нужно обработать, и есть правило для регулярного выражения, которое нужно применить к тексту в файле, на выходе нужно получить тоже файл, придумал — сделал.

Пока скрипт умеет только удалять те последовательности которые описанные в правиле. Правила пишутся по одному в строку, в текстовом поле. Сам исходный файл думаю понятно где указывается, на выходе получим файл, скачать который можно по нажатию на соответствующую ссылку в низу страницы.

Т.к. изначально скрипт был призван убирать переносы, то и начальное значение в правилах стоит именно удаление переносов. Почему их два ? потому что в среде виндовс конец строки определяется как \r\n что соответствует 13 и 10 символам ASCII, а именно 13 — возврат коретки, 10 — признак новой строки. А вот в никс подобных системах используется только \n. Поэтому и правил два.

Ну и по традиции расскажу что же это за китайская грамота:

\S(\-)\r\n

\S  — означает любой символ кроме символов переноса строки
(\-) символ переноса
\r\n — обозначение спец.символов возврата каретки и признака новой строки.
В переводе это означает следующие — удалить все переносы, если перед переносом стоит любой видимый знак, и после переноса идет новая строка.

Вот так все просто

слов — 245, знаков: с пробелами — 1598, без пробелов — 1354
google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru
Читайте так же:

Комментировать

Вы должны войти чтобы комментировать.


Наверх