Мне пришел с неформатированным текстом ( можно скачать здесь ).
В статье я объясняю как сделать файл с ссылками ( можно скачать здесь).
Результат — потраченное время 15-30 минут вместо 3-5 часов (в лучшем случае).
Мне пришел файл в формате:
Автозаводская (0/5)
http://www.solidarnost.info/index.php?option=com_mtree&task=listcats&cat_id=43&Itemid=4
АГЕНТСТВО НЕДВИЖИМОСТИ ПРОФИИНВЕСТ 2002 ООО
ЛЮНАЯ РИЭЛ ЭСТЕЙТ
ОЦЕНКА И НЕДВИЖИМОСТЬ
АБСОЛЮТ
КРАСНЫЙ УГОЛ
…
Юго-Западная (0/3)
http://www.solidarnost.info/index.php?option=com_mtree&task=listcats&cat_id=198&Itemid=4
МИАН Отделение «ЮГО-ЗАПАДНОЕ»
МОНОЛИТ ИНВЕСТИЦИОННО-РИЭЛТЕРСКАЯ КОМПАНИЯ
СОДЕЙСТВИЕ XXI
где Автозаводская и Юго-Западная — это станции метро,
урл страниц — это урл каждого метро,
а остальные элементы — это агентства недвижимости, соответствующие каждому метро.
Всего станций метро было около 180. Сам файл с неформатированным текстом можно скачать здесь.
Файл нужн нужно было привести к виду:
<name>Автозаводская (0/5)</name><a href=»http://www.solidarnost.info/index.php?option=com_mtree&task=listcats&cat_id=43&Itemid=4″>АГЕНТСТВО НЕДВИЖИМОСТИ ПРОФИИНВЕСТ 2002 ООО</a>
<name>Автозаводская (0/5)</name><a href=»http://www.solidarnost.info/index.php?option=com_mtree&task=listcats&cat_id=43&Itemid=4″>ЛЮНАЯ РИЭЛ ЭСТЕЙТ</a>
<name>Автозаводская (0/5)</name><a href=»http://www.solidarnost.info/index.php?option=com_mtree&task=listcats&cat_id=43&Itemid=4″>ОЦЕНКА И НЕДВИЖИМОСТЬ</a>
<name>Автозаводская (0/5)</name><a href=»http://www.solidarnost.info/index.php?option=com_mtree&task=listcats&cat_id=43&Itemid=4″>АБСОЛЮТ</a>
<name>Автозаводская (0/5)</name><a href=»http://www.solidarnost.info/index.php?option=com_mtree&task=listcats&cat_id=43&Itemid=4″>КРАСНЫЙ УГОЛ</a>
…
<name>Юго-Западная (0/3)</name><a href=»http://www.solidarnost.info/index.php?option=com_mtree&task=listcats&cat_id=198&Itemid=4″>МИАН Отделение «ЮГО-ЗАПАДНОЕ»</a>
<name>Юго-Западная (0/3)</name><a href=»http://www.solidarnost.info/index.php?option=com_mtree&task=listcats&cat_id=198&Itemid=4″>МОНОЛИТ ИНВЕСТИЦИОННО-РИЭЛТЕРСКАЯ КОМПАНИЯ</a>
<name>Юго-Западная (0/3)</name><a href=»http://www.solidarnost.info/index.php?option=com_mtree&task=listcats&cat_id=198&Itemid=4»>СОДЕЙСТВИЕ XXI</a>
Итоговый файл можно скачать здесь.
Итак, как правильно отформатировать текст из множества элементов и превести его к единому виду, или готовим урлы и ссылки для массового добавления урлов в sape.ru?
1. Добавил всё это дело в блокнот
2. Заменил все вхождения «http://» на «/thttp://» («[скрытый-символ-Таб]http://») ; так мы пометили все адреса урлы
3. Заменил все вхождения «\n\thttp://» на «</name><a href=»http://» ; так мы сформировали центр наших ссылок.
4. Заменил все «\n\n» на «\т12345″ — тем самым избавившись от промежутков между блоков.
5. Заменил все » \n» на «\n» — тем самым убрав пробелы в конце строк
6. Заменил все «12345» на «\n\t\t<name>», тем самым выделив все значения (кроме 1го в отдельный будущий столбик экселя
7. У первого значения добавил таб.+таб.+<name>
8. Всё скопировал и вставил в документ экселя. Получилось 3 заполненных столбка:
столбец А — значениями агентств
столбец B — пустой
столбец C — станциями метро и урлами
9. В столбец D вставляем значение «> и копируем на весь столбик
10. Копируем все и вставляем в текстовый файл.
11. Меняем все \t»> на «>
12. Меняем все \t\t»> на ничего (пустое место). Получили чистое начало всех ссылок.
13. Всё скопировал и вставил в документ экселя, оставив спереди вставленного пустой столбец.
14. Выделяю ручками значения столбика D (не выделять весь столбик, а выделять значения этого столбика ручками!) и
вставляю значения в столбик A, только начиная со строчки №2.
15. В столбик C вставляем значение </a> и копируем на весь столбик
16. Копируем все и вставляем в текстовый файл.
17 Меняем все \t</a> на </a>
18. Меняем все \t</a> на ничего (пустое место). Получили чистое начало всех ссылок.
19. Используем регулярное выражение. Меняем все
<name>(.*)</name>(.*)href=»(.*)»>(.*)</a>\n\t
<name>\1</name>\2href=»\3″>\4</a>\n<name>\1</name>\2href=»\3″>
мы получили везде вторую строчку заполненную.
20. Осталось заполнить все остальные строчки (станции метро, где количество элементов больше двух).
Производим замену кодом, указанном в пункте 19, пока не будет написано, что замененных элементов = 0
(мне пришлось нажать на кнопку мыши раз 20).
21. Последний штрих. Убираем табуляцию у первых строк (она осталась после переноса из экселя).
Для этого меняем все «>\t на «>
22. При необходимости удаляем все промежутки между блоками.
Для этого меняем все \n\n на \n до тех пор, пока не будет написано, что замененных элементов = 0.
Все ссылки готовы! Итого потрачено времени — 15-30 минут.
Если бы каждую ссылку пришлось бы «проходить» и составлять руками, потратили бы часов 3-5 и кучу нервов.
Теперь можно идти в Сапе (сейпе) в проект и загружать все ссылки через Пакетное добавление урлов. В итоге будет добавлено около 180 урлов проекта и более чем 1000 текстов.
Олег
Спасибо за статью, не думал что такую работу можно проделать используя только блокнот!
Dimon
Спасибо полезная статья, я думал что надо спец ПО, а можно только через блокнот!
Коля
Ого, и это через блокнот! Спс автору!
Eduard
Очень интересный способ описан! Буду пробовать!
Серёга
Интересно, никогда такого не видел!
Антон
Супер, никогда такого ещё не видел!
Юрий
Очень удачный метод, так получается секономить много времени!
Игорь
Хороший удобный и простой метод!
Михаил Мятов (Эртэд)
Спасибо всем.
В дополнение.
Как из формата
щебень опт
щебень розница
щебень доставка от 1м3
гранит опт
гранит розница
гранит доставка от 1м3
получить ссылки для GoGetLinks формата
http://www.gogetlinks.net/;текст ссылки;ключевое слово;5
1. Заменяем
на ;
3. Заменяем
на ;1
Мы получили за 2 минуты ссылки для GGL вида:
http://www.gravii.ru/index.php?option=com_content&task=view&id=171&Itemid=12;щебень опт;1
http://www.gravii.ru/index.php?option=com_content&task=view&id=171&Itemid=12;щебень розница;1
http://www.gravii.ru/index.php?option=com_content&task=view&id=171&Itemid=12;щебень доставка от 1м3;1
http://www.gravii.ru/index.php?option=com_content&task=view&id=170&Itemid=1;гранит опт;1