Мегаскрипт
Возможности скрипта:
* Выдирание контента из html файлов
* Сохранение и изменение размеров награбленых изображений. Рисунки можно сохранять у себя на сервере или же просто оставлять как было (hotlink)
* Поддержка WordPress и DataLife Engine
* Модерирование уже награбленного контента
* Фильтр ключевых слов позволяет задавать обязательные ключевые слова или запретные
* Определение раздела статьи по плотности ключевых слов
* Замена ключевых слов ссылками (можно использовать маски для определения ссылок для списка ключевиков).
* Создание неограниченного количества парсеров позволяет тянуть контент с многих источников, тем самым повышая уникальность проекта.
* Нет ограничений по времени и количеству устанавливаемых версий.
* Фильтр html тегов позволяет очистить контент от исходящих ссылок или других ненужных елементов.
* Можно изменять длину превью текста. Разумное разделение текста между абзацами.
* Возможность добавления копирайта
* Встроеный скрипт редиректа ссылок
* Простота установки и хорошая тех. поддержка
* Хорошее понимание как английского так и русского текста. Есть встроенные конвертеры кодировок. Поддержка UTF-8
* Работа с proxy
* Поддержка WPKeys
Для нормальной работы скрипта необходимы:
* PHP (с библиотеками CURL, XML, GD)
* MySQL
* cron
Скрипт уже настроен для работы с Bitrix, Danneo, DataLife Engine, Joomla, Seditio, Strawberry, WordPress.
Установка:
1. Залейте на сервер файлы Вашей CMS и папку wp-import (в корень сайта)
2. Установите права доступа 777 на папки:
/wp-import/images/
/wp-import/config/ (на некоторых серверах нужно поставить права на запись на каждый файл отдельно)
/wp-import/cache/
/wp-import/log.txt
3. Зайдите в раздел "Параметры" - выберите свою CMS. Установите кодировку блога (по умолчанию UTF-8). Максимальные размеры изображений...
4. Установите базу данных с помощью пункта меню "Установка"
5. Выберите фиды на интересующие тематики и создайте категории в WordPress
6. Зайдите в админ панель, раздел "Парсер" (/wp-import/admin/parser.php) и создайте парсер с значениями границ " " для интересующего Вас источника контента (см. ниже).
7. Добавьте выбранные RSS ленты в разделе "RSS фиды", указав ссылку на фид, ID категории, куда сохранять новости и выберите парсер из выпадающего меню.
(Использование разных парсеров позволяет использование сразу нескольких сайтов-источников новостей)
Вы можете протестировать работу парсера нажав иконку листа с зеленой стрелочкой.
8. Проверьте настройки на странице "Параметры". Установите кодировку блога (по умолчанию UTF-8), движок. Максимальные размеры изображений...
Отключите поддержку WPKeys если не используете этот плагин!
9. Откройте в браузере /wp-import/admin/install.php - этот скрипт создаст нужную таблицу для временных данных в базе.
Установка завершена!!!
Настройка парсера
Для нормальной работы парсера нужно указать границы между хедером и контентом, футером и контентом. Для более гибкой настройки используются смещения, если на границе стоит повторяющийся во всем тексте блок.
Смотрите пример:
<p>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
</div>
Article begins here. If you are attempting to start a business online...<br />
<br />
The most powerful tactic in the history of warfare is...<br />
<br />
Article ends here.</p>
<p class=""articletext"><a href="http://www.articledashboard.com">Article Source</a>: http://www.articledashboard.com</p>
<p class="articletext">
</p>
<p class="articletext">
For fast, higher rankings of your website ...</p>
<p class="articletitle">Please Rate this Article</p>
Настройки парсера:
'header' => 'show_ads.js"></script></div>',
'headerOffset' => 0,
'footer' => 'http://www.articledashboard.com">article source</a>',
'footerOffset' => -38
То есть парсер сохранит текст начиная от значения header и заканчивая в footer, причем в даном случае метка конца статьи смещена к началу на 38 символов.
Работа скрипта разделена на три этапа:
1. проверка RSS - /wp-import/ или /wp-import/get_rss.php
2. парсинг html - /wp-import/get_article.php
3. сохранение результата в базу - /wp-import/post_article.php
Вы можете установить задачу cron для автоматического регулярного обновления контента. Команда cron:
GET http://www.domen.com/wp-import/cron.php > /dev/null
Интервал проверки выбирайте в зависимости от частоты обновления сайтов-источников.