Мегаскрипт

Возможности скрипта:

    * Выдирание контента из html файлов
    * Сохранение и изменение размеров награбленых изображений. Рисунки можно сохранять у себя на сервере или же просто оставлять как было (hotlink)
    * Поддержка WordPress и DataLife Engine
    * Модерирование уже награбленного контента
    * Фильтр ключевых слов позволяет задавать обязательные ключевые слова или запретные
    * Определение раздела статьи по плотности ключевых слов
    * Замена ключевых слов ссылками (можно использовать маски для определения ссылок для списка ключевиков).
    * Создание неограниченного количества парсеров позволяет тянуть контент с многих источников, тем самым повышая уникальность проекта.
    * Нет ограничений по времени и количеству устанавливаемых версий.
    * Фильтр html тегов позволяет очистить контент от исходящих ссылок или других ненужных елементов.
    * Можно изменять длину превью текста. Разумное разделение текста между абзацами.
    * Возможность добавления копирайта
    * Встроеный скрипт редиректа ссылок
    * Простота установки и хорошая тех. поддержка
    * Хорошее понимание как английского так и русского текста. Есть встроенные конвертеры кодировок. Поддержка UTF-8
    * Работа с proxy
    * Поддержка WPKeys

      Для нормальной работы скрипта необходимы:
    * PHP (с библиотеками CURL, XML, GD)
    * MySQL
    * cron

Скрипт уже настроен для работы с Bitrix, Danneo, DataLife Engine, Joomla, Seditio, Strawberry, WordPress.

Установка:

   1. Залейте на сервер файлы Вашей CMS и папку wp-import (в корень сайта)
   2. Установите права доступа 777 на папки:
      /wp-import/images/
      /wp-import/config/ (на некоторых серверах нужно поставить права на запись на каждый файл отдельно)
      /wp-import/cache/
      /wp-import/log.txt
   3. Зайдите в раздел "Параметры" - выберите свою CMS. Установите кодировку блога (по умолчанию UTF-8). Максимальные размеры изображений...
   4. Установите базу данных с помощью пункта меню "Установка"
   5. Выберите фиды на интересующие тематики и создайте категории в WordPress
   6. Зайдите в админ панель, раздел "Парсер" (/wp-import/admin/parser.php) и создайте парсер с значениями границ " " для интересующего Вас источника контента (см. ниже).
   7. Добавьте выбранные RSS ленты в разделе "RSS фиды", указав ссылку на фид, ID категории, куда сохранять новости и выберите парсер из выпадающего меню.
      (Использование разных парсеров позволяет использование сразу нескольких сайтов-источников новостей)
      Вы можете протестировать работу парсера нажав иконку листа с зеленой стрелочкой.
   8. Проверьте настройки на странице "Параметры". Установите кодировку блога (по умолчанию UTF-8), движок. Максимальные размеры изображений...
      Отключите поддержку WPKeys если не используете этот плагин!
   9. Откройте в браузере /wp-import/admin/install.php - этот скрипт создаст нужную таблицу для временных данных в базе.

Установка завершена!!!

Настройка парсера
Для нормальной работы парсера нужно указать границы между хедером и контентом, футером и контентом. Для более гибкой настройки используются смещения, если на границе стоит повторяющийся во всем тексте блок.

Смотрите пример:
<p>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
</div>
Article begins here. If you are attempting to start a business online...<br />
<br />
The most powerful tactic in the history of warfare is...<br />
<br />
Article ends here.</p>
<p class=""articletext"><a href="http://www.articledashboard.com">Article Source</a>: http://www.articledashboard.com</p>
<p class="articletext">
</p>
<p class="articletext">
For fast, higher rankings of your website ...</p>
<p class="articletitle">Please Rate this Article</p>

Настройки парсера:
'header' => 'show_ads.js"></script></div>',
'headerOffset' => 0,
'footer' => 'http://www.articledashboard.com">article source</a>',
'footerOffset' => -38

То есть парсер сохранит текст начиная от значения header и заканчивая в footer, причем в даном случае метка конца статьи смещена к началу на 38 символов.

Работа скрипта разделена на три этапа:
1. проверка RSS - /wp-import/ или /wp-import/get_rss.php
2. парсинг html - /wp-import/get_article.php
3. сохранение результата в базу - /wp-import/post_article.php

Вы можете установить задачу cron для автоматического регулярного обновления контента. Команда cron:
GET http://www.domen.com/wp-import/cron.php > /dev/null

Интервал проверки выбирайте в зависимости от частоты обновления сайтов-источников.