Durian Extractor

Web page extractor and readability using Jsoup. Enable javascript serverside rendering support using JBrowserDriver (Selenium WebDriver).

Prerequisites:

Java JDK-1.8 or higher
Apache Maven 3 or higher
Please refer http://maven.apache.org/guides/getting-started/maven-in-five-minutes.html for any help in Maven.

Install

because this project not pushed to any public maven repos, you should install it first locally

    mvn clean install

add this project as dependency of your project

    <dependency>
        <groupId>co.mailtarget</groupId>
        <artifactId>durian</artifactId>
        <version>0.0.2-SNAPSHOT</version>
    </dependency>

Usage

###kotin

    val extractor = WebExtractor.Builder
                    .strategy(Strategy.HYBRID)
                    .build()
    
    val webData = extractor.extract(url)

or

    val forceJavascript = false
    WebData webData = extractor.extract(url, forceJavacript)

###Java

    WebExtractor extractor = new WebExtractor.Builder()
                    .strategy(Strategy.HYBRID)
                    .build();
    WebData webData = extractor.extract(url);

or

    boolean forceJavascript = false;
    WebData webData = extractor.extract(url, forceJavacript);

Options

###Extract Strategy

META : fastest method, just parse content from meta
CONTENT : prefer using content as source of extraction
HYBRID : fetch from meta first, if not found search deeper from content

###System Config

tried in MAC OS machine and work well, on centos machine, please install

    yum groupinstall -y "Fonts"
    yum install gtk2

optional : gtkhtml3 libXtst libxslt alsa-lib

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
src		src
.gitignore		.gitignore
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Durian Extractor

Prerequisites:

Install

Usage

Options

About

Uh oh!

Releases

Packages

Languages

vincensiusadi/durian

Folders and files

Latest commit

History

Repository files navigation

Durian Extractor

Prerequisites:

Install

Usage

Options

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages