Cara Merayapi Situs Besar Dan Mengekstrak Data Menggunakan Spider SEO Screaming Frog

Menjerit Frog SEO Spider
Waktu Membaca: 3 menit

Kami sedang membantu beberapa klien sekarang dengan Migrasi Marketo. Karena perusahaan besar memanfaatkan solusi perusahaan seperti ini, ini seperti jaring laba-laba yang menjalin dirinya sendiri ke dalam proses dan platform selama bertahun-tahun… sampai perusahaan bahkan tidak menyadari setiap titik kontak.

Dengan platform otomatisasi pemasaran perusahaan seperti Marketo, formulir adalah titik masuk data di seluruh situs dan halaman arahan. Perusahaan sering kali memiliki ribuan halaman dan ratusan formulir di seluruh situs mereka yang perlu diidentifikasi untuk pembaruan.

Alat yang hebat untuk ini adalah Screaming Frog's SEO Spider… Mungkin platform paling populer di pasar untuk merayapi, mengaudit, dan mengekstrak data dari sebuah situs. Platform ini kaya fitur dan menawarkan ratusan opsi untuk hampir setiap tugas yang Anda butuhkan.

Screaming Frog SEO Spider: Merayapi dan Mengekstrak

Fitur utama dari Screaming Frog SEO Spider adalah Anda dapat melakukan ekstraksi khusus berdasarkan Regex, XPath, atau CSSPath spesifik. Ini sangat berguna karena kami ingin merayapi situs klien dan mengaudit serta menangkap nilai MunchkinID dan FormId dari laman.

Dengan alat tersebut, buka Konfigurasi> Kustom> Ekstraksi untuk mengidentifikasi elemen yang ingin Anda ekstrak.

ekstraksi kustom screamingfrog

Layar ekstraksi memungkinkan pengumpulan data yang hampir tidak terbatas:

Aturan Ekstraksi Screaming Frog SEO Spider

Ekstraksi Regex, XPath, dan CSSPath

Untuk MunchkinID, pengidentifikasi terletak di dalam skrip formulir yang ada di dalam halaman:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Kami kemudian menerapkan a Aturan ekspresi reguler untuk menangkap id dari dalam tag script yang disisipkan di halaman:

Regex: ["']id["']: *["'](.*?)["']

Untuk Form ID, datanya ada di tag input di dalam form Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Kami menerapkan Aturan XPath untuk menangkap id dari dalam formulir yang disisipkan di halaman. Kueri XPath mencari formulir dengan masukan dengan nama tangguh, maka ekstraksi menyimpan file nilai:

XPath: //form/input[@name="formid"]/@value

Screaming Frog SEO Spider Javascript Rendering

Pilihan hebat lainnya dari Screaming Frog adalah Anda tidak terbatas pada HTML di halaman, Anda dapat membuat JavaScript apa pun yang akan menyisipkan formulir di dalam situs Anda. Dalam Konfigurasi> Spider, Anda dapat membuka tab Rendering dan mengaktifkannya.

Screaming Frog SEO Spider Javascript Rendering

Ini memang membutuhkan waktu lebih lama untuk merayapi situs, tentu saja, tetapi Anda akan mendapatkan formulir yang dirender di sisi klien oleh JavaScript serta formulir yang disisipkan di sisi server.

Meskipun ini adalah aplikasi yang sangat spesifik, ini sangat berguna saat Anda bekerja dengan situs besar. Anda pasti ingin mengaudit di mana formulir Anda disematkan di seluruh situs.

Unduh Screaming Frog SEO Spider

Bagaimana menurut Anda?

Situs ini menggunakan Akismet untuk mengurangi spam. Pelajari bagaimana data komentar Anda diproses.