FirecrawlとClaude Codeの組み合わせが熱い理由
Firecrawlは、Web/PDFを「LLMが読みやすいクリーンなMarkdown」に変換することに特化した、Mendable社が運営するクローラAPIサービスです。一方、Claude CodeはAnthropic公式のターミナル型コーディングエージェント。ファイル操作・コマンド実行・長文推論を1つのCLIで担えます。
この2つを組み合わせると、「PDFを投げる→クリーンなテキストに変換→Claude Codeで構造化記事として出力→ファイル保存」までを半自動化できます。本記事では概要・連携・フロー・具体例・注意点を整理します。
Firecrawl 概要
Firecrawlは「LLM向けのデータ前処理」を専門とするWebスクレイピングAPIです。
- 主な機能: Scrape(単一URL)/ Crawl(サイト全体)/ Map(URL一覧化)/ Extract(構造化抽出)
- PDF対応: PDFのURLをScrapeに渡すとMarkdownへ変換
- JS実行: ヘッドレスブラウザで動的サイトもレンダリング
- クリーン出力: 広告・ナビ・スクリプト等のノイズを除去
- OSS版あり: セルフホスト可能(firecrawl/firecrawl)
Claude Codeとの連携方法
Claude CodeからFirecrawlを呼び出すパターンは主に3つあります。
- Bashツール経由でcurl実行―最もシンプル、依存ゼロ
- Pythonスクリプトで firecrawl-py を使用―長期運用向け
- MCP(Model Context Protocol)サーバを利用―公式Firecrawl MCPあり
方法3: Firecrawl MCPサーバ(推奨)
# Claude Code 設定で MCP サーバを追加 claude mcp add firecrawl npx \ -e FIRECRAWL_API_KEY=fc-xxxx \ -- -y firecrawl-mcp
追加後はClaude Code内で firecrawl_scrape や firecrawl_crawl がツールとして直接呼び出せます。
PDF→記事フロー(基本パターン)
PDF1本から記事1本を生成する代表的フローを示します。
- PDF URLを準備―公開PDF or 自分のサーバにアップロード
- FirecrawlでScrape実行―PDFをMarkdownに変換
- Claude Codeに渡す―変換後Markdownをファイル保存し、CLIで読み込ませる
- 記事構成を指示―「H2見出し5個・FAQ付き・1800字」など
- 出力をファイル保存―Markdown / HTML / WordPress投稿用JSONなど
- 必要に応じて投稿API実行―WordPress REST API等で公開
具体例(最小ワークフロー)
例1: curl + Claude Codeのワンライナー風
# 1. PDFをFirecrawlでScrape
curl -X POST https://api.firecrawl.dev/v1/scrape \
-H "Authorization: Bearer fc-xxxx" \
-H "Content-Type: application/json" \
-d '{"url":"https://example.com/whitepaper.pdf",
"formats":["markdown"]}' \
| jq -r '.data.markdown' > paper.md
# 2. Claude Codeで記事化
claude -p "paper.md を読んで、SEO記事(H2 5個・FAQ・1800字)に書き直して article.md として保存"
例2: Pythonスクリプト
from firecrawl import FirecrawlApp
import subprocess
app = FirecrawlApp(api_key="fc-xxxx")
result = app.scrape_url("https://example.com/spec.pdf",
params={"formats":["markdown"]})
open("spec.md","w").write(result["markdown"])
subprocess.run(["claude","-p",
"spec.md を要約して article.md に保存"])
注意点
- 著作権・利用規約―PDFの著作権・利用規約を必ず確認。商用無断転載は不可
- API料金―Firecrawl・Anthropic両方に課金が発生。月間予算管理を
- ハルシネーション―LLMが内容を勝手に補完するリスク。原文と照合する工程を入れる
- 個人情報―PDFに含まれる個人情報を意図せず公開しないようマスキング
- 長尺PDFのトークン超過―Opus 4.1の200kコンテキストでも限界はある。事前要約や分割が有効
よくある質問
Q. Firecrawlの無料枠は?
A. アカウント作成時に一定数のクレジットが付与されますが、変動するため公式料金ページで最新を確認してください。
Q. 画像PDFも変換できる?
A. 画像中心PDFは抽出精度が落ちることがあります。OCRを併用するのが確実です。
Q. Claude Code以外でも使える?
A. はい、Cursor / Continue / 自作スクリプトなど任意のLLM環境と組み合わせ可能です。
Q. MCPは必須?
A. 必須ではありません。curl/Pythonからでも十分活用できます。
Q. セルフホスト版との違い?
A. 機能面はほぼ同等ですが、セルフホストは初期構築・運用コストがかかる代わりに大量利用時にコスト面で有利です。
まとめ
- FirecrawlでPDF→クリーンMarkdown変換
- Claude Codeで構造化記事に整形→保存
- MCP連携でネイティブ呼び出しが可能
- ハルシネーション・著作権・APIコスト管理に注意
気になる方は公式サイト・ドキュメントで最新情報を確認してください。
✍️ この記事を書いた人
チケットナビ編集部
先払い買取・金券売買の最新情報を初心者にもわかりやすくお届けします。業者の比較、買取率、トラブル対策など、安全に現金化するための情報を徹底調査して発信しています。


コメント