# Blog RAG Toolkit Bộ công cụ RAG (Retrieval-Augmented Generation) hoàn chỉnh: **crawl** blog, **trích xuất** từ khóa, **chia nhỏ** nội dung, **truy vấn** bằng LLM, và **giao diện web** để chat. --- ## Mục lục 1. [Cài đặt](#1-cài-đặt) 2. [Cấu hình API](#2-cấu-hình-api) 3. [Bước 1 — Crawl dữ liệu blog](#bước-1--crawl-dữ-liệu-blog) 4. [Bước 2 — Xây dựng chỉ mục & truy vấn](#bước-2--xây-dựng-chỉ-mục--truy-vấn) 5. [Bước 3 — Giao diện web](#bước-3--giao-diện-web) 6. [Tham khảo](#tham-khảo) --- ## 1. Cài đặt ```bash git clone cd orangepi-rag pip install -r requirements.txt ``` **Yêu cầu:** Python 3.10+, tài khoản [Firecrawl](https://www.firecrawl.dev) (cho crawl), tài khoản LLM — OpenAI / Together.ai / Groq / Ollama (cho truy vấn). --- ## 2. Cấu hình API Tạo file `.env` ở thư mục gốc dự án: ```bash # ─── BẮT BUỘC cho crawl ─── FIRECRAWL_API_KEY=fc-... # ─── BẮT BUỘC cho RAG query ─── OPENAI_API_KEY=sk-... # ─── TÙY CHỌN ─── # Thay đổi LLM provider (mặc định: OpenAI) # LLM_BASE_URL=https://api.together.xyz/v1 # LLM_MODEL=meta-llama/Llama-3-70b-chat-hf ``` > Lấy Firecrawl key tại: https://www.firecrawl.dev > Lấy OpenAI key tại: https://platform.openai.com/api-keys --- ## Bước 1 — Crawl dữ liệu blog ### 1.1 Tạo file từ khóa Tạo file `keywords.json` chứa các từ khóa cần trích xuất từ blog: ```json [ { "category": "hardware", "keywords": ["Raspberry Pi", "Orange Pi", "Arduino", "ESP32"] }, { "category": "software", "keywords": ["Docker", "Ubuntu", "Home Assistant", "MQTT"] } ] ``` Xem file mẫu tại `keywords_example.json`. ### 1.2 Tìm sitemap URL Blog WordPress thường có sitemap tại: - `https://example.com/post-sitemap.xml` (Yoast SEO) - `https://example.com/sitemap.xml` (generic) ### 1.3 Chạy crawl ```bash # Test thử 5 bài viết python crawl_blog.py \ --sitemap https://example.com/post-sitemap.xml \ --limit 5 \ --out-dir ./blog_data # Crawl toàn bộ blog python crawl_blog.py \ --sitemap https://example.com/post-sitemap.xml \ --all \ --keywords keywords.json \ --out-dir ./blog_data # Crawl với tùy chỉnh python crawl_blog.py \ --sitemap https://example.com/post-sitemap.xml \ --all \ --keywords keywords.json \ --out-dir ./blog_data \ --sleep 1.5 \ --max-words 500 \ --overlap-words 80 \ --language vi ``` ### 1.4 Kết quả Sau khi crawl xong, thư mục `blog_data/` sẽ chứa: ``` blog_data/ ├── articles.jsonl # Mỗi dòng = 1 bài viết (title, text, keywords, ...) ├── chunks.jsonl # Mỗi dòng = 1 đoạn nhỏ (~650 từ) cho embedding ├── keywords.json # File từ khóa đã dùng ├── urls.json # Danh sách URL tìm được từ sitemap ├── raw/.json # Response gốc từ Firecrawl ├── markdown/.md # Markdown đã làm sạch ├── errors.jsonl # Các URL lỗi └── summary.json # Tổng kết crawl ``` ### 1.5 Tham số đầy đủ | Tham số | Mặc định | Mô tả | |---------|----------|-------| | `--sitemap` | (bắt buộc) | URL sitemap | | `--out-dir` | `./blog_data` | Thư mục output | | `--keywords` | `/keywords.json` | File từ khóa JSON | | `--limit N` | 5 | Crawl N bài đầu tiên | | `--all` | — | Crawl toàn bộ | | `--sleep SEC` | 1.0 | Nghỉ giữa mỗi request (giây) | | `--force` | — | Crawl lại kể cả đã có cache | | `--max-words N` | 650 | Số từ tối đa mỗi chunk | | `--overlap-words N` | 100 | Số từ overlap giữa các chunk | | `--language` | `en` | Mã ngôn ngữ mặc định | --- ## Bước 2 — Xây dựng chỉ mục & truy vấn ### 2.1 Xây dựng chỉ mục FAISS ```bash python rag_app.py \ --build \ --data-dir ./blog_data \ --index-dir ./rag_index ``` Kết quả: ``` rag_index/ ├── faiss.index # Chỉ mục vector FAISS └── chunks.jsonl # Bản sao chunks cho retrieval ``` ### 2.2 Truy vấn đơn lẻ ```bash python rag_app.py \ --query "Cài Docker trên Raspberry Pi như thế nào?" \ --data-dir ./blog_data \ --index-dir ./rag_index ``` ### 2.3 Chat interactive (terminal) ```bash python rag_app.py \ --interactive \ --data-dir ./blog_data \ --index-dir ./rag_index ``` Gõ câu hỏi, nhận câu trả lời. Nhấn `Ctrl+C` để thoát. ### 2.4 Kiểm tra retrieval không cần LLM ```bash python rag_app.py \ --query "Home Assistant" \ --retrieve-only \ --data-dir ./blog_data \ --index-dir ./rag_index ``` Chỉ hiển thị các chunk liên quan nhất, không gọi LLM. ### 2.5 Tham số đầy đủ | Tham số | Mặc định | Mô tả | |---------|----------|-------| | `--data-dir` | `.` | Thư mục chứa chunks.jsonl | | `--index-dir` | `./rag_index` | Thư mục chỉ mục FAISS | | `--build` | — | Xây dựng chỉ mục | | `--query` | — | Câu hỏi cần trả lời | | `--interactive` | — | Chế độ chat terminal | | `--retrieve-only` | — | Chỉ test retrieval, không dùng LLM | | `--top-k` | 5 | Số chunk trả về | | `--embed-model` | `paraphrase-multilingual-MiniLM-L12-v2` | Mô hình embedding | | `--llm-model` | `gpt-4o-mini` | Tên mô hình LLM | | `--llm-base-url` | `https://api.openai.com/v1` | URL API LLM | --- ## Bước 3 — Giao diện web ### 3.1 Khởi động server ```bash python web_app.py \ --data-dir ./blog_data \ --index-dir ./rag_index \ --port 5000 ``` Mở trình duyệt: **http://localhost:5000** ### 3.2 Sử dụng 1. Nhấn **+** để tạo phiên chat mới 2. Gõ câu hỏi vào ô nhập, nhấn **Enter** để gửi 3. Xem câu trả lời + nguồn bài viết 4. Tạo nhiều phiên để hỏi nhiều chủ đề khác nhau 5. Xóa lịch sử hoặc xóa phiên bằng nút trên header ### 3.3 Tính năng | Tính năng | Mô tả | |-----------|-------| | **Quản lý phiên** | Tạo, chuyển đổi, xóa nhiều phiên chat | | **Lịch sử chat** | Lưu vào SQLite, giữ lại khi reload trang | | **Nhớ ngữ cảnh** | 10 tin nhắn cuối được đưa vào prompt để giữ context | | **Tránh lạc đề** | LLM được hướng dẫn chỉ trả lời trong phạm vi dữ liệu | | **Trích nguồn** | Mỗi câu trả lời có link đến bài viết gốc | | **Responsive** | Giao diện thích ứng desktop và mobile | ### 3.4 Tham số | Tham số | Mặc định | Mô tả | |---------|----------|-------| | `--host` | `0.0.0.0` | Host để bind | | `--port` | `5000` | Port | | `--debug` | — | Chế độ debug | | `--data-dir` | `.` | Thư mục dữ liệu | | `--index-dir` | `./rag_index` | Thư mục chỉ mục | ### 3.5 Biến môi trường web ```bash # Trong file .env RAG_DATA_DIR=./blog_data RAG_INDEX_DIR=./rag_index RAG_LLM_MODEL=gpt-4o-mini RAG_LLM_BASE_URL=https://api.openai.com/v1 RAG_TOP_K=5 RAG_MAX_HISTORY=10 # Số tin nhắn giữ context ``` ### 3.6 API endpoints | Method | Path | Mô tả | |--------|------|-------| | `GET` | `/api/sessions` | Danh sách phiên | | `POST` | `/api/sessions` | Tạo phiên mới | | `DELETE` | `/api/sessions/` | Xóa phiên | | `GET` | `/api/sessions//messages` | Lịch sử tin nhắn | | `POST` | `/api/sessions//messages` | Gửi tin nhắn, nhận câu trả lời | | `POST` | `/api/sessions//clear` | Xóa lịch sử phiên | | `GET` | `/api/stats` | Thống kê hệ thống | --- ## Tham khảo ### Cấu trúc thư mục hoàn chỉnh ``` orangepi-rag/ ├── .env # API keys (FIRECRAWL, OPENAI) ├── requirements.txt # Python dependencies ├── crawl_blog.py # Crawler tổng quát ├── crawl_orangepi_blog.py # Crawler orangepi.vn ├── rag_app.py # RAG query (CLI) ├── web_app.py # Giao diện web (Flask) ├── keywords_example.json # Mẫu file từ khóa ├── templates/ │ └── index.html # HTML template ├── static/ │ ├── style.css # CSS │ └── app.js # JavaScript ├── blog_data/ # Dữ liệu crawl được │ ├── articles.jsonl │ ├── chunks.jsonl │ ├── keywords.json │ ├── urls.json │ ├── raw/ │ ├── markdown/ │ ├── errors.jsonl │ └── summary.json ├── rag_index/ # Chỉ mục FAISS │ ├── faiss.index │ └── chunks.jsonl └── rag_chat.db # SQLite chat history ``` ### Lưu ý khi dùng LLM provider khác ```bash # Together.ai LLM_BASE_URL=https://api.together.xyz/v1 LLM_MODEL=meta-llama/Llama-3-70b-chat-hf OPENAI_API_KEY=... # Groq LLM_BASE_URL=https://api.groq.com/openai/v1 LLM_MODEL=llama-3.1-70b-versatile OPENAI_API_KEY=... # Ollama (chạy local) LLM_BASE_URL=http://localhost:11434/v1 LLM_MODEL=llama3 OPENAI_API_KEY=ollama ```