CMDSPACEChatGPT · Gemini · Claude · Perplexity · Grok의 심층 리서치와 추론(Reasoning) 모드는 자주 혼동되지만 작동 원리가 다릅니다. 무엇이 다르고, 언제 무엇을 써야 하는가.
"추론 모드"와 "Deep Research"는 다른 층위입니다. 추론은 모델이 답하기 전 더 오래 생각하는 것, Deep Research는 모델이 여러 웹 소스를 자율 탐색해 보고서를 쓰는 에이전트 작업입니다.
모델 내부에서 단계적 사고(chain-of-thought)를 길게 펼쳐 답의 정확도를 높입니다. 웹을 꼭 검색하지 않아도 됩니다. 수학·코딩·논리·전략 같은 닫힌 문제에 강합니다. 대가: 지연 시간(latency)과 토큰 비용 증가.
AI가 스스로 검색어를 만들고 → 수십 개 웹페이지를 읽고 → 교차 검증하고 → 인용이 달린 종합 보고서를 작성하는 다단계 에이전트. 보통 추론 모델을 엔진으로 씁니다. 대가: 수 분의 대기 시간, 환각·낡은 출처 위험.
추론 모드는 Deep Research의 부품. 그래서 "최고 추론 모드"가 좋아질수록 "Deep Research"의 보고서 품질도 함께 올라갑니다.
같은 "딥리서치"라는 이름이지만 속도·깊이·출처 투명성·연동이 제각각입니다.
| 도구 | 엔진/기반 | 소요 | 강점 | 약점 | 특징 |
|---|---|---|---|---|---|
| ChatGPT Deep Research | o-series / GPT-5.x 추론 | 5~30분 | 깊이·구조화된 장문 보고서, 표·분석 풍부 | 느림, 가끔 과잉 일반화 | 가장 "논문형" 산출물. 후속 질문으로 심화 |
| Gemini Deep Research | Gemini 2.5/3 Pro | 3~10분 | 탐색 계획서를 먼저 보여주고 수정 가능, Workspace·구글 검색 연동 | 출처 품질 편차 | 계획→실행 분리가 투명. Docs로 바로 내보내기 |
| Claude Research | Opus 4.x (adaptive thinking) | 3~15분 | 추론 정합성·인용 신뢰도, 사내 커넥터(Workspace, 웹) 병행 | 한국어 웹 커버리지 상대적 약점 | multi-agent로 병렬 탐색. 길고 정밀한 분석 |
| Perplexity Research | 다중 모델 라우팅 | 2~4분 | 가장 빠름, 출처 링크 투명, 사실 확인 | 깊이는 얕은 편 | "빠른 리서치"의 표준. Labs로 표·앱 생성 |
| Grok DeepSearch / DeeperSearch | Grok 4.x | 1~5분 | X(트위터)·실시간 정보, 속보·여론 탐지 | 학술 깊이 약함 | 실시간성·소셜 신호가 필요할 때 |
| Genspark | Mixture-of-Agents | 2~8분 | 에이전트 조합, 자동 산출물(슬라이드·시트) | 품질 일관성 편차 | 리서치→산출물 자동화 지향 |
| NotebookLM | Gemini + 내 소스 | 30초~1분 | 내 자료(PDF·노트) 기반, 환각 적음, 오디오 요약 | 열린 웹 탐색 아님(소스 한정) | "내가 준 자료"만 분석. 학습·복습용 |
※ 소요 시간은 질문 복잡도에 따라 변동. 모델 버전은 지속 업데이트되므로 추세로 참고하세요.
빠른 사실 확인 → Perplexity / 실시간·소셜 → Grok / 깊은 보고서 → ChatGPT·Claude / 계획 투명성+구글 생태계 → Gemini / 내 자료 한정 → NotebookLM.
모든 프런티어 모델이 "생각 시간"을 조절하는 추론 모드를 제공합니다. 핵심은 사고 강도(effort)를 어떻게 통제하느냐.
| 제공사 / 모드 | 강도 조절 방식 | 강점 | 실전 팁 |
|---|---|---|---|
| OpenAI o-series · GPT-5.x Thinking |
reasoning effort: low/medium/high (+ Pro의 확장 모드) | 수학·코딩·STEM 벤치 최상위권, 도구 사용 능숙 | "단계적으로 검토하라" 지시로 깊이 ↑. 단순 질문엔 비추(과잉·지연) |
| Anthropic Claude Extended / Adaptive Thinking (Opus 4.x) |
effort: low/medium/high/xhigh/max — Opus 4.7부터 adaptive(모델이 step별 자체 결정) | 추론 정합성·장문 일관성·코딩 위임, overthinking 감소 | 대부분 xhigh로 충분. "빠르게 답하라"로 사고 줄이기 가능 |
| Google Gemini Thinking · Deep Think |
thinking budget 설정 / Deep Think는 병렬 사고(parallel) | 초장문 컨텍스트(1M+), 멀티모달 추론, 어려운 수학 | Deep Think는 난제 한정. 일반 작업은 기본 thinking로 충분 |
| xAI Grok 4 Reasoning |
Think 모드 토글 | 실시간 정보와 추론 결합, 빠른 응답 | 속보·트렌드 분석에 추론 더하기 좋음 |
| DeepSeek R1 계열 (오픈) |
reasoning 토글 / 자체 호스팅 가능 | 오픈웨이트·저비용, 추론 과정 투명 | 비용 민감·온프레미스 환경에서 가성비 |
강도 ↑ = 정확도 ↑, 지연·토큰 ↑. 단순 작업에 max를 쓰면 손해.
고정 budget 대신 모델이 스스로 깊이를 정하는 방향(Opus 4.7). 과잉 사고를 줄임.
"신중히 단계별로" → 깊게, "빠르게 답하라" → 얕게. 강도를 말로 조절.
벤치마크가 아니라 실제로 쓸 때 갈리는 지점들.
최소 월 10만 원대 유료 모델 투자 권장 — 최고 추론·Deep Research는 대부분 상위 유료 티어에서만 열립니다(메인 볼트 강연 정리).
"무엇이 제일 좋은가"가 아니라 "이 작업엔 무엇인가".
1순위: ChatGPT Deep Research / Claude Research
깊이·구조·인용 정합성. 전용 도구(Consensus·Elicit)와 병행.
1순위: Perplexity Research
속도+출처 투명. 회의 직전 브리핑에 최적.
1순위: Grok DeepSearch
X 실시간 신호. 속보 대응.
1순위: Gemini Deep Research
계획 투명 + Docs/Sheets 직결.
1순위: 추론 모드 (o-series · Claude xhigh · Gemini Deep Think)
웹 검색보다 "깊은 사고"가 핵심인 닫힌 문제.
1순위: NotebookLM
소스 한정 분석 + 오디오 요약. 환각 최소.
한 도구에 올인하지 말 것 — 같은 질문을 Perplexity(빠른 초안) → ChatGPT/Claude(심층) → NotebookLM(내 자료 검증)로 흘려보내는 파이프라인이 실전 정확도를 높입니다.
같은 모델·같은 Deep Research라도 접근 표면(surface)이 다르면 사용성이 완전히 달라집니다. 핵심 멘탈모델: 웹=대화로 즉시 / API=코드가 백그라운드 잡으로 / CLI=터미널에서 사람이 / SDK=시스템이 반복 호출.
| 표면 | 누가 트리거 | 실행 방식 | 강점 | 한계 | 적합 |
|---|---|---|---|---|---|
| 웹 UI (ChatGPT·Gemini·Claude·Perplexity 앱) |
사람 (대화) | 버튼 클릭 → 화면에서 진행·결과 | 제로 셋업, 첨부·후속질문·내보내기 즉시 | 자동화·반복·대량 처리 불가, 결과 재사용 수작업 | 1회성 탐색, 글쓰기, 빠른 조사 |
| API (o3-deep-research · Gemini Interactions · Messages) |
코드 | 요청 → 백그라운드 잡 + 폴링(딥리서치는 수 분~시간) | 대량·반복·앱 내장, 파라미터로 reasoning effort 정밀 제어, 결과 구조화 | 개발 필요, 토큰 과금, 딥리서치는 함수호출·structured output 제한 | 제품 기능, 파이프라인, 대량 리서치 |
| CLI (Claude Code · Codex · Gemini CLI) |
사람 (터미널) | 터미널에서 에이전트 루프 대화 | 로컬 파일·도구 직접 조작, 강력한 에이전트, 무료 티어/구독 | 사람이 지켜봐야, GUI 없음 | 코딩·디버깅·볼트 작업 등 손으로 시키는 일 |
| Agent SDK (Claude Agent SDK · OpenAI Agents) |
시스템 (HTTP·크론·파이프라인) | 코드가 에이전트 루프를 임베드 | CLI 엔진을 앱에 내장, 서비스화, 자동 트리거 | 설계·운영 비용, 모니터링 필요 | "질문하면 리서치해 답하는 웹서비스" 같은 반복 자동화 |
o3-deep-research(강력·$10/$40 per 1M) / o4-mini-deep-research(빠름·저렴). 웹검색 내장·추론 통합. 단, function calling·structured output 미지원. Responses/Chat 엔드포인트.
딥리서치는 generateContent가 아닌 Interactions API. interactions.create(..., background=True) → status가 completed 될 때까지 폴링. collaborative_planning·visualization·MCP 지원.
손으로 한 번 = Claude Code CLI / 시스템이 반복 = Agent SDK(query() + allowed_tools). 추론은 Messages API의 effort(low~xhigh)·extended thinking로 제어.
웹검색 grounding은 turn-based 즉답, Deep Research는 수 분~시간 걸리는 백그라운드 잡입니다(Gemini 멘탈모델). API로 딥리서치를 쓸 땐 동기 응답을 기대하지 말고 폴링/웹훅으로 설계해야 합니다.
같은 리서치를 매주 돌린다 → API/SDK로 자동화. 지금 한 번만 깊게 판다 → 웹 UI. 로컬 파일·코드를 만지며 조사 → CLI. "사람이 지켜볼 일"과 "시스템이 알아서 할 일"의 경계가 표면 선택의 기준입니다.