
2026년 4월 6일 기준으로 빅테크 AI 경쟁에서 가장 조용하지만 중요한 변화 중 하나는 모델이 클라우드 밖으로 내려오고 있다는 점이다. 마이크로소프트는 Windows AI와 Phi Silica를 Copilot+ PC의 로컬 API로 밀고 있고, 구글은 Gemini Nano와 AICore를 통해 안드로이드 기기 안에서 추론을 돌리는 구조를 넓히고 있다. 애플은 Foundation Models와 Apple Intelligence 쪽에서 온디바이스 추론을 시스템 경험의 일부로 묶고 있고, 삼성도 MWC 2026에서 Galaxy AI의 agentic 방향과 on-device AI를 다시 강조했다.
사용자 문장처럼 "클라우드를 버리고 단말로 완전히 간다"고 쓰면 이 또한 과장이다. 실제 공식 자료를 보면 구조는 더 정교하다. 단말·엣지·클라우드 3층 구조가 만들어지고 있다. 민감한 작업은 기기 안에서, 빠른 반응이 필요한 건 엣지에서, 큰 reasoning과 대규모 연산은 클라우드에서 처리하는 식이다. 즉 온디바이스 SLM은 클라우드를 대체하는 게 아니라, 클라우드가 떠안던 일을 일부 분산시키는 방향에 가깝다.
핵심만 먼저 보면 이렇다
- 마이크로소프트는 Phi Silica를 Copilot+ PC용 NPU 최적화 로컬 모델로 밀고 있다.
- 구글은 Gemini Nano와 AICore를 통해 안드로이드 기기에서 오프라인·저지연 추론을 확대하고 있다.
- 애플은 Foundation Models와 App Intents 축에서 시스템 경험 안의 온디바이스 AI를 강화하고 있다.
- 삼성은 Galaxy AI의 에이전트화와 온디바이스 처리 성능을 MWC 2026에서 다시 전면에 세웠다.
1. 왜 빅테크는 다시 작은 모델을 강조하나
대형 모델은 여전히 중요하다. 하지만 사용자의 손 안에 있는 기기에서 모든 요청을 서버로 보내는 구조는 비용, 지연시간, 개인정보, 네트워크 품질 문제를 동시에 안고 있다. 그래서 빅테크는 작은 모델을 다시 꺼내 들었다. 여기서 포인트는 단순한 경량화가 아니다. 작은 모델을 어떤 일에 맡길지 역할을 다시 나누는 것이다.
요약, 재작성, 스마트 답장, 기기 제어, 민감한 개인 데이터 처리처럼 즉각성과 프라이버시가 중요한 영역은 단말 안에서 도는 게 유리하다. 반대로 긴 체인 추론이나 무거운 생성 작업은 아직 클라우드가 유리하다. 그래서 SLM은 LLM의 하위호환이 아니라, 아예 다른 자리에서 쓰이는 실전 도구가 되고 있다.
2. 마이크로소프트가 Phi Silica를 미는 이유
Microsoft Learn 자료를 보면 Phi Silica는 Copilot+ PC의 NPU에 맞춘 로컬 언어 모델이다. 중요한 건 이 모델이 단순 데모가 아니라 Windows AI API에 직접 연결된다는 점이다. 다시 말해 개발자는 요약, 재작성, 텍스트 표 변환 같은 기능을 운영체제 레벨 API로 가져다 쓸 수 있다. 이건 로컬 AI를 하나의 앱 기능이 아니라 플랫폼 기능으로 만드는 접근이다.
마이크로소프트가 노리는 건 분명하다. Windows PC가 그냥 AI를 실행하는 기기가 아니라, AI가 기본 내장된 컴퓨팅 환경이 되게 만드는 것이다. 이 구조가 자리 잡으면 AI 사용 경험은 브라우저에서 챗봇을 켜는 것이 아니라, 문서·파일·검색·OS 액션 곳곳에 스며들게 된다.
3. 구글과 삼성은 왜 모바일 쪽에서 먼저 강한가
구글은 Gemini Nano와 AICore를 통해 안드로이드 안에서의 온디바이스 AI 구조를 더 분명히 만들고 있다. 공식 문서를 보면 AICore는 시스템 레벨 모듈로 동작하며, 온디바이스 생성형 AI가 서버 호출 없이 돌아갈 수 있게 설계돼 있다. 이는 개인정보 보호와 오프라인 처리, 비용 절감에서 모두 장점이 있다.
삼성은 Galaxy AI와 One UI 8, MWC 2026 발표에서 agentic AI와 on-device AI 체험을 함께 밀고 있다. 즉 삼성은 자체 OS 사업자라기보다, 안드로이드 위에서 가장 적극적으로 온디바이스 AI UX를 상품화하는 제조사에 가깝다. 이 때문에 모바일 AI 경쟁은 이제 모델 회사와 OS 회사, 디바이스 회사가 같이 얽힌다.
4. 그래서 앞으로 무엇이 달라지나
단말 안에 SLM이 깔리면 사용자 경험은 더 조용하게 바뀐다. 네트워크가 불안정해도 일부 기능은 계속 돌고, 개인 데이터는 기기 안에 남을 수 있고, 클라우드 호출 비용도 줄어든다. 특히 기업 입장에서는 모든 AI 요청을 외부 클라우드로 보내지 않아도 된다는 점이 중요하다.
결국 2026년의 AI 구조는 클라우드 중심에서 분산 구조로 옮겨간다. 그리고 이 분산 구조에서 중요한 건 "어느 모델이 더 크냐"보다 어떤 일을 어디서 처리하느냐다. 앞으로는 LLM만 보는 시각으로는 단말 AI 경쟁을 설명하기 어렵다.
결국 핵심은 이것이다
온디바이스 SLM 확산은 단순한 기술 최적화가 아니다. 빅테크가 AI를 클라우드 독점 서비스가 아니라, 기기·엣지·클라우드가 역할을 나눠 가진 기본 컴퓨팅 계층으로 재설계하고 있다는 신호다. 그래서 앞으로 AI 기사를 볼 때도 모델 성능표보다, NPU, 배터리, 로컬 API, 개인정보 처리, 오프라인 기능이 어떻게 묶이는지를 봐야 한다.
결국 AI는 점점 더 말 잘하는 서비스가 아니라, 보이지 않게 기기 안에서 돌아가는 기본 기능이 되어간다. SLM 경쟁이 중요한 이유가 바로 여기에 있다.
같이 읽으면 좋은 글
- 누가 더 똑똑한가보다 누가 일을 끝내느냐, 빅테크 에이전트 전쟁의 새 기준
- 구글 제미나이 최신 정리: Gemini 3.1, Deep Think, Workspace까지 지금 뭐가 달라졌나
- 삼성전자 갤럭시 AI 최신 검증: S26, MWC 2026, CES 2026 메시지는 무엇이 달랐나
출처
'IT·테크' 카테고리의 다른 글
| 보안팀보다 먼저 코드를 본다, 빅슬립 이후 AI 방어가 달라진 방식 (0) | 2026.04.06 |
|---|---|
| 양자 컴퓨터보다 먼저 오는 건 보안 전환이다, 빅테크 클라우드가 바뀌는 순서 (0) | 2026.04.06 |
| 앱보다 먼저 뜨는 건 에이전트다, 빅테크가 OS 위에서 다시 싸우는 이유 (0) | 2026.04.06 |
| 로봇보다 메모리가 먼저다, 피지컬 AI 생태계에서 돈이 몰리는 곳 (1) | 2026.04.05 |
| 엔비디아를 버리는 게 아니다, 빅테크가 직접 칩을 설계하는 진짜 이유 (0) | 2026.04.05 |