May 13, 2023
맞춤형 칩을 사용하여 AI에 큰 투자를 하는 메타
오늘 아침 가상 이벤트에서 Meta는
오늘 아침 가상 이벤트에서 Meta는 최근 출시된 광고 디자인 및 제작 도구를 뒷받침하는 유형의 생성 AI를 포함하여 AI 워크로드를 위한 사내 인프라를 개발하려는 노력의 막을 열었습니다.
이는 역사적으로 AI 친화적인 하드웨어 시스템을 채택하는 데 더디며 구글이나 마이크로소프트 같은 경쟁업체와 보조를 맞추는 능력을 저해하는 메타의 강점을 투사하려는 시도였습니다.
"자체 [하드웨어] 기능을 구축하면 데이터 센터 설계부터 교육 프레임워크에 이르기까지 스택의 모든 계층을 제어할 수 있습니다."라고 Meta의 인프라 담당 부사장인 Alexis Bjorlin은 TechCrunch에 말했습니다. "이러한 수준의 수직적 통합은 경계를 넓히는 데 필요합니다. 대규모 AI 연구."
지난 10여년 동안 Meta는 최고의 데이터 과학자를 모집하고 앱과 서비스 전반에 걸쳐 검색 엔진, 조정 필터, 광고 추천 기능을 지원하는 AI를 포함하여 새로운 종류의 AI를 구축하는 데 수십억 달러를 투자했습니다. 그러나 회사는 특히 생성 AI 분야에서 더욱 야심찬 AI 연구 혁신을 제품으로 전환하는 데 어려움을 겪었습니다.
2022년까지 Meta는 GPU보다 이러한 종류의 작업에 효율성이 떨어지는 경향이 있는 CPU와 AI 알고리즘 가속화를 위해 설계된 맞춤형 칩의 조합을 사용하여 AI 워크로드를 주로 실행했습니다. Meta는 2022년으로 계획된 맞춤형 칩의 대규모 출시를 중단하고 대신 여러 데이터 센터의 대대적인 재설계가 필요한 수십억 달러 상당의 Nvidia GPU를 주문했습니다.
상황을 바꾸기 위한 노력의 일환으로 Meta는 AI 모델을 훈련하고 실행할 수 있는 보다 야심찬 자체 칩 개발을 시작할 계획을 세웠습니다. 이 칩은 2025년에 출시될 예정입니다. 그리고 그것이 오늘 발표의 주요 주제였습니다.
Meta는 이 새로운 칩을 Meta Training and Inference Accelerator(줄여서 MTIA)라고 부르며 AI 훈련 및 추론 워크로드를 가속화하기 위한 칩 "제품군"의 일부로 설명합니다. ("추론"은 훈련된 모델을 실행하는 것을 의미합니다.) MTIA는 하나 이상의 작업을 병렬로 수행하도록 프로그래밍할 수 있도록 하나의 보드에 다양한 회로를 결합하는 일종의 칩인 ASIC입니다.
AI 워크로드를 위해 맞춤 설계된 AI 칩 Meta입니다.이미지 크레딧:메타
"중요한 워크로드 전반에서 더 나은 수준의 효율성과 성능을 얻으려면 모델, 소프트웨어 스택 및 시스템 하드웨어와 공동 설계되는 맞춤형 솔루션이 필요했습니다."라고 Bjorlin은 계속 말했습니다. "이는 다양한 서비스 전반에 걸쳐 사용자에게 더 나은 경험을 제공합니다."
맞춤형 AI 칩은 점점 더 Big Tech 플레이어들 사이에서 게임의 이름이 되고 있습니다. Google은 PaLM-2 및 Imagen과 같은 대규모 생성 AI 시스템을 교육하기 위해 프로세서인 TPU('텐서 처리 장치'의 약어)를 만들었습니다. Amazon은 훈련(Trainium)과 추론(Inferentia)을 위해 AWS 고객에게 독점 칩을 제공합니다. 그리고 마이크로소프트는 AMD와 협력하여 Athena라는 자체 AI 칩을 개발하고 있는 것으로 알려졌습니다.
Meta는 2020년에 7나노미터 공정을 기반으로 구축된 1세대 MTIA인 MTIA v1을 만들었다고 말합니다. 내부 메모리 128MB를 넘어 최대 128GB까지 확장할 수 있으며 Meta가 설계한 벤치마크 테스트(물론 약간의 부담을 가지고 진행해야 함)에서 Meta는 MTIA가 "낮은 복잡성"을 처리했다고 주장합니다. " 및 "중간 복잡성" AI 모델은 GPU보다 더 효율적입니다.
Meta는 칩의 메모리 및 네트워킹 영역에서 아직 수행해야 할 작업이 남아 있다고 말합니다. AI 모델의 크기가 커짐에 따라 병목 현상이 발생하고 작업 부하가 여러 칩에 걸쳐 분할되어야 하기 때문입니다. (우연히는 아니지만 Meta는 최근 영국 칩 유니콘 Graphcore에서 AI 네트워킹 기술을 구축하는 오슬로 기반 팀을 인수했습니다.) 그리고 현재 MTIA의 초점은 Meta의 앱 제품군 전반에 걸친 "추천 워크로드"에 대한 교육이 아닌 추론에만 엄격하게 맞춰져 있습니다.
그러나 Meta는 지속적으로 개선되고 있는 MTIA가 권장 워크로드를 실행할 때 와트당 성능 측면에서 회사의 효율성을 "크게" 증가시켜 결과적으로 Meta가 "더 향상된" "최첨단"(표면적으로) 실행할 수 있게 해준다고 강조했습니다. AI 워크로드.