tech

Bio-IA: 단백질 연구에 적용된 딥러닝

3 de oct. de 2025 — Sabrina Bottazzi

딥러닝은 응용 과학에 혁명을 일으키며 2억 개 이상의 단백질 구조에 대한 상세한 원자 모델을 처리할 수 있게 합니다.

13 min read

AI가 질병을 치료할 수 있을까? 아직 확실한 답은 없지만, 이를 달성하기 위해 노력하는 사람들이 있다는 것은 의심의 여지가 없습니다. 그에 도달하기 위해 먼저 단백질의 세계와 심층 학습 덕분에 어떻게 혁명이 일어났는지 알아야 합니다. 지난해 단백질 생성을 위한 AI 모델을 개발한 두 그룹의 과학자들에게 화학상이 수여되었습니다. David Baker는 "단백질의 계산 설계"로; Demis Hassabis와 John Jumper는 "단백질 구조 예측"으로 수상했습니다.

놀랍기도 한 것은 건강 분야에 지수적 영향을 미치는 관련 결과가 얼마나 짧은 기간에 달성되었다는 것입니다. 우리가 알고 사용하는 대부분의 AI 모델과 마찬가지로, 이 모든 것은 2017년 Transformers 아키텍처 개발 덕분에 가능했습니다 (ChatGPT의 T가 여기서 나옵니다). 그 자기 주의 메커니즘은 텍스트나 이미지와 같은 다양한 분야에 적용될 수 있었습니다. 그리고 3년 후, 이 주제에 관심 있는 분야: 단백질 분야에도 적용되었습니다.

특정 기능을 가진 단백질을 설계할 수 있는 것은 우리가 알고 있는 건강 산업(그리고 많은 다른 산업)에서의 전환점을 의미할 것입니다. 합성 항체를 개발하거나 더 짧은 기간에 백신을 만들거나 각 환자를 위한 맞춤형 요법을 개발할 수 있는 능력은 현실로 변환될 수 있는 구현의 일부일 뿐입니다.

단백질이란 무엇인가

단백질은 생명의 기본 기계라고 할 수 있습니다. 덜 시적으로 말하면, 서로 결합되는 작은 분자를 기반으로 하는 아미노산(AA)의 매우 긴 사슬입니다. 자연에는 20개만 있으며 수많은 단백질을 형성합니다. 가장 작은 단백질은 약 100개의 AA를 가지지만 수천 개의 AA로 형성될 수 있습니다.

이러한 거대 분자는 다양성이 높기 때문에 우리 몸 전체에서 서로 다른 기능을 수행합니다. 아마도 가장 잘 알려진 것은 근육 조직을 구성하는 것들입니다 (따라서 고기를 먹을 때 "단백질 섭취"에 대해 이야기합니다). 하지만 또한 화학 반응을 유리하게 하거나 가속화하는 것들도 있으며, 효소라고 불립니다. 또는 혈액을 통해 산소를 운반하는 헤모글로빈과 같은 수송 단백질도 있습니다.

다른 역할 중에는 면역 체계의 일부인 항체, 신호 전달 및 조절 단백질, 그리고 막과 인식 단백질이 있습니다. 이 마지막 범주에서, 팬데믹 기간 동안 SARS-Cov-2 바이러스의 막에 위치한 Spike 단백질이 매우 잘 알려졌습니다 (전쟁 회상). Spike는 폐나 심장 같은 여러 장기의 세포 막에 존재하는 효소인 수용체 ACE2와 높은 친화력이 있습니다. 이 두 분자가 결합되면 – 다른 과정과 더 많은 단백질을 거쳐 – 바이러스는 세포 내에서 유전물질을 방출하여 감염을 일으킵니다.

단백질을 연구하는 방법

단백질의 구조를 알기 위해서는 그 기능을 이해할 수 있는 핵심이 필요합니다. 예를 들어 Covid에 대한 백신을 개발하기 위해 (다양한 기술이 있지만 이 경우 "재조합 단백질"일 것입니다), Spike 단백질을 SARS-Cov-2의 나머지로부터 분리되어 시험관 내에서 생성합니다. 그 구조를 알면, 세부적인 수정을 구현하여 바이러스 막에 있는 상태 그대로 유지합니다 (세포 수용체와 결합하기 전 상태인 융합 전 상태). 이 단계는 중요합니다. 왜냐하면 백신을 투여할 때 면역 체계가 ACE2 수용체와의 결합을 차단하는 항체를 가진 Spike에 반응하기 때문입니다. 이러한 항체들은 Spike에 결합하여 바이러스가 유기체 내에 들어올 경우에 반응을 학습합니다.

문제는 연구자들이 이 경우 약 1200개의 AA를 가지고 있는 단백질을 분석할 수 있는 방법입니다 (약 15nm의 길이 또는 0.000015 mm로, 매우 작습니다). 명확하게, 이것은 이러한 분자에 기반한 생명공학 발전의 병목을 제시했으며, 이것이 AI 모델의 구현이 이 모든 논리를 깨뜨리기 위해 온 이유입니다.

표준 방법은 X선 결정학이라고 불리며 먼저 안정적이고 충분한 양의 단백질을 얻어야 합니다. 그 다음 샘플을 정제하고 화학적으로 그 매질을 변경하여 결정을 얻을 수 있어야 합니다 (그 단백질의 수천 개의 복사본이 반복적이고 균일하게 정렬되도록). 이 단계는 중요하고 복잡합니다. 왜냐하면 모든 단백질이 결정 구조를 형성할 수 있는 것은 아니기 때문입니다. 다음은 X선에 노출시켜 이 입자들이 결정과 어떻게 상호 작용했는지를 드러내는 회절 패턴을 생성합니다. 이미 마지막 단계는 매우 복잡해집니다. 푸리에 변환, 전자 밀도 지도 및 구조 모델링 프로그램을 사용합니다. 이 전체 과정의 결과는 마침내 단백질의 상세한 원자 모델입니다.

Baker, Hassabis y Jumper recibiendo el Nobel en Química (2024) — Baker, Hassabis 및 Jumper가 2024년 화학상을 수상함

AlphaFold 및 RFdiffusion

과학 커뮤니티에서 반향을 일으킨 두 모델은 AlphaFold (Demis Hassabis 및 John Jumper가 개발) 및 RoseTTAFold/RFdiffusion (David Baker가 담당)입니다.

2010년에 Hassabis는 Shane Legg (여전히 참여 중이지만 더 이상 자주 인용되지 않음) 와 Mustafa Suleyman (2019년 회사를 떠남)과 함께 DeepMind를 설립했습니다. 일반 인공 지능(AGI)과 비디오 게임 분야에서의 강화 학습(RL)에 중점을 두었��니다. 2014년 Google이 약 5억 달러에 인수했습니다. 그리고 몇 년 후, 2018년 Jumper의 주도 하에 AlphaFold1을 출시했습니다. 단백질 개발에 적용된 심층 학습을 사용한 첫 번째 모델입니다. 이것은 아미노산 쌍 간의 기하학적 매개변수(거리 및 각도)를 예측하고 단백질의 구조를 재구성하기 위해 CNN을 적용했습니다.

이것은 이정표였지만 여전히 원자 위치를 정의하는 정확성에서 제한이 있었습니다. 붐은 AlphaFold2로 발생했으며, Transformers의 자기 주의 메커니즘을 기반으로 아키텍처를 구축했습니다 (이 수정된 Transformer를 Evoformer라고 불렀습니다). AA 시퀀스에 적용하여 AA의 구조적 관계를 포착했습니다. 시퀀스에서는 멀리 떨어져 있을 수 있지만 3D 구조와 주름으로 인해 최종적으로는 "이웃"이 됩니다.

당시까지 약 120,000개의 단백질 구조가 알려져 있었으며, 이는 오랜 연구와 앞서 언급한 결정학과 같은 표준 기술의 결과였습니다. AlphaFold2 출현 후 200,000,000개 이상의 구조에 액세스할 수 있습니다. DeepMind가 유지 관리하는 자체 데이터베이스 AlphaFold DB에 로드되었습니다.

반면에 Baker의 초기 연구는 2000년대 초 Rosetta로 거슬러 올라갑니다. 이는 물리적 및 에너지 모델을 기반으로 in silico (즉, 가상으로) 단백질을 예측하고 설계하는 데 사용되는 프로그램입니다. 그의 접근 방식은 AI 도구를 사용하지 않고 고전적인 계산 알고리즘을 기반으로 했습니다. 2010년대 동안 팀은 계속 작업했으며 랜덤 포레스트 또는 회귀와 같은 고전 기계 학습을 통합하기 시작했습니다. 2021년에 그들은 RoseTTAFold를 출시했습니다. AlphaFold2를 기반으로 하지만 계산적으로 더 접근하기 쉬우며 오픈 소스로 발행되었습니다.

RFDiffusion은 2023년에 나타났으며 혁신적인 점은 최종 단백질이 특정 기능을 가져야 한다는 입력을 입력할 수 있다는 것입니다. 아키텍처 수준에서 모델은 생성 확산 프로세스를 적용합니다. 기본적으로 입력 데이터에 노이즈를 추가하고 네트워크가 그 노이즈를 제거할 수 있도록 훈련하여 RoseTTAFold와 3D 좌표에 대한 주의 메커니즘을 통해 단백질의 "깨끗한" 구조�� 얻을 수 있습니다. 따라서 이 모델은 구조만 예측하는 것이 아니라 특정 기능을 가진 단백질을 설계할 수 있습니다. 그 전신처럼 RFdiffusion도 오픈 소스입니다.

지난해 5월 AlphaFold3이 발표되었습니다. DeepMind와 Isomorphic Labs의 협력 제품이며, 이는 또한 Hassabis가 설립한 또 다른 회사이며 Google (실제로는 Google의 모회사인 Alphabet Inc)의 일부입니다. 이 새로운 모델의 핵심은 리간드-수용체 상호작용을 예측할 수 있다는 것입니다. 즉, 두 분자가 어떻게 결합하는지를 예측합니다. 예를 들어, 이부프로펜 (약물 또는 리간드)이 사이클로옥시게나제 (통증과 염증을 생성하는 분자를 생성하는 단백질)에 결합합니다.

이를 위해 모델 아키텍처의 변경이 구현되었으며 RFdifussion과 일치하게 생성 확산이 사용되었습니다. 이는 더 복잡한 다중 분자 시스템의 다양한 구성을 예측할 수 있습니다. 또한 RNA나 항체-항원과 같은 다른 분자 구조도 포함하지만 이 경우 얻은 결과는 그리 뛰어나지 않습니다. 이 도구가 유망한 것은 현재 표준 기술�� 도킹 계산을 능가한다는 것입니다. 리간드-단백질 상호작용을 시뮬레이션하는 데 있어 리간드 통합으로 영향을 받은 단백질의 유연성을 포착할 수 있습니다.

다가올 것

Isomorphic Labs는 AI를 사용하여 약물을 설계하는 데 전념하고 있는 여러 회사 중 하나입니다. 올해 초에 AlphaFold3를 기반으로 개발한 첫 번째 약물을 2025년 말까지 보유하는 것을 목표로 한다고 발표했으며 신경퇴행성, 심혈관 및 종양학 주요 질병에 초점을 맞추고 있습니다. 4월에 첫 투자 라운드에서 6억 달러의 자금 조달을 확보했으며 최근 7월에 Fortune과의 인터뷰에서 회장 Colin Murdoch는 Eli Lilly 및 Novartis와 같은 주요 제약 회사들과 함께 인간 임상 시험을 시작할 준비가 되어 있다고 발표했습니다.

이 모든 것은 매우 유망해 보이며, 만약 작동한다면 일반적으로 5년에서 10년이 걸리는 약물 연구 및 개발 프로세스가 완전히 혁신될 수 있습니다. 시간과 비용을 최적화할 뿐만 아니라 복잡한 질병의 치료에 ��근할 수 있게 되며, 수많은 시뮬레이션과 구성을 기반으로 약물을 설계하여 특정하고 더 효율적으로 작용하는 약물을 얻을 수 있습니다.

AI가 존속하기 위해 왔다는 것을 알고 있으며, 단백질의 경우는 보건 분야를 강화하고 있는 많은 측면 중 하나입니다. 이미 이미지 진단을 분석하는 모델을 구현하여 폐암의 조기 발견 같은 진단 최적화 사례가 있습니다. 아르헨티나에는 2018년에 설립되어 지역의 AI 지원 영상 진단 분야의 최전선에 있는 Entelai라는 회사도 있습니다.

하드웨어와 전자 제품의 개발이 수반되지 않고는 AI의 발전을 생각할 수 없다는 것을 언급하지 않을 수 없습니다. 그 때문에 양자 컴퓨팅(처리 용량 최적화 포함)은 Google이나 Microsoft 같은 대기업이 양자 프로세서를 출시하기 시작하면�� 점점 더 많은 반향을 일으키고 있습니다.

Sabrina Bottazzi

Bio-IA: 단백질 연구에 적용된 딥러닝

단백질이란 무엇인가

단백질을 연구하는 방법

AlphaFold 및 RFdiffusion

다가올 것

Related posts