SWE-Lancer_Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

**(made by [PARK JOON](https://bio.link/joonpark))** >[!info] >- 논문 링크 : [SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?](https://arxiv.org/pdf/2502.12115) >- 관련 기사 : [LLM이 실제 SW 작업으로 돈을 벌 수 있을까...오픈AI, 실험 결과 공개](https://www.aitimes.com/news/articleView.html?idxno=168118) # Podcast <video controls> <source src="https://huggingface.co/datasets/j00n98/file-share/resolve/main/SWE-Lancer%2520Can%2520Frontier%2520LLMs%2520Earn%2520%25241%2520Million%2520from%2520Real-World%2520Freelance%2520Software%2520Engineering%253F.mp4" type="video/mp4"> </video> --- ## Abstract - Upwork에서 실제 진행된 프리랜서 SWE(소프트웨어 엔지니어링) 과업 1,400건 이상을 바탕으로 벤치마크 “SWE-Lancer”를 제안함 - 총 100만 달러 규모의 실제 보수가 책정된 과업들을 LLM(거대언어모델)에 수행시킨 뒤 결과를 평가함 - E2E(엔드 투 엔드) 테스트와 실제 기술 매니저의 판단 기준을 활용해 모델의 실무 능력과 경제적 가치 창출 가능성을 조사함 --- ## 1. Introduction - 최근 LLM이 경쟁 프로그래밍 대회에서 고성능을 달성했으나, 실무 SWE 과업 전체를 해결하기에는 부족함이 존재함 - Upwork에 게시된 실제 과업을 통해 모델 성능이 가진 경제적 함의를 구체적으로 평가할 필요가 있음 #### 1.1. Related Work - 기존 코딩 벤치마크(예: HumanEval, SWE-Bench 등)는 대부분 단위 테스트나 경쟁 문제를 위주로 진행해 제한적임 - 일부 벤치마크가 실제 오픈소스 이슈를 다루지만, 여전히 풀스택 범위나 관리 업무까지 포괄하지 못함 - 본 논문은 경제적 가치(프리랜서 의뢰 금액)와 현실 과업 범위를 모두 고려하는 SWE-Lancer를 제시함 --- ## 2. SWE-Lancer - Expensify 오픈소스 저장소의 프리랜서 의뢰 이슈 1,488건(100만 달러 규모)으로 구성됨 - 독립 엔지니어 업무(IC SWE Tasks)와 기술 리드 업무(SWE Manager Tasks)로 분류 - E2E 테스트(브라우저 자동화)를 통해 실제 사용 시나리오 기반으로 코드를 검증함 #### 2.1. IC SWE Tasks - 모델이 직접 코드 패치를 작성해야 함 - 코드 패치를 실제 앱에 적용 후 E2E 테스트를 통과해야 완료로 간주함 - 버그 수정부터 대규모 기능 개발까지 다양하며 난이도와 보수가 비례함 #### 2.2. SWE Manager Tasks - 여러 제안(프리랜서들이 제출한 구현방안) 중 실제 매니저가 최종적으로 선택한 안과 동일한 방안을 골라야 함 - 단순 기능 구현 능력 외에, 기술적 타당성과 맥락을 이해할 수 있는지 평가함 --- ## 3. Experiments and Results - GPT-4, Claude 3.5 Sonnet 등 최신 모델을 도커(Docker) 환경에서 인터넷 차단 후 테스트함 - 단 한 번의 시도(pass@1)로는 제한된 성공률을 보였으며, 시도를 늘리거나(pass@k) 테스트 시간 추론을 강화하면 성능이 개선됨 - 최고 성능 모델조차 100만 달러 중 절반도 달성하지 못해, 현재 단계에서 실무 자동화는 제한적임 #### 3.1. Tool Usage와 문제점 - User Tool(브라우저 시뮬레이션)을 통해 모델이 실행 결과를 확인할 수 있으나, 근본 원인 파악 실패 사례가 빈번함 - 특정 파일 또는 함수 위치는 빠르게 찾으나, 여러 파일에 걸친 루트 원인 분석은 미흡함 #### 3.2. 관리 업무 결과 - SWE Manager Tasks의 경우, 전체적으로 IC SWE Tasks보다 높은 정답률을 보였음 - 그러나 복잡한 기술적 트레이드오프가 필요한 상황에서는 오판률이 높았음 --- ## 4. Limitations - Expensify 저장소 중심의 프리랜서 과업이므로, 업계·분야 전반에 대한 일반화에는 제한이 있음 - 프리랜서 특유의 독립·단발성 업무 위주라 대규모 협업이나 인프라 구성 이슈가 충분히 반영되지 못함 - 공개 저장소 데이터 특성상 모델 학습 시 이미 포함됐을 가능성(데이터 컨테이먼션) 배제 어려움 --- ## 5. Future Work - 멀티모달 입력(스크린샷, 동영상) 활용 평가 및 상호작용(질의응답) 기반 과업 확장 필요함 - 실제 경제적 효과 분석(예: API 비용 vs. 인건비)과 사회적 파급력 연구가 요구됨 - 인프라·DevOps, 대규모 시스템 아키텍처 설계 등 범위를 넓혀 더욱 종합적인 SWE 벤치마크로 발전 가능함 --- ## 6. Conclusion - SWE-Lancer는 현실 SWE 과업을 해결할 때 발생하는 복잡도를 잘 반영하며, 경제적 가치와 연결 지어 모델 능력을 평가함 - 현재 모델들은 일정 부분 자동화에 기여 가능하나, 고난도 업무에서 한계를 보임 - 본 벤치마크를 통해 SWE 자동화의 미래와 영향에 대한 연구가 활발히 이어질 것으로 기대함 --- ## 7. Impact Statement - LLM 기반 자동화가 엔지니어링 생산성을 높이지만, 단기적으로는 저경력·프리랜서의 일자리에 영향을 줄 수 있음 - 모델 생성 코드에서 보안 취약점이 발생하거나, 에이전트(Agentic) 안전성 문제로 이어질 가능성이 있음 - SWE-Lancer를 통해 실제 업무 수준에서 모델 역량을 파악하고, 책임감 있는 도입·정책 수립을 고민해야 함