겉만 핥는 웹 크롤링 [2] = '요청과 응답' | WIPI의 프로그래밍 및 기술 블로그

지난 시간에는 웹 크롤링의 기본적인 개념과 필요성에 대해 간략하게 알아보았습니다. 이번 시간에는 웹 크롤링의 핵심 과정, 즉 '요청과 응답'에 대해 조금 더 깊이 파고들어 보겠습니다. 웹 크롤러가 웹 페이지로부터 정보를 얻어오는 과정은 마치 우리가 웹 브라우저를 통해 웹 사이트에 접속하는 것과 유사합니다. 브라우저가 특정 웹 사이트 주소(URL)를 입력하고 엔터를 누르면, 해당 웹 서버에 요청을 보내고 서버는 그 요청에 대한 응답으로 HTML 문서를 보내줍니다. 웹 크롤러도 이와 같은 방식으로 웹 페이지의 내용을 가져옵니다.

웹 크롤러, 웹 서버에 말을 걸다

웹 크롤링의 첫 번째 단계는 원하는 웹 페이지에 '요청'을 보내는 것입니다. 이 요청은 단순히 "이 페이지를 보여주세요!"라고 말하는 것과 같습니다. 웹 크롤러는 HTTP 프로토콜을 사용하여 웹 서버에 요청을 보냅니다. HTTP는 웹에서 데이터를 주고받기 위한 규약이며, 요청 메서드(GET, POST 등), 헤더, 본문 등으로 구성됩니다.

GET 요청: 웹 페이지의 내용을 가져올 때 주로 사용됩니다. URL 주소 뒤에 파라미터를 붙여서 서버에 정보를 전달할 수도 있습니다. 예를 들어, 검색 엔진에서 특정 검색어를 입력하고 검색 버튼을 누르면 GET 요청이 발생하고, 검색어는 URL 주소에 파라미터 형태로 포함되어 서버로 전달됩니다.
POST 요청: 폼(Form) 데이터를 서버에 제출할 때 주로 사용됩니다. 로그인, 회원 가입 등 개인 정보를 입력하는 경우 POST 요청을 통해 서버에 데이터를 안전하게 전달할 수 있습니다.

웹 크롤러는 필요에 따라 다양한 헤더 정보를 요청에 추가할 수 있습니다. 예를 들어, 'User-Agent' 헤더를 설정하여 자신이 어떤 브라우저인 척(!) 할 수도 있습니다. 이는 웹 서버가 특정 브라우저에 따라 다른 내용을 제공하는 경우에 유용하게 사용될 수 있습니다.

웹 서버의 대답, 그리고 해석

웹 서버는 웹 크롤러의 요청을 받으면 '응답'을 보내줍니다. 이 응답에는 웹 페이지의 내용(HTML, CSS, JavaScript 등)과 함께 응답 상태 코드, 헤더 정보 등이 포함됩니다. 응답 상태 코드는 요청이 성공적으로 처리되었는지, 아니면 어떤 문제가 발생했는지를 알려주는 중요한 정보입니다.

200 OK: 요청이 성공적으로 처리되었음을 의미합니다. 웹 크롤링에서 가장 반가운 응답 코드입니다.
404 Not Found: 요청한 페이지를 찾을 수 없음을 의미합니다. 웹 페이지가 존재하지 않거나 URL 주소가 잘못되었을 때 발생합니다.
500 Internal Server Error: 서버 내부 오류가 발생했음을 의미합니다. 웹 서버의 문제로 인해 요청을 처리할 수 없을 때 발생합니다.
403 Forbidden: 서버가 요청을 거부했음을 의미합니다. 웹 크롤링을 차단하기 위해 서버에서 설정한 경우에 발생할 수 있습니다.

웹 크롤러는 응답 상태 코드를 확인하여 요청이 성공적으로 처리되었는지 확인하고, 필요에 따라 오류 처리를 수행해야 합니다. 응답 본문에 포함된 HTML 문서는 웹 페이지의 내용을 담고 있으며, 웹 크롤러는 이 HTML 문서를 파싱하여 원하는 정보를 추출합니다.

요청과 응답, 웹 크롤링의 심장

웹 크롤링은 웹 서버에 '요청'을 보내고 '응답'을 받는 과정의 반복입니다. 이 과정을 통해 웹 페이지의 내용을 가져오고, 원하는 정보를 추출하여 데이터베이스에 저장하거나 분석에 활용할 수 있습니다. 요청과 응답 과정은 웹 크롤링의 가장 기본적인 단계이지만, 효율적인 웹 크롤링을 위해서는 HTTP 프로토콜에 대한 이해, 적절한 헤더 설정, 오류 처리 등 고려해야 할 사항들이 많습니다. 다음 시간에는 HTML 문서를 파싱하여 원하는 정보를 추출하는 방법에 대해 알아보겠습니다.