데이터 – Just a few words, that's enough.

History flushed

디지털 시대는 엄청 양의 도서관을 약속하지만 이들 대부분은 미완으로 남아있다.

Apr 28th 2012 | from the print edition

1086년, 정복자 윌리엄은 잉글랜드와 웨일즈에 관한 포괄적인 측량을 완성했다. “토지 대장”으로 불리게 된 이것은 13,418 곳의 장소와 112 곳의 도시를 자세히 포함하고 있으며 현재도 런던의 국립 도서관에서 대중에게 공개되어 있다. “토지 대장”의 900 주년을 기념하여 위탁 제작된 새로운 측량의 원본은 이와는 다르다. 이는 특별히 제작된 12인치 레이저 디스크에 기록되었다. 이 포맷도 현재는 구식이 되버렸다.

디지털의 시대는 무한한 저장 능력의 가능성과 함께 도래 했다. 향상된 컴퓨팅 파워와 디스크 용량은 저렴해진 가격과 합쳐져, 디지털로 생성된 어떤 것이라도 영원히 저장될 수 있을 것이라 여겨졌다. 하지만 디지털 데이터는 종종 깜짝 놀랄 만큼 짧은 생애를 산다. “우리가 주의하지 않으면, 21세기의 시작보다 20세기의 시작에 대해서 더 많이 알게 될지 모릅니다.” 브리티쉬 도서관의 디지털 보존 활동을 책임지고 있는 Adam Farquhar는 말한다.

디지털 기록 보관 담당자들이 다루어야 할 가장 명백한 문제는 하드웨어이다. 하지만 이 문제들은 또한 대처하기도 쉽다. 많은 저장소들은 보유한 데이터 저장 시스템을 매 3년에서 5년 사이에 교체하는데 이는 노후화 되거나 부식되는 것을 막기 위해서다. 이는 듣기보다는 그리 비싸지 않다. 하드 드라이브는 저렴하고 신뢰할 만 하다. 하드웨어 장애의 위협은 다른 장소에 복사본을 저장함으로써 극복할 수 있다. 브리티시 도서관은 런던, 요크셔, 웨일즈 그리고 스코틀랜드에 저장 공간을 가지고 있다.

디지털 자료를 수집하는 것은 더 까다롭다. 특히 온라인에서는 더 그러하다. 기록 보관 담당자들은 자유롭게 접근 가능한 웹의 부분들만을 수집할 수 있다. 암호나 검색어, 입력 형식 등의 사용자 입력이 필요한 것은 금지 구역이다. 온라인 비디오와 같은 스트리밍 미디어는 수집하기 까다롭다.

소프트웨어나 파일 포맷의 변경은 더 많은 난관을 만들어낸다. “우리가 생성해 낸 많은 디지털 자료들이 그것을 생성한 소프트웨어에 의해서만 표현될 수 있습니다.” 현재 구글에서 근무하는 인터넷의 선구자 중 한명인 Vint Cerf는 말한다. 만약 최초의 프로그램이 사라지면, 완전히 새 것 같은 파일의 저장소는 쓸모 없어 진다. 소프트웨어가 10년이 넘어가는 시점부터는 이를 구동하기 위해서 보통, 소프트웨어가 오래된 하드웨어에서 돌고 있다고 생각하도록 속이는 하드웨어 에뮬레이션이 필요하다.

비록 기술적인 문제는 보통 풀어나갈 수 있지만, 규제 상의 장애물은 극복하기 더욱 어렵다. 국회 도서관 같은 납본 도서관들은 법에 의해 웹 사이트를 저장하기 전 허가를 받아야 함을 강제 받는다. 규제는 컴퓨터 프로그램, 게임, 음악, 책과 같은 것을 저장할 때 더 엄격해질 수 있다. 보통 디지털 저작권 관리(DRM) 소프트웨어가 불법 유출로부터 이들을 지키기 위해 딸려 있다. 이러한 프로그램들을 회피하는 기록 보관 담당자들은 불법적인 행위를 하게 되는 것이다. 미국의 디지털 밀레니엄 저작권 활동(DMCA)는 이러한 회피를 범죄로 규정했다.

저작권과 DRM은 정보 시스템이 발전하는 환경에 따라 더욱더 크게 닥칠 것이다. 초기의 인터넷은 자연스럽게 복사가 쉬운, 공개된 환경이었다. 스마트폰 앱으로 더욱 널리 퍼진 모바일 세상은 훨씬 덜 그렇다. 기업들이 더욱 더 강력하게 그들의 저작물을 보호하면, 현대의 디지털 생산물들은 절대로 저장되지 않을 위험을 수반하게 된다. 도서관은 인기 있는 문화의 한 부분인 앵그리 버드나 인스타그램과 같은 앱을 저장할 권한이 없다.

이러한 모든 어려움에도 불구하고, 세계의 도서관들은 국가의 디지털 유산의 특정 부분들을 보존하기 위해 지난 10년이 넘는 기간 동안 애써왔다. 미국 국회 도서관은 정부로부터 1억불을 지원 받는 디지털 보존 프로그램을 2000년에 시작했다. 이의 웹 저장소는 현재 미국 정부 소유가 대다수라 저작권 문제가 없는 10,000개의 웹사이트를 저장하고 있다. 민간에 의해 운영되는 웹 사이트를 포함시키기는 더욱 어렵다. 어떤 저장 프로젝트에서는 오직 5분의 1의 웹 사이트만이 복제 허가를 구하는 이메일에 회신했다.

디지털 쓰레기 수집

국회 도서관의 뒤를 이어, 많은 선진국의 국립 도서관들이 디지털 보관 프로그램을 운영하고 있다. 예를 들어 영국에서는 국립 보관소에서 모든 정부 웹사이트의 복사본을 저장하고 있다. 브리티쉬 도서관에서는 모든 영국 온라인 저작물을 축적하고 있다.

하지만 가장 많이 알려진 디지털 보존 운동은 민간 분야의 비영리 운동인 인터넷 아카이브이다. 이의 서버는 과거 특정 날짜의 한 웹사이트를 사람들에게 보여주는 인기 있는 웹 서비스인 “Wayback Machine”을 운영하고 있다. Brewster Kahle에 의해 1996년 설립된 인터넷 아카이브 컬렉트는 수십 억 개의 웹 페이지를 저장하고 접근할 수 있게 해주며 또한 책이나 비디오, 또는 소프트웨어 같은 다른 디지털 미디어도 저장하고 있다. 이 컬렉션은 1,600억 개의 웹 페이지를 저장하고 있다. 이곳은 기본적으로 허가를 요청하는 것보다는 용서를 구하는 것이 낫다는 원칙에 의해 운영되고 있다.

더 최근에, 괴짜 전문가들은 공식 기관들이 하기 꺼리는 일을 벌이고 있다. 이들은 항상 쓸데없는 것을 모아왔다. 현재 그들은 TOSEC (The Old School Emulation Centre의 줄임 말이다) 과 같은 사이트에 모여들어 오래된 소프트웨어를 수집하고 있다. 하지만 이러한 컬렉션들은 그 자체의 한계가 있다. 이들은 너무 게임이나 운영체제에만 중심을 두고 있다. 사람들은 슈퍼 마리오에서 느끼는 것과 같은 향수를 스프레드시트의 초기 버전에서는 별로 느끼지 않는 경향이 있다. 더 중요한 것은 이러한 것이 저작권 법의 보호 아래 있다는 것이다.

저장소의 확산에도 불구하고, 디지털 보존은 잘해야 들쭉날쭉하다. 법이 기술을 따라잡을 때까지, 디지털 역사는 디지
털의 시대가 약속한 장대한 분출이 아니라 찔끔찔끔 쓰여질 수 밖에 없을 것이다.

센서의 바다(A sea of sensors)

모든 것이 센서가 될 것이고, 인간은 그 중 가장 뛰어난 것이다.

Nov 6th 2010 |
From The Economist “Special Report on Smart Systems”

독일인들은 쓰레기 분리수거에 부지런한 것으로 알려져 있다. 심지어 다른 종류의 금속을 분류하여 넣는 전용의 컨테이너를 가지고 있기도 하다. 하지만 그들은 곧 RFID라고 알려진 전자 라벨용의 새로운 쓰레기통이 필요해질 것이다. 이러한 태그는 별도로 수거해서 다루어지지 않는다면, 재활용하기 매우 어렵다고 독일의 연방 환경 에이전시에서는 지난해 밝혔다. 그들에 따르면 버려지는 RFID 태그의 숫자는 현재의 8천 600만개에서 2020년까지 230억 개에 달할 것이다.

소들부터 묘비까지 모든 것을 구분하는데 쓰이고 있는 RFID 태그는 지구를 뒤덮고 있는 유일한 센서는 아니다. 기계, 장치, 일상용품, 특히 인간까지도 모든 사물, 또 누구던지 센서가 될 수 있고, 실제 세상에 대한 정보를 수집하고 전송할 수 있다.

“사물들의 인터넷”이라는 개념은 실리콘 벨리에 위치한 Palo Alto 리서치 센터(PARC)에서 가상과 실제 세계가 연결될 미래를 꿈꾸었던 1980년대까지 거슬러 올라간다. 그 이후 몇 년간 많은 학술적 연구들이 신뢰할 수 있고, 값이 싸며, 별도의 전원이 필요 없는 RFID 태그를 이용해 이를 실현시키는데 집중했다. 전파 신호에 노출되면 RFID 태그는 이 신호의 에너지를 자신이 가지고 있는 정보, 대부분의 경우 자신을 식별하기 위한 긴 숫자를 돌려주는데 사용한다.

현재, (전원을 내장한) “액티브”태그와 한층 더 발전되어 많은 관심을 끌고 있는 무선 센서들도 존재한다. 모든 전자기기와 마찬가지로, 이것들은 더 작아지고 더 다용도로 사용되고 있다. “무엇이든 필요한 것만 말해주면, 우리는 당신을 위해 그것을 만들어 줄 수 있습니다.” 지멘스 연구소장 Reinhold Achatz는 말했다. 신생기업들도 극히 드문 화학 물질부터 가장 생소한 형태의 박테리아까지 모든 것들을 검출할 수 있는 장치를 만들고 있다. 싱가폴 기업 Optiqua는 빛이 샘플로 채취한 물속을 얼마나 빠르게 통과하는 지 측정함으로써 그 속에 포함된 오염물질을 측정하는 칩을 만들어냈다. 또한 캘리포니아 버클리에 위치한 Lawrence Livermore 국립 연구소에서 개발한 바이오센서는 2,000종의 바이러스와 900종의 박테리아를 검출할 수 있다.

연구원들은 또한 센서들의 확산을 막고 있는 두 개의 커다란 문제를 해결하기 위해 노력하고 있다. 그 중 하나는 전원이다. 선으로 전원을 공급하거나, 정기적으로 베터리를 교체하는 것은 어렵다. 하지만 센서는 빛이나 움직임의 형태 같은 주위 환경으로부터 에너지를 뽑아내는 것을 통해 전원을 스스로 공급할 수 있게 되었다. 유사하게, 어떤 센서들은 또 다른 드문 자원인 전파 스펙트럼을 효과적으로 사용하고 있다. “그물 네트워크”를 구성한 스마트 전기 검침기들이 그들의 정보를 서로 릴레이하고 있다.

센서를 연구하는 엔지니어들은 이것이 궁극적으로 “스마트 먼지” – 센서가 먼지 조각들처럼 작아져서 전장에 뿌려짐으로써 적군의 움직임을 알아낼 수 있는 등의 형태로 구현될 것이라고 생각한다. 이러한 장치들은 아직 멀었지만, 실리콘 벨리의 휴렛-펙커드(HP)에서 미래의 기술을 맛보는 것 – 정확하게는 느끼는 – 정도는 현재에도 상용화가 되어있다. HP의 담배 갑 정도 크기의 사물의 가속도를 측정할 수 있는 장치인 새로운 가속도계 데모를 위해서, 연구원 Peter Hartwell은 그 장치를 자신의 가슴 위에 올려놓았고, 곧 뒤 쪽의 스크린에 그의 심장 박동이 표시되기 시작했다. “이 센서는 스마트폰에 들어있는 센서보다 천 배는 더 정확합니다.” 그는 자랑스럽게 설명했다.

Hartwell과 그의 동료들은 언젠가는 조 단위의 센서들이 세계를 뒤덮고 자동차 제조사나 지방 정부 등 정보가 필요한 누구에게나 그것을 전달해 주기를 기대하고 있다. 우선, HP는 정유 기업 Royal Dutch Shell와 협력을 하고 있다. 그들은 탐사하고자 하는 지역에 수 천 개의 센서들을 흩뿌려 놓는 계획을 세웠다. 이 센서들은 땅을 쿵쿵 거리는 “덤프 트럭” 같은 사물에 의해 생성되는 지질학적 진동의 반향을 감지할 수 있도록 설계되었다. 이 데이터는 그들로 하여금 석유나 천연가스가 어디에 존재하는지 정확하게 감지할 수 있도록 할 것이다.

아직 RFID 태그나, 무선 센서들 또 이러한 맥락이라면 디지털 카메라까지 (휴대전화 덕택에 지금까지 가장 널리 보급된 센서이다) 는 이야기의 절반에 불과하다. 많은 사물들이 자동 인식되기 위해서 더 이상 전자 태그나 바코드 따위를 필요로 하지 않는다. 예를 들어, 구글에 의해 서비스 되는 고글즈 서비스는 책 표지나, 랜드 마크, 그림들을 인식할 수 있다. 이용자는 단지 사진을 찍어 구글의 컴퓨터로 이를 보내고, 그들은 그 사물에 대한 검색 결과를 보내준다.

이미 실생활에 존재하는 셀 수도 없이 많은 기계와 장치들이 데이터를 생성할 수 있는 디지털 기술들을 가지고 있다. 더 많은 기기들이 서로 연결되고, 그럼으로써 자신들이 보유한 정보를 세상으로 내보내어 통신할 수 있다. 커피 머신부터 냉장고, 비행기의 엔진, 병원의 바디 스캐너까지 그 예는 다양하다. 이들은 현재 집에 전화를 걸거나, 또 말을 하거나, 넘쳐나는 데이터를 제작자에게 제공하는 모든 것을 할 수 있다.

사람의 힘

하지만 가장 중요한 것은 인간, 그 자신이 훌륭한 센서가 될 수 있다는 점이 밝혀진 것이다. 많은 것들이 별도의 노력 없이도 정보를 제공할 수 있다. 단지 휴대전화를 들고 다니기만 하면 된다. 네비게이션 제조 업체인 TomTom은 모바일 네트워크의 연결 정보 데이터를 이용해 교통 정체가 발생했다면 방향 지시를 수정한다. 다른 기업들은 스마트폰에 추가적인 센서를 연결하고 있다. 온라인 광고 에이전시인 Federated Media의 사장 John Battelle와 출판사 O’Reilly Media의 사장 Tim O’Reilly는 이러한 기기나 스마트폰이 점점 인간을 인터넷의 센서 조직으로 만든다고 말한다. 그들의 논문 “Web Squared”는 이렇게 적고 있다. “우리의 카메라, 마이크가 인터넷의 눈과 귀가 되고 있다.”

이러한 “집단센싱”이라 알려져 왔던 것보다 놀라운 것은 많은 사람들의 능동적으로 정보를 수집하고 업로드 하려는 자발성이다. 가장 좋은 예는 1억 6천만 명의 이용자가 하루 1억 개의 트윗을 올리고 있는 마이크로 블로그 서비스 트위터이다. 이용자들이 무엇을 보고, 듣고, 읽으면, 그들은 즉시 컴퓨터나 스마트폰을 이용해 140글자로 작성한다. “트위터는 뉴스 탄광의 카나리아 이다.” 2008년 5월에 일어났던 중국의 쓰촨성 지진에 대한 뉴스에서 트위터가 주류의 미디어를 압도한 이후 뉴 미디어 학자인 Jeff Jarvis는 위와 같이 적었다.

다른 무수한 예가 있다. 위키 스타일의 웹 사이트인 OpenStreetMap에서는 25만 명의 자원자들이 스마트폰의 위치 기능을 이용하여 그들의 행적을 기록하고 있다. 또한 신생기업 SeeClickFix 사용자로 하여금 깨진 가로등이나, 수거될 필요가 있는 쓰레기를 신고할 수 있도록 해주는 스마트폰 앱을 만들었다.

과유불급

이러한 모든 센서들이 엄청난 양의 데이터를 만들어 낼 것이라고 상상하는 것은 그리 어려운 일이 아니다. “모든 가정에서 스마트 미터를 설치한다면 이를 저장하기 위한 디스크 공간을 확보하지 못할 것입니다.” 데이터를 분석하는 소프트웨어인 분석 소프트웨어 분야의 선구자 중의 하나인 SAS의 사장 Jim Goodnight는 말한다. “사실 가장 중요한 것은 무엇을 버릴까 결정하는 것 입니다.”

얼마나 많은 데이터가 생성될지는 다들 짐작만 하고 있다. 시장 조사기관 IDC의 예측에는 약간의 과장이 섞여있을 수 있다. 왜냐하면 그들은 저장 시스템 제조사인 EMC의 지원을 받고 있기 때문이다. 하지만 살펴보는데 의미는 있을 것이다. 그들은 “디지털 월드” – 일년에 디지털 정보가 생성되고 복제되는 양 – 이 35 제타바이트 혹은 35 조 기가바이트까지 증가할 것으로 예측하며 이는 화성까지 거리의 절반 만큼을 DVD로 쌓을 수 있는 양이다. 만약 센서나 다른 데이터 생성 기기들이 예측한대로 보급된다면 이 또한 매우 보수적인 예측이 될 것이다.

다행히, 이런 데이터 홍수를 다루기 위한 도구들도 점점 더 나아지고 있다. 마커와 화이트보드를 IBM의 연구원 Bijan Davari에게 주면 그는 그와 동료들이 예상하는 미래의 컴퓨팅 모습을 그려줄 것이다. 왼쪽에는 모든 종류의 센서를 표현하는 작은 사각형들이 몇 개 위치한다. 그들이 생성하는 데이터들은 그가 오른편의 사각형으로 표현한 “Throughput engine”이라 불리는 것으로 입력된다. 이것은 특화된 반도체들의 집합으로 구성되며 각각은 특정 타입의 센서로부터 수집된 정보를 분석하는데 최적화 되어있다. “입력 스트림들을 개별적으로 다루지 못하는 시스템은 금새 과부하에 걸립니다.” Davari는 말했다.

IBM은 벌써 수 천 개의 “데이터 스트림”을 처리하고 실시간으로 분석할 수 있는 “Stream Computing”이라 부르는 것에 기반한 상품을 소개했다. 온타리오 대학의 신생아 보호 장치는 미성숙아들을 모니터링 함으로써 이러한 시스템을 테스트 중이다. 심박 수, 호흡 등의 생태 의학적 데이터 스트림들을 받아들여 아기의 상태가 나빠지면 의사에게 이를 알린다.

분석 소프트웨어도 함께 발전하고 있다. 이는 “구조화” 되거나 데이터베이스에 정리된 데이터를 철저하게 분석할 때, 또는 신용카드 거래가 사기성은 없는지, 공휴일 근처의 항공편에 대한 수요 예측 등에서 예측 모델을 구축하는데 오랜 기간 이용되어 왔다. 현재는 이러한 프로그램들이 “비구조화”된 데이터(이들 대부분은 형식 없는 텍스트)들을 해석하는데도 이용되고 있다. 올해 초 SAS는 페이스북이나 트위터 같은 소셜 미디어에서의 메시지에 포함된 “감정”을 분석할 수 있는 제품을 내놓았다.

이 소프트웨어는 또한 트위터에서 특정 회사에 가장 영향력 있는 발언을 하는 사람이 누군지를 찾아 내고 이를 통해 그에게 특별한 마케팅 메시지를 보낼 수 있는 기능도 가지고 있다. 사실, 트위터 그 자체가 웹에 게시되는 컨텐츠들의 비중을 끊임없이 정렬하는 한 종류의 집합적 필터이다. 그리고 페이스북 이용자들은 업로드한 사진에 찍힌 친구들의 태그를 달아 페이스북이 다른 사진에서도 그 친구들을 인식할 수 있게 해준다. “컴퓨터를 학습 시킨다는 의미”라고 Messrs Battelle과 O’Reilly는 적고 있다.

하지만 스마트 시스템의 가장 중요한 목표는 McKinsey Global Institute에서 3월에 발간한 인터넷에 관련된 한 보고서에 있는 표현대로 “하나의 궤를 잘 구성하는 것”이다. 이는 데이터에서 얻은 지식을 모든 종류의 프로세스를 최적화하고 자동화 하는데 이용하는 것이다. 가능성 있는 응용 프로그램의 수는 제조업에서부터 자동차 사고의 방지까지 다양하다. 현재까지 가장 유망한 분야는 물리적인 인프라 구축 일 것이다.

[태그:] 데이터

[Economist] History flushed (흘러가버린 역사)

History flushed

디지털 시대는 엄청 양의 도서관을 약속하지만 이들 대부분은 미완으로 남아있다.

[Economist] 센서의 바다 (A sea of sensors)