최초의 검색엔진은 text만을 크롤링(crawling)한 정보를 인덱싱(indexing)하여 저장, 검색할 때 자체의 프로그램에 의해 순위를 정하여 검색결과로 보여 주었다.
다른 형식의 파일은 인식조차 할 수 없으므로 별도의 작업을 해주어야만 했다.
하지만 눈부신 기술의 발전으로 지금은 웹사이트에 있는 거의 모든 파일 형식을 인식하게 되었다.
웹사이트에 존재하는 다양한 파일을 스스로 인식하여 검색결과로 보여준다.
하지만 검색엔진의 첫사랑은 텍스트라는 것을 검색엔진최적화를 생각한다면 잊지 않아야 할 것이다.
아래는 검색엔진 구글이 인식하는 파일형식이다.
- Adobe Portable Document Format (.pdf)
- Adobe PostScript (.ps)
- Atom and RSS feeds (.atom, .rss)
- Autodesk Design Web Format (.dwf)
- Google Earth (.kml, .kmz)
- Lotus 1-2-3 (.wk1, .wk2, .wk3, .wk4, .wk5, .wki, .wks, .wku)
- Lotus WordPro (.lwp)
- MacWrite (.mw)
- Microsoft Excel (.xls)
- Microsoft PowerPoint (.ppt)
- Microsoft Word (.doc)
- Microsoft Works (.wks, .wps, .wdb)
- Microsoft Write (.wri)
- Open Document Format (.odt)
- Rich Text Format (.rtf)
- Shockwave Flash (.swf)
- Text (.ans, .txt)
- Wireless Markup Language (.wml, .wap)