Giới thiệu công ty Khai Trí
Những thực tế và bức xúc của vấn đề xử lý thông tin trong doanh nghiệp hiện nay:
Trong môi trường kinh doanh hiện nay, sự đa chiều của các phương tiện thông tin, hiện tượng bùng nổ các kho thông tin thương mại và dữ liệu chính phủ khiến hiếm có doanh nghiệp nào chiếm được ưu thế cạnh tranh nhờ sở hữu riêng các kho thông tin. Tức là, việc truy cập tới thông tin trong cộng đồng các doanh nghiệp bây giờ là bình đẳng, vấn đề đặt ra là tổ chức nào có năng lực xử lý thông tin tốt hơn thì đạt được vị thế cao hơn. Sự gay gắt trong cạnh tranh đòi hỏi mỗi doanh nghiệp phải rất năng động trong việc tìm kiếm chỗ đứng của mình. Thường thì các thông tin mà doanh nghiệp thu thập được là phân tán và không thuần nhất do các nguồn thông tin không cố định và hình thức truyền tải thông tin đa dạng. Khâu tổ chức thông tin tốn rất nhiều công sức, khó khăn bắt đầu ngay từ việc lựa chọn tin để xử lý trong rất nhiều tin có thể truy nhập. Bởi vậy, tiến trình xử lý thông tin trong doanh nghiệp buộc phải có khả năng chấp nhận tính phân tán, đa dạng của thông tin và tính tự động cao trong quá trình xử lý của mình.
Hệ thống khai thác thông tin:
Hệ thống các module chương trình cho phép thu thập, tổ chức, khai thác và trao đổi thông tin trong nội bộ cũng như thông tin về môi trường bên ngoài: khách hàng, đối thủ cạnh tranh, công nghệ . . . giúp tổ chức có thể đưa ra các quyết định đúng đắn và kịp thời. Trong thời điểm hiện nay, khi nhịp độ kinh doanh đang ngày càng tăng, dữ liệu có ích đòi hỏi xử lý ngày càng nhiều và trở nên quá tải, cạnh tranh diễn ra gay gắt hơn, càng đòi hỏi các tổ chức hơn lúc nào hết cần phải có trong tay những công cụ khai thác thông tin mạnh để biến thông tin thành lợi thế cạnh tranh hoặc ít nhất làm chủ dữ liệu mình đang có.
Có hai khó khăn lớn phải vượt qua khi xây dựng các giải pháp tự động để trợ giúp xử lý thông tin trong doanh nghiệp, đó là phải làm việc và xử lý trên những khối dữ liệu rất lớn và liên tục thay đổi, thứ hai, phải có khả năng hiểu được nội dung truyền đạt trong các tài liệu để sau đó mô phỏng được cách thức phân tích của con người. Công nghệ khai thác thông tin của Khai Trí được xây dựng sau 5 năm nghiên cứu đã vượt qua được những khó khăn trên với thành quả là máy tìm kiếm toàn văn và các kỹ thuật tìm kiếm theo ngữ nghĩa, phân cụm văn bản.
Máy tìm kiếm toàn văn:
Tìm kiếm là một trong những thao tác cơ bản nhất để khai thác dữ liệu. Những nghiên cứu về các bài toán tìm kiếm còn xuất hiện trước cả khi chiếc máy tính điện tử ra đời. Tuy nhiên những giải thuật tìm kiếm cổ điển không còn phù hợp với thực tế trong bối cảnh hiện nay, khi mà lượng dữ liệu cần xử lý là cực lớn. Đặc trưng của bài toán tìm kiếm trên dữ liệu lớn là lưu lượng trao đổi dữ liệu giữa bộ nhớ và thiết bị lưu trữ rất lớn, chi phí thời gian chủ yếu sẽ nằm ở các thao tác này, bởi vậy để có một động cơ tìm kiếm tốt cần thiết kế các cấu trúc trao đổi này kỹ càng. Sau 5 năm nghiên cứu, chúng tôi đã phát triển và xây dựng được một cấu trúc dữ liệu phục vụ tìm kiếm mạnh và chiến lược lưu trữ, truy nhập tối ưu. Kết quả này không chỉ cho phép chúng tôi hoàn thiện được công nghệ tìm kiếm toàn văn mà còn là cơ sở để xây dựng công nghệ tìm kiếm ngữ nghĩa sau đó.
Kỹ thuật tìm kiếm theo ngữ nghĩa:
Tìm kiếm chính xác mặc dù rất hiệu quả nhưng không phải là một công cụ văn năng, trong một số trường hợp tìm kiếm chính xác không thực sự là nhu cầu của người sử dụng. Đơn cử khi người sử dụng biết không đầy đủ hoặc những gì còn nhớ về tài liệu là không chính xác. Mục đích của tìm kiếm ngữ nghĩa là hiểu được yêu cầu tìm kiếm của người sử dụng không phải bằng các con chữ mà là ý nghĩa bao hàm mà người sử dụng muốn truyền tải thông qua các từ ngữ, để sau đó lọc ra những văn bản có nội dung phù hợp với ý nghĩa đó. Như vậy, nếu tìm kiếm toàn văn (còn gọi là tìm kiếm chính xác) độc lập với ngôn ngữ của tài liệu mà nó thực hiện tìm kiếm thì tìm kiếm ngữ nghĩa lại rất phụ thuộc vào ngôn ngữ của tài liệu.
Chúng tôi đã thành công trong việc xây dựng kỹ thuật lượng hoá nội dung tài liệu bằng tiếng Anh và tiếng Việt. Nhờ đó, khái niệm các tài liệu có nội dung giống nhau có thể hoàn toàn thủ tục hoá trên máy tính mà ứng dụng của nó là:
- Tìm kiếm trở nên mềm dẻo và linh hoạt: nhờ khả năng tìm kiếm theo ngữ nghĩa của hệ thống người sử dụng không phải bận tâm vào việc tài liệu cần tìm chứa chính xác những từ gì mà chỉ cần mô tả nội dung của tài liệu. Nhờ vậy, người sử dụng không chỉ cảm thấy dễ dàng hơn trong khai thác mà chất lượng tìm kiếm cũng cao hơn do kết quả đầy đủ hơn.
- Có thể sắp xếp được mức độ phù hợp của tài liệu với nhu cầu tìm kiếm nên người sử dụng tập trung được ngay vào những văn bản quan trọng nhất.
- Trích ra nội dung cô đọng hay các vấn đề được đề cập của tài liệu. Điều này rất có ích trên thực tế, bởi nó cho phép ta tự động hoá được quy trình phân loại thông tin. Khi nhận được những tài liệu mới, hệ thống sẽ tiến hành đối chiếu nội dung của nó với những mục phân loại định nghĩa trước để chọn ra nơi đến thích hợp.
- Tìm kiếm tương tự: hệ thống tự động nhận biết trọng tâm tìm kiếm của bạn thông qua việc bạn chỉ định một văn bản là phù hợp với nhu cầu, trên cơ sở đó đưa ra các văn bản có nội dung tương tự với văn bản chỉ định.
Kỹ thuật phân cụm văn bản
Đi sâu vào bản chất khai thác thông tin, người sử dụng không dừng lại ở nhu cầu tìm kiếm mà quan trọng hơn là phân tích. Phân tích trong khai thác thông tin được hình dung như là quá trình chiết tách, tạo ra thông tin không được biết trước và có thể hiểu được. Điều này cho thấy sự khác biệt rất lớn giữa việc khai thác thông tin hiện đại và các cách tiếp cận truyền thống: phân tích phải lột tả được bản chất bên trong, tạo ra được những hiểu biết mới mà các kỹ thuật báo cáo xưa nay không thể có được.
Theo quan điểm này, chúng tôi đã xây dựng kỹ thuật phân cụm văn bản cho phép liên kết các văn bản theo những chủ đề mà chúng cùng đề cập. Một ứng dụng của kỹ thuật này là khi kết quả tìm kiếm bao gồm hàng ngàn tài liệu, rõ ràng người sử dụng không đủ thời gian và kiên nhẫn đọc toàn bộ lượng tài liệu này để xác định các văn bản cần thiết, phân cụm văn bản sẽ phân nhóm các tài liệu này và tạo ra mô tả nội dung của mỗi nhóm. Như vậy, người sử dụng chỉ cần quan sát tóm tắt nội dung các nhóm và dễ dàng định vị được vùng văn bản mà mình quan tâm.
>>Tìm hiểu thêm: ASDK là gì?
>>Tìm hiểu thêm: AOCR là gì?
>>Tìm hiểu thêm: Cổng thông tin pháp luật Pháp điển Net
>>Follow fanpage: tại đây